今回は,いよいよ多くの人が苦手にしている統計に関するものを取り上げます。
まずは,相関関係と因果関係の違いを考えます。
相関関係とは,要因(独立変数)と結果(従属変数)の間に何らかの関係があることをいいます。
因果関係とは,要因(独立)によって結果(従属変数)が変わることをいいます。
相関関係が認められるからといって,因果関係が認められるとは限らないことに注意しなければなりません。
量的変数の相関関係を見る指標には,相関係数があります。
相関係数はいくつも種類がありますが,社会福祉士の国家試験で出題されているのは,ピアソンの積率相関係数です。
係数の範囲は,-1~1です。
-1,あるいは1が最も相関が強いことを示します。
国家試験で,ピアソンの積率相関係数が出題される時には「測定単位が変わっても数値は変化しない」ということを絡めて出題されることが多いのです。
実は,これは,ピアソンの積率相関係数の特徴なのです。
相関係数を見るのに,共分散という方法があります。
共分散は,相関の強さは変わらなくても測定単位が変わると数値が変化してしまうというデメリットがあります。
たとえば,メートルで測定した数値で計算するのとセンチメートルで測定した数値で計算するのでは,センチメートルのほうが100倍になってしまうのです。
このデメリットがないのが,ピアソンの積率相関係数です。
それでは,今日の問題です。
第31回・問題88 量的データの集計や分析に関する次の記述のうち,正しいものを1つ選びなさい。
1 中央値とは,データの中で出現率が一番高い値のことである。
2 度数分布表は,一つの変数について,それぞれのカテゴリー(階級)に当てはまる度数をまとめた表である。
3 分散と標準偏差は,どちらも平均値からの散布度を示すが,これら二つの指標には関係はない。
4 クロス集計表により変数間の関係を観察するには,相対度数ではなく,観測度数を表示する。
5 ピアソンの積率相関係数は,二つの変数間の非線形関係を表している。
苦手に思う人には,とてもいやな問題でしょう。
しかし,知識がなくても消去できる可能性がある選択肢が含まれているので,少しラッキーです。
それでは,解説です。
1 中央値とは,データの中で出現率が一番高い値のことである。
中央値は,小さいほうからデータを並べた際,真ん中にあたる値です。
中央値の特徴は,中央値よりも小さい数値と大きい数値は同じであることです。
平均値と中央値は,同じ点に重なることもありますが,平均値は,いわゆるはずれ値に影響を受けるので,中央値とずれることが多いことに注意が必要です。
データの中で出現率が一番高い値は最頻値です。
2 度数分布表は,一つの変数について,それぞれのカテゴリー(階級)に当てはまる度数をまとめた表である。
これが正解です。
度数分布表は,カテゴリー化した数値をまとめたものです。
カテゴリー化とは,
0~9歳,10~19歳
10~19℃,20~29℃
といったように,数値を区切ってまとめることをいいます。
カテゴリー化した数値は,質的変数となります。
3 分散と標準偏差は,どちらも平均値からの散布度を示すが,これら二つの指標には関係はない。
標準偏差は,分散の正の平方根です。つまり関係があります。
4 クロス集計表により変数間の関係を観察するには,相対度数ではなく,観測度数を表示する。
クロス集計表は,実際に得られたデータである観測度数とそれらの割合である相対度数も表示することで,変数間の関係を観察します。
しかし,それだけではよくわかりません。
有意差があるかを調べるには,カイ2乗検定という方法が用いられます。
カイ2乗検定は,期待度数の表と観測度数の表の差を見ることで行います。
期待度数は,ここでは詳しくは紹介しません。
5 ピアソンの積率相関係数は,二つの変数間の非線形関係を表している。
相関がある場合,散布図で表わすと直線的(線形)になります。
相関がない場合,非直線(円形)となります。