カイ2乗検定という言葉を聞くだけで,じんましんが出そうだという人もいることでしょう。
カイ2乗検定は,クロス集計の結果に意味があるのかどうかを調べるために行います。
社会福祉士の国家試験を例に考えてみます。
ある講座を受講して,国家試験を受験した人をA群
そういったものを受講せず,国家試験を受験した人をB群
として,その国家試験の結果を以下のようなクロス集計表にまとめました。
群 |
合格者数 |
不合格者数 |
合計 |
A |
35 (70%) |
15 (30%) |
50 (100%) |
B |
15 (30%) |
35 (70%) |
50 (100%) |
合計 |
50 (50%) |
50 (50%) |
100 (100%) |
これは,実際に得られたデータです。これを「観測値」といいます。
もし,ある講座の効果がないとすれば,以下のようなA群とB群は,同じ数字になるはずです。
合計を半分にして,A群とB群に差のない以下のようなクロス集計表を作ります。
群 |
合格者数 |
不合格者数 |
合計 |
A |
25 (50%) |
25 (50%) |
50 (100%) |
B |
25 (50%) |
25 (50%) |
50 (100%) |
合計 |
50 (50%) |
50 (50%) |
100 (100%) |
A群とB群に差がないこのデータは「期待値」といいます。
カイ2乗検定は,この「規定値」と「観測値」のずれは,意味があるものなのか,誤差範囲なのかを確かめるために行うものです。
もう一度整理します。
<観測値>
群 |
合格者数 |
不合格者数 |
合計 |
A |
35 (70%) |
15 (30%) |
50 (100%) |
B |
15 (30%) |
35 (70%) |
50 (100%) |
合計 |
50 (50%) |
50 (50%) |
100 (100%) |
<期待値>
群 |
合格者数 |
不合格者数 |
合計 |
A |
25 (50%) |
25 (50%) |
50 (100%) |
B |
25 (50%) |
25 (50%) |
50 (100%) |
合計 |
50 (50%) |
50 (50%) |
100 (100%) |
観測値のクロス集計表を見ても差がありそうに見えますが,本当に差があるかどうかは,期待値との差(ずれ)から確かめる必要があるのです。
これがカイ2乗検定です。
何となくわかってきそうでしょうか。
なお,カイ二乗検定で得られた数値をカイ2乗統計量といいます。
ということで,今日の問題です。
第22回・問題80 クロス表による分析に関する次の記述のうち,正しいものを一つ選びなさい。
1 行パーセント,列パーセントの数値は,ある行又は列の中だけで比率を計算したものであり,それらの数値を参照する意義は小さい。
2 カイ2乗統計量の大きさは,分析対象者数に影響されず,2つの変数の関連の強さだけに依存する。
3 カイ2乗統計量は,2つの変数が独立であるとした場合の期待度数からなる表と,実際の観測度数からなる表の間の全体的なズレを表すものである。
4 クロス集計表については,2つの変数の関連を示す係数を計算することはできない。
5 満年齢や年収実額のような間隔尺度や比率尺度のデータに対しては,クロス集計表を利用することはできない。
とても難しい問題です。
この科目の歴代問題の中で,最も難易度が高い問題に位置づけられるかもしれないくらいの難易度です。
この科目が難しいというイメージを植え付けた元凶とも言える問題でしょう。
こんな問題はもう出題されないのでは,と思います。
それでは解説です。
1 行パーセント,列パーセントの数値は,ある行又は列の中だけで比率を計算したものであり,それらの数値を参照する意義は小さい。
行パーセントとは,上記の表で,行(横列)のパーセントで示した数字です。
列パーセントとは,上記の表で,列(縦列)のパーセントで示した数字です。
それらを参照するだけではなく,本当に差があるかかどうかはカイ2乗検定を行わなければなりませんが,参照しても何かの差がありそうだということはわかります。
2 カイ2乗統計量の大きさは,分析対象者数に影響されず,2つの変数の関連の強さだけに依存する。
カイ2乗統計量とは,カイ2乗検定で得られた数値です。
実はカイ2乗検定は,分析対象者数に影響されます。そのため標本数が多い場合の検定には向きません。
3 カイ2乗統計量は,2つの変数が独立であるとした場合の期待度数からなる表と,実際の観測度数からなる表の間の全体的なズレを表すものである。
これが正解です。
カイ2乗検定は,期待値と観測値のずれから検定するものです。その結果として得られる数値がカイ2乗統計量です。
4 クロス集計表については,2つの変数の関連を示す係数を計算することはできない。
クロス集計表のデータは,定性的データなので,定量的データの相関を調べるピアソンの積率相関係数は使えません。
クロス集計表のデータは,分割係数などを用いて相関を調べます。
分割係数の名前は覚える必要はありません。定性的データであっても相関を調べる方法はあるということがわかっていれば十分です。
5 満年齢や年収実額のような間隔尺度や比率尺度のデータに対しては,クロス集計表を利用することはできない。
クロス集計表は,名義尺度や順序尺度で得られたデータを集計するときに利用します。
上記の例は,名義尺度で得られたデータ(合格,不合格)を集計しました。
間隔尺度や比率尺度のように連続した数値のものは,そのままではクロス集計表に記載することができません。
間隔尺度の例には,温度があります。
温度の場合は,データを区切って,0~4℃,5~9℃というようにすれば,クロス集計表に書き入れることができます。
<今日の一言>
今日の問題の内容は難しいですが,正解するのはそれほど難しくはありません。
そのことに気がつくことができる人は,おそらくそれほど苦労することなく,得点できるはずです。
それに気がつかない人は,ハードルがものすごく高く感じることでしょう。
問題をよくよく読んでみると正解となった選択肢以外は,正解には見えないはずです。
これが国家試験の実態だと言えます。
一見すると難しいけれど,実はそれほど難しくはない。しかし,確実に正解するのはかなり難しい。
これが国家試験の現実です。知識+知恵=得点 いろいろ考えをめぐらながら解くことが必要です。