カイ二乗検定とは|SPSSでのやり方・例題・残差分析の読み方まで完全ガイド
みなさん、こんにちは。スマート・アナリティクスの畠です。 カイ二乗検定(χ²検定)は、性別・部活の有無・満足度のランクといった「カテゴリ(質的)データ」を対象に、グループのあいだに関連や偏りがあるかを調べる検定です。アンケートの集計表からよく使われる、なじみ深い手法です。このページでは、カイ二乗検定の種類、観測度数と期待度数という考え方、カイ二乗値と自由度、結果と効果量の読み方、使うための前提条件までを、つまずきやすいところを先回りしながら順番に解説します。
- カイ二乗検定は、カテゴリ(質的)データの「関連」や「偏り」を調べる検定
- 代表は2つ。独立性の検定(2変数に関連があるか)と適合度検定(理論の比に合うか)
- 「実際に観測した度数」と「関連がないと仮定したときの期待度数」のズレの大きさを見る
- 期待度数が小さいセル(5未満)が多いと使えない。そのときはフィッシャーの正確確率検定
カイ二乗検定で何が分かるのか
カイ二乗検定が答えてくれるのは、「カテゴリで分けたグループのあいだに、関連や偏りがあると言えるか」という問いです。たとえば「文系と理系で、統計が好きと答えた割合に差があるか」「アンケートの回答が、年代によってかたよっているか」といった比較に使います。
t検定や分散分析が数値(量的データ)の平均を比べるのに対し、カイ二乗検定は性別・部活の有無・満足度のランクといったカテゴリデータの「件数(度数)」を扱います。集計表(クロス集計表)があれば計算できるので、アンケート分析でとくによく登場します。
カイ二乗検定が比べるのは「平均」ではなく「件数の分かれ方」です。数値の大小ではなく、カテゴリへの振り分け方にかたよりがあるかを見る検定だと考えてください。
2種類のカイ二乗検定
カイ二乗検定と一口に言っても、目的によって主に2つの種類があります。
| 種類 | 何を調べるか | 例 |
|---|---|---|
| 独立性の検定 | 2つのカテゴリ変数のあいだに関連があるか | 文系・理系と統計の好き嫌いに関連があるか |
| 適合度検定 | 観測された分布が、理論的に期待される比に合っているか | サイコロの目が均等に出ているか |
研究やアンケート分析でよく使うのは独立性の検定です。このページでも、独立性の検定を中心に解説していきます。仕組みは適合度検定もほとんど同じです。
独立性の検定の考え方──観測度数と期待度数
独立性の検定の考え方は、とてもシンプルです。「もし2つの変数にまったく関連がなかったら、各マスの件数はこうなるはず」という期待度数を計算し、それを実際に観測した度数(観測度数)と比べます。
たとえば、文系・理系の学生それぞれに、統計が好きかどうかをたずねて集計したとします。
| 観測度数 | 統計が好き | 好きではない | 合計 |
|---|---|---|---|
| 文系 | 40 | 60 | 100 |
| 理系 | 20 | 80 | 100 |
| 合計 | 60 | 140 | 200 |
期待度数は、「文系か理系か」と「統計が好きかどうか」が無関係だと仮定して、行と列の合計から計算します。
たとえば「文系 × 統計が好き」のマスの期待度数は、100 × 60 ÷ 200 = 30 です。実際の観測度数は40なので、関連がないと仮定したときより10件多い、ということになります。このような観測度数と期待度数のズレが、すべてのマスで小さければ「関連があるとは言えない」、大きければ「関連がありそうだ」と判断します。
カイ二乗値と自由度
観測度数と期待度数のズレを、ひとつの数値にまとめたものがカイ二乗値(χ²)です。
それぞれのマスで「ズレを二乗して期待度数で割った値」を求め、すべて合計します。ズレが大きいほどカイ二乗値は大きくなり、関連が強いことを示します。
あわせて必要になるのが自由度です。クロス集計表の自由度は、次の式で決まります。
2行2列の表なら df = (2−1)×(2−1) = 1 です。カイ二乗値は、この自由度に応じた基準(カイ二乗分布)と照らして、p値を求めます。
結果の読み方──p値
p値が有意水準(ふつうは0.05)を下回れば、「2つの変数のあいだに、統計的に意味のある関連がある」と判断します。p値が0.05以上なら「関連があるとは言えない」となりますが、これは「関連がないことが証明された」という意味ではない点に注意してください。
カイ二乗検定が教えてくれるのは「関連があるかどうか」だけで、「どのマスが効いているか」までは分かりません。どのセルが偏りを生んでいるかを知りたいときは、調整済み残差(標準化残差)を併せて見ます。
効果量──関連の強さも示す
p値は「関連があるか/ないか」を教えてくれますが、「関連がどれくらい強いか」は教えてくれません。データの数が多いと、ごく弱い関連でも有意になるので、効果量を書き添えるのが、いまの標準的な書き方です。
クロス集計表の効果量としては、クラメールのV がよく使われます。0から1の範囲をとり、1に近いほど関連が強いことを表します。
| クラメールのV | 関連の強さ(目安) |
|---|---|
| 0.1 前後 | 弱い関連 |
| 0.3 前後 | 中くらいの関連 |
| 0.5 以上 | 強い関連 |
2行2列の表では、Vの代わりにφ(ファイ)係数が使われることもあります。レポートや論文では、カイ二乗値・自由度・p値とあわせて効果量を示します。
計算してみる──最初から最後まで
ここまで学んできた「期待度数→カイ二乗値→自由度→p値→効果量」を、最初に出てきた「文系・理系 × 統計の好き嫌い」の表で、いっきに通して計算してみます。手順を一度なぞっておくと、ご自身のデータに当てはめるときに迷いません。
ステップ1:期待度数を計算する
行合計・列合計から、すべてのマスの期待度数を求めます(公式:行合計 × 列合計 ÷ 全体合計)。
| 期待度数 | 統計が好き | 好きではない | 合計 |
|---|---|---|---|
| 文系 | 30 | 70 | 100 |
| 理系 | 30 | 70 | 100 |
| 合計 | 60 | 140 | 200 |
ステップ2:カイ二乗値を計算する
4つのマスそれぞれで「(観測 − 期待)² ÷ 期待」を計算し、合計します。
| マス | 観測 | 期待 | (O−E)²/E |
|---|---|---|---|
| 文系 × 統計が好き | 40 | 30 | (40−30)²/30 = 3.33 |
| 文系 × 好きではない | 60 | 70 | (60−70)²/70 = 1.43 |
| 理系 × 統計が好き | 20 | 30 | (20−30)²/30 = 3.33 |
| 理系 × 好きではない | 80 | 70 | (80−70)²/70 = 1.43 |
χ² = 3.33 + 1.43 + 3.33 + 1.43 = 9.52
ステップ3:自由度を求める
df = (2 − 1) × (2 − 1) = 1
ステップ4:p値を判定する
自由度1のとき、χ²値が 3.841 を超えれば p < .05、6.635 を超えれば p < .01 です。今回は χ² = 9.52 で 6.635 を上回るので、p < .01。文系と理系のあいだに、統計の好き嫌いの偏りが強く有意と判断できます。
ステップ5:効果量(クラメールのV)を計算する
V = √( χ² ÷ N ) = √( 9.52 ÷ 200 ) = √0.0476 ≒ 0.22
(2行2列の表では、min(行−1, 列−1) = 1 なので分母は N だけで済みます)
Vが .22 なので、関連の強さは「弱い〜中くらい」のあいだ。p値は強く有意ですが、関連の絶対的な大きさは中程度と読むのが正しい解釈です。サンプルサイズが大きいと、こうしたパターンはよく起こります。
ステップ6:結論を書く
文系・理系と統計の好き嫌いには、統計的に有意な関連が認められた(χ²(1, N = 200) = 9.52, p < .01, Cramer's V = .22)。文系のほうが「統計が好き」と答える比率が高い傾向にあった。
ここまで一気に通して計算してみると、カイ二乗検定の全体像がぐっとつかみやすくなります。あとは、ご自身のデータで同じ手順を SPSS にやってもらうだけです。
どのセルが効いているか──残差分析
カイ二乗検定で「関連がある」と分かっても、その結論はあくまで表全体としてのものです。「どのマス(セル)が、その関連を強く生み出しているのか」までは、p値や効果量からは見えてきません。それを知るための便利な道具が、調整済み残差(標準化残差)です。
調整済み残差は、各セルについて「観測度数と期待度数のズレを、そのセルのばらつきで割って標準化したもの」です。私はいつも、こんなふうにイメージしています。
調整済み残差 = (観測度数 − 期待度数) ÷ そのセルのばらつき
ズレの大きさを、セルごとに公平に比べられるように整えた値、と考えると分かりやすいと思います。値の判定は、おおむね次の目安で行います。
| 調整済み残差の絶対値 | 判定 | 意味 |
|---|---|---|
| 1.96 以上 | 5%水準で有意 | そのセルは期待より有意に多い/少ない |
| 2.58 以上 | 1%水準で有意 | より強い偏り |
| 1.96 未満 | 有意とは言えない | 期待度数とおおきな差はない |
たとえばこのページの例(文系・理系 × 統計が好き/好きではない)で、「文系 × 統計が好き」のセルの調整済み残差が +2.5 になったとします。これは、文系で統計を好きと答えた人が、関連がないと仮定したときの期待よりも有意に多いことを意味します。つまり、表全体に出た関連の主な要因が「文系に統計好きが多い」という偏りにあることが、ここで初めて見えてきます。逆に、絶対値が小さい(たとえば 0.4 など)セルは、関連にあまり寄与していないと判断できます。
カイ二乗値・p値・効果量は「表全体の話」、残差分析は「セル単位の話」を教えてくれます。p値が有意になったら、必ず残差も見ます。SPSSでは、クロス集計の「セル」設定で「調整済み残差」にチェックを入れると、すべてのセルに残差が表示されます。
符号にも意味があります。残差がプラスなら「期待より多い」、マイナスなら「期待より少ない」。論文やレポートで結果を書くときは、どのセルがプラスでどのセルがマイナスかを添えると、読み手に「何が起きたか」が伝わりやすくなります。
調整済み残差の閾値と読み方
SPSSの出力で「調整済み残差」をオンにすると、各セルに ±数値 が表示されます。これは「観測度数が期待度数からどれだけ離れているか」を、推定の不確実性で標準化した値です。標準正規分布に近い性質を持つため、以下の経験則で「どのセルが関連を支えているか」を判定できます。
| 調整済み残差 | 解釈の目安 | 有意水準 |
|---|---|---|
| ±1.96 以上 | そのセルが期待度数から有意に離れている(多い/少ない) | 5%水準 |
| ±2.58 以上 | より強い偏り。論文・報告での根拠として有力 | 1%水準 |
| ±3.29 以上 | 非常に強い偏り。多重比較の影響を踏まえても解釈しやすい | 0.1%水準 |
たとえば「年代×購入有無」のクロス集計で、20代×購入の調整済み残差が +2.4 であれば、20代では購入の比率が他の年代と比較して有意に高いと読めます。
多重比較への注意(Bonferroni 調整)
調整済み残差を多数のセルで一斉に評価する場合、偶然有意になる確率が膨らみます(多重比較問題)。セルの数が多い場合は、Bonferroni 調整として、判定する有意水準を「α ÷ セル数」に置き換えるのが安全です。たとえば 4×4 のクロス表(16セル)で 5% 水準を保つには、各セルの判定基準を 0.05÷16 ≒ 0.003 として、|残差| が 2.96 以上で有意と判断します。
SPSS では多重比較の自動補正までは行われませんが、出力された調整済み残差を上のしきい値で読み替えれば、過大な解釈を避けることができます。
論文・レポートでの書き方
論文やレポートで結果を書くときは、p値だけでなく、カイ二乗値・自由度・サンプルサイズ・効果量を一緒に示します。心理学・社会科学で広く使われる APA 形式では、こんな並びで書きます。
文系・理系と統計の好き嫌いには、統計的に有意な関連が認められた(χ²(1, N = 200) = 9.52, p < .01, Cramer's V = .22)。
書く順番は、次のとおりです。
- 何と何の関連を見たか(独立変数と従属変数)
- 関連の有無の結論
- 統計値の組(χ²値、自由度、サンプルサイズ N)
- p値
- 効果量(クラメールのV、または φ係数)
「有意な関連は見られなかった」ときも、同じ形式で書きます。
文系・理系と朝食を食べる習慣には、統計的に有意な関連は認められなかった(χ²(1, N = 200) = 1.43, p = .23, Cramer's V = .08)。
有意にならなかったときも、効果量を添えるのがおすすめです。サンプルサイズが小さくて有意にならなかっただけかもしれない、ということを読み手と一緒に確かめられるからです。
日本語の論文での書きぶり:「文系群と理系群で統計に対する好みに偏りが見られるかをカイ二乗検定で検討した結果、両群の間には統計的に有意な関連が認められた(χ²(1) = 9.52, p < .01)。クラメールのVは .22 で、関連の強さは小〜中程度であった。」のように、本文の流れに溶け込ませる書き方もよく使われます。どちらの書き方でも、χ²値・自由度・p値・効果量の4点セットを欠かさないのがコツです。
使う前の前提条件
カイ二乗検定にも、満たしておきたい前提があります。
- データが件数(度数)であること:割合やパーセントではなく、実際の人数・件数で集計します。
- それぞれの観測が独立していること:同じ人を二重に数えていない、対応のないデータであること。
- 期待度数が小さすぎないこと:目安として、期待度数が5未満のマスが全体の20%を超えないこと。2行2列の表では、すべてのマスで期待度数5以上が望まれます。
期待度数が5未満のマスが多いと、カイ二乗検定の結果は信頼できません。その場合は、フィッシャーの正確確率検定を使います。SPSSは2行2列の表で自動的にフィッシャーの結果も出してくれます。
同じ人の前と後で「賛成/反対」が変わったか、といったように、同じ対象を2回観測したデータには、カイ二乗検定は使えません。観測の独立という前提が崩れてしまうからです。このときに使うのが、マクニマー検定です。前後で変わった人だけに注目して、変化の方向に偏りがあるかを調べます。SPSSでは「分析」→「ノンパラメトリック検定」→「対応サンプル」から実行できます。
SPSSでの実行
IBM SPSS Statistics では、「分析」→「記述統計」→「クロス集計表」を選び、行と列の変数を指定します。「統計量」でカイ二乗にチェックを入れると、カイ二乗値・自由度・漸近有意確率(p値)が出力されます。「セル」で期待度数や調整済み残差の表示を、「統計量」でクラメールのV・φ係数を追加できます。
出力では、まず期待度数が5未満のマスがいくつあるかの注記を確認し、前提を満たしているかを見ます。2行2列の表ではフィッシャーの正確確率検定の結果も併記されます。SPSSの具体的な画面操作は「SPSSの使い方」第9回(カイ二乗検定とクロス集計表)でくわしく解説しています。
関連分析手法・SPSS実装ガイド
カイ二乗検定と関連の深い分析手法・SPSSでの具体的な実装手順を以下にまとめます。研究設計や論文執筆の参考にあわせてご活用ください。
つまずきやすいポイントと注意点
カイ二乗検定で関連が見つかっても、どちらが原因でどちらが結果かは分かりません。相関分析と同じく、関連の有無を示すだけだと考えてください。
パーセントではなく件数で計算します。クロス集計表は割合で見ることが多いですが、カイ二乗検定にかけるのは実際の件数です。
有意でも関連が強いとはかぎりません。データが多いと、ごく弱い関連でも有意になります。p値と効果量(クラメールのV)は必ず両方を確かめます。
対応のあるデータには使えません。同じ人の前後の変化(賛成→反対など)を見たいときは、マクニマー検定を使います。

