分析手法 完全ガイド

カイ二乗検定とは|SPSSでのやり方・例題・残差分析の読み方まで完全ガイド

読了の目安約12分 難易度はじめての方OK 最終更新2026.05.24

みなさん、こんにちは。スマート・アナリティクスの畠です。 カイ二乗検定(χ²検定)は、性別・部活の有無・満足度のランクといった「カテゴリ(質的)データ」を対象に、グループのあいだに関連や偏りがあるかを調べる検定です。アンケートの集計表からよく使われる、なじみ深い手法です。このページでは、カイ二乗検定の種類、観測度数と期待度数という考え方、カイ二乗値と自由度、結果と効果量の読み方、使うための前提条件までを、つまずきやすいところを先回りしながら順番に解説します。

畑 慎一郎
畠 慎一郎 スマート・アナリティクス株式会社 代表取締役 経営学修士を取得後、統計解析ソフトウェアのSPSS社に入社。IBM社のSPSS社買収に伴い日本アイ・ビー・エム株式会社に入社し、SPSS製品をはじめとするデータ分析・ビジネス・アナリティクス製品の製品マーケティング・戦略立案を担当。2015年よりセールスフォース・ドットコムにて現在のEinstein Analytics(旧 Wave Analytics)の日本市場における製品責任者として参画。2019年3月より現職。著書『武器としてのデータ分析力』『SPSS超入門』『文系ビジネスパーソンのためのデータ分析入門』。総務省統計局「社会人のためのデータサイエンス講座」講師、亜細亜大学都市創造学部講師も務める。
このページの要点
  • カイ二乗検定は、カテゴリ(質的)データの「関連」や「偏り」を調べる検定
  • 代表は2つ。独立性の検定(2変数に関連があるか)と適合度検定(理論の比に合うか)
  • 「実際に観測した度数」と「関連がないと仮定したときの期待度数」のズレの大きさを見る
  • 期待度数が小さいセル(5未満)が多いと使えない。そのときはフィッシャーの正確確率検定

カイ二乗検定で何が分かるのか

カイ二乗検定が答えてくれるのは、「カテゴリで分けたグループのあいだに、関連や偏りがあると言えるか」という問いです。たとえば「文系と理系で、統計が好きと答えた割合に差があるか」「アンケートの回答が、年代によってかたよっているか」といった比較に使います。

t検定や分散分析が数値(量的データ)の平均を比べるのに対し、カイ二乗検定は性別・部活の有無・満足度のランクといったカテゴリデータの「件数(度数)」を扱います。集計表(クロス集計表)があれば計算できるので、アンケート分析でとくによく登場します。

ここがポイント
カイ二乗検定が比べるのは「平均」ではなく「件数の分かれ方」です。数値の大小ではなく、カテゴリへの振り分け方にかたよりがあるかを見る検定だと考えてください。

2種類のカイ二乗検定

カイ二乗検定と一口に言っても、目的によって主に2つの種類があります。

種類何を調べるか
独立性の検定2つのカテゴリ変数のあいだに関連があるか文系・理系と統計の好き嫌いに関連があるか
適合度検定観測された分布が、理論的に期待される比に合っているかサイコロの目が均等に出ているか

研究やアンケート分析でよく使うのは独立性の検定です。このページでも、独立性の検定を中心に解説していきます。仕組みは適合度検定もほとんど同じです。

独立性の検定の考え方──観測度数と期待度数

独立性の検定の考え方は、とてもシンプルです。「もし2つの変数にまったく関連がなかったら、各マスの件数はこうなるはず」という期待度数を計算し、それを実際に観測した度数(観測度数)と比べます。

たとえば、文系・理系の学生それぞれに、統計が好きかどうかをたずねて集計したとします。

観測度数統計が好き好きではない合計
文系4060100
理系2080100
合計60140200

期待度数は、「文系か理系か」と「統計が好きかどうか」が無関係だと仮定して、行と列の合計から計算します。

期待度数 = (その行の合計 × その列の合計)÷ 全体の合計

たとえば「文系 × 統計が好き」のマスの期待度数は、100 × 60 ÷ 200 = 30 です。実際の観測度数は40なので、関連がないと仮定したときより10件多い、ということになります。このような観測度数と期待度数のズレが、すべてのマスで小さければ「関連があるとは言えない」、大きければ「関連がありそうだ」と判断します。

カイ二乗値と自由度

観測度数と期待度数のズレを、ひとつの数値にまとめたものがカイ二乗値(χ²)です。

χ² = Σ (観測度数 − 期待度数)² ÷ 期待度数

それぞれのマスで「ズレを二乗して期待度数で割った値」を求め、すべて合計します。ズレが大きいほどカイ二乗値は大きくなり、関連が強いことを示します。

あわせて必要になるのが自由度です。クロス集計表の自由度は、次の式で決まります。

自由度 df = (行数 − 1)×(列数 − 1)

2行2列の表なら df = (2−1)×(2−1) = 1 です。カイ二乗値は、この自由度に応じた基準(カイ二乗分布)と照らして、p値を求めます。

結果の読み方──p値

p値が有意水準(ふつうは0.05)を下回れば、「2つの変数のあいだに、統計的に意味のある関連がある」と判断します。p値が0.05以上なら「関連があるとは言えない」となりますが、これは「関連がないことが証明された」という意味ではない点に注意してください。

気をつけたいこと
カイ二乗検定が教えてくれるのは「関連があるかどうか」だけで、「どのマスが効いているか」までは分かりません。どのセルが偏りを生んでいるかを知りたいときは、調整済み残差(標準化残差)を併せて見ます。

効果量──関連の強さも示す

p値は「関連があるか/ないか」を教えてくれますが、「関連がどれくらい強いか」は教えてくれません。データの数が多いと、ごく弱い関連でも有意になるので、効果量を書き添えるのが、いまの標準的な書き方です。

クロス集計表の効果量としては、クラメールのV がよく使われます。0から1の範囲をとり、1に近いほど関連が強いことを表します。

クラメールのV関連の強さ(目安)
0.1 前後弱い関連
0.3 前後中くらいの関連
0.5 以上強い関連

2行2列の表では、Vの代わりにφ(ファイ)係数が使われることもあります。レポートや論文では、カイ二乗値・自由度・p値とあわせて効果量を示します。

計算してみる──最初から最後まで

ここまで学んできた「期待度数→カイ二乗値→自由度→p値→効果量」を、最初に出てきた「文系・理系 × 統計の好き嫌い」の表で、いっきに通して計算してみます。手順を一度なぞっておくと、ご自身のデータに当てはめるときに迷いません。

ステップ1:期待度数を計算する

行合計・列合計から、すべてのマスの期待度数を求めます(公式:行合計 × 列合計 ÷ 全体合計)。

期待度数統計が好き好きではない合計
文系3070100
理系3070100
合計60140200

ステップ2:カイ二乗値を計算する

4つのマスそれぞれで「(観測 − 期待)² ÷ 期待」を計算し、合計します。

マス観測期待(O−E)²/E
文系 × 統計が好き4030(40−30)²/30 = 3.33
文系 × 好きではない6070(60−70)²/70 = 1.43
理系 × 統計が好き2030(20−30)²/30 = 3.33
理系 × 好きではない8070(80−70)²/70 = 1.43

χ² = 3.33 + 1.43 + 3.33 + 1.43 = 9.52

ステップ3:自由度を求める

df = (2 − 1) × (2 − 1) = 1

ステップ4:p値を判定する

自由度1のとき、χ²値が 3.841 を超えれば p < .05、6.635 を超えれば p < .01 です。今回は χ² = 9.52 で 6.635 を上回るので、p < .01。文系と理系のあいだに、統計の好き嫌いの偏りが強く有意と判断できます。

ステップ5:効果量(クラメールのV)を計算する

V = √( χ² ÷ N ) = √( 9.52 ÷ 200 ) = √0.0476 ≒ 0.22

(2行2列の表では、min(行−1, 列−1) = 1 なので分母は N だけで済みます)

Vが .22 なので、関連の強さは「弱い〜中くらい」のあいだ。p値は強く有意ですが、関連の絶対的な大きさは中程度と読むのが正しい解釈です。サンプルサイズが大きいと、こうしたパターンはよく起こります。

ステップ6:結論を書く

結論文(APA 形式)
文系・理系と統計の好き嫌いには、統計的に有意な関連が認められた(χ²(1, N = 200) = 9.52, p < .01, Cramer's V = .22)。文系のほうが「統計が好き」と答える比率が高い傾向にあった。

ここまで一気に通して計算してみると、カイ二乗検定の全体像がぐっとつかみやすくなります。あとは、ご自身のデータで同じ手順を SPSS にやってもらうだけです。

どのセルが効いているか──残差分析

カイ二乗検定で「関連がある」と分かっても、その結論はあくまで表全体としてのものです。「どのマス(セル)が、その関連を強く生み出しているのか」までは、p値や効果量からは見えてきません。それを知るための便利な道具が、調整済み残差(標準化残差)です。

調整済み残差は、各セルについて「観測度数と期待度数のズレを、そのセルのばらつきで割って標準化したもの」です。私はいつも、こんなふうにイメージしています。

調整済み残差 = (観測度数 − 期待度数) ÷ そのセルのばらつき

ズレの大きさを、セルごとに公平に比べられるように整えた値、と考えると分かりやすいと思います。値の判定は、おおむね次の目安で行います。

調整済み残差の絶対値判定意味
1.96 以上5%水準で有意そのセルは期待より有意に多い/少ない
2.58 以上1%水準で有意より強い偏り
1.96 未満有意とは言えない期待度数とおおきな差はない

たとえばこのページの例(文系・理系 × 統計が好き/好きではない)で、「文系 × 統計が好き」のセルの調整済み残差が +2.5 になったとします。これは、文系で統計を好きと答えた人が、関連がないと仮定したときの期待よりも有意に多いことを意味します。つまり、表全体に出た関連の主な要因が「文系に統計好きが多い」という偏りにあることが、ここで初めて見えてきます。逆に、絶対値が小さい(たとえば 0.4 など)セルは、関連にあまり寄与していないと判断できます。

ここがポイント
カイ二乗値・p値・効果量は「表全体の話」、残差分析は「セル単位の話」を教えてくれます。p値が有意になったら、必ず残差も見ます。SPSSでは、クロス集計の「セル」設定で「調整済み残差」にチェックを入れると、すべてのセルに残差が表示されます。

符号にも意味があります。残差がプラスなら「期待より多い」、マイナスなら「期待より少ない」。論文やレポートで結果を書くときは、どのセルがプラスでどのセルがマイナスかを添えると、読み手に「何が起きたか」が伝わりやすくなります。

調整済み残差の閾値と読み方

SPSSの出力で「調整済み残差」をオンにすると、各セルに ±数値 が表示されます。これは「観測度数が期待度数からどれだけ離れているか」を、推定の不確実性で標準化した値です。標準正規分布に近い性質を持つため、以下の経験則で「どのセルが関連を支えているか」を判定できます。

調整済み残差解釈の目安有意水準
±1.96 以上そのセルが期待度数から有意に離れている(多い/少ない)5%水準
±2.58 以上より強い偏り。論文・報告での根拠として有力1%水準
±3.29 以上非常に強い偏り。多重比較の影響を踏まえても解釈しやすい0.1%水準

たとえば「年代×購入有無」のクロス集計で、20代×購入の調整済み残差が +2.4 であれば、20代では購入の比率が他の年代と比較して有意に高いと読めます。

多重比較への注意(Bonferroni 調整)

調整済み残差を多数のセルで一斉に評価する場合、偶然有意になる確率が膨らみます(多重比較問題)。セルの数が多い場合は、Bonferroni 調整として、判定する有意水準を「α ÷ セル数」に置き換えるのが安全です。たとえば 4×4 のクロス表(16セル)で 5% 水準を保つには、各セルの判定基準を 0.05÷16 ≒ 0.003 として、|残差| が 2.96 以上で有意と判断します。

SPSS では多重比較の自動補正までは行われませんが、出力された調整済み残差を上のしきい値で読み替えれば、過大な解釈を避けることができます。

論文・レポートでの書き方

論文やレポートで結果を書くときは、p値だけでなく、カイ二乗値・自由度・サンプルサイズ・効果量を一緒に示します。心理学・社会科学で広く使われる APA 形式では、こんな並びで書きます。

APA 形式の書き方の例
文系・理系と統計の好き嫌いには、統計的に有意な関連が認められた(χ²(1, N = 200) = 9.52, p < .01, Cramer's V = .22)。

書く順番は、次のとおりです。

  1. 何と何の関連を見たか(独立変数と従属変数)
  2. 関連の有無の結論
  3. 統計値の組(χ²値、自由度、サンプルサイズ N)
  4. p値
  5. 効果量(クラメールのV、または φ係数)

「有意な関連は見られなかった」ときも、同じ形式で書きます。

有意でなかったときの書き方の例
文系・理系と朝食を食べる習慣には、統計的に有意な関連は認められなかった(χ²(1, N = 200) = 1.43, p = .23, Cramer's V = .08)。

有意にならなかったときも、効果量を添えるのがおすすめです。サンプルサイズが小さくて有意にならなかっただけかもしれない、ということを読み手と一緒に確かめられるからです。

日本語の論文での書きぶり:「文系群と理系群で統計に対する好みに偏りが見られるかをカイ二乗検定で検討した結果、両群の間には統計的に有意な関連が認められた(χ²(1) = 9.52, p < .01)。クラメールのVは .22 で、関連の強さは小〜中程度であった。」のように、本文の流れに溶け込ませる書き方もよく使われます。どちらの書き方でも、χ²値・自由度・p値・効果量の4点セットを欠かさないのがコツです。

SPSSでの実際の操作は「使い方」シリーズで
本ガイドは考え方の解説です。SPSS画面でのクロス集計とカイ二乗検定の手順は連載でていねいに紹介しています。
SPSSの使い方シリーズ →

使う前の前提条件

カイ二乗検定にも、満たしておきたい前提があります。

  1. データが件数(度数)であること:割合やパーセントではなく、実際の人数・件数で集計します。
  2. それぞれの観測が独立していること:同じ人を二重に数えていない、対応のないデータであること。
  3. 期待度数が小さすぎないこと:目安として、期待度数が5未満のマスが全体の20%を超えないこと。2行2列の表では、すべてのマスで期待度数5以上が望まれます。
期待度数が小さいときは
期待度数が5未満のマスが多いと、カイ二乗検定の結果は信頼できません。その場合は、フィッシャーの正確確率検定を使います。SPSSは2行2列の表で自動的にフィッシャーの結果も出してくれます。
対応のあるカテゴリデータには──マクニマー検定
同じ人の前と後で「賛成/反対」が変わったか、といったように、同じ対象を2回観測したデータには、カイ二乗検定は使えません。観測の独立という前提が崩れてしまうからです。このときに使うのが、マクニマー検定です。前後で変わった人だけに注目して、変化の方向に偏りがあるかを調べます。SPSSでは「分析」→「ノンパラメトリック検定」→「対応サンプル」から実行できます。

SPSSでの実行

IBM SPSS Statistics では、「分析」→「記述統計」→「クロス集計表」を選び、行と列の変数を指定します。「統計量」でカイ二乗にチェックを入れると、カイ二乗値・自由度・漸近有意確率(p値)が出力されます。「セル」で期待度数や調整済み残差の表示を、「統計量」でクラメールのV・φ係数を追加できます。

出力では、まず期待度数が5未満のマスがいくつあるかの注記を確認し、前提を満たしているかを見ます。2行2列の表ではフィッシャーの正確確率検定の結果も併記されます。SPSSの具体的な画面操作は「SPSSの使い方」第9回(カイ二乗検定とクロス集計表)でくわしく解説しています。

カイ二乗検定と関連の深い分析手法・SPSSでの具体的な実装手順を以下にまとめます。研究設計や論文執筆の参考にあわせてご活用ください。

つまずきやすいポイントと注意点

関連 ≠ 因果
カイ二乗検定で関連が見つかっても、どちらが原因でどちらが結果かは分かりません。相関分析と同じく、関連の有無を示すだけだと考えてください。

パーセントではなく件数で計算します。クロス集計表は割合で見ることが多いですが、カイ二乗検定にかけるのは実際の件数です。

有意でも関連が強いとはかぎりません。データが多いと、ごく弱い関連でも有意になります。p値と効果量(クラメールのV)は必ず両方を確かめます。

対応のあるデータには使えません。同じ人の前後の変化(賛成→反対など)を見たいときは、マクニマー検定を使います。

よくある質問

Qカイ二乗検定とt検定は何が違いますか?
扱うデータが違います。t検定は数値(量的データ)の平均を比べますが、カイ二乗検定はカテゴリ(質的データ)の件数の分かれ方を調べます。「平均の差」を見たいならt検定、「カテゴリへの振り分けの関連」を見たいならカイ二乗検定です。
Q期待度数が5未満のマスがあると使えませんか?
期待度数5未満のマスが多いと結果が信頼できません。目安は「5未満のマスが全体の20%以下」です。それを超える場合や2行2列の表では、フィッシャーの正確確率検定を使います。
Qカイ二乗検定で因果関係は分かりますか?
分かりません。カイ二乗検定が示すのは「関連があるかどうか」だけで、原因と結果の向きは示しません。因果を主張するには、追加の検討が必要です。
Qどのマスが関連に効いているかを知るには?
調整済み残差(標準化残差)を見ます。絶対値がおおむね2を超えるマスは、期待度数からのズレが大きく、関連を生んでいるセルと読めます。
Q独立性の検定と適合度検定はどう違いますか?
独立性の検定は2つのカテゴリ変数に関連があるかを調べます。適合度検定は、観測された1つの分布が理論的な比(例:均等)に合っているかを調べます。仕組みはどちらも観測度数と期待度数のズレを見る点で共通です。
Q効果量はなぜ必要ですか?
p値は関連の有無しか教えてくれず、データが多いと弱い関連でも有意になります。クラメールのVなどの効果量を添えると、関連の「強さ」まで示せます。
Qχ²値がマイナスになることはありますか?
ありません。χ²値は「ズレの二乗 ÷ 期待度数」をすべてのマスで合計したものなので、必ず0以上の値になります。0に近いほど期待度数とほぼ同じ、大きいほどズレが大きい、という意味です。もしマイナスが出てきたら、計算のどこかを間違えているサインです。
Q3つ以上のカテゴリ(例:文系・理系・芸術系)でも使えますか?
使えます。カイ二乗検定は、行や列が3つ以上ある表でも問題なく使えます。自由度は(行数 − 1)×(列数 − 1)で計算するので、3行2列なら df = 2、3行3列なら df = 4 になります。ただし、行や列が増えるほど期待度数が小さなセルが出やすくなるので、前提条件はより気をつけて見てください。
Qクラスカル・ウォリス検定とはどう違いますか?
扱うデータが違います。カイ二乗検定はカテゴリデータの件数を扱い、クラスカル・ウォリス検定は順位データやノンパラメトリックな状況で3群以上の中央値を比べます。「とても良い〜悪い」のような順序の評価を3群で比べたいときは、順位を活かせるクラスカル・ウォリスが向いています。
わからないところは、いっしょに。
「自分のデータでどう使えばいい?」「卒論のこの部分が不安」——どんな小さなことでも、SPSS歴20年以上の畠がやさしくお手伝いします。
30分の無料オンライン相談
「自分のデータでどう使えばいい?」を畠に気軽にご相談ください