分散分析(ANOVA)とは?3群以上の差・F値・効果量からSPSSでのやり方までやさしく解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 「3つ以上のグループの平均を比べたいとき、t検定を何回も行えばよいのでしょうか?」——統計を学び始めた方から、よくいただく質問です。たとえば、A組・B組・C組のテスト点数に差があるかを調べたいとき、A組とB組、B組とC組、A組とC組をそれぞれt検定で比べればよさそうに見えますよね。しかし、このやり方には注意が必要です。比較を何度も繰り返すと、本当は差がないのに「差がある」と判断してしまう可能性が高くなってしまうからです。そこで使うのが、分散分析(ANOVA:Analysis of Varianceの略)です。分散分析は、3群以上の平均に差があるかを一度に検定するための代表的な方法です。このページでは、一元配置分散分析を中心に、ANOVAの考え方、F値、自由度、前提条件、多重比較、効果量、そしてSPSSでの実行の流れまで、初学者の方にもわかりやすく順番に解説します。
- 分散分析(ANOVA)は、3群以上の平均に差があるかを一度に調べる検定。t検定の繰り返しは第一種の過誤が増えるためNG
- F値は「群間のばらつき」が「群内のばらつき」に比べてどれくらい大きいかを表す
- ANOVAで有意になっても「どの群とどの群に差があるか」はわからない。多重比較(Tukey HSDなど)で確認する
- 前提条件として、独立性・正規性・等分散性を確認する。等分散性が崩れたらWelchの分散分析やGames-Howellを検討
- p値だけでなく効果量η²(.01小/.06中/.14大が目安)も併せて報告する
- SPSSでは「分析」→「平均と比率の比較」→「一元配置分散分析」から実行できる
分散分析(ANOVA)とは何か
分散分析(ANOVA)とは、3つ以上のグループの平均に差があるかを検定する統計手法です。たとえば、次のような場面を考えてみましょう。
- 3つのクラスで数学テストの平均点に差があるか
- 3種類の勉強法でテスト結果に違いが出るか
- 4つの部活動で1週間の練習時間の平均に差があるか
- 3つの実験条件で反応時間の平均に差があるか
このように、「1つの量的な結果」を「3群以上のグループ」で比べたいときに、一元配置分散分析がよく使われます。
「一元配置」とは、グループ分けの要因が1つである、という意味です。たとえば、勉強法A・勉強法B・勉強法Cを比べる場合、要因は「勉強法」1つです。このような場合が一元配置分散分析にあたります。
一方で、勉強法に加えて「性別」や「学年」も同時に考えたい場合は、二元配置分散分析や多元配置分散分析の考え方になります。この記事では、まず基本となる一元配置分散分析にしぼって説明します。
これは図にしてみるとわかりやすいです。横軸に比較したいグループを3つ以上、縦軸に比較するための項目(たとえばテストの点数など)を置いたとき、折れ線が1本で済むのが一元配置です。同じテスト点数の比較でも、性別による違いも同時に見たいとなると線は2本必要になりますよね。それが二元配置分散分析です。
さて、分散分析という名前を見ると、「平均を比べるのに、なぜ分散なのですか?」と思うかもしれません。これはとても自然な疑問です。
分散分析では、平均の差を直接見るというよりも、データ全体のばらつきを分解して考えます。具体的には、「グループ間のばらつき」と「グループ内のばらつき」を比較します。
もしグループごとの平均が大きく離れていれば、グループ間のばらつきは大きくなります。一方、同じグループの中で個人差が大きければ、グループ内のばらつきも大きくなります。
分散分析は、この2種類のばらつきを比べることで、「平均の差が偶然のばらつきだけで説明できる範囲か、それとも統計的に意味のある差と考えられるか」を判断する方法です。
分散分析が調べたいのは「平均の差」ですが、その判断材料に使うのは「ばらつき(分散)」です。名前は「分散」分析でも、目的は平均の比較——この種明かしを覚えておくと、この後の説明がぐっとわかりやすくなります。
なぜt検定を繰り返してはいけないのか
3群以上の平均を比べるとき、つい考えたくなるのが「t検定を何回も行う」という方法です。たとえば、A組・B組・C組の平均点を比べるなら、次の3回のt検定を行えばよさそうに見えます。
- A組とB組
- A組とC組
- B組とC組
しかし、この方法には大きな問題があります。それが「第一種の過誤」の増大です。第一種の過誤とは、本当は差がないのに、差があると判断してしまう誤りのことです。統計では、有意水準を5%に設定することがよくあります。これは、ざっくり言えば「本当は差がないのに差があると判断してしまう確率を5%程度まで許容する」という考え方です。
ところが、t検定を何度も繰り返すと、この5%の誤りの可能性が積み重なります。1回だけなら5%でも、3回、6回、10回と比較を増やしていくと、どこかで偶然に有意差が出てしまう可能性が高くなるのです。
たとえば4群をすべて組み合わせて比較すると、比較回数は6回になります。5群なら10回です。群の数が増えるほど、比較回数はどんどん増えていきます。
これでは、本当はどの群にも差がないのに、「この組み合わせだけ有意差が出た」と判断してしまう危険があります。
分散分析は、この問題を避けるために、まず全体として「少なくともどこかに平均の差があるか」を検定します。いきなりすべての組み合わせを比べるのではなく、全体の差を確認するところから始めるのです。
有意水準5%の検定を独立に3回繰り返すと、少なくとも1回は偶然に「差がある」と出てしまう確率は 1−0.95³ ≒ 約14%まで上がります。6回なら約26%。「5%まで」と決めたはずの誤りの許容量を、知らないうちに大きく超えてしまうのです。
この考え方は、論文やレポートでもとても大切です。3群以上の平均を比べるときには、まず一元配置分散分析(ANOVA)で全体の差を確認し、そのうえで必要に応じて事後に多重比較を行う、という流れを押さえておきましょう。
一元配置分散分析の考え方:群間変動・群内変動・全変動
分散分析を理解するうえで重要なのが、変動の分解です。分散分析では、データ全体のばらつきを次のように分けて考えます。
- 全変動
- 群間変動
- 群内変動
全変動とは、データ全体が全体平均からどれくらいばらついているかを表すものです。たとえば、3種類の勉強法を試した学生のテスト点数があるとします。全員の点数をまとめて見たとき、点数が全体平均からどれくらい離れているかが全変動です。
群間変動とは、各グループの平均が全体平均からどれくらい離れているかを表します。勉強法A、B、Cの平均点が大きく違っていれば、群間変動は大きくなります。
最後に群内変動とは、同じグループ内のデータが、そのグループの平均からどれくらいばらついているかを表します。たとえば、同じ勉強法Aを使った学生の中でも、点数が高い人も低い人もいます。このグループ内の個人差が群内変動です。
分散分析では、全変動を次のように考えます。
この分解が、ANOVAの中心的な考え方です。
もし群間変動が群内変動に比べて大きければ、グループの違いによって平均の差が生じている可能性があります。反対に、群間変動が小さく、群内変動が大きい場合は、グループの違いというよりも、個人差や偶然のばらつきで説明できるかもしれません。
ここで大切なのは、平均の差だけを見ないことです。
たとえば、A組の平均が70点、B組の平均が75点、C組の平均が80点だったとします。一見すると差がありそうですよね。しかし、各組の中で点数のばらつきが非常に大きければ、この平均差は偶然の範囲かもしれません。
反対に、平均差がそれほど大きく見えなくても、各群内のばらつきが小さければ、統計的には意味のある差と判断されることもあります。
分散分析は、「平均の差」と「データのばらつき」を同時に考える方法です。平均値の表だけを眺めて「差がありそう」と判断せず、ばらつきとセットで見る——この視点が身につくと、見通しがかなりよくなります。
F値とは何を表しているのか
分散分析の結果で必ず登場するのが、F値(F比)です。F値とは、簡単に言えば「群間のばらつきが、群内のばらつきに比べてどれくらい大きいか」を表す値です。
もう少し統計的に言うと、F値は次のように計算されます。
ここで、平均平方という言葉が出てきます。平均平方とは、変動を自由度で割った値です。分散のようなものだと考えると、初学者の方にはわかりやすいと思います。
群間平均平方は、グループの平均同士がどれくらい離れているかを表します。群内平均平方は、同じグループ内でデータがどれくらいばらついているかを表します。
つまり、F値が大きいほど、「グループ間の違いが、グループ内の個人差に比べて大きい」と判断されやすくなります。
たとえば、3種類の勉強法を比較したとします。
勉強法Aの平均点が65点、勉強法Bが66点、勉強法Cが67点で、各グループ内のばらつきも大きい場合、F値は小さくなりやすいです。この場合、勉強法による差というよりも、個人差の範囲かもしれません。
一方、勉強法Aが60点、Bが75点、Cが90点で、各グループ内のばらつきが小さい場合、F値は大きくなりやすいです。この場合、勉強法の違いがテスト点数に関係している可能性が高くなります。
ただし、F値が大きいか小さいかだけで判断するわけではありません。実際には、自由度に基づくF分布を使って、p値を計算します。そして、p値が有意水準より小さいかどうかで、有意差の有無を判断します。
多くの場合、有意水準を5%に設定します。p値が .05 未満であれば、「少なくともどこかの群の平均に統計的に有意な差がある」と判断します。分散分析表は、たとえば次のような形で出力されます。
| 変動要因 | 平方和 | 自由度 | 平均平方 | F値 | 有意確率 |
|---|---|---|---|---|---|
| 群間(グループ間) | 120.6 | 2 | 60.3 | 5.43 | .010 |
| 群内(グループ内) | 299.7 | 27 | 11.1 | ||
| 全体 | 420.3 | 29 |
ANOVAが有意になっても、「どの群とどの群に差があるか」までは分かりません。ANOVAで分かるのは、あくまで全体として差があるかどうか。個別の差を確認するには、このあと説明する多重比較が必要になります。
自由度の計算をやさしく確認する
分散分析の表を見ると、自由度という項目が出てきます。自由度は少しとっつきにくい言葉ですが、ANOVAの結果を読むうえでは避けて通れません。
一元配置分散分析では、主に次の3つの自由度を確認します。計算式は次の通りです。
群内の自由度 = 全データ数 − 群の数
全体の自由度 = 全データ数 − 1
たとえば、3つの勉強法を比較し、それぞれ10人ずつ、合計30人のデータがあるとします。この場合、群の数は3、全データ数は30です。
- 群間の自由度:3 − 1 = 2
- 群内の自由度:30 − 3 = 27
- 全体の自由度:30 − 1 = 29
SPSSの分散分析表では、このような自由度が表示されます。
自由度は、F値やp値の計算に関わります。レポートや論文で分散分析の結果を書くときには、F値と一緒に自由度を記載するのが一般的です。たとえば、次のように書きます。
この場合、2が群間の自由度、27が群内の自由度です。F値が5.43で、p値が.010という意味です。
初学者のうちは、自由度の理論をすべて完璧に理解しようとしなくても大丈夫です。まずは、「群の数とデータ数から決まる、検定結果を報告するために必要な情報」として押さえておきましょう。
分散分析の前提条件:正規性・等分散性・独立性
さて、分散分析を使うときには、いくつかの前提条件があります。代表的なのは次の3つです。
- 独立性
- 正規性
- 等分散性
まず、独立性とは、各データが互いに独立していることです。たとえば、A組、B組、C組の学生がそれぞれ1回ずつテストを受け、その点数を比較する場合、基本的には独立したデータと考えられます。一方、同じ学生が3種類の条件をすべて経験している場合は、対応のあるデータになります。その場合は、一元配置分散分析ではなく、反復測定分散分析を検討します。
次に、正規性です。正規性とは、各群のデータが正規分布に近い形をしていることを意味します。テスト点数や測定値などでは、データ数がある程度あれば大きな問題にならないこともありますが、極端に偏った分布や外れ値がある場合には注意が必要です。
正規性を確認する方法としては、ヒストグラム、Q-Qプロット、シャピロ・ウィルク検定などがあります。ただし、検定だけに頼るのではなく、グラフで分布を見ることも大切です。分布の形については正規分布のガイドでくわしく解説しています。
最後に、等分散性です。等分散性とは、各群の分散がだいたい等しいことを意味します。つまり、A組、B組、C組で点数のばらつき具合が大きく違いすぎないかを確認します。
SPSSでは、Leveneの等分散性検定を使って確認できます。Levene検定が有意でなければ、等分散性の前提に大きな問題はないと判断することが多いです。一方、Levene検定が有意になった場合は、各群の分散が等しくない可能性があります。
等分散性が満たされない場合には、通常のANOVAの結果をそのまま読むのではなく、Welchの分散分析やGames-Howellの多重比較などを検討します。
ここで心配になる方もいるかもしれません。「前提条件を満たしていないと、分散分析はまったく使えないのですか?」と。
心配いりません。実際のデータでは、前提条件が完全にきれいに満たされることばかりではありません。大切なのは、前提条件を確認し、必要に応じて代替手法や補助的な解釈を使うことです。たとえば、正規性や等分散性に強い懸念がある場合には、ノンパラメトリックな代替手法であるクラスカル・ウォリス検定を検討することがあります。
多重比較(事後検定)とは:どの群に差があるかを確認する
ANOVAで有意差が出たとき、次に確認するのが事後検定(多重比較)です。
ANOVAの結果が有意だったとしても、それだけでは「どの群とどの群に差があるのか」は分かりません。たとえば、A組・B組・C組のテスト点数を比較して、ANOVAが有意だったとします。このとき分かるのは、「3つの群の平均がすべて同じとは言えない」ということです。
しかし、具体的には次のどれなのかは分かりません。
- A組とB組に差があるのか
- A組とC組に差があるのか
- B組とC組に差があるのか
- すべての組み合わせに差があるのか
これを確認するために、事後検定を行います。代表的な事後検定には、次のようなものがあります。
Tukey HSD
Tukey HSDは、群の人数が同じか近い場合によく使われる代表的な事後検定です。すべての群の組み合わせを比較しながら、多重比較による誤りを調整します。3群以上の平均比較で、等分散性が大きく崩れていない場合には、まず候補にしやすい方法です。
Bonferroni
Bonferroniは、比較回数に応じて有意水準を調整する方法です。考え方が比較的わかりやすく、さまざまな場面で使われます。ただし、比較回数が多くなると、やや保守的になりやすい、つまり有意差が出にくくなることがあります。
Scheffé
Schefféは、比較的保守的な方法です。あらかじめ決めた比較だけでなく、さまざまな対比に対応できる柔軟な方法ですが、その分、有意差は出にくくなる傾向があります。
Games-Howell
Games-Howellは、等分散性が満たされない場合に使われることが多い事後検定です。各群の分散が等しくない、または群のサイズがかなり違う場合には、Tukey HSDよりもGames-Howellを検討することがあります。
等分散性に大きな問題がなければ Tukey HSD や Bonferroni を、等分散性に問題がある場合は Games-Howell を検討する——まずはこの指針で考えると迷いません。
大切なのは、「ANOVAが有意だったから、平均の大きい順に差があると決めつけない」ことです。平均値を見るだけでなく、事後検定の結果を確認して、どの組み合わせで有意差があるのかを丁寧に読み取りましょう。
効果量η²・偏η²の意味と解釈
分散分析では、p値だけでなく効果量も確認することが大切です。p値は、「差が統計的に有意かどうか」を判断するための指標です。つまり、標本で起こったことが母集団でも同様に起こると言えそうかを確認しているのです。しかし、p値だけでは「差がどれくらい大きいのか」は分かりません。
そこで使うのが効果量です。
一元配置分散分析でよく使われる効果量に、η²(イータ二乗)があります。η²は、全体のばらつきのうち、グループの違いによって説明される割合を表します。たとえば、η² = .20 であれば、データ全体のばらつきのうち約20%がグループの違いによって説明される、というイメージです。
一般的な目安として、η²は次のように解釈されることがあります。
| η²の値 | 解釈の目安 |
|---|---|
| .01程度 | 小さい効果 |
| .06程度 | 中程度の効果 |
| .14程度 | 大きい効果 |
ただし、この目安はあくまで一般的な基準です。研究分野やデータの性質によって、意味合いは変わります。卒論やレポートでは、p値と効果量の両方を示し、「統計的に有意であり、効果量は中程度であった」のように記述するとよいでしょう。
また、SPSSでは偏η²が表示されることもあります。偏η²は、他の要因や誤差を考慮したうえで、特定の要因がどれくらいの割合を説明しているかを表す効果量です。一元配置分散分析だけを扱う場合、η²と偏η²が近い値になることもありますが、二元配置分散分析や共分散分析など、複数の要因を扱う分析では違いが重要になります。
まず「効果量は、差の大きさを見るための指標」と理解してください。p値だけを見て「有意だから重要」と判断するのではなく、効果量を見て実質的な意味も考えることが大切です。
SPSSでの実行方法
ここでは、SPSSで一元配置分散分析を行う基本的な流れを紹介します。実際の画面操作や細かい設定は、SPSSの使い方シリーズで詳しく扱いますので、ここでは全体像をつかんでください。
ステップ1:メニューから一元配置分散分析を開く
SPSSで一元配置分散分析を行うには、メニューから上のように進みます。このメニューを選ぶと、一元配置分散分析のダイアログが開きます。ここで、比較したい数値データと、グループ分けに使う変数を指定します。たとえば、3つの勉強法によるテスト点数の違いを調べる場合、テスト点数が従属変数、勉強法が因子になります。
ステップ2:従属変数・因子の指定/オプション(記述統計・等分散性検定)
ダイアログでは、まず従属変数リストに、比較したい数値変数を入れます。テスト点数、練習時間、反応時間などがこれにあたります。次に、因子にグループ分けの変数を入れます。勉強法、クラス、実験条件、部活動などです。
オプションでは、記述統計量や等分散性の検定を選択できます。記述統計量を出しておくと、各群の平均、標準偏差、人数などを確認できます。これは結果を解釈するうえで非常に重要です。また、等分散性の検定を選んでおくと、Levene検定の結果が出力されます。各群の分散が大きく違っていないかを確認するために、基本的にはチェックしておくとよいでしょう。
ステップ3:多重比較(Tukey HSD・Bonferroni等)の選択
ANOVAで有意差が出た場合、どの群とどの群に差があるのかを確認するために事後検定を使います。SPSSの一元配置分散分析では、事後検定のボタンから、Tukey、Bonferroni、Scheffé、Games-Howellなどを選べます。
等分散性に大きな問題がない場合は、Tukey HSDやBonferroniがよく使われます。等分散性が満たされない場合には、Games-Howellを検討します。なお、多重比較は、やみくもにたくさん選べばよいものではありません。研究目的、前提条件、群の数、群サイズのバランスを考えて選ぶ必要があります。論文やレポートでは、なぜその事後検定を選んだのかを簡単に説明できるようにしておくと安心です。
ステップ4:結果の解釈(F値・自由度・p値・効果量η²)と多重比較の読み方
出力結果では、まず記述統計を確認します。各群の平均値、標準偏差、人数を見て、どの群が高いのか、ばらつきはどの程度かを把握します。次に、Levene検定で等分散性を確認します。等分散性に大きな問題がなければ、通常のANOVA表を読みます。
ANOVA表では、F値、自由度、p値を確認します。p値が .05 未満であれば、少なくともどこかの群の平均に有意な差があると判断します。ただし、この時点では、どの群とどの群が違うかは分かりません。そのため、事後検定の表を確認します。
事後検定では、各群の組み合わせごとに平均差とp値が表示されます。たとえば、勉強法Aと勉強法Cの比較でp < .05なら、その2群の平均には有意な差があると判断します。効果量η²については、SPSSの標準出力だけでは直接出ない場合もあります。その場合は、平方和を使って計算するか、別の手順や拡張機能を使って確認します。
レポートでは、次のように記述できます。
このように、F値、自由度、p値、効果量、事後検定の結果をセットで報告すると、読み手にとって分かりやすい記述になります。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
関連分析手法・SPSS実装ガイド
分散分析と関連の深い分析手法・SPSSでの具体的な実装手順を以下にまとめます。研究設計や論文執筆の参考にあわせてご活用ください。
- t検定とは? — 2群の平均差を調べる検定。ANOVAの土台になる考え方なので、あわせて読むと理解が深まります。
- 標準偏差と分散とは? — ANOVAの中心にある「ばらつき(分散)」そのものの解説。変動の分解を支える基礎です。
- 正規分布とは? — 前提条件「正規性」の意味を、分布の形から理解できます。
- マン・ホイットニーのU検定とは? — 正規性が疑わしいときの2群比較のノンパラメトリック手法。3群以上のクラスカル・ウォリス検定の入り口にもなります。
- カイ二乗検定とは? — 平均ではなく「割合・度数」の偏りを調べたいときはこちらの系統です。
- SPSSでt検定を実行する手順(SPSSの使い方 第10回) — 画面キャプチャ付きで検定の操作と出力の読み方を解説しています。
- 分散分析に使うSPSS製品の選び方 — 一元配置・二元配置・反復測定で必要な製品・オプションを整理しています。
- SPSSとは?研究・実務で使われる統計解析ソフトをやさしく解説 — 製品の全体像・価格・購入方法。
- SPSSの使い方シリーズ(全10回) — 起動・データ準備・分析・出力結果の解釈まで体系的に学べます。
つまずきやすいポイントと注意点
分散分析でつまずきやすいポイントを、ここで整理しておきます。
1. ANOVAが有意でも、すべての群に差があるわけではない。ANOVAが有意だった場合、「3群のどこかに差がある」とは言えます。しかし、「すべての群の間に差がある」とは言えません。A組、B組、C組の比較で有意差が出たとしても、実際にはA組とC組だけに差があり、A組とB組、B組とC組には差がないかもしれません。そのため、ANOVAが有意になったら、事後検定で個別の組み合わせを確認します。
2. 平均値だけで判断しない。平均値に差があるように見えても、群内のばらつきが大きければ、統計的には有意でないことがあります。反対に、平均差が小さく見えても、データのばらつきが小さければ、有意差が出ることもあります。分散分析では、平均値、標準偏差、F値、p値、効果量をあわせて見ることが大切です。
3. 等分散性を確認せずに事後検定を選ばない。事後検定には複数の種類があります。どれを使っても同じ、というわけではありません。等分散性が満たされている場合はTukey HSDやBonferroni、等分散性に問題がある場合はGames-Howellを検討する、というように、前提条件に応じて選びます。
4. 対応ありデータに通常の一元配置分散分析を使わない。同じ人が複数条件を経験している場合は、対応ありデータです。たとえば、同じ学生が「朝学習」「昼学習」「夜学習」の3条件すべてでテストを受けた場合、各条件の点数は独立していません。この場合は、通常の一元配置分散分析ではなく、反復測定分散分析を使います。3群以上だからといって、すべて一元配置分散分析でよいわけではありません。独立した群なのか、同じ対象を繰り返し測定しているのかを必ず確認しましょう。
5. p値だけで結論を書かない。p値が有意かどうかは重要ですが、それだけで結論を出すのはおすすめしません。効果量、平均値の差、研究目的、データの性質をあわせて考える必要があります。たとえば、サンプルサイズが非常に大きいと、ごく小さな差でも有意になることがあります。逆に、サンプルサイズが小さいと、実際には意味のある差がありそうでも、有意にならないことがあります。統計結果は、p値だけではなく、全体の文脈の中で解釈しましょう。

