t検定とは?2つのグループの平均の差を調べる方法をやさしく解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 t検定は、2つのグループの「平均値」に意味のある差があるかを調べる、もっとも基本的な検定のひとつです。「新しい指導法を受けたクラスと受けていないクラスで、テストの平均点に差があるか」といった比較に使います。このページでは、t検定の3つの種類、平均の差を測る仕組み、前提条件、結果と効果量の読み方、U検定との使い分けまでを、つまずきやすいところを先回りしながら順番に解説します。
- t検定は、2つのグループの「平均値」に意味のある差があるかを調べる検定
- 3種類ある。1標本t検定/対応のない2標本t検定/対応のある(対応)t検定
- 平均の差を、データのばらつき(標準誤差)で割って「差の大きさ」を測る
- 正規性が前提。満たせないときはマン・ホイットニーのU検定に切り替える
t検定で何が分かるのか
t検定が答えてくれるのは、「2つのグループの平均値に、偶然では説明しにくい差があると言えるか」という問いです。
2つのグループの平均が違っていても、それがたまたまなのか、それとも本当に差があるのかは、平均の値だけでは判断できません。データにはばらつきがあるからです。t検定は、平均の差とデータのばらつきを合わせて見ることで、その差が「意味のある差」と言えるかを統計的に判断します。
t検定が見るのは「平均の差」そのものではなく、「ばらつきに対して、その差がどれくらい大きいか」です。差が同じでも、ばらつきが小さければ意味のある差になりやすく、大きければなりにくい、と考えてください。
t検定の3つの種類
t検定には、データのとり方に応じて3つの種類があります。まず自分のデータがどれにあたるかを見分けることが、最初の一歩です。
| 種類 | 何を比べるか | 例 |
|---|---|---|
| 1標本t検定 | 1つのグループの平均を、ある基準値と比べる | あるクラスの数学の平均点が、全国平均の60点と言えるか |
| 対応のない2標本t検定 | 独立した2つのグループの平均を比べる | A組とB組で、テストの平均点に差があるか |
| 対応のある(対応)t検定 | 同じ対象の2回の測定値を比べる | 同じ生徒の、講習の前と後でテストの点数に差があるか |
とくに混同しやすいのが「対応のない」と「対応のある」の区別です。別々の人(対象)どうしを比べるなら対応なし、同じ人を2回測ったなら対応あり。ここを取り違えると、検定そのものが変わってしまうので注意してください。
t検定の仕組み──平均の差を標準誤差で割る
t検定の中心にあるのが、検定統計量「t値」です。考え方はシンプルで、平均の差を、その差のばらつき(標準誤差)で割ったものです。
分子は「平均がどれだけ離れているか」、分母は「その差がどれくらいぶれうるか」です。平均の差が大きく、ばらつきが小さいほど、t値は大きくなります。t値が大きいほど、「偶然では説明しにくい差」だと判断できます。
標準誤差は、データのばらつき(標準偏差)とデータの数から決まります。同じ平均差でも、データの数が多いほど標準誤差は小さくなり、差を検出しやすくなります。
前提条件──正規性と等分散
t検定にはいくつかの前提があります。前提が崩れていると、結論を誤りやすくなります。
- 各グループのデータが正規分布に近いこと:ただし、中心極限定理により、データの数が十分(目安として各グループ30以上)あれば、多少のずれは大きな問題になりません。
- 2つのグループの分散が等しいこと(等分散):対応のない2標本t検定の前提です。等分散が満たせないときは、Welch(ウェルチ)のt検定を使います。
- 観測が互いに独立していること:対応のない検定では、2つのグループが別々の対象であること。
等分散かどうかは、SPSSがレーベン検定で自動的に確かめてくれます。最近は、等分散を仮定しないWelchのt検定を最初から使う考え方も広まっています。迷ったらWelchを選んでおくと安全です。
結果の読み方──t値・自由度・p値
t検定の出力では、t値・自由度・p値(有意確率)の3つを読みます。t値と自由度から計算されるのがp値です。
p値が有意水準(ふつうは0.05)を下回れば、「2つのグループの平均に、統計的に意味のある差がある」と判断します。p値が0.05以上なら「有意な差があるとは言えない」となりますが、これは「差がないことが証明された」という意味ではありません。データが少なくて差を検出できなかっただけ、という可能性もあります。
効果量──差の大きさを示す
p値は「差があるか/ないか」を教えてくれますが、「差がどれくらい大きいか」は教えてくれません。データが多いと、ごくわずかな差でも有意になるので、効果量を書き添えるのが、いまの標準的な書き方です。
t検定の効果量としては、Cohen's d(コーエンのd)がよく使われます。平均の差を標準偏差で割った値で、目安は次のとおりです。
| Cohen's d | 差の大きさ(目安) |
|---|---|
| 0.2 前後 | 小さい差 |
| 0.5 前後 | 中くらいの差 |
| 0.8 以上 | 大きい差 |
レポートや論文では「t(38) = 2.45, p < .05, d = 0.79」のように、t値(カッコ内は自由度)・p値・効果量をセットで示すのが基本の形です。
U検定との使い分け
t検定の前提(正規性)が満たせないとき、頼りになるのがマン・ホイットニーのU検定です。2つの手法は、対にして覚えると使い分けに迷いません。
| 観点 | t検定 | マン・ホイットニーのU検定 |
|---|---|---|
| 種類 | パラメトリック検定 | ノンパラメトリック検定 |
| 正規性の前提 | 必要 | いらない |
| 比べるもの | 平均値 | 順位(分布の位置) |
| 向いている場面 | 正規分布に近く、データも十分あるとき | 正規性が満たせない、データが少ない、外れ値があるとき |
基本の判断は「前提が満たせるならt検定、満たせないならU検定」です。データが間隔・比率尺度で、各グループが正規分布に近く、数も十分あるなら、検出力の高いt検定が向きます。
SPSSでの実行
IBM SPSS Statistics では、「分析」→「平均の比較」から、1サンプルのt検定・独立したサンプルのt検定・対応のあるサンプルのt検定をそれぞれ選べます。検定変数とグループ変数を指定して実行します。
独立したサンプルのt検定では、出力にレーベンの等分散検定が併記され、「等分散を仮定する」行と「仮定しない」(Welch)行の両方が表示されます。レーベン検定が有意なら、等分散を仮定しない行を読みます。効果量は出力されないことがあるので、別に求めます。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
つまずきやすいポイントと注意点
同じ人を2回測ったのに対応のない検定を使うと、結果が変わってしまいます。データのとり方をまず確認してください。
3つ以上のグループの比較には使えません。3グループ以上を一度に比べたいときは、分散分析(ANOVA)を使います。t検定をくり返すと、誤って有意と判定する確率が上がってしまいます。
有意でない = 差がない、ではありません。p ≥ 0.05 は「差があるとは言えない」であって、差がないことの証明ではありません。
効果量を省かないようにします。p値だけでなく、Cohen's d で差の大きさも示しましょう。

