マン・ホイットニーのU検定とは?t検定との違いを解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 マン・ホイットニーのU検定は、独立した2つのグループに差があるかを、データの正規分布を前提とせずに調べる検定です。データを順位(ランク)に置き換えて比べるので、正規性が満たせないときや、データが少ないとき、順序尺度のデータを扱うときに、t検定の代わりとして広く使われます。このページでは、U検定の仕組み、t検定との使い分け、使うための前提、検定の手順、結果の読み方、効果量の書き方までを、順番にていねいに見ていきます。
- U検定は、独立した2グループの差を、正規分布を前提とせず順位で調べる検定
- t検定が使いにくい場面(正規性が満たせない・データが少ない・外れ値・順序尺度)の代わりになる
- 比べるのは平均値ではなく「分布の位置のずれ」。実測値ではなく順位を使う
- 「前提がまったくない」わけではない。独立性や、中央値として読む場合の分布の形は必要
U検定で何が分かるのか
マン・ホイットニーのU検定(Mann-Whitney U test)が答えてくれるのは、「独立した2つのグループのあいだに、差があると言えるか」という問いです。たとえば「新しい指導法を受けたグループと、受けていないグループで、テストの得点に差があるか」「2つのクラスでアンケートの満足度に差があるか」といった比較に使います。
この検定の特徴は、データの分布の形を前提としないことです。t検定が「データが正規分布に従う」ことを前提にするのに対し、U検定はデータを順位に置き換えてから比べるので、正規性が保証されないデータでも使えます。英語では Wilcoxon rank-sum test(ウィルコクソンの順位和検定)と呼ばれることもあり、両者は本質的に同じ検定です。
U検定は「順位」で2つのグループを比べる検定です。正規分布を前提としないので、t検定が使いにくい場面——データが少ない、外れ値がある、順序尺度のデータ——での頼れる選択肢になります。
t検定との違い──どちらを使えばよいか
U検定とt検定は、どちらも「2つのグループの差」を調べますが、前提と仕組みが違います。
| 観点 | マン・ホイットニーのU検定 | 独立2群のt検定 |
|---|---|---|
| 種類 | ノンパラメトリック検定 | パラメトリック検定 |
| 正規性の前提 | いらない | 必要(各グループが正規分布) |
| 比べるもの | 順位(分布の位置のずれ) | 平均値 |
| 扱えるデータ | 順序尺度以上 | 間隔尺度・比率尺度 |
| 外れ値の影響 | 受けにくい | 受けやすい |
| 検出力 | 前提が満たされる場面では t検定よりやや低い | 前提が満たされれば高い |
使い分けの基本は、こうです。データが間隔・比率尺度で、各グループが正規分布に近く、データの数も十分あるなら、t検定が向きます。一方、正規性が満たせない、データが少ない、外れ値がある、データが順序尺度(5段階のアンケートなど)——こうした場合は、U検定が向きます。
なお、データが正規分布に従うときにU検定を使っても、間違いではありません。ただ、t検定よりほんの少し、差を見つける力が落ちます。逆に、正規性が崩れているのにt検定を使うと、結論を誤りやすくなります。「前提が満たせるならt検定、満たせないならU検定」と覚えておくと、迷いません。
使える場面と前提条件
使える場面
- 比べたい2つのグループが独立している(同じ人を2回測っていない)
- データが正規分布に従わない、または分布がよくわからない
- データが少なく、正規性を確かめにくい
- データが順序尺度(満足度、重症度のランクなど)
前提条件
U検定にも前提があります。「前提がまったくない」検定ではない、という点は知っておいてください。
- 2つのグループが独立している:別々の対象からできていて、互いに対応していません。同じ対象を2回測った場合は、対応のあるデータ用のウィルコクソンの符号付順位検定を使います。
- 比べる変数が順序尺度以上:少なくとも大小関係(順位)が決められるデータであること。
- それぞれの観測が互いに独立している:ある観測が、他の観測に影響していないこと。
- 2つのグループの分布の形が似ている(中央値の差として読む場合):形が大きく違う場合、U検定は「一方のグループの値が、もう一方より大きくなりやすいか(分布の位置のずれ)」を調べていると読みます。
「U検定は前提がいらない」と紹介されることがありますが、正確には「正規性の前提がいらない」だけです。独立性や、中央値として読むときの分布の形の似かたといった前提は、残っています。
検定の手順と仕組み
U検定は、実測値を順位に置き換えることで、分布の前提を回避します。手順を見ていきましょう。
- 2つのグループのデータをまとめて順位をつける:両方のグループの全データを混ぜて小さい順に並べ、1位、2位…と順位をつけます。同じ値(同順位=タイ)には、平均の順位を割り当てます。
- グループごとに順位の合計を求める:グループごとに、所属するデータの順位を合計します(R₁、R₂)。
- U値を計算する:それぞれのグループの順位合計から、次の式でU統計量を求めます。
- p値を求めて判断する:U値を基準となる分布(データが少ないときは専用の表、多いときは正規近似)と照らして、p値を求めます。
U₂ = n₁n₂ + n₂(n₂+1)/2 − R₂
検定統計量 U = min(U₁, U₂)
U統計量の意味をやさしく言うと、「一方のグループのある値が、もう一方のグループの値より大きくなる回数」を数えたものです。2つのグループがよく似ていれば、この回数は半々に近くなり、差が大きいほど偏ります。順位の合計が両グループで大きく偏っていれば、2つのグループの位置がずれている、と判断できます。
かんたんな計算例
小さな例で、流れを確かめてみましょう。ある指導法の効果を比べるため、2つのグループでテストの得点を測りました。グループA(n₁ = 3)が70・75・80、グループB(n₂ = 3)が65・85・90です。
U₂ = 3×3 + 3×4/2 − 12 = 3
U = min(6, 3) = 3
このU = 3 を、n₁ = n₂ = 3 のときの臨界値表と照らして、有意かどうかを判断します。なお、この例はデータがとても少なく、実際には差を見つける力(検出力)がほとんどありません。本番では、各グループとも十分な数のデータをそろえることが前提になります。
結果の読み方と効果量
p値の読み方
p値が有意水準(ふつうは0.05)を下回れば、「2つのグループのあいだに、統計的に意味のある差がある」と判断します。p値が0.05以上なら「有意な差があるとは言えない」となりますが、これは「差がないことが証明された」という意味ではない点に注意してください。
効果量も必ず書き添える
p値は「差があるか/ないか」を教えてくれますが、「差がどれくらい大きいか」は教えてくれません。データが多いと、ごくわずかな差でも有意になるので、効果量を書き添えるのが、いまの標準的な書き方です。U検定の効果量としては、順位双列相関係数 r(r = Z ÷ √N、Zは正規近似の検定統計量、Nはデータの総数)がよく使われます。目安は、|r| が0.1で小さい効果、0.3で中くらい、0.5で大きい効果です。
マン・ホイットニーのU検定の結果、グループA(Mdn = 75)はグループB(Mdn = 85)と比べて得点に有意な差が認められた(U = 3, p < .05, r = .42)。——中央値(Mdn)、U値、p値、効果量 r をセットで示すのが基本の形です。
SPSSでの実行
IBM SPSS Statistics では、「分析」→「ノンパラメトリック検定」→「独立サンプル」を選び、検定したい変数(従属変数)とグループの変数を指定して実行します。出力には、U統計量、ウィルコクソンのW、正規近似によるZ値、漸近有意確率(p値)が表示されます。
データが少ないときは「正確確率検定」を併せて使うと、より正確なp値が得られます。効果量は出力されないことがあるので、Z値とデータの総数から r を計算するか、別に求めます。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
メリットとデメリット
メリット
- 正規分布を前提としないので、分布がよくわからないデータや、正規分布でないデータに使える
- 順位を使うので、外れ値の影響を受けにくい
- 順序尺度のデータ(アンケートのランクなど)にも使える
- データが少なくても使える
デメリット
- 前提(正規性)が満たされる場面では、t検定よりほんの少し、差を見つける力が低い
- 比べるのは平均値ではなく分布の位置なので、解釈が少し抽象的になる
- 2つのグループの分布の形が大きく違うと、「中央値の差」と単純には読めない
- 同順位(タイ)が多いと、補正が必要になり、結果がやや不安定になる
つまずきやすいポイントと注意点
正規性の前提がないだけで、独立性や、(中央値として読むときの)分布の形の似かたは必要です。
有意でない = 差がない、ではありません。p ≥ 0.05 は「差があるとは言えない」であって、「差がないことの証明」ではありません。データが少なくて、差を見つけられなかっただけかもしれません。
対応のあるデータには使えません。同じ対象を2回測った(前後の比較など)データには、ウィルコクソンの符号付順位検定を使います。U検定は独立した2グループ専用です。
3つ以上のグループの比較には使えません。3つ以上を一度に比べたいときは、クラスカル・ウォリス検定(ノンパラメトリック版の一元配置分散分析)を使います。
効果量を省かないようにします。p値だけでなく、効果量で差の大きさも示しましょう。

