分析手法 完全ガイド

マン・ホイットニーのU検定とは?t検定との違いを解説

読了の目安約13分 難易度はじめての方OK 最終更新2026.05.24

みなさん、こんにちは。スマート・アナリティクスの畠です。 マン・ホイットニーのU検定は、独立した2つのグループに差があるかを、データの正規分布を前提とせずに調べる検定です。データを順位(ランク)に置き換えて比べるので、正規性が満たせないときや、データが少ないとき、順序尺度のデータを扱うときに、t検定の代わりとして広く使われます。このページでは、U検定の仕組み、t検定との使い分け、使うための前提、検定の手順、結果の読み方、効果量の書き方までを、順番にていねいに見ていきます。

畠 慎一郎
畠 慎一郎 スマート・アナリティクス株式会社 代表取締役 統計解析ソフトの提供と分析のサポートを通じて、研究や学習でデータ分析につまずく場面をたくさん見てきました。このガイドでも、わかりにくいところをやさしく解説していきます。
このページの要点
  • U検定は、独立した2グループの差を、正規分布を前提とせず順位で調べる検定
  • t検定が使いにくい場面(正規性が満たせない・データが少ない・外れ値・順序尺度)の代わりになる
  • 比べるのは平均値ではなく「分布の位置のずれ」。実測値ではなく順位を使う
  • 「前提がまったくない」わけではない。独立性や、中央値として読む場合の分布の形は必要

U検定で何が分かるのか

マン・ホイットニーのU検定(Mann-Whitney U test)が答えてくれるのは、「独立した2つのグループのあいだに、差があると言えるか」という問いです。たとえば「新しい指導法を受けたグループと、受けていないグループで、テストの得点に差があるか」「2つのクラスでアンケートの満足度に差があるか」といった比較に使います。

この検定の特徴は、データの分布の形を前提としないことです。t検定が「データが正規分布に従う」ことを前提にするのに対し、U検定はデータを順位に置き換えてから比べるので、正規性が保証されないデータでも使えます。英語では Wilcoxon rank-sum test(ウィルコクソンの順位和検定)と呼ばれることもあり、両者は本質的に同じ検定です。

ここがポイント
U検定は「順位」で2つのグループを比べる検定です。正規分布を前提としないので、t検定が使いにくい場面——データが少ない、外れ値がある、順序尺度のデータ——での頼れる選択肢になります。

t検定との違い──どちらを使えばよいか

U検定とt検定は、どちらも「2つのグループの差」を調べますが、前提と仕組みが違います。

観点マン・ホイットニーのU検定独立2群のt検定
種類ノンパラメトリック検定パラメトリック検定
正規性の前提いらない必要(各グループが正規分布)
比べるもの順位(分布の位置のずれ)平均値
扱えるデータ順序尺度以上間隔尺度・比率尺度
外れ値の影響受けにくい受けやすい
検出力前提が満たされる場面では t検定よりやや低い前提が満たされれば高い

使い分けの基本は、こうです。データが間隔・比率尺度で、各グループが正規分布に近く、データの数も十分あるなら、t検定が向きます。一方、正規性が満たせない、データが少ない、外れ値がある、データが順序尺度(5段階のアンケートなど)——こうした場合は、U検定が向きます。

なお、データが正規分布に従うときにU検定を使っても、間違いではありません。ただ、t検定よりほんの少し、差を見つける力が落ちます。逆に、正規性が崩れているのにt検定を使うと、結論を誤りやすくなります。「前提が満たせるならt検定、満たせないならU検定」と覚えておくと、迷いません。

使える場面と前提条件

使える場面

  • 比べたい2つのグループが独立している(同じ人を2回測っていない)
  • データが正規分布に従わない、または分布がよくわからない
  • データが少なく、正規性を確かめにくい
  • データが順序尺度(満足度、重症度のランクなど)

前提条件

U検定にも前提があります。「前提がまったくない」検定ではない、という点は知っておいてください。

  1. 2つのグループが独立している:別々の対象からできていて、互いに対応していません。同じ対象を2回測った場合は、対応のあるデータ用のウィルコクソンの符号付順位検定を使います。
  2. 比べる変数が順序尺度以上:少なくとも大小関係(順位)が決められるデータであること。
  3. それぞれの観測が互いに独立している:ある観測が、他の観測に影響していないこと。
  4. 2つのグループの分布の形が似ている(中央値の差として読む場合):形が大きく違う場合、U検定は「一方のグループの値が、もう一方より大きくなりやすいか(分布の位置のずれ)」を調べていると読みます。
気をつけたいこと
「U検定は前提がいらない」と紹介されることがありますが、正確には「正規性の前提がいらない」だけです。独立性や、中央値として読むときの分布の形の似かたといった前提は、残っています。

検定の手順と仕組み

U検定は、実測値を順位に置き換えることで、分布の前提を回避します。手順を見ていきましょう。

  1. 2つのグループのデータをまとめて順位をつける:両方のグループの全データを混ぜて小さい順に並べ、1位、2位…と順位をつけます。同じ値(同順位=タイ)には、平均の順位を割り当てます。
  2. グループごとに順位の合計を求める:グループごとに、所属するデータの順位を合計します(R₁、R₂)。
  3. U値を計算する:それぞれのグループの順位合計から、次の式でU統計量を求めます。
  4. p値を求めて判断する:U値を基準となる分布(データが少ないときは専用の表、多いときは正規近似)と照らして、p値を求めます。
U₁ = n₁n₂ + n₁(n₁+1)/2 − R₁
U₂ = n₁n₂ + n₂(n₂+1)/2 − R₂
検定統計量 U = min(U₁, U₂)

U統計量の意味をやさしく言うと、「一方のグループのある値が、もう一方のグループの値より大きくなる回数」を数えたものです。2つのグループがよく似ていれば、この回数は半々に近くなり、差が大きいほど偏ります。順位の合計が両グループで大きく偏っていれば、2つのグループの位置がずれている、と判断できます。

かんたんな計算例

小さな例で、流れを確かめてみましょう。ある指導法の効果を比べるため、2つのグループでテストの得点を測りました。グループA(n₁ = 3)が70・75・80、グループB(n₂ = 3)が65・85・90です。

図1 6つの値をまとめて小さい順に並べ、順位をつける
65 70 75 80 85 90 1位 B2位 A3位 A 4位 A5位 B6位 B 濃い円=グループB/うすい円=グループA
図1順位の合計は A が 2+3+4=9、B が 1+5+6=12。順位が偏るほど、2グループの位置がずれていると判断します。
U₁ = 3×3 + 3×4/2 − 9 = 6
U₂ = 3×3 + 3×4/2 − 12 = 3
U = min(6, 3) = 3

このU = 3 を、n₁ = n₂ = 3 のときの臨界値表と照らして、有意かどうかを判断します。なお、この例はデータがとても少なく、実際には差を見つける力(検出力)がほとんどありません。本番では、各グループとも十分な数のデータをそろえることが前提になります。

SPSSでのU検定の操作は「使い方」シリーズで
本ガイドは考え方の解説です。SPSS画面でのノンパラメトリック検定の手順は連載でていねいに紹介しています。
SPSSの使い方シリーズ →

結果の読み方と効果量

p値の読み方

p値が有意水準(ふつうは0.05)を下回れば、「2つのグループのあいだに、統計的に意味のある差がある」と判断します。p値が0.05以上なら「有意な差があるとは言えない」となりますが、これは「差がないことが証明された」という意味ではない点に注意してください。

効果量も必ず書き添える

p値は「差があるか/ないか」を教えてくれますが、「差がどれくらい大きいか」は教えてくれません。データが多いと、ごくわずかな差でも有意になるので、効果量を書き添えるのが、いまの標準的な書き方です。U検定の効果量としては、順位双列相関係数 r(r = Z ÷ √N、Zは正規近似の検定統計量、Nはデータの総数)がよく使われます。目安は、|r| が0.1で小さい効果、0.3で中くらい、0.5で大きい効果です。

書き方の例
マン・ホイットニーのU検定の結果、グループA(Mdn = 75)はグループB(Mdn = 85)と比べて得点に有意な差が認められた(U = 3, p < .05, r = .42)。——中央値(Mdn)、U値、p値、効果量 r をセットで示すのが基本の形です。

SPSSでの実行

IBM SPSS Statistics では、「分析」→「ノンパラメトリック検定」→「独立サンプル」を選び、検定したい変数(従属変数)とグループの変数を指定して実行します。出力には、U統計量、ウィルコクソンのW、正規近似によるZ値、漸近有意確率(p値)が表示されます。

データが少ないときは「正確確率検定」を併せて使うと、より正確なp値が得られます。効果量は出力されないことがあるので、Z値とデータの総数から r を計算するか、別に求めます。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。

メリットとデメリット

メリット

  • 正規分布を前提としないので、分布がよくわからないデータや、正規分布でないデータに使える
  • 順位を使うので、外れ値の影響を受けにくい
  • 順序尺度のデータ(アンケートのランクなど)にも使える
  • データが少なくても使える

デメリット

  • 前提(正規性)が満たされる場面では、t検定よりほんの少し、差を見つける力が低い
  • 比べるのは平均値ではなく分布の位置なので、解釈が少し抽象的になる
  • 2つのグループの分布の形が大きく違うと、「中央値の差」と単純には読めない
  • 同順位(タイ)が多いと、補正が必要になり、結果がやや不安定になる

つまずきやすいポイントと注意点

「U検定は前提がまったくない」は思い込みです
正規性の前提がないだけで、独立性や、(中央値として読むときの)分布の形の似かたは必要です。

有意でない = 差がない、ではありません。p ≥ 0.05 は「差があるとは言えない」であって、「差がないことの証明」ではありません。データが少なくて、差を見つけられなかっただけかもしれません。

対応のあるデータには使えません。同じ対象を2回測った(前後の比較など)データには、ウィルコクソンの符号付順位検定を使います。U検定は独立した2グループ専用です。

3つ以上のグループの比較には使えません。3つ以上を一度に比べたいときは、クラスカル・ウォリス検定(ノンパラメトリック版の一元配置分散分析)を使います。

効果量を省かないようにします。p値だけでなく、効果量で差の大きさも示しましょう。

よくある質問

Qマン・ホイットニーのU検定とt検定の違いは何ですか?
いちばんの違いは、正規分布を前提とするかどうかです。t検定は各グループが正規分布に従うことを前提に平均値を比べますが、U検定は正規性を前提とせず、データを順位に置き換えて分布の位置を比べます。正規性が満たせない、データが少ない、外れ値があるときはU検定が向きます。
Q外れ値があってもU検定は使えますか?
使えます。U検定は実測値ではなく順位を使うので、極端な値がひとつあっても順位はひとつ分しか動かず、外れ値の影響を受けにくいのが特長です。これがt検定に対する利点のひとつです。
QU検定は中央値の差を調べているのですか?
2つのグループの分布の形・ばらつきが似ている場合は「中央値の差」と読めます。形が大きく違う場合は、もっと一般的に「一方のグループの値が、もう一方より大きくなりやすいか(分布の位置のずれ)」を調べていると読みます。
Qデータが少なくても使えますか?
使えます。むしろ、データが少なく正規性を確かめにくい場面こそU検定の出番です。ただし、データが極端に少ないと検定そのものの力が弱く、差があっても見逃しやすくなります。できるだけ十分な数をそろえてください。
Q対応のある(同じ対象を2回測った)データにU検定は使えますか?
使えません。U検定は独立した2グループ専用です。同じ対象の前後の比較などには、ウィルコクソンの符号付順位検定を使います。
Q3つ以上のグループを比べたい場合はどうしますか?
マン・ホイットニーのU検定は2グループ専用です。3つ以上を比べたいときは、ノンパラメトリック版の一元配置分散分析である、クラスカル・ウォリス検定を使います。
Qウィルコクソンの順位和検定とは同じものですか?
はい、本質的に同じ検定です。マン・ホイットニーのU検定とウィルコクソンの順位和検定は、統計量の表し方が違うだけで、得られる結論は一致します。対応のあるデータに使う「ウィルコクソンの符号付順位検定」とは別物なので、混同しないよう注意してください。
わからないところは、いっしょに。
「自分のデータでどう使えばいい?」「卒論のこの部分が不安」——どんな小さなことでも、SPSS歴20年以上の畠がやさしくお手伝いします。
30分の無料オンライン相談
「自分のデータでどう使えばいい?」を畠に気軽にご相談ください