分析手法完全ガイド

仮説検定とは？帰無仮説・p値・有意差の意味をやさしく解説

Q: p値が0.05ちょうど、またはわずかに上回ったときはどうすればよいですか？

事前に決めた有意水準が5%なら、p = 0.06 でも「有意差は認められなかった」と判定するのがルールです。結果を見てから基準を緩めてはいけません。ただし、p値そのものと効果量を正直に報告し、「有意傾向が見られた」「サンプルサイズを増やした追試が望まれる」のように、得られた情報を活かした考察を書くことはできます。

Q: p値が小さいほど、差が大きいということですか？

いいえ、p値は差の大きさを表す指標ではありません。p値はサンプルサイズの影響を強く受けるため、データ数が多ければ小さな差でもp値は小さくなります。差の大きさは、平均値の差そのものや、Cohenのd・η²などの効果量で確認します。p値と効果量をセットで報告するのが現在の標準的な作法です。

Q: 有意水準は結果を見てから変えてもよいですか？

いけません。有意水準は検定を行う前に決めておくのが原則です。結果を見てから「5%では有意にならなかったので10%にする」と動かすと、第一種の過誤の確率をコントロールできなくなり、検定の意味が失われます。分野の慣習（多くは5%）に従い、事前に決めた基準で判定してください。

Q: 帰無仮説が棄却できなかったら、研究は失敗ですか？

失敗ではありません。「有意差が認められなかった」という結果も、適切に設計された研究から得られたのであれば、立派な知見です。サンプルサイズは十分だったか、効果量はどの程度だったかをあわせて考察すれば、意味のある結論が書けます。有意差の有無だけが研究の価値を決めるわけではありません。

Q: 両側検定と片側検定は、どちらで報告すべきですか？

迷ったら両側検定で報告してください。片側検定が許されるのは、データを見る前に方向まで含めた仮説と理論的な根拠がある場合に限られます。同じデータなら片側のp値は両側の半分になるため、有意にしたいがために後から片側へ切り替えるのは不適切です。SPSSの標準出力も両側検定です。

Q: サンプルサイズが小さくても仮説検定はできますか？

手続きとしては実行できますが、検出力が低くなり、本当にある差を見逃す（第二種の過誤の）リスクが高くなります。また、小さな標本では正規性などの前提も確認しにくくなるため、マン・ホイットニーのU検定のようなノンパラメトリック手法の検討も選択肢になります。できれば計画段階で必要なサンプルサイズを見積もっておきましょう。

Q: 検定を何回も繰り返してはいけないと聞いたのですが、なぜですか？

有意水準5%の検定を繰り返すと、「少なくとも1回は偶然に有意差が出てしまう」確率がどんどん積み上がるからです。たとえば独立な検定を3回行うと約14%まで上がります。これを多重比較の問題と呼びます。3群以上の平均を比べたい場合は、t検定の繰り返しではなく分散分析（ANOVA）を使うのが標準的な対処法です。

読了の目安約15分
難易度はじめての方OK
最終更新2026.06.15

みなさん、こんにちは。スマート・アナリティクスの畠です。
仮説検定（正式には統計的仮説検定）とは、データに見られた差や偏りが「偶然の範囲」なのか、それとも「統計的に意味のある差」なのかを、確率を使って判定する手続きです。t検定もカイ二乗検定も分散分析も、すべてこの統計的仮説検定という共通の枠組みの上に成り立っています。とはいえ、初めて学ぶときには「なぜ、わざわざ否定したい仮説（帰無仮説）を立てるの？」「p値って結局なんの確率？」「有意差って、大きな差ってこと？」と、つまずきどころが続出しますよね。論文やレポートで「p < .05 で有意差が認められた」と書いてはみたものの、その意味を自分の言葉で説明できるか不安——そんな相談を、私はこれまで数えきれないほど受けてきました。このページでは、仮説検定の考え方を、コイン投げやテストの点数といった身近な例だけを使って、順番にやさしく解説します。読み終えるころには、帰無仮説・p値・有意差の意味を、自分の言葉で説明できるようになっているはずです。

畠

畠慎一郎スマート・アナリティクス株式会社代表取締役
統計解析ソフトの提供と分析のサポートを通じて、研究や学習でデータ分析につまずく場面をたくさん見てきました。このガイドでも、わかりにくいところをやさしく解説していきます。

このページの要点

仮説検定は「データの差が偶然か、意味のある差か」を確率で判定する枠組み。t検定・カイ二乗検定・分散分析の共通の土台
帰無仮説（H0）は「差がない」と仮定する仮説。否定したい方をあえて立て、背理法の発想で崩しにいく
p値は「帰無仮説が正しいとしたら、これほど極端な結果が出る確率」。仮説が正しい確率ではない
p値が有意水準（慣習的に5%）を下回れば「有意差あり」。ただし5%は絶対の基準ではない
判定には2種類の誤りがつきまとう：第一種の過誤（α）と第二種の過誤（β）
「有意差なし」は「差がない証明」ではない。サンプルサイズと効果量もあわせて見る

このページの目次開く / 閉じる ▾

仮説検定とは何か：「偶然では説明しにくい」を確かめる枠組み
帰無仮説とは？対立仮説とは？：なぜ「否定したい仮説」を立てるのか
p値の正確な意味：「仮説が正しい確率」ではない
有意差とは？有意水準と判定の仕組み
2種類の間違い：第一種の過誤（α）と第二種の過誤（β）
片側検定と両側検定：どちらを使えばよいのか
SPSSでの実行方法
関連分析手法・SPSS実装ガイド
つまずきやすいポイントと注意点
よくある質問

仮説検定とは何か：「偶然では説明しにくい」を確かめる枠組み

統計的仮説検定（ふだんは略して「仮説検定」と呼ばれます）とは、データに見られた差や偏りが偶然の範囲か、統計的に意味があるかを判定する手続きです。難しそうに聞こえますが、考え方の出発点は、みなさんが日常で使っている直感とまったく同じです。

こんな場面を想像してみてください。友だちが「このコインは普通のコインだよ」と言って、目の前で10回投げたところ、9回も表が出ました。きっと「えっ、そのコイン、おかしくない？」と思いますよね。普通のコインなら表と裏は半々のはずなのに、10回中9回はさすがに偏りすぎている——そう感じるからです。

でも、ここで少し立ち止まってほしいのです。普通のコインでも、偶然9回表が出ることは「絶対にない」とは言えません。確率は低いけれど、ゼロではないのです。では、どこからを「偶然とは考えにくい」と判断すればよいのでしょうか。この「どこから」を、感覚ではなく確率の計算で線引きするのが、仮説検定です。

図1：普通のコインを10回投げたとき、表が出る回数の確率分布のイメージ。表が9回以上出る確率は約1.1%しかない。「偶然にしては起こりにくいこと」が実際に起こったとき、私たちは前提（普通のコイン）の方を疑う。

仮説検定の手続きを一言でまとめると、こうなります。まず「差はない（コインは普通だ）」という仮の前提を置きます。次に、その前提のもとで、目の前のデータがどれくらい起こりにくいことなのかを確率で計算します。そして、その確率が十分に小さければ、「こんなに起こりにくいことが偶然起こったと考えるより、最初の前提の方が間違っていたと考えよう」と判断するのです。

統計学の全体像の中で言うと、仮説検定は推測統計の代表的な道具のひとつです。記述統計が「手元のデータを平均や標準偏差で要約する」ことを目的とするのに対し、推測統計は「手元のデータ（標本）から、その背後にある大きな集団（母集団）の性質を推測する」ことを目的とします。たとえば、30名の調査対象者のデータから「母集団全体でも差があると言えそうか」を考えるのが推測統計であり、その判定の手続きが仮説検定です。だからこそ、レポートで「標本ではたまたま差が出ただけでは？」という疑問に答えるために、仮説検定が必要になるのです。

ここがポイント
仮説検定は「差があることを直接証明する」道具ではありません。「偶然だとしたら、こんな結果はめったに出ない」ことを示して、間接的に差の存在を主張する——この回り道の構造を最初につかんでおくと、この後の帰無仮説もp値も、すっと理解できます。

帰無仮説とは？対立仮説とは？：なぜ「否定したい仮説」を立てるのか

帰無仮説とは、「差がない・効果がない」と仮定して立てる、検定で否定されることを想定した仮説のことです。記号ではH0（エイチゼロ）と書きます。そして、帰無仮説とペアで立てるのが対立仮説です。対立仮説とは、帰無仮説が否定されたときに採択される、本来主張したい仮説のことで、記号ではH1と書きます。

具体例で見てみましょう。たとえば、「男性と女性で平均身長に差があるか」を調べたいとします。このとき、仮説は次のように立てます。

調べたいこと	帰無仮説 H0（差がない）	対立仮説 H1（差がある）
男女の平均身長の差	男子と女子の平均身長は等しい	男子と女子の平均身長は等しくない
勉強法A・Bの効果の差	勉強法Aと勉強法Bでテストの平均点は等しい	勉強法Aと勉強法Bでテストの平均点は等しくない
コインの偏り	表が出る確率は1/2である	表が出る確率は1/2ではない

ここで、初学者のほぼ全員が抱く疑問があります。「差があることを示したいのに、なぜわざわざ『差がない』という、否定したい方の仮説を立てるの？」——私もこの質問を何度受けたかわかりません。とても自然な疑問ですし、ここを納得できるかどうかが仮説検定の最初の関門です。

理由は、数学で習った背理法の発想にあります。背理法とは、「証明したいことの逆をいったん正しいと仮定し、矛盾を導くことで、もとの主張が正しいと結論する」方法でしたよね。仮説検定はこれの確率バージョンです。

「差がある」を直接証明しようとすると、困ったことが起こります。「差がある」状態は無数にあるからです。平均点の差が1点なのか、5点なのか、10点なのか——「差がある」と一口に言っても、その中身は無限に考えられ、計算の出発点を1つに決められません。

一方、「差がない」という状態は、たった1つに決まります。「平均点の差は0」「表が出る確率はちょうど1/2」のように、基準点がぴたりと定まるのです。基準点が定まれば、「その前提のもとで、手元のデータがどれくらい起こりにくいか」を確率として計算できます。だから、いったん「差がない」と仮定するのです。

そして、計算の結果、「差がないとしたら、こんなデータはめったに得られない」とわかったら、「めったにないことが偶然起こった」と考えるのではなく、「そもそも『差がない』という仮定の方が怪しい」と判断して、帰無仮説を捨てます。これを棄却と呼びます。帰無仮説が棄却されたとき、残った対立仮説——つまり「差がある」——が採択される、という仕組みです。

「帰無」という少し変わった名前も、この仕組みから来ています。「無に帰することを期待されている仮説」、つまり最初から捨てられるために立てられる仮説、という意味合いです。英語では null hypothesis（nullは「無」）と言います。名前の由来を知ると、役割が覚えやすくなりますよね。

ここがポイント
「差がある」は無数の状態を含むので計算の出発点にできない。「差がない」はただ1点に定まるので計算できる。だから否定したい方（帰無仮説）をあえて立て、背理法の発想で崩しにいく——仮説検定が「回りくどい」のには、ちゃんと理由があるのです。

p値の正確な意味：「仮説が正しい確率」ではない

仮説検定で必ず登場するのがp値です。そして、p値は統計の中でもっとも誤解されやすい概念だと、私は思っています。先に正確な定義を示します。

p値＝帰無仮説が正しいと仮定したとき、観測された結果と同じか、それ以上に極端な結果が得られる確率

定義だけ読むと硬いので、先ほどのコイン投げで体感してみましょう。「このコインは普通（表の確率1/2）」という帰無仮説が正しいとします。このとき、10回投げて表が9回以上（9回または10回）出る確率は、計算すると約1.1%です。もし「表が出すぎる場合」と「裏が出すぎる場合」の両方を極端とみなすなら（これを両側検定と言います。くわしくは後述します）、確率は約2.1%になります。この「約2.1%」がp値です。

つまりp値は、「帰無仮説の世界で、目の前のデータがどれくらい珍しいか」を表す数値です。p値が小さいほど、「差がない世界では起こりにくいことが起こった」ことになり、帰無仮説への疑いが強まります。

ここを、研究者の視点でもう一歩ふみこんでおきます。論文やレポートで本当に問われているのは、「あなたが手にした標本（サンプル）で出た差や関係が、その背後にある母集団でも同じように成り立つのか」という一点です。手元の数十人で差が出たこと自体は、計算すれば誰でも示せます。読み手が知りたいのは、その差が「あなたのサンプルだけの偶然」なのか、「母集団でも再現する本物」なのか、です。有意確率（p値）は、まさにこの問いに答えるための道具です。p値が十分に小さいということは、「母集団では差がない」と仮定したら、あなたのサンプルで観測されたほどの差はめったに起こらない——だから「母集団でも差がある」と考えるほうが自然だ、と主張できることを意味します。

有意確率は「それ、あなたのサンプルだから出ただけでは？」への反論ツール
研究発表の場で必ず飛んでくるのが、「その結果って、たまたまそのサンプルで出ただけでは？」という指摘です。有意確率（p値）は、この問いに正面から答えるために用意された道具だと考えてください。「母集団では差がない」という前提のもとでこれほどの差が出る確率はわずか数％しかない、と数値で示せれば、「偶然やサンプル依存では説明しにくい」という客観的な反論になります。要は、統計的仮説検定とは、自分のサンプルで見つけた発見が母集団にも一般化できることを、第三者に納得してもらうための手続きなのです。p値を報告するときは、この「サンプルを超えて母集団を語るための根拠なんだ」という感覚を持っておくと、解釈を踏み外しません。

ここで、絶対に押さえてほしい注意点があります。p値は「帰無仮説が正しい確率」ではありません。「p = 0.03 だから、差がない確率は3%、差がある確率は97%」——この読み方は誤りです。p値の計算は「帰無仮説が正しい」と仮定した上で行われています。仮定した世界の中でデータの珍しさを測っているのであって、仮説そのものが正しいかどうかの確率を計算しているわけではないのです。

たとえば p = 0.03 が得られたとき、言えること・言えないことを整理すると次のようになります。

p = 0.03 のとき言えること	p = 0.03 のとき言えないこと
差がないと仮定すると、これほど極端なデータが出る確率は3%しかない	帰無仮説が正しい確率は3%である（×）
有意水準5%のもとでは、帰無仮説を棄却し「有意差あり」と判断できる	対立仮説が正しい確率は97%である（×）
偶然だけでこの差を説明するのは苦しい、という証拠が得られた	差が大きい・重要である（×）→ 差の大きさは効果量で見る
同じ条件で追試しても差が出る可能性を期待させる、ひとつの根拠になる	再現性が保証された（×）

もうひとつ、p値は差の大きさを表す数値でもありません。p = 0.001 は p = 0.04 より「差が大きい」ことを意味するのではなく、「帰無仮説の世界での珍しさがより極端だった」ことを意味するだけです。後ほどあらためて触れますが、サンプルサイズが大きいと、ごくわずかな差でもp値は小さくなります。差の大きさそのものは、平均値の差や効果量で確認します。

ここがポイント
p値は「仮説が正しい確率」でも「差の大きさ」でもなく、「差がないと仮定した世界で、このデータがどれくらい珍しいか」。レポートに書く前に、この一文を自分の言葉で言えるか確認してみてください。これが言えれば、仮説検定の半分は理解できています。

有意差とは？有意水準と判定の仕組み

有意差とは、偶然のばらつきだけでは説明しにくいと統計的に判断された差のことです。もう少していねいに言うと、p値があらかじめ決めた基準（有意水準）を下回ったとき、その差を「統計的に有意な差＝有意差」と呼びます。

では、p値がどれくらい小さければ「偶然とは考えにくい」と判断するのでしょうか。その線引きの基準が有意水準です。記号ではα（アルファ）と書き、検定を行う前に決めておきます。慣習的にもっともよく使われるのは5%（α = 0.05）で、より厳しくしたい場面では1%（α = 0.01）が使われます。

判定のルールはシンプルです。

p値 ≦ 有意水準（例：p = 0.021 ≦ 0.05）→ 帰無仮説を棄却し、「有意差あり」と判断する
p値＞有意水準（例：p = 0.21 ＞ 0.05）→ 帰無仮説を棄却できず、「有意差は認められない」と判断する

検定の手続き全体を流れで見ると、次のようになります。

図2：仮説検定の手順。①仮説を立て、②有意水準を先に決め、③データから検定統計量とp値を計算し、④p値と有意水準を比較して判定する。

流れ図の③に出てきた検定統計量について、少しだけ補足します。検定統計量とは、データの差やばらつきを1つの数値に要約したもので、t検定ならt値、カイ二乗検定ならχ²値、分散分析ならF値がこれにあたります。検定統計量が理論上の分布（t分布など）の端の方——棄却域と呼ばれる領域——に入るほど、p値は小さくなります。棄却域との境目の値を臨界値と呼び、棄却域の広さは有意水準と自由度（おおまかには、データ数から計算の制約分を引いた数）で決まります。かつては臨界値の表と見比べて判定していましたが、いまはSPSSなどの統計ソフトがp値を直接計算してくれるので、「p値と有意水準を比較する」ことだけ覚えておけば実用上は大丈夫です。

もうひとつ、大切な注意があります。5%という基準は、数学的に導かれた絶対の境界線ではなく、長く使われてきた慣習です。p = 0.049 と p = 0.051 の間に、本質的な断絶があるわけではありません。5%を境に世界がガラッと変わるかのように扱うのではなく、「研究の文脈の中で、偶然とは考えにくい強さの証拠が得られたか」を考える姿勢が大切です。だからこそ、結果を報告するときは「有意か否か」だけでなく、p値そのもの（p = .021 など）を記載するのが現在の標準的な作法になっています。

ここがポイント
有意水準は「検定の前に」決めるのがルールです。結果を見てから「p = 0.08 だったので有意水準を10%にしよう」と動かすのは、ゴールポストを後から動かすのと同じで、検定の信頼性を壊してしまいます。

2種類の間違い：第一種の過誤（α）と第二種の過誤（β）

仮説検定は確率にもとづく判定なので、どんなにていねいに行っても、間違える可能性をゼロにはできません。そして、間違い方には2種類あります。この2つを区別できるようになると、検定の結果をぐっと慎重に、正しく読めるようになります。

第一種の過誤（αエラー）は、本当は差がないのに「差がある」と判断してしまう誤りです。たとえば、実際には効果のない勉強法を「効果あり」と結論してしまうケースです。有意水準5%で検定するということは、「差がない場合に、誤って差があると言ってしまう確率を5%まで許容する」という意味です。つまり、有意水準αは第一種の過誤の確率そのものなのです。

第二種の過誤（βエラー）は、その逆で、本当は差があるのに「差があるとは言えない」と見逃してしまう誤りです。たとえば、本当は効果のある勉強法なのに、データが少なかったために有意差が出ず、「効果は確認できなかった」と結論してしまうケースです。

2つの誤りは、「真実」と「検定の判定」の組み合わせで整理すると一目でわかります。

	真実：差がない（H0が正しい）	真実：差がある（H1が正しい）
判定：有意差あり（H0を棄却）	第一種の過誤（α）ないものを「ある」と言う誤り	正しい判定（確率 1−β ＝検出力）
判定：有意差なし（H0を棄却できない）	正しい判定	第二種の過誤（β）あるものを見逃す誤り

やっかいなのは、αとβがトレードオフ（あちらを立てればこちらが立たず）の関係にあることです。第一種の過誤を恐れて有意水準を1%、0.1%と厳しくしていくと、今度は本当にある差まで見逃しやすくなり、βが大きくなります。火災報知器にたとえると、誤報（α）を減らそうと感度を下げすぎれば、本物の火事（β）を見逃すリスクが上がる——そんな関係です。

そこで登場するのが検出力（1−β）という考え方です。検出力は「本当に差があるときに、それを正しく検出できる確率」で、一般に0.8（80%）以上が望ましいとされます。検出力は、サンプルサイズが大きいほど、また実際の差（効果量）が大きいほど高くなります。研究の計画段階で「何人くらいデータを集めればよいですか？」という質問をよく受けますが、それはまさに「必要な検出力を確保するためのサンプルサイズ設計」の問題です。データを集めたあとではなく、集める前に検討しておくと、「がんばって集めたのに少なすぎて何も言えなかった」という悲しい事態を防げます。

ここがポイント
「α＝ないものをあると言う誤り」「β＝あるものを見逃す誤り」。有意水準を厳しくすればαは減るがβは増える。両者のバランスをとる鍵がサンプルサイズと検出力（1−β）です。

片側検定と両側検定：どちらを使えばよいのか

仮説検定には、両側検定と片側検定という2つのスタイルがあります。違いは、対立仮説の立て方——「どちら向きの差を極端とみなすか」——にあります。

両側検定は、対立仮説を「差がある（大きいか小さいかは問わない）」とする方法です。たとえば「勉強法Aと勉強法Bで平均点は等しくない」という仮説です。AがBより高い場合も、低い場合も、どちらの方向の極端さも検出の対象にします。このとき、有意水準5%は分布の両端に2.5%ずつ振り分けられます。

片側検定は、対立仮説を「一方向の差」に限定する方法です。たとえば「勉強法Aの方が勉強法Bより平均点が高い」という仮説です。このとき、5%はすべて片方の端に置かれます。

図3：両側検定と片側検定の棄却域（色のついた部分）。両側検定は5%を両端に2.5%ずつ配分し、片側検定は片方の端に5%を集中させる。

では、どちらを使えばよいのでしょうか。使い分けの原則は、データを見る前に、方向まで含めた明確な仮説（と、その理論的な根拠）があるかです。先行研究やはっきりした理屈から「Aの方が高いはずだ」と事前に言える場合に限って、片側検定を検討する余地があります。

ただし、注意してほしいことがあります。同じデータなら、片側検定のp値は両側検定のちょうど半分になります。つまり片側検定の方が「有意差が出やすい」のです。だからといって、両側で有意にならなかったから後出しで片側に切り替える——これは、結果を見てから基準を動かす行為で、第一種の過誤を実質的に増やしてしまいます。レポートでは、迷ったら両側検定を選んでおけばまず間違いありません。実際、SPSSをはじめ多くの統計ソフトの標準出力も両側検定ですし、学術論文の多くも両側検定で報告されています。

このセクションの締めくくりに、もうひとつ大切な注意を。検定の結果が「有意差なし」だったとき、それは「差がないことが証明された」という意味ではありません。「差がある」と言い切れるだけの証拠が、今回のデータからは得られなかった——言えるのはここまでです。裁判の「無罪判決」が「無実の証明」とイコールではなく「有罪とする証拠が不十分」を意味するのと似ています。差がないこと自体を積極的に示したい場合には、同等性検定という別の枠組みが必要になりますが、まずは「有意差なし＝差がない、ではない」とだけ、しっかり覚えておいてください。

ここがポイント
方向まで含めた事前の仮説と根拠がなければ両側検定。結果を見てから片側に切り替えるのは禁じ手です。そして「有意差なし」は「差がない証明」ではない——この2点は、結果を報告する前に必ず見直したいチェック項目です。

SPSSでの実際の操作は「使い方」シリーズで

本ガイドは考え方の解説です。SPSS画面での具体的な操作手順は連載でていねいに紹介しています。

SPSSの使い方シリーズ →

SPSSでの実行方法

ここでは、仮説検定の流れをSPSSで体験する例として、もっとも基本的な「対応のないt検定（独立したサンプルのt検定）」を取り上げます。題材は「勉強法Aのグループと勉強法Bのグループで、テストの平均点に差があるか」。帰無仮説は「2つの勉強法で平均点は等しい」、対立仮説は「等しくない」（両側検定）です。細かな画面操作はSPSSの使い方シリーズに譲り、ここでは仮説検定としての流れをつかんでください。

ステップ1：メニュー操作

「分析」→「平均と比率の比較」→「独立したサンプルのt検定」

SPSSのメニューバーから上のように進みます。データは、1行が対象者1人で、「テストの点数」の列と、どちらの勉強法かを表す「グループ」の列（例：A＝1、B＝2）の2列を用意しておきます。メニューを選ぶとダイアログが開き、ここから仮説検定の設定が始まります。なお、有意水準（5%にするか1%にするか）は、この時点より前——データを分析する前——に決めておくのが正しい手順です。

ステップ2：変数の指定

ダイアログの左側の変数リストから「テストの点数」を選び、「検定変数」ボックスへ移動します。次に「グループ」を「グループ化変数」ボックスへ移動し、「グループの定義」ボタンをクリックして、グループ1に「1」、グループ2に「2」と入力してOKを押します。これで「グループ1（勉強法A）とグループ2（勉強法B）の平均点を比較する」という指定が完了です。検定変数には平均が計算できる量的変数を、グループ化変数には2つの値を持つ変数を指定するのがポイントです。

ステップ3：オプション設定

「オプション」ボタンをクリックすると、信頼区間の設定画面が開きます。既定の「95%」のままでかまいません（有意水準5%の両側検定に対応します）。また、ダイアログに「効果サイズの推定」のチェックがあるバージョン（SPSS 27以降）では、ここにチェックを入れておくと、差の大きさを表す効果量（Cohenのdなど）が出力に追加され、p値とあわせた報告ができて便利です。設定を終えたら「続行」→「OK」で検定が実行されます。

ステップ4：結果の解釈

出力ビューアでは、まず「グループ統計量」で各群の平均値・標準偏差・人数を確認し、どちらが高いか、ばらつきはどの程度かを把握します。次に「独立サンプルの検定」の表で、最初にLeveneの等分散性検定を見ます。その有意確率が.05以上なら上段「等分散を仮定する」の行を、.05未満なら下段「等分散を仮定しない」の行を読みます。該当する行の「有意確率（両側）」がp値です。これを有意水準5%と比較し、たとえば p = .021 なら「t(28) = 2.45, p = .021 で、勉強法AとBのテスト平均点には有意な差が認められた」のように、t値・自由度・p値をセットで記述します。p値が.05以上なら「有意な差は認められなかった」と記述します（「差がないことが示された」とは書かない点に注意してください）。

実際の画面キャプチャ付きの操作手順は、「SPSSの使い方」シリーズでくわしく解説しています。

仮説検定は、あらゆる検定手法の共通の土台です。このページで考え方をつかんだら、個別の手法のガイドへ進むと、それぞれの検定が「同じ流れの上に乗っている」ことが見えてきます。研究設計や論文執筆の参考にあわせてご活用ください。

t検定とは？ — 2群の平均差を調べる、仮説検定のもっとも代表的な実践例。このページの流れをそのまま体験できます。
分散分析（ANOVA）とは？ — 3群以上の平均差の検定。「検定を繰り返すと第一種の過誤が増える」問題への、統計学の答えです。
カイ二乗検定とは？ — 平均ではなく「割合・度数」の偏りを調べる仮説検定。アンケートデータの分析でよく使います。
マン・ホイットニーのU検定とは？ — 正規分布を仮定しにくいときの2群比較。仮説検定の枠組みはそのままに、計算の土台を変えた手法です。
正規分布とは？ — 多くの検定統計量の背後にある分布。棄却域のイメージをより深く理解できます。
標準偏差と分散とは？ — 「偶然のばらつき」を数値化する基礎。検定統計量の分母を支える概念です。
相関分析とは？ — 2つの量的変数の関係の強さを調べる手法。相関係数の有意性検定も仮説検定の一例です。
度数分布表とは？ — 検定の前にまずデータの分布を眺める習慣を。記述統計の出発点です。
SPSSでt検定を実行する手順（SPSSの使い方第10回） — 画面キャプチャ付きで検定の操作と出力の読み方を解説しています。
分析手法で選ぶSPSS製品 — やりたい検定・分析から必要なSPSS製品・オプションを選べる一覧です。
SPSSとは？研究・実務で使われる統計解析ソフトをやさしく解説 — 製品の全体像・価格・購入方法。
SPSSの使い方シリーズ（全10回） — 起動・データ準備・分析・出力結果の解釈まで体系的に学べます。

つまずきやすいポイントと注意点

仮説検定で初学者がつまずきやすいポイントを、ここで整理しておきます。レポートを書く前のセルフチェックにも使ってください。

1. p値を「仮説が正しい確率」と誤解する。p値は「帰無仮説が正しいと仮定したときに、観測された結果と同じかそれ以上に極端な結果が出る確率」です。「p = 0.03 だから帰無仮説が正しい確率は3%」という読み方は誤りです。p値の計算はあくまで「差がない」と仮定した世界の中で行われていることを思い出してください。

2. 「有意差なし＝差がない」と結論してしまう。有意差が出なかったことは、「差がないことの証明」ではなく、「差があると言い切る証拠が足りなかった」ことを意味します。論文の考察で「有意差がなかったので、2つの条件に差はないことが示された」と書いてしまうのは、もっとも多い誤りのひとつです。「有意な差は認められなかった」と正確に書きましょう。

3. 有意水準5%を絶対の基準だと思い込む。5%は慣習であって、自然法則ではありません。p = 0.049 と p = 0.051 で結論が天と地ほど変わるわけではないのです。また、有意水準は検定の前に決めるものであり、結果を見てから動かしてはいけません。報告の際は有意か否かだけでなく、p値そのものを記載しましょう。

4. サンプルサイズが大きいと、小さな差でも有意になる。データ数が数千、数万と大きくなると、実質的にはほとんど意味のないわずかな差でも、p値は小さくなり「有意」になります。p値だけで「重要な差だ」と判断せず、平均値の差そのものや効果量（Cohenのd、η²など）をあわせて確認・報告する習慣をつけてください。逆に、サンプルが小さいと本当にある差を見逃しやすくなります（第二種の過誤）。

5. 結果を見てから検定のやり方を変える。両側検定で有意にならなかったから片側検定に切り替える、有意になるまでデータを少しずつ追加して検定を繰り返す——こうした「後出し」の操作は、第一種の過誤を実質的に増やし、結果の信頼性を壊します。仮説・有意水準・検定の方法は、データを分析する前に決めておくのが原則です。

よくある質問

Qp値が0.05ちょうど、またはわずかに上回ったときはどうすればよいですか？▾

事前に決めた有意水準が5%なら、p = 0.06 でも「有意差は認められなかった」と判定するのがルールです。結果を見てから基準を緩めてはいけません。ただし、p値そのものと効果量を正直に報告し、「有意傾向が見られた」「サンプルサイズを増やした追試が望まれる」のように、得られた情報を活かした考察を書くことはできます。

Qp値が小さいほど、差が大きいということですか？▾

いいえ、p値は差の大きさを表す指標ではありません。p値はサンプルサイズの影響を強く受けるため、データ数が多ければ小さな差でもp値は小さくなります。差の大きさは、平均値の差そのものや、Cohenのd・η²などの効果量で確認します。p値と効果量をセットで報告するのが現在の標準的な作法です。

Q有意水準は結果を見てから変えてもよいですか？▾

いけません。有意水準は検定を行う前に決めておくのが原則です。結果を見てから「5%では有意にならなかったので10%にする」と動かすと、第一種の過誤の確率をコントロールできなくなり、検定の意味が失われます。分野の慣習（多くは5%）に従い、事前に決めた基準で判定してください。

Q帰無仮説が棄却できなかったら、研究は失敗ですか？▾

失敗ではありません。「有意差が認められなかった」という結果も、適切に設計された研究から得られたのであれば、立派な知見です。サンプルサイズは十分だったか、効果量はどの程度だったかをあわせて考察すれば、意味のある結論が書けます。有意差の有無だけが研究の価値を決めるわけではありません。

Q両側検定と片側検定は、どちらで報告すべきですか？▾

迷ったら両側検定で報告してください。片側検定が許されるのは、データを見る前に方向まで含めた仮説と理論的な根拠がある場合に限られます。同じデータなら片側のp値は両側の半分になるため、有意にしたいがために後から片側へ切り替えるのは不適切です。SPSSの標準出力も両側検定です。

Qサンプルサイズが小さくても仮説検定はできますか？▾

手続きとしては実行できますが、検出力が低くなり、本当にある差を見逃す（第二種の過誤の）リスクが高くなります。また、小さな標本では正規性などの前提も確認しにくくなるため、マン・ホイットニーのU検定のようなノンパラメトリック手法の検討も選択肢になります。できれば計画段階で必要なサンプルサイズを見積もっておきましょう。

Q検定を何回も繰り返してはいけないと聞いたのですが、なぜですか？▾

有意水準5%の検定を繰り返すと、「少なくとも1回は偶然に有意差が出てしまう」確率がどんどん積み上がるからです。たとえば独立な検定を3回行うと約14%まで上がります。これを多重比較の問題と呼びます。3群以上の平均を比べたい場合は、t検定の繰り返しではなく分散分析（ANOVA）を使うのが標準的な対処法です。

わからないところは、いっしょに。

「自分のデータでどの検定を使えばいい？」「論文のこの結果の書き方が不安」——どんな小さなことでも、SPSS歴20年以上の畠がやさしくお手伝いします。

30分の無料オンライン相談

「自分のデータでどう使えばいい？」を畠に気軽にご相談ください

→