分析手法 完全ガイド

正規分布とは?意味とグラフの見方をやさしく解説

読了の目安約12分 難易度はじめての方OK 最終更新2026.05.24

みなさん、こんにちは。スマート・アナリティクスの畠です。 正規分布は、統計学でいちばんよく登場する確率分布です。平均と標準偏差という2つの値だけで形が決まり、左右対称のなだらかなベル型を描きます。多くの検定や回帰分析が、何らかの形でこの「正規性」を前提にしているので、正規分布を理解しておくことは、統計の手法を正しく使うための土台になります。このページでは、定義から標準化(Zスコア)、中心極限定理、そして「どこまで正規性にこだわればよいのか」という判断のものさしまでを、順番に見ていきます。

畠 慎一郎
畠 慎一郎 スマート・アナリティクス株式会社 代表取締役 統計解析ソフトの提供と分析のサポートを通じて、研究や学習でデータ分析につまずく場面をたくさん見てきました。このガイドでも、わかりにくいところをやさしく解説していきます。
このページの要点
  • 正規分布は、平均μと標準偏差σの2つだけで形が決まる、左右対称のベル型の確率分布
  • μ±1σに約68%、±2σに約95%、±3σに約99.7%が入る(68-95-99.7ルール)
  • 標準化(Zスコア)で平均0・標準偏差1にそろえると、違うデータを同じものさしで比べられる
  • 中心極限定理により、データが十分あれば「完全な正規分布」でなくても手法は使える

正規分布で何が分かるのか

正規分布が教えてくれるのは、「ある値が、どれくらいの確率で現れるか」です。平均の近くの値はよく現れ、平均から離れるほど現れにくくなります。身長、テストの得点、測定の誤差——身のまわりの多くの量が、この形に近い分布を示します。

正規分布をいちど理解しておくと、二つの見通しが得られます。ひとつは「この値は珍しいのか、よくあることなのか」を確率で言えること。もうひとつは、t検定・分散分析・回帰分析といった主要な手法が「なぜ正規性を前提にするのか」「その前提が崩れると何が起きるのか」を、自分で判断できるようになることです。

ここがポイント
正規分布は、それ単体で覚える知識というより、いろいろな手法を見渡すための「レンズ」のようなものだと考えてください。

正規分布の定義

正規分布(normal distribution)は、平均 μ と標準偏差 σ という2つの値だけで、形が完全に決まる連続確率分布です。確率密度関数は次の式で表されます。

f(x) = 1 / √(2πσ²) × exp{ −(x − μ)² / (2σ²) }

式そのものを覚える必要はありません。大事なのは、次の性質です。

  • 曲線は平均 μ を中心に左右対称
  • 平均・中央値・最頻値が一致する
  • 曲線とx軸で囲まれた面積の合計は1(=すべての確率)
  • μ が曲線の位置を、σ が曲線の幅(広がり)を決める

μ を変えると曲線は左右に平行移動し、σ を大きくすると曲線は低く広がり、小さくすると高く尖ります。位置と幅は変わっても、ベル型という形そのものは変わりません。

標準偏差と確率の関係(68-95-99.7)

正規分布では、平均からの距離を「標準偏差いくつ分」という単位で測ると、その範囲に入る確率が決まっています。

範囲含まれる確率
μ ± 1σ約68.3%
μ ± 2σ約95.4%
μ ± 3σ約99.7%
図1 正規分布と68-95-99.7ルール
μ −1σ +1σ −2σ +2σ 約68%
図1平均から±1σで約68%、±2σで約95%が収まります。平均から離れた値ほど、現れる確率は小さくなります。

これを68-95-99.7ルールと呼びます。逆に言えば、平均から2σ以上離れた値は約5%、3σ以上離れた値は約0.3%しか現れない、ということです。検定でよく使われる有意水準5%という基準も、もとをたどればこの性質につながっています。

標準化とZスコア

身長(cm)とテストの得点(点)のように、単位や尺度が違うデータは、そのままでは比べられません。そこで行うのが標準化です。

Z = (X − μ) ÷ σ

それぞれのデータから平均を引き、標準偏差で割ると、平均0・標準偏差1の標準正規分布に変換されます。変換後の値をZスコア(標準得点)と呼びます。

Zスコアは「平均から標準偏差いくつ分、離れているか」を表します。Z = 2 なら「平均より2σ上」で、上位およそ2.3%に位置することがわかります。学力テストでおなじみの偏差値(平均50・標準偏差10)は、このZスコアを10倍して50を足したものです。標準化のおかげで、違うテストや違う集団の成績を、同じものさしで比べられるようになります。

中心極限定理──なぜ正規分布はこれほど大切なのか

正規分布が統計学の中心にある最大の理由が、中心極限定理(central limit theorem)です。

この定理は、「もとの母集団がどんな分布であっても、そこから取り出した標本平均の分布は、標本サイズが大きくなるにつれて正規分布に近づいていく」と教えてくれます。もとのデータが偏った分布でも、歪んだ分布でも、平均をとるという操作を繰り返せば、その平均値たちは正規分布に近づいていくのです。

これがありがたいのは、私たちが関心を持つのが、多くの場合「平均値」だからです。t検定や信頼区間は標本平均を扱いますが、中心極限定理のおかげで、もとのデータが厳密な正規分布でなくても、標本サイズが十分なら手法をきちんと使えます。「正規性が少し崩れていても、データの数が多ければ大きな問題にはなりにくい」——その判断のよりどころが、まさにこの定理です。

SPSSでの正規性の確認は「使い方」シリーズで
本ガイドは考え方の解説です。SPSS画面でのヒストグラム・Q-Qプロットの出し方は連載でていねいに紹介しています。
SPSSの使い方シリーズ →

どこまで正規性を気にすればよいか

学びはじめの方ほど「データが完全な正規分布でないと、検定してはいけないのでは」と不安になりがちです。私も相談の場で何度もこの声を聞いてきました。けれど、実際にはそこまで厳密ではありません。判断のポイントを整理しておきましょう。

何の正規性が必要かを区別します。たとえば回帰分析が前提にするのは、説明変数や目的変数そのものの正規性ではなく、残差(誤差)の正規性です。前提の対象を取り違えると、必要のない変換をしてしまいます。

データの数を考えます。中心極限定理のおかげで、標本サイズが大きい(目安として各グループ30以上)と、多少の非正規性は平均値を扱う手法に大きく影響しません。

手法の頑健さを考えます。t検定や分散分析は、正規性のずれにある程度強い(頑健である)ことが知られています。

外れ値の影響を切り分けます。「正規分布でない」ように見える原因が、じつは少数の外れ値だった、ということは少なくありません。

ここがポイント
必要なのは「完全な正規分布」ではなく、「手法をきちんと使える程度に、正規分布から大きく外れていないこと」です。完璧さではなく、許容できる範囲かどうかで判断します。

正規性の確認方法

正規性は、目で見て確かめる方法と、検定で確かめる方法の両面から確認します。

方法種類特徴
ヒストグラム視覚分布の形・歪み・山の数を直感的につかめる
Q-Qプロット視覚点が直線に乗れば正規分布に近い。ずれ方で問題の場所がわかる
歪度・尖度数値左右の偏り(歪度)、裾の重さ(尖度)を数値で表す
シャピロ・ウィルク検定検定小〜中規模のデータで有力。帰無仮説は「正規分布である」
コルモゴロフ・スミルノフ検定検定大きなデータ向き。SPSSではLilliefors補正版が使われる

ここで、ぜひ知っておいてほしい注意があります。正規性の検定は、データが多いと、ごくわずかな歪みでも「有意(正規分布でない)」と判定しがちです。データが数百を超えると、実害のない程度のずれでも検定が棄却してしまいます。ですから、検定の p 値だけで機械的に決めず、ヒストグラムとQ-Qプロット、歪度・尖度を併せて、総合的に見ることをおすすめします。

SPSSでの確認方法

IBM SPSS Statistics では、「分析」→「記述統計」→「探索的」を使うと、ヒストグラム、Q-Qプロット、歪度・尖度、シャピロ・ウィルク検定/コルモゴロフ・スミルノフ検定を、まとめて出力できます。「正規性の検定とプロット」のオプションを有効にするのがポイントです。

t検定・分散分析・回帰分析など、正規性を前提とする分析は SPSS Statistics Base で実行できます。残差の正規性の診断や高度なモデルでは、追加モジュールの検討が必要になることもあります。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。

つまずきやすいポイントと注意点

「正規分布でないと検定できない」は思い込みです
中心極限定理のおかげで、データの数が十分あれば、平均値を扱う手法はきちんと使えます。どうしても正規性が満たせず、データも少ない場合は、マン・ホイットニーのU検定などのノンパラメトリック手法に切り替えます。

正規性検定が有意 = 手法が使えない、ではありません。とくにデータが多いと過敏に棄却されます。p値ではなく、分布の形とずれの程度で判断しましょう。

正規分布を仮定するのは「データそのもの」とはかぎりません。回帰分析では残差、グループ比較では各グループ内の分布が対象です。何の正規性なのかを意識してください。

ログ変換は万能ではありません。右に裾を引く分布には効きますが、左に歪んだ分布や、山が複数ある分布には効きません。変換は目的を持って行います。

よくある質問

Q正規分布でないと検定はできないのですか?
いいえ。データの数が十分大きければ、中心極限定理によって、平均値を扱う検定はきちんと使えます。データが少なく正規性も満たせない場合は、ノンパラメトリック検定(マン・ホイットニーのU検定など)が選択肢になります。
Qデータはいくつあれば正規性を気にしなくてよいですか?
一律の基準はありませんが、各グループ30以上がひとつの目安です。ただし、もとの分布が極端に歪んでいる場合は、もっと多くのデータが必要です。データの数と分布の歪みの両方を見て判断します。
Q歪度・尖度はどれくらいなら問題ないですか?
目安として、歪度・尖度の絶対値が2以下(基準によっては1以下とする立場もあります)であれば、実際上は大きな問題になりにくいとされます。数値だけでなく、ヒストグラムの形も併せて確かめてください。
Qログ変換はいつ行うとよいですか?
右に長い裾を引く分布で効果があります。変換によって正規分布に近づき、ばらつきが安定することがあります。左に歪んだ分布や、山が複数ある分布には効かないので、変換の前後で分布の形を必ず比べてください。
Q標準正規分布と正規分布は何が違いますか?
標準正規分布は、平均0・標準偏差1にそろえた、特別な正規分布です。ふつうの正規分布をZスコアで変換すると標準正規分布になり、確率を共通の表や関数で求められるようになります。
Qシャピロ・ウィルク検定とコルモゴロフ・スミルノフ検定は、どちらを使えばよいですか?
一般に、小〜中規模のデータではシャピロ・ウィルク検定のほうが、ずれを見つける力が高いとされます。SPSSは両方を出してくれるので、データの数に応じて参照しつつ、目で見る確認と併せて使うのが安全です。
わからないところは、いっしょに。
「自分のデータでどう使えばいい?」「卒論のこの部分が不安」——どんな小さなことでも、SPSS歴20年以上の畠がやさしくお手伝いします。
30分の無料オンライン相談
「自分のデータでどう使えばいい?」を畠に気軽にご相談ください