正規分布とは?意味とグラフの見方をやさしく解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 正規分布は、統計学でいちばんよく登場する確率分布です。平均と標準偏差という2つの値だけで形が決まり、左右対称のなだらかなベル型を描きます。多くの検定や回帰分析が、何らかの形でこの「正規性」を前提にしているので、正規分布を理解しておくことは、統計の手法を正しく使うための土台になります。このページでは、定義から標準化(Zスコア)、中心極限定理、そして「どこまで正規性にこだわればよいのか」という判断のものさしまでを、順番に見ていきます。
- 正規分布は、平均μと標準偏差σの2つだけで形が決まる、左右対称のベル型の確率分布
- μ±1σに約68%、±2σに約95%、±3σに約99.7%が入る(68-95-99.7ルール)
- 標準化(Zスコア)で平均0・標準偏差1にそろえると、違うデータを同じものさしで比べられる
- 中心極限定理により、データが十分あれば「完全な正規分布」でなくても手法は使える
正規分布で何が分かるのか
正規分布が教えてくれるのは、「ある値が、どれくらいの確率で現れるか」です。平均の近くの値はよく現れ、平均から離れるほど現れにくくなります。身長、テストの得点、測定の誤差——身のまわりの多くの量が、この形に近い分布を示します。
正規分布をいちど理解しておくと、二つの見通しが得られます。ひとつは「この値は珍しいのか、よくあることなのか」を確率で言えること。もうひとつは、t検定・分散分析・回帰分析といった主要な手法が「なぜ正規性を前提にするのか」「その前提が崩れると何が起きるのか」を、自分で判断できるようになることです。
正規分布は、それ単体で覚える知識というより、いろいろな手法を見渡すための「レンズ」のようなものだと考えてください。
正規分布の定義
正規分布(normal distribution)は、平均 μ と標準偏差 σ という2つの値だけで、形が完全に決まる連続確率分布です。確率密度関数は次の式で表されます。
式そのものを覚える必要はありません。大事なのは、次の性質です。
- 曲線は平均 μ を中心に左右対称
- 平均・中央値・最頻値が一致する
- 曲線とx軸で囲まれた面積の合計は1(=すべての確率)
- μ が曲線の位置を、σ が曲線の幅(広がり)を決める
μ を変えると曲線は左右に平行移動し、σ を大きくすると曲線は低く広がり、小さくすると高く尖ります。位置と幅は変わっても、ベル型という形そのものは変わりません。
標準偏差と確率の関係(68-95-99.7)
正規分布では、平均からの距離を「標準偏差いくつ分」という単位で測ると、その範囲に入る確率が決まっています。
| 範囲 | 含まれる確率 |
|---|---|
| μ ± 1σ | 約68.3% |
| μ ± 2σ | 約95.4% |
| μ ± 3σ | 約99.7% |
これを68-95-99.7ルールと呼びます。逆に言えば、平均から2σ以上離れた値は約5%、3σ以上離れた値は約0.3%しか現れない、ということです。検定でよく使われる有意水準5%という基準も、もとをたどればこの性質につながっています。
標準化とZスコア
身長(cm)とテストの得点(点)のように、単位や尺度が違うデータは、そのままでは比べられません。そこで行うのが標準化です。
それぞれのデータから平均を引き、標準偏差で割ると、平均0・標準偏差1の標準正規分布に変換されます。変換後の値をZスコア(標準得点)と呼びます。
Zスコアは「平均から標準偏差いくつ分、離れているか」を表します。Z = 2 なら「平均より2σ上」で、上位およそ2.3%に位置することがわかります。学力テストでおなじみの偏差値(平均50・標準偏差10)は、このZスコアを10倍して50を足したものです。標準化のおかげで、違うテストや違う集団の成績を、同じものさしで比べられるようになります。
中心極限定理──なぜ正規分布はこれほど大切なのか
正規分布が統計学の中心にある最大の理由が、中心極限定理(central limit theorem)です。
この定理は、「もとの母集団がどんな分布であっても、そこから取り出した標本平均の分布は、標本サイズが大きくなるにつれて正規分布に近づいていく」と教えてくれます。もとのデータが偏った分布でも、歪んだ分布でも、平均をとるという操作を繰り返せば、その平均値たちは正規分布に近づいていくのです。
これがありがたいのは、私たちが関心を持つのが、多くの場合「平均値」だからです。t検定や信頼区間は標本平均を扱いますが、中心極限定理のおかげで、もとのデータが厳密な正規分布でなくても、標本サイズが十分なら手法をきちんと使えます。「正規性が少し崩れていても、データの数が多ければ大きな問題にはなりにくい」——その判断のよりどころが、まさにこの定理です。
どこまで正規性を気にすればよいか
学びはじめの方ほど「データが完全な正規分布でないと、検定してはいけないのでは」と不安になりがちです。私も相談の場で何度もこの声を聞いてきました。けれど、実際にはそこまで厳密ではありません。判断のポイントを整理しておきましょう。
何の正規性が必要かを区別します。たとえば回帰分析が前提にするのは、説明変数や目的変数そのものの正規性ではなく、残差(誤差)の正規性です。前提の対象を取り違えると、必要のない変換をしてしまいます。
データの数を考えます。中心極限定理のおかげで、標本サイズが大きい(目安として各グループ30以上)と、多少の非正規性は平均値を扱う手法に大きく影響しません。
手法の頑健さを考えます。t検定や分散分析は、正規性のずれにある程度強い(頑健である)ことが知られています。
外れ値の影響を切り分けます。「正規分布でない」ように見える原因が、じつは少数の外れ値だった、ということは少なくありません。
必要なのは「完全な正規分布」ではなく、「手法をきちんと使える程度に、正規分布から大きく外れていないこと」です。完璧さではなく、許容できる範囲かどうかで判断します。
正規性の確認方法
正規性は、目で見て確かめる方法と、検定で確かめる方法の両面から確認します。
| 方法 | 種類 | 特徴 |
|---|---|---|
| ヒストグラム | 視覚 | 分布の形・歪み・山の数を直感的につかめる |
| Q-Qプロット | 視覚 | 点が直線に乗れば正規分布に近い。ずれ方で問題の場所がわかる |
| 歪度・尖度 | 数値 | 左右の偏り(歪度)、裾の重さ(尖度)を数値で表す |
| シャピロ・ウィルク検定 | 検定 | 小〜中規模のデータで有力。帰無仮説は「正規分布である」 |
| コルモゴロフ・スミルノフ検定 | 検定 | 大きなデータ向き。SPSSではLilliefors補正版が使われる |
ここで、ぜひ知っておいてほしい注意があります。正規性の検定は、データが多いと、ごくわずかな歪みでも「有意(正規分布でない)」と判定しがちです。データが数百を超えると、実害のない程度のずれでも検定が棄却してしまいます。ですから、検定の p 値だけで機械的に決めず、ヒストグラムとQ-Qプロット、歪度・尖度を併せて、総合的に見ることをおすすめします。
SPSSでの確認方法
IBM SPSS Statistics では、「分析」→「記述統計」→「探索的」を使うと、ヒストグラム、Q-Qプロット、歪度・尖度、シャピロ・ウィルク検定/コルモゴロフ・スミルノフ検定を、まとめて出力できます。「正規性の検定とプロット」のオプションを有効にするのがポイントです。
t検定・分散分析・回帰分析など、正規性を前提とする分析は SPSS Statistics Base で実行できます。残差の正規性の診断や高度なモデルでは、追加モジュールの検討が必要になることもあります。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
つまずきやすいポイントと注意点
中心極限定理のおかげで、データの数が十分あれば、平均値を扱う手法はきちんと使えます。どうしても正規性が満たせず、データも少ない場合は、マン・ホイットニーのU検定などのノンパラメトリック手法に切り替えます。
正規性検定が有意 = 手法が使えない、ではありません。とくにデータが多いと過敏に棄却されます。p値ではなく、分布の形とずれの程度で判断しましょう。
正規分布を仮定するのは「データそのもの」とはかぎりません。回帰分析では残差、グループ比較では各グループ内の分布が対象です。何の正規性なのかを意識してください。
ログ変換は万能ではありません。右に裾を引く分布には効きますが、左に歪んだ分布や、山が複数ある分布には効きません。変換は目的を持って行います。

