統計学超入門④|平均・分散・標準偏差とは何か?ばらつきを理解する

1. なぜ平均だけでは足りないのか

前回・第3回では、データを要約するには「中心」と「ばらつき」の2つが必要という話をしました。

ここで、よくある誤解から始めましょう。

「平均が分かれば、だいたい分かるのでは?」

実はこれは、統計を学び始めた人が必ず一度は通る落とし穴です。

例えば次の2つのクラスを考えてみてください。

  • クラスA:ほぼ全員が70点前後
  • クラスB:30点と100点の生徒が混在

この2つのクラスは、平均点が同じ70点になることがあります。

しかし、「同じ状態」と言えるでしょうか?

この違いを捉えるために登場するのが、分散標準偏差です。

2. 平均とは「中心を代表させる」値

まずは、もっとも有名な指標から見ていきましょう。

平均(mean)とは何か

平均とは、

すべての値を足して、個数で割ったもの

です。

これは直感的にも分かりやすく、「全体の中心」を一つの数で表すのに適しています。

そのため、

  • テストの平均点
  • 平均売上
  • 平均年収

など、日常でも頻繁に使われています。

平均の弱点

ただし、平均には明確な弱点があります。

それは、

極端な値(外れ値)の影響を強く受ける

という点です。

一部の非常に大きな値・小さな値があるだけで、「典型的」とは言いにくい数字になってしまうことがあります。

つまり平均は、

  • 便利だが
  • 単独では危うい

指標なのです。

3. 分散とは「ばらつきを数値化する」発想

そこで次に登場するのが、分散です。

なぜ「ばらつき」を測る必要があるのか

平均が同じでも、

  • まとまったデータ
  • バラバラなデータ

では、意味が大きく異なります。

分散は、

データが平均からどれくらい散らばっているか

を数値で表そうとする試みです。

分散の考え方(直感的に)

分散は、ざっくり言うと次の手順で考えます。

  1. 各データが「平均からどれくらい離れているか」を見る
  2. そのズレをすべて考慮する
  3. 全体としての「散らばり具合」を一つの数にする

ここで重要なのは、

平均との差そのものではなく、
「平均との差の大きさ」を見ている

という点です。

(正負が打ち消し合わないようにする工夫がされています)

分散の特徴

  • 分散が小さい → データが平均の近くに集まっている
  • 分散が大きい → データが広く散らばっている

分散は、データの安定性・一様性を判断する重要な材料になります。

4. 標準偏差とは「使いやすくした分散」

ここで、多くの人がこう感じます。

「分散って、ちょっと分かりにくい…」

それは自然な感覚です。

なぜなら、分散は
元のデータの単位が二乗されている
からです。

(点数なら「点の二乗」、売上なら「円の二乗」)

標準偏差の役割

そこで登場するのが、標準偏差です。

標準偏差は、

分散を、元の単位に戻したもの

と考えてください。

その結果、

  • 平均 ± 標準偏差
  • 「だいたいこの範囲に収まる」

といった形で、直感的に解釈できる指標になります。

なぜ標準偏差がよく使われるのか

標準偏差は、

  • データの散らばりを
  • 元の尺度のまま
  • 一つの数で表せる

という点で、
研究でもビジネスでも最も多用される指標です。

論文、レポート、ダッシュボードで
平均とセットで必ず出てくる理由がここにあります。

5. 「平均+標準偏差」で初めて見える世界

ここまでを整理すると、

  • 平均 → データの中心
  • 標準偏差 → データのばらつき

という役割分担になります。

重要なのは、

平均だけを見るのではなく、
標準偏差と必ずセットで考えること

です。

同じ平均でも、

  • 標準偏差が小さい → 安定した集団
  • 標準偏差が大きい → 個人差の大きい集団

という、質的な違いが見えてきます。

6. なぜ統計は「この3つ」から始まるのか

多くの統計分析で、最初に出てくるのは

  • 平均
  • 分散
  • 標準偏差

です。

これは偶然ではありません。

これらは、

  • データの中心
  • データの広がり

という、分布の基本構造を最小限の情報で表現できるからです。

この理解がないまま、

  • 相関
  • 検定
  • 回帰分析

に進むと、数字は見えても「意味」が見えなくなります。

7. 次回へ

次回・第5回では、

  • 度数分布表
  • ヒストグラム

を使って、平均や標準偏差が「どこから来た数字なのか」を視覚的に確認していきます。

数字だけでは分からなかったことが、
一気に「形」として見えてくる回です。

第4回のまとめ

  • 平均は「中心」を表すが、それだけでは不十分
  • 分散は「ばらつき」を数値化する考え方
  • 標準偏差は、分散を実用的にした指標
  • 平均と標準偏差は必ずセットで解釈する

ここまで来れば、統計は「公式の暗記」ではなく「データの性格を読む言語」だと感じられるはずです。

次回、第5回で「分布」を“目で見る”ところまで進みましょう。