統計学超入門⑤|データの分布を見る:度数分布表とヒストグラム

1. なぜ「分布」を見る必要があるのか

第4回では、

  • 平均

  • 分散

  • 標準偏差

という要約指標を学びました。ここで、少し立ち止まって考えてみましょう。

平均や標準偏差は、
データの「どの部分」を見ている数字なのか?

実はこれらの数値は、データの分布(distribution)という全体像を、無理やり一言で表したものにすぎません。

つまり、

分布を見ずに平均を語るのは、
地図を見ずに目的地を決めるようなもの

なのです。

2. 分布とは「データの並び方」

分布とは、とてもシンプルに言えば、

データがどの値に、どれくらい集まっているか

を表したものです。同じ平均・同じ標準偏差でも、

  • 山が1つの分布

  • 山が2つある分布

  • 端に偏った分布

など、まったく異なる姿をしていることがあります。この「姿」を確認するための道具が、

  • 度数分布表

  • ヒストグラム

です。

3. 度数分布表とは何か

データを「区間」に分けて数える

度数分布表は、

データをいくつかの区間(階級)に分け、
それぞれに何件あるかを数えた表

です。

例えばテストの点数であれば、

  • 0〜9点

  • 10〜19点

  • 20〜29点

といった区間を作り、

  • その区間に何人いるか

    を整理します。

なぜそのまま並べないのか

「点数をそのまま並べればいいのでは?」
と思うかもしれません。

しかし、データが増えるほど、

  • どこに集中しているのか

  • どこが少ないのか

が分かりにくくなります。

度数分布表は、

情報を捨てずに、見やすくするための整理

なのです。


4. ヒストグラムとは何か

表を「絵」にしたもの

ヒストグラムは、

度数分布表を、棒グラフとして可視化したもの

です。

横軸に「値の区間」、
縦軸に「件数(度数)」を取り、

  • どこに山があるか

  • どれくらい広がっているか

    を一目で確認できます。

ヒストグラムで分かること

ヒストグラムを見ると、次のようなことが分かります。

  • 分布の中心はどこか

  • 左右対称か、偏っているか

  • 外れた値がありそうか

  • 山は1つか、複数あるか

これは、

平均や標準偏差だけでは絶対に分からない情報

です。


5. 「分布を見る」と何が変わるのか

ここで、統計的にとても重要な視点を紹介します。

同じ平均でも、分布は違う

  • 正規分布に近いデータ

  • 右に長い尾を引くデータ

  • 左に偏ったデータ

    これらは、同じ平均・標準偏差を持つことがあります。

しかし、

  • 分析方法の選択

  • 検定の前提

  • 解釈の仕方


    は、大きく変わります。つまり、

分布を見ない分析は、
前提を確認しない議論

になってしまうのです。


6. 分布を見る癖は「統計リテラシー」

研究でもビジネスでも、

  • 「まずヒストグラムを見る」

  • 「基本的な指標の分布を確認する」

    という行為は、
  • 統計リテラシーの基本動作です。

いきなり、

  • 相関係数

  • 検定結果

  • 回帰係数

を見る前に、

このデータは、どんな形をしているのか?

と問いかける。

これができるだけで、統計の理解度は一段上がります。

7. なぜ正規分布が重要になるのか

ヒストグラムを見ていると、よく出てくる形があります。

  • 真ん中が高く

  • 左右にだんだん低くなる

いわゆる 「釣鐘型」 の分布です。

これが次回以降で扱う、

正規分布

につながっていきます。

多くの統計手法が「正規分布に近い」という前提で作られている理由も、ここから見えてきます。

8. 次回へのつながり

次回・第6回では、

  • 相関とは何か

  • なぜ「関係がある」と言えるのか

    を扱います。

ただし、

相関もまた「分布」を前提にした考え方

です。

第5回で学んだ「まず分布を見る」という視点が、ここで効いてきます。

第5回のまとめ

  • 分布とは「データの並び方・形」

  • 度数分布表は、データを区間で整理する方法

  • ヒストグラムは、分布を目で確認する道具

  • 平均や標準偏差は、分布の一部を切り取った数字にすぎない

  • 分布を見ることが、統計の出発点

ここまで来ると、統計は「計算」ではなく「データの性格を読む作業」だと実感できるはずです。

次回、第6回で
「関係性」をどう捉えるのかに進みましょう。