統計学超入門⑤|データの分布を見る:度数分布表とヒストグラム
1. なぜ「分布」を見る必要があるのか
第4回では、
平均
分散
標準偏差
という要約指標を学びました。ここで、少し立ち止まって考えてみましょう。
平均や標準偏差は、
データの「どの部分」を見ている数字なのか?
実はこれらの数値は、データの分布(distribution)という全体像を、無理やり一言で表したものにすぎません。
つまり、
分布を見ずに平均を語るのは、
地図を見ずに目的地を決めるようなもの
なのです。
2. 分布とは「データの並び方」
分布とは、とてもシンプルに言えば、
データがどの値に、どれくらい集まっているか
を表したものです。同じ平均・同じ標準偏差でも、
山が1つの分布
山が2つある分布
端に偏った分布
など、まったく異なる姿をしていることがあります。この「姿」を確認するための道具が、
度数分布表
ヒストグラム
です。
3. 度数分布表とは何か
データを「区間」に分けて数える
度数分布表は、
データをいくつかの区間(階級)に分け、
それぞれに何件あるかを数えた表
です。
例えばテストの点数であれば、
0〜9点
10〜19点
20〜29点
…
といった区間を作り、
その区間に何人いるか
を整理します。
なぜそのまま並べないのか
「点数をそのまま並べればいいのでは?」
と思うかもしれません。
しかし、データが増えるほど、
どこに集中しているのか
どこが少ないのか
が分かりにくくなります。
度数分布表は、
情報を捨てずに、見やすくするための整理
なのです。
4. ヒストグラムとは何か
表を「絵」にしたもの
ヒストグラムは、
度数分布表を、棒グラフとして可視化したもの
です。
横軸に「値の区間」、
縦軸に「件数(度数)」を取り、
どこに山があるか
どれくらい広がっているか
を一目で確認できます。
ヒストグラムで分かること
ヒストグラムを見ると、次のようなことが分かります。
分布の中心はどこか
左右対称か、偏っているか
外れた値がありそうか
山は1つか、複数あるか
これは、
平均や標準偏差だけでは絶対に分からない情報
です。
5. 「分布を見る」と何が変わるのか
ここで、統計的にとても重要な視点を紹介します。
同じ平均でも、分布は違う
正規分布に近いデータ
右に長い尾を引くデータ
左に偏ったデータ
これらは、同じ平均・標準偏差を持つことがあります。
しかし、
分析方法の選択
検定の前提
解釈の仕方
は、大きく変わります。つまり、
分布を見ない分析は、
前提を確認しない議論
になってしまうのです。
6. 分布を見る癖は「統計リテラシー」
研究でもビジネスでも、
「まずヒストグラムを見る」
「基本的な指標の分布を確認する」
という行為は、- 統計リテラシーの基本動作です。
いきなり、
相関係数
検定結果
回帰係数
を見る前に、
このデータは、どんな形をしているのか?
と問いかける。
これができるだけで、統計の理解度は一段上がります。
7. なぜ正規分布が重要になるのか
ヒストグラムを見ていると、よく出てくる形があります。
真ん中が高く
左右にだんだん低くなる
いわゆる 「釣鐘型」 の分布です。
これが次回以降で扱う、
正規分布
につながっていきます。
多くの統計手法が「正規分布に近い」という前提で作られている理由も、ここから見えてきます。
8. 次回へのつながり
次回・第6回では、
相関とは何か
なぜ「関係がある」と言えるのか
を扱います。
ただし、
相関もまた「分布」を前提にした考え方
です。
第5回で学んだ「まず分布を見る」という視点が、ここで効いてきます。
第5回のまとめ
分布とは「データの並び方・形」
度数分布表は、データを区間で整理する方法
ヒストグラムは、分布を目で確認する道具
平均や標準偏差は、分布の一部を切り取った数字にすぎない
分布を見ることが、統計の出発点
ここまで来ると、統計は「計算」ではなく「データの性格を読む作業」だと実感できるはずです。
次回、第6回で
「関係性」をどう捉えるのかに進みましょう。

