統計学超入門③|データを要約するとは?大量の数字から意味を取り出す
1. なぜ「要約」が必要なのか
前回、第2回では統計には「記述統計」と「推測統計」があるという話をしました。
ここで一つ、重要な問いを立ててみましょう。
データが100件、1,000件、10,000件あったとき、
私たちはそれを「どう理解」すればよいのでしょうか?
Excelに並んだ数字を、上から下まで眺めても、人間の頭はほとんど何も理解できません。
そこで登場するのが、
データを要約する(summarize)
という考え方です。
統計とは、
「個々のデータを見る学問」ではなく、
「全体の特徴を捉える学問」
でもあります。
2. データは「そのまま」では情報にならない
例えば、次のようなデータを考えてみます。
あるクラス30人のテストの点数
ある商品の100人分の満足度スコア
1年間の毎日の売上データ
これらはすべて「データ」ですが、
多いのか、少ないのか
高いのか、低いのか
偏っているのか、ばらついているのか
といったことは、そのままでは分かりません。
ここで重要なのは、
データ = 数値 + 情報
という事実です。
統計学は、データを「意味のある情報」に変換する技術とも言えます。
3. 要約とは「代表させる」こと
データを要約するとは、単に数を減らすことではありません。
本質は、
大量のデータを、
少数の指標で「代表」させること
です。
例えば、
クラス全体の学力 → 平均点
売上の傾向 → 中央値や平均との差
商品評価の特徴 → 分布の形
といったように、全体像を一言で説明できる状態を作ることが要約です。
この「代表」という発想は、後の推測統計・検定・回帰分析すべての土台になりますので覚えておきましょう。
4. 要約には「2つの軸」がある
データの要約は、大きく2つの観点から行われます。
① 中心を表す(どのあたりに集まっているか)
データは全体として高いのか、低いのか
典型的な値はどのあたりか
これを表すのが、平均・中央値・最頻値 といった指標です。
(※これらは次回・第4回で詳しく扱います)
② ばらつきを表す(どれくらい散らばっているか)
同じ平均点でも、
みんな同じくらいの点数なのか
高得点と低得点が混在しているのか
では、意味はまったく異なります。そこで必要になるのが、
分散
標準偏差
範囲(最大値−最小値)
といったばらつきの指標です。
要約とは、「中心」と「ばらつき」をセットで考えることだと言えます。
5. 要約がすべてではない
ここで一つ、重要な注意点があります。
要約は便利ですが、すべてを語ってくれるわけではありません。
例えば、
平均だけを見ると、極端な値(外れ値)を見落とす
1つの指標だけでは分布の形が分からない
ということが頻繁に起こります。
つまり、
要約とは「思考の省略」ではなく、「思考の入口」
といえるのです。
良い分析ほど、「要約 → 可視化 → 再確認」が可能です。¥
6. 研究でもビジネスでも同じ考え方
この「要約」の発想は、
論文の Table 1
アンケート集計
ダッシュボードのKPI
経営会議の1枚サマリー
など、あらゆる場面で使われています。
研究者は、
「このサンプルはどんな特徴を持つのか?」
ビジネスでは、
「この数字は“普通”なのか、“異常”なのか?」
を判断するために、まず要約を見るのです。
統計学超入門では、この「考え方」を最優先で身につけていきます。
7. 次回へのつながり
次回・第4回では、今回出てきた要約指標の中でも特に重要な
平均
分散
標準偏差
について、なぜそう定義されているのか。何が分かって、何が分からないのか。を、数式を最小限にして解説します。
「平均が同じでも、全然違うデータがある」
という統計の面白さが、ここで一気に見えてきます。
第3回のまとめ
統計は「大量のデータ」から「全体像」をつかむ学問
要約とは、データを少数の指標で代表させること
要約は「中心」と「ばらつき」の2軸で考える
要約は答えではなく、分析のスタート地点
次回から、いよいよ具体的な数値指標に入ります。ここまで来れば、統計はもう“得体の知れない存在”ではありません。


