度数分布表とは?作り方と読み方をやさしく解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 度数分布表は、データのそれぞれの値や階級に「いくつ観測があったか」を整理した、いちばん基本的な記述統計の表です。一見するとただの集計表ですが、データの偏りやばらつき、極端な値の気配を読み取る出発点であり、平均や検定に進む前に、まず通っておきたい入口です。このページでは、度数分布表の役割、作り方、階級の決め方、相対度数・累積度数の意味、ヒストグラムや正規性の確認とのつながりまでを、順番に見ていきます。
- 度数分布表は、データがどの値・どの範囲にどれだけ集まっているかを整理した、いちばん基本の表
- 連続的なデータは階級(区間)に区切ってから数える。階級数の目安はスタージェスの公式
- 相対度数は「割合」、累積度数は「積み上げ」。グループ比較や中央値の読み取りに使う
- 度数分布表とヒストグラムは同じ情報の「表」と「図」。セットで分布の形と外れ値を確かめる
度数分布表で何が分かるのか
度数分布表が答えてくれるのは、「データが、どの値・どの範囲に、どれだけ集まっているか」という問いです。
統計の分析は、大きく記述統計と推測統計に分かれます。度数分布表は記述統計の代表的な手法で、母集団を推測する前の段階として、手元の標本データの姿を目に見える形にしてくれます。私はデータ分析の相談を受けるとき、まず「度数分布表を見せてください」とお願いすることがよくあります。それくらい、最初の一歩として大切な表だからです。
なぜこの段階が欠かせないのでしょうか。それは、平均値だけではデータの姿が見えないからです。たとえば5段階のアンケートで、平均が同じ3.0でも、回答が「3」に集中している場合と、「1」と「5」に二分している場合とでは、まったく意味が違いますよね。前者は意見がそろっていて、後者は評価が真っ二つに割れている。この違いは、度数分布表を見てはじめてわかります。
t検定や回帰分析などの推測統計は、分布の形に影響を受けます。分析に進む前の前提確認として、度数分布表は欠かせない作業です。
尺度水準と度数分布表の読み方
度数分布表の作り方と読み方は、データの尺度水準によって変わります。
| 尺度水準 | 例 | 度数分布表の作り方 | 注目するところ |
|---|---|---|---|
| 名義尺度 | 性別、学部、出身地 | カテゴリごとに件数を数える | どのカテゴリが多い/少ないか |
| 順序尺度 | 5段階アンケート、満足度 | 回答の選択肢ごとに件数を数える | 回答の偏り、中央値の位置 |
| 間隔・比率尺度 | 年齢、テストの点数、身長 | 階級(区間)に区切って数える | 分布の形、山の数、裾の引き方 |
名義尺度・順序尺度は、値の種類がかぎられているので、値ごとにそのまま数えれば度数分布表になります。一方、間隔・比率尺度は連続的な値をとるので、いくつかの階級(区間)にまとめてから数える「階級化」という作業が必要です。
とくに5段階のアンケートでは、平均値だけでなく、回答の分布そのものを確かめることが大切です。平均が高くても、一部の極端な回答に引っぱられているだけかもしれません。
度数分布表の作り方
間隔・比率尺度のデータを度数分布表にする手順を見ていきましょう。
- データの範囲を確かめる:最大値と最小値を見て、範囲(レンジ)を求めます。
- 階級数を決める:いくつの区間に分けるかを決めます(次に説明するスタージェスの公式が目安になります)。
- 階級の幅を決める:範囲 ÷ 階級数 で、だいたいの幅を出し、切りのよい数値に丸めます。
- それぞれの階級に観測数を振り分ける:各データがどの階級に入るかを数えます。
- 相対度数・累積度数を計算する:必要に応じて、割合や累積の値を加えます。
階級の境界は、重ならないようにはっきり決めます(たとえば「20以上30未満」「30以上40未満」のように)。境界上の値がどちらの階級に入るかを曖昧にしないことが、誰が作っても同じになる表を作るコツです。
階級数の決め方──スタージェスの公式
連続的なデータを度数分布表に整理するとき、階級をいくつに分けるかは、見え方を大きく左右します。階級が少なすぎると分布の特徴がつぶれてしまい、多すぎると凸凹してパターンが読めなくなります。
古くから知られる目安が、スタージェスの公式です。
常用対数を使う場合: k = 1 + 3.322 × log₁₀(n)
k は階級数、n はデータの個数です。たとえば n = 100 なら k ≈ 7.6 となり、7〜8階級くらいがすすめられます。
この公式は正規分布に近いデータを前提とした経験則です。強く歪んだ分布や、データがとても多い場合は、平方根則(k ≈ √n)など別の規則のほうが合うこともあります。最後は、いくつかの階級数を試してヒストグラムの見え方を見比べ、分布の特徴がいちばん素直に表れる設定を選びましょう。
度数・相対度数・累積度数の意味
度数分布表には、目的に応じていくつかの列を加えます。
度数(fᵢ)
それぞれの階級に入る観測数そのものです。
相対度数(pᵢ)
度数を、全体に占める割合に直したものです。
相対度数の合計は必ず1になります。これは、相対度数が確率分布をおおまかに近似したものとして読める、ということです。データの数が違うグループ同士を比べたいときは、度数そのものではなく相対度数で比べます。
累積度数・累積相対度数
ある階級までの度数(または相対度数)を積み上げた値です。「○○点未満が全体の何%か」という問いに答えてくれます。累積相対度数は経験分布関数を近似したもので、中央値やパーセンタイルを読み取る手がかりになり、推測統計への橋渡しになります。
度数分布表とヒストグラムの違い
度数分布表とヒストグラムは、同じ情報を「表」と「図」で表したものです。
| 項目 | 度数分布表 | ヒストグラム |
|---|---|---|
| 形式 | 数値の表 | 棒グラフ(柱状図) |
| 強み | 正確な数値が読める。集計や計算に使える | 分布の形を直感的につかめる |
| 向く場面 | レポートでの数値の提示、相対度数・累積度数の確認 | 山の数、歪み、外れ値を目で見て確かめる |
実際には、両方をセットで使います。度数分布表で正確な数値を押さえ、ヒストグラムで分布の形(左右対称か、歪んでいるか、山がひとつか複数か)を確かめる、という役割分担です。
なお、棒グラフ(バーチャート)は名義尺度のカテゴリを比べるためのもので、連続的なデータの分布を表すヒストグラムとは別物です。柱の間を空けるかどうかで見分けられます。
度数分布表が役立つ場面
アンケート・満足度調査
まず度数分布を確かめます。平均値が高くても、一部の極端な回答に引っぱられているかもしれません。回答の偏りは、設問の作り方やサンプルの集め方に問題があったことを示している場合もあります。
研究データの最初の確認
実験や調査で集めたデータは、いきなり検定にかける前に、度数分布表で「変な値が混じっていないか」「分布の形はどうか」を確かめます。卒論・レポートでも、この一手間が結果の信頼性を支えます。
正規性の事前確認
多くの推測統計の手法は、誤差が正規分布に従うことを前提にしています。その確認の第一歩が、度数分布表とヒストグラムで目で見て確かめることです。シャピロ・ウィルク検定などの正規性の検定もありますが、データが多いと小さな歪みでも有意になりやすいので、目で見る確認と、歪度・尖度を併せて見ることが大切です。
推測統計への接続
度数分布表は、推測統計の手前で必ず効いてきます。正規分布の確率密度関数は次の式で表され、多くの検定はこの形に近い誤差分布を仮定しています。
回帰分析や相関分析は、外れ値や歪んだ分布の影響を強く受けます。分布を確かめないまま推測統計に進むと、結果が不安定になることがあります。また、カテゴリ変数をまとめ直す必要があるか、対数変換をすべきか、といった判断も、度数分布表を見てはじめて下せます。度数分布表は「分析の前に必ず通る検問所」だと考えてください。
SPSSでの作り方
IBM SPSS Statistics では、「分析」→「記述統計」→「度数分布表」から、かんたんに出力できます。対象の変数を指定すると、度数・相対度数(パーセント)・累積パーセントが一覧で表示されます。「図表」のオプションでヒストグラムも同時に出せ、「正規曲線を表示」にチェックを入れると分布の形を確かめやすくなります。
連続的な変数を階級に分けたいときは、「変換」→「連続変数のカテゴリ化(ビン分割)」を併せて使います。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
つまずきやすいポイントと注意点
分布の偏りや、外れ値の気配を読み取る、分析の一部です。作って終わりにせず、「ここから何が言えるか」まで読み込みましょう。
階級数に唯一の正解はありません。スタージェスの公式はあくまで目安です。いくつかの設定を試し、分布の特徴が素直に見える階級数を選びます。
度数だけで、数の違うデータを比べないようにします。比べるときは相対度数を使います。
データが少ないと、分布は不安定になります。データの数が少ないと、階級ごとの度数が偶然に左右されます。少数のデータの度数分布表は、傾向を見る参考程度にとどめましょう。

