標準偏差と分散とは?違いと求め方をやさしく解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 標準偏差と分散は、どちらも「データがどれくらいばらついているか」を表す数値です。名前が似ていて混乱しやすいのですが、違いはとてもシンプルで「単位」だけ。分散は計算しやすいように二乗したままの値、標準偏差はその平方根をとって元の単位に戻した値です。このページでは、つまずきやすいところを先回りしながら、定義と数式の意味、標本分散をn−1で割る理由、68-95-99.7ルールの使い方、SPSSでの求め方までを、順番にていねいに見ていきます。
- 標準偏差と分散は、どちらも「データのばらつき」を表す。違いは単位だけ
- 分散は計算しやすい二乗のままの値。標準偏差はそれを元の単位に戻した値
- 標本分散を n−1 で割るのは、自由度を補正して母分散を正しく見積もるため(不偏分散)
- 正規分布に近いとき、標準偏差は「68-95-99.7ルール」というものさしになる
標準偏差と分散で何が分かるのか
平均値は、データの「真ん中」を教えてくれます。でも、平均だけではデータの姿は半分しか見えません。
たとえば、平均点が同じ60点のテストでも、クラスの全員が58〜62点に固まっている場合と、30点台の人と90点台の人に分かれている場合とでは、まったく様子が違いますよね。前者は実力がそろっていて、後者は大きく差が開いている。この「真ん中からの散らばり具合」をひとつの数値にまとめてくれるのが、分散と標準偏差です。
標準偏差と分散が答えてくれるのは、「データは平均の近くにギュッと集まっているのか、それとも広く散らばっているのか」という問いです。値が小さいほどデータは平均の近くに密集し、大きいほど広く散らばっています。
平均は「どこを中心にしているか」、標準偏差・分散は「どれくらい広がっているか」。この2つはセットで、はじめてデータの姿を語れます。どちらか一方だけでは、いつも半分しか見えていないと考えてください。
分散とは何か
分散(variance)は、それぞれのデータが平均からどれだけ離れているかを二乗して、その平均をとった値です。
標本分散 s² = Σ(xᵢ − x̄)² ÷ (n − 1)
μ は母平均、x̄ は標本平均、N・n はデータの個数です。式が少し難しく見えるかもしれませんが、考え方を順番に追えば大丈夫です。
なぜ「差」をそのまま足さないのか
ばらつきを測るなら、それぞれのデータと平均の差(偏差)を全部足せばよさそうに思えます。ところが、偏差をそのまま合計すると、必ずゼロになってしまいます。平均より上にある分と下にある分が、ちょうど打ち消し合うからです。これではばらつきの大きさを測れません。
なぜ「二乗」するのか
打ち消し合いを防ぐ方法は二つあります。絶対値をとる方法と、二乗する方法です。統計学が二乗を選んだのは、二乗した量のほうが数学的に扱いやすく、後に学ぶ多くの手法ときれいにつながるからです。分散分析・回帰分析など、これから出会う手法の多くは、この「二乗和」の考え方の上に組み立てられています。
ただ、二乗したことで単位も二乗されてしまいます。テストの点数(点)の分散は「点²」という、ちょっと想像しにくい単位になります。この使いにくさを補ってくれるのが、次に出てくる標準偏差です。
標準偏差とは何か
標準偏差(standard deviation)は、分散の正の平方根です。
平方根をとると、単位が元に戻ります。テストの点数なら、標準偏差の単位も「点」です。「平均70点、標準偏差8点」と言われれば、だいたい62〜78点あたりに多くの人が散らばっているな、とすぐにイメージできます。これは「分散64点²」と言われても、なかなか思い浮かばないものです。
学ぶうえでは、計算の途中では分散を使い、結果を読み取ったり説明したりするときには標準偏差を使う、という流れを覚えておくと迷いません。両者は同じことを別の単位で表しているだけで、対立する指標ではありません。
レポートや論文では「M = 70.2, SD = 8.1」のように、平均(M)と標準偏差(SD)をセットで書くのが決まった形です。分散をそのまま書く場面は、分散分析の結果表など、限られています。
なぜ標本分散は n−1 で割るのか
学びはじめた方がいちばん「なぜ?」と立ち止まるのが、標本分散の分母です。データが n 個あるのに、どうして n ではなく n−1 で割るのでしょうか。授業や相談の場で、私はこの質問を本当に何度も受けてきました。
理由は「自由度(degrees of freedom)」の補正です。標本分散を計算するとき、私たちは母平均 μ を知らないので、代わりに標本平均 x̄ を使います。ところが標本平均は、そのデータ自身から計算した値なので、データに少し「寄り添って」います。その結果、x̄ のまわりで測った偏差二乗和は、本当の μ のまわりで測ったときより、構造的に小さくなってしまいます。
このまま n で割ると、母分散をいつも小さめに見積もることになります。これを補うために、分母をひとつ小さい n−1 にして、値をほんの少し大きくします。x̄ をひとつ推定に使ったことで、データが自由に動ける数が n から n−1 に減った——これが「自由度が1失われる」という言い回しの意味です。n−1 で割って得られる分散は、母分散をかたよりなく推定してくれるので、不偏分散と呼ばれます。
データの個数が多いほど、n と n−1 の差はほとんど気にならなくなります(n=1000 なら差は0.1%)。補正が効いてくるのは、データが少ないときです。SPSSの「記述統計量」が出す分散・標準偏差は、はじめから n−1 ベース(不偏)になっています。
標準偏差の解釈:68-95-99.7ルール
データが正規分布に近いとき、標準偏差は分布をはかる「ものさし」として、とても頼りになります。
| 範囲 | 含まれるデータの割合 |
|---|---|
| 平均 ± 1SD | 約68.3% |
| 平均 ± 2SD | 約95.4% |
| 平均 ± 3SD | 約99.7% |
これを68-95-99.7ルール(経験則)と呼びます。平均70点・標準偏差8点のテストなら、約68%の人が62〜78点、約95%の人が54〜86点に収まる、と読み替えられます。
このルールは、極端な値(外れ値)を見つけるときにも役立ちます。平均から3SD以上離れた値は、出てくる確率が0.3%にも満たないので、「これはかなり珍しい値だ」と判断できます。ただし、この読み方は分布が正規分布に近いことが前提です。分布が大きく歪んでいるときは割合がずれてしまうので、まずヒストグラムなどで分布の形を確かめてから使ってください。
母集団と標本──記号の使い分け
分散・標準偏差は、対象が母集団なのか標本なのかで、記号と分母が変わります。混乱しやすいところなので、表で整理しておきましょう。
| 区分 | 平均 | 分散 | 標準偏差 | 分母 |
|---|---|---|---|---|
| 母集団 | μ | σ² | σ | N |
| 標本 | x̄ | s² | s | n − 1 |
調査や研究で実際に手元にあるのは、ほとんどの場合「標本」です。ですから、みなさんが計算するのは標本分散・標本標準偏差(n−1ベース)だと考えて、まず差し支えありません。母集団そのものをまるごと把握できるのは、かなり例外的な場面です。
関連するばらつき指標との違い
ばらつきを測る指標は、標準偏差だけではありません。場面に応じて使い分けられると、ぐっと理解が深まります。
| 指標 | 何を測るか | 向いている場面 | 外れ値への強さ |
|---|---|---|---|
| 標準偏差 / 分散 | 平均からの散らばり | 分布が左右対称に近いとき | 弱い(敏感) |
| 範囲(レンジ) | 最大値 − 最小値 | ばらつきをざっくりつかむ | とても弱い |
| 四分位範囲(IQR) | 真ん中50%の幅 | 歪んだ分布、外れ値が多いとき | 強い |
| 変動係数(CV) | 標準偏差 ÷ 平均 | 単位や平均が異なるデータの比較 | 弱い |
| 標準誤差(SE) | 標本平均のばらつき | 平均値の推定の精度を示すとき | 弱い |
とくに混同されやすいのが、標準偏差と標準誤差です。標準偏差は「個々のデータのばらつき」、標準誤差は「標本平均という推定値のばらつき」を表し、SE = s ÷ √n という関係があります。グラフのエラーバーがSDなのかSEなのかで意味がまったく変わってしまうので、図表ではどちらかを必ず書き添えてください。
SPSSでの求め方
IBM SPSS Statistics では、「分析」→「記述統計」→「記述統計量」を選び、対象の変数を指定して「オプション」で標準偏差・分散にチェックを入れると求められます。「度数分布表」や「探索的」のメニューからも出せます。
出力表で「標準偏差」と表示される値は不偏(n−1ベース)です。これを二乗すれば分散と一致します。あわせて歪度・尖度も出しておき、68-95-99.7ルールを当てはめてよい分布の形かどうかを確かめておくと安心です。標準偏差・分散は、t検定・分散分析・回帰分析など多くの手法の内部で使われる基礎の数値なので、本格的な分析の前に「まず記述統計量を出す」のがおすすめの進め方です。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
つまずきやすいポイントと注意点
ばらつきが小さいほうが望ましい場面もあれば、ばらつきそのものを知りたい場面もあります。小さければ良い、という思い込みは手放しておきましょう。
外れ値に弱いことを知っておきます。標準偏差は偏差を二乗するので、極端な値がひとつあるだけで大きくふくらみます。外れ値が疑われるデータでは、四分位範囲を併せて見るか、外れ値をどう扱うかを先に決めてください。
単位が違うデータを標準偏差で直接比べないようにします。身長(cm)の標準偏差と体重(kg)の標準偏差を「どちらが大きい」と比べても、意味がありません。単位をまたいで比べたいときは、変動係数を使います。
正規分布を前提にした読み方に注意します。68-95-99.7ルールは、分布が正規分布に近いときの経験則です。分布が大きく歪んでいるときは、この割合は成り立ちません。

