相関分析とは?相関係数の意味と使い方をやさしく解説
みなさん、こんにちは。スマート・アナリティクスの畠です。 相関分析は、2つの変数がどれくらいいっしょに増えたり減ったりするか——関係の強さと向き——を、相関係数という数値で表す分析です。注意してほしいのは、相関分析は因果関係(原因と結果)を直接示すものではない、ということです。それでも、次にどんな分析へ進むかを決めるための材料として、相関分析はとても大切な「最初の一歩」になります。このページでは、相関係数の読み方、ピアソン・スピアマン・ケンドールの使い分け、相関と因果の違い、そして陥りやすい落とし穴までを、ていねいに見ていきます。
- 相関分析は、2変数の関係の「強さ」と「向き」を相関係数(−1〜+1)で表す分析
- 正の相関は一方が増えると他方も増える、負の相関は逆。0に近いと直線的な関係が弱い
- ピアソンは連続量、スピアマンは順位データ・外れ値に強い。データの尺度で使い分ける
- 相関は「関連」を示すだけで因果(原因と結果)は示さない——いちばん大きな落とし穴
相関分析で何が分かるのか
相関分析でわかるのは、2つの変数のあいだに「関係がありそうか」、そして「どの向きに、どれくらい強い関係か」という2つのことです。ふつうは相関係数(多くの場合は r)を使い、−1から+1の範囲で関係を表します。
相関係数の符号は、関係の向きを示します。正の相関(r > 0)は、一方が増えるともう一方も増える傾向、負の相関(r < 0)は、一方が増えるともう一方は減る傾向です。相関係数が0に近いときは、直線的な関係が弱い、ということを意味します。
ただし「0に近い = 関係がまったくない」と決めつけることはできません。相関係数が主にとらえるのは直線的な関係であり、U字型のような曲がった関係は、うまくとらえられないことがあります。散布図を併せて見ることがどうしても欠かせないのは、このためです。
相関分析は、研究では回帰分析やSEMへ進む前の段階として、よく使われます。「次に何をするかを決めるための分析」だと考えてください。
相関係数の強さの目安
相関係数の絶対値から、関係の強さをおおまかに読み取れます。
| 相関係数 r(絶対値) | 関係の強さ |
|---|---|
| 0.0 〜 0.2 | ほとんど相関なし |
| 0.2 〜 0.4 | 弱い相関 |
| 0.4 〜 0.7 | 中くらいの相関 |
| 0.7 〜 1.0 | 強い相関 |
この区切りは、あくまで一般的な目安です。分野によって基準は異なり、たとえば心理学や社会科学では、r = 0.3 でも意味のある相関とみなされることがあります。数値を機械的に当てはめるのではなく、自分の研究分野の慣行と、その関係がどれだけ重要かを併せて考えてください。
もうひとつ大切なのは、相関が「統計的に有意」であることと、相関が「強い」ことは別の話だ、という点です。データの数が多いと、ごく弱い相関でも有意になります。p値(有意かどうか)と相関係数の大きさ(関係の強さ)は、必ず両方を確かめましょう。
相関分析の代表的な種類
相関分析と一口に言っても、データの性質や目的によって、使う相関係数は変わります。代表的な3つを整理します。
| 相関係数 | 対象データ | 向いている場面 |
|---|---|---|
| ピアソンの積率相関係数 | 連続量(間隔・比率尺度) | 2変数とも連続量で、直線的な関係を見たいとき |
| スピアマンの順位相関係数 | 順序尺度以上 | 順序尺度のデータ、外れ値の影響を抑えたいとき |
| ケンドールの順位相関係数(τ) | 順序尺度以上 | データが少ないとき、同順位が多いとき |
ピアソンの積率相関係数は、いちばんよく使われ、連続量の変数同士の直線的な関係を表します。多くの統計ソフトで、ただ「相関係数」と言えば、これを指します。正規分布に近いことを前提とし、外れ値の影響を受けやすい点に注意します。
スピアマンの順位相関係数は、データを順位に直してから相関を計算します。順序尺度のデータや、外れ値の影響を抑えたいとき、また、曲がってはいるが一方向に進む関係を見たいときに頼りになります。
ケンドールの順位相関係数(τ)は、データのペアごとに順位の一致・不一致を数えて相関を表します。データが少ないときや、同順位が多いデータで安定しやすい一方、解釈は少し専門的になります。
偏相関分析──第3の変数を取り除く
2つの変数の相関を見るとき、その相関がじつは「第3の変数」によって生まれている、ということがあります。たとえば「アイスの売れた数」と「水の事故の件数」には正の相関が出ますが、これは両方が「気温」に影響されているためで、2つのあいだに直接の関係はありません。これを疑似相関(見かけの相関)と呼びます。
偏相関分析は、こうした第3の変数(交絡変数)の影響を統計的に取り除いたうえで、2つの変数の純粋な関係を見る手法です。「気温の影響を除いても、アイスの数と事故の件数に相関は残るのか」を確かめられます。複数の変数が絡むデータでは、単純相関と偏相関を見比べることで、関係の実態に近づけます。
相関と因果は違う──いちばん大きな落とし穴
相関分析の解釈でいちばん多い誤りは、相関を見て「原因がわかった」と結論してしまうことです。相関は、あくまで「関連がある」ことを示すだけで、因果関係(どちらが原因で、どちらが結果か)は示しません。
相関があるとき、その裏側にはいくつかの可能性があります。AがBの原因である、BがAの原因である(逆の因果)、第3の変数CがAとBの両方を引き起こしている(疑似相関)、そして、ただの偶然——このどれであるかは、相関係数だけでは区別できません。
因果関係を主張するには、時間的な順序(原因が結果より先に起きる)、交絡変数を取り除くこと、そしてできれば実験のデザイン(無作為に割り当てる)といった、追加の検討が必要です。相関分析は因果を考える「入口」であって「結論」ではない、と覚えておいてください。
相関は「関連の有無と強さ」、因果は「原因と結果の向き」。相関分析が答えてくれるのは、前者だけです。「相関がある」を「Aが原因だ」と読み替えないこと——これが、相関分析を正しく使う最大のコツです。
SPSSでの実行と結果の読み方
IBM SPSS Statistics では、「分析」→「相関」→「2変量」から、ピアソン・スピアマン・ケンドールの相関係数を求められます。偏相関は「分析」→「相関」→「偏相関」で、取り除きたい変数を指定して実行します。
出力される相関行列では、それぞれのセルに相関係数・有意確率(p値)・有効ケース数が表示されます。相関係数の符号で向きを、絶対値で強さを読みます。p値で統計的な有意性を確かめますが、有意でも相関が弱いことや、有意でなくてもデータが少ないだけのことがあるので、必ず散布図と併せて判断します。散布図は「グラフ」メニューから作れ、外れ値や曲がったパターンを見つけるのに欠かせません。SPSSの具体的な画面操作は「SPSSの使い方」シリーズでくわしく解説しています。
つまずきやすいポイントと注意点
いちばん大切な注意点です。相関を見て「原因がわかった」と結論しないでください。
相関係数0は「関係なし」ではありません。ピアソン相関が0でも、U字型のような曲がった関係が隠れていることがあります。散布図の確認を省かないでください。
外れ値が相関係数を大きく歪めます。たったひとつの極端な値で、相関が強く見えたり弱く見えたりします。ピアソン相関はとくに敏感です。外れ値が疑われるときは、スピアマン相関も併せて見ます。
データの数と有意性の関係に注意します。データが多いと、ごく弱い相関でも有意になります。有意性(p値)と、実質的な強さ(相関係数)を取り違えないでください。
範囲をしぼると相関が見えにくくなることがあります。データの一部分だけを切り取ると、本来ある相関が見えにくくなることがあります(たとえば、合格者だけのデータで入試の点数と入学後の成績の相関を見る場合など)。

