SPSSの使い方 ~IBM SPSS Statistics超入門~ 第3回:データには種類がある – 尺度の話 –

第3回:データには種類がある – 尺度の話 –

さて、前回まででSPSSにデータを読み込むことができましたね。
SPSSでは、CSVファイルやエクセルデータ、データベースに格納されているデータを読み込むことが可能です。まだデータを読み込んでいない方は、「第2回:データを読み込んでみよう」の回を参照してください。

さて、今回は、データを読み込んだ後の変数の定義を行っていきます。この部分は一見、地味な作業ですが、SPSSを操作する上では非常に重要な部分となりますのでしっかりと習得するようにしましょう。

 

変数ビューを使った下準備

データが正常にインポートできたら、すぐに分析に取り掛かりたいところですが、もう少し準備に時間をかけましょう。SPSSには「データビュー」と「変数ビュー」という2つのビューがあります。画面下側のタブにて設定を行います。
早速、「変数ビュー」をクリックしてみましょう。

変数ビューでは、各変数(今回のデータで言えば、idや性別、年齢など)の内容を定義します。

この変数ビューでは、列(縦)に各変数(項目)が並びます。行(横)に各変数の細かい設定ができるような画面になっています。

各設定については、次回に詳細を解説するとして、今回は重要な尺度というデータの種類についての解説をしていきます。

 

データには種類がある?データの尺度について

データと一口に言ってもさまざまな種類があります。その中でも統計解析を行う際には、大きく分けて2つの種類のデータが存在します。質的変数と量的変数です。変数(Variable)というのは、例えば、アンケートの項目(性別や年齢など)のことを指します。
その上で、さらにデータをどのように取り扱っているのかによって尺度が異なります。

なぜデータの種類を覚える必要があるのかというと、この後に出てくる分析手法がデータの種類ごとに異なるからです。手元にあるデータがどのような尺度のデータなのか、質的変数なのか量的な変数なのかを考えてみましょう。

変数 尺度名 意味
質的変数 名義尺度 数値の大小には意味がない。

数値に分類のための名称をつけたもの

男女、職業などのカテゴリー
順序尺度 数値の大小に順序としての意味があるもの 満足度(大変良い5点〜大変不満1点)
量的変数 間隔尺度
(距離尺度)
数値の大小には意味があり、かつその間隔が等間隔で差に意味があるもの 温度
比率尺度 原点に意味があるもの 金額

 

質的変数とは分類や順序を示す変数を意味します。
量的変数とは数値の間隔や大きさに意味がある変数を意味します。

この2つの変数それぞれにさらに分類があります。質的変数には名義尺度と順序尺度、量的変数には間隔尺度と比率尺度があります。

名義尺度とは、0:男性、1:女性といったように分類を示すデータで、数値の大小に意味はありません。
順序尺度とは、1:不満足、2:やや不満、3:どちらともいえない、4:やや満足、5:満足といったように分類を示すデータで、数値の大小関係が意味を持つものです。しかしながら、その数値の間の間隔については、意味を持たないものを言います。
つまり、上記の5段階の項目が、それぞれ1、3、5、7、9という数字を入れ替えたとしましょう。それぞれの順番が変わってせんね。満足とやや満足の間の数値が5と4から、9と7に変わったとしても意味は変わりません。その間隔は意味を持っていないものを言います。

また、量的変数には、間隔尺度、比率尺度があります。間隔尺度は、距離尺度とも言われます。その代表例として温度があります。温度を考えて見ると、36℃と37℃、38.1℃と39.1℃の間はいずれも1℃ですね。一方で、0℃という温度もありますね。 -10℃という温度もあります。また0℃は何もない温度というわけではなく、温度として存在しています。つまりそれぞれの数値の間隔が重要である。これが間隔尺度といわれるものです。

もう一つの尺度、比率尺度についても考えてみましょう。今度は身長で考えてみます。例えば、身長159センチの人と157センチの人の身長の差と、160センチの人と162センチの人の身長の差はどちらも2センチですね。一方で、0センチはあり得るでしょうか?わかりやすく小数点もつけて0.0000…センチです。そこに何にも存在しないことになりますね。

比率尺度の場合、0は無と捉え意味があります。0は本当の意味で無、0=無です。身長、体重、年齢や距離、時間的な経験もすべて比率尺度です。文字のとおり、比率尺度にはそれぞれの項目間の割合に意味があります。つまり比率です。たとえば、身長160センチの大人は80センチの幼児の2倍の身長といえます。

この2つの尺度については、0という数字をどう扱うのかによって分かれます。おさらいになりますが、間隔尺度は、「0≠無」ではないと捉えます。一方、比率尺度は、「0=無」と捉えます。

このようにデータと一口に言っても様々な種類のデータがあるのです。
先述のようにデータの種類によって、分析手法が異なるためしっかりとデータがどのタイプなのかを見極める必要があります。例えば、身長のデータが手元にあったとします。10人分のデータで、次のようなデータだったとします。このデータは、数値の大小に意味がありますね。当然ながら154センチの人よりも185センチの人の方が身長が大きいということがいえるのです。

185、154、168、170、180、184、165、166、168、156

この10名の平均身長を計算することは意味がありそうです。10人分の身長を足し算して10で割れば答えがでますね?

=(185+154+168+170+180+184+165+166+168+156)/10
=1696/10=169.6センチ

続いて、それぞれの人の性別を男性=1、女性=2としてみると同じ10名は次のような形になります。この数値の大小は関係がありますか?そうです。当然ながらないですよね。

1、2、1、1、1、1、2、1、2、1

このグループの中に男女がどれくらい存在グループなのかを測定するとして、先ほどの平均値を使ってしまってはいけませんね。平均1.3。この数値には意味がありませんね。
1の人が7名、2の人が3名というそれぞれの数値をカウントすることには意味があります。

このように同じデータといっても、それぞれのデータ(情報+数値)の性格によって計算方法を変える必要があるのです。そのためにも、それぞれのデータがどのような尺度に基づくものなのかを確認することは非常に重要なのです。

今回は、尺度の解説を進めてきました。
SPSSでは、変数ビューで尺度の部分の設定は、後の分析に大きく影響を及ぼします。
しっかりと考え方を身に着けておきましょう。