SPSSの使い方 ~IBM SPSS Statistics超入門~ 第5回:はじめにデータを確認してみよう。〜記述統計編〜

Web連載:SPSSの使い方

第5回:はじめにデータを確認してみよう。〜記述統計編〜

 前回は、変数を定義し、データ分析の準備が整いました。
「いよいよデータ分析を行っていきましょう。」と言いたいところではありますが、もう少し辛抱ください。

データを分析する際には、はじめにデータの状況を確かめるという作業が必要になります。

なぜでしょう?それは、実際のデータは、データ分析を前提としていないシステムから得られたデータも多く、いきなり分析を行うことができない場合が多く存在します。また、アンケートの記入漏れのデータや入力ミスをしているデータもあるかもしれません。

そのため、データを読み込み、変数の定義をしたらまずはデータの概要を把握しましょう。これも立派なデータ分析の第一歩です。

この作業は、統計解析を行うにも、データマイニングや人工知能関連のアルゴリズムやツールを使う際にも共通の必要な作業です。データ分析の作業の80%は、データ分析を本格的に実施する前の作業に当てられるということが言われていますが、その第一歩がデータの確認作業となります。最新のテクノロジーにより上記のようなデータについても、AIを使って修正するということも可能かと思いますが、できる限りご自身の目で見て把握することをおすすめします。

さて、ここからはデータの特徴を数値やグラフなどを利用して確認する記述統計について解説していきましょう。

データの特徴を明らかにする手法:記述統計

 記述統計(きじゅつとうけい)とは、手元にあるデータの特徴を代表値やグラフ、表などを利用して明らかにする手法です。SPSS Statisticsで準備が整ったらまずは記述統計を行いましょう。

 では、どのように行えば良いのでしょうか?
 記述統計の実施についても実は第3回目のデータの種類、尺度が関係してきます。量的なデータと質的なデータです。その上で数値やグラフを利用して特徴を把握していきます。

 まずは量的なデータと質的なデータの記述統計について解説をしていきましょう。

量的なデータの記述統計

 量的なデータ、つまり数値で表現できるデータの記述統計は皆さんも目にしたことがあるものがあるでしょう。例えば、平均値や中央値といったものです。

合計データのそれぞれの値を足し合わせた値です。
平均値いわゆる平均です。それぞれのデータの合計をデータの個数で割った数値です。
中央値データを小さいものから大きいものまで並べたときに、両側から数を数えた際の真ん中の数値を言います。
最小値そのデータの中の最小の値
最大値そのデータの中の最大の値


なお、SPSSでは、上記に加えて、分散、範囲、標準偏差、標準誤差といった数値も表示可能です。

そのほかにも分散や標準偏差という基準もありますが、これらの値については後ほど紹介します。続いて、質的なデータの把握方法について見ていきましょう。

質的なデータのデータの要約・まとめ方

・度数分布表

 質的なカテゴリデータのそれぞれの値がどれくらいの量があるのかを把握する方法、それが度数分布表です。度数分布表は、シンプルな表なので度数分布表は棒グラフや円グラフとともに表現させることにより、よりわかりやすく表現することができます。

グラフや表による記述統計

 記述統計では、グラフによる表現も有効です。データを視覚的に把握することにより、より多くの知見を発見することが可能になります。

棒グラフ : 質的なデータ(名義尺度や順序尺度)において各項目の度数を把握するのに便利なグラフです。

ヒストグラム : 量的データの把握に使うグラフです。度数分布表と似ていますが、データを要約して表現する方法がヒストグラムです。横軸にはそれぞれの階級をとり、各階級(柱)の面積が度数を示します。高さが度数を表す棒グラフとは違うことに気をつけましょう。

散布図 : 量的なデータと量的なデータの分布を可視化したものが散布図です。たとえば、体重と身長などのデータをそれぞれの項目を座標上にプロットしていくと散布図が完成します。

円グラフ : 円グラフは、各カテゴリがどのくらいの比率を占めるのかを表現します。比率を見ることに意味があるもの、たとえば、性別や売上の構成などの場合に利用するのが効果的です。

今回は記述統計の基本を紹介しました。次回は、SPSSを利用した記述統計を行っていくことにします。

今回ご紹介ソフトウェア

SPSS Statistics のイメージ

IBM SPSS Statistics

全世界で28万人以上が利用する統計解析のスタンダードソフトウェアです。1968年に誕生し、50年以上にわたり全世界の統計処理をサポート。データ分析の初心者からプロまでデータの読み込みからデータ加工、分析、出力までをカバーする統合ソフトウェアです。

関連情報

SPSS Statistics 30 新機能をご紹介

最新バージョンSPSS Statistics 30の新機能をご紹介。新たに追加されたエラスティックネットやリッジ、ラッソ回帰、生存時間モデルの加速モデルなど様々な機能が追加されました。

知っておきたいSPSSの使い方:小技Live(無料セミナー)

毎月開催の無料セミナー。SPSS Statisticsのおすすめの機能とその使い方についてデモを交えてご紹介します。

「はじめてのSPSS超入門」オンライントレーニング

統計解析ソフトウェア「IBM SPSS Statistics」をはじめて使い始める方向けのオンライントレーニングコースです。

SPSS 学生版「SPSS Statistics Grad Pack」いつでもどこでも利用可能

SPSSの学生版「IBM SPSS Statistics Grad Pack」は、大学生、大学院生向けに自宅で自身のPCで利用が可能な1年間限定のソフトウェア。当ページでは、便利でお得な学生版についてご紹介。