SPSSの使い方 ~IBM SPSS Statistics超入門~ 第5回:はじめにデータを確認してみよう。〜記述統計編〜

【セミナー情報】はじめてのSPSS Statistics 〜基礎操作から初歩の統計解析まで〜

第5回:はじめにデータを確認してみよう。〜記述統計編〜

 前回は、変数を定義し、データ分析の準備が整いました。
「いよいよデータ分析を行っていきましょう。」と言いたいところではありますが、もう少し辛抱ください。データを分析する際には、はじめにデータの状況を確かめるという作業が必要になります。

 なぜでしょう?それは、実際のデータは、データ分析を前提としていないシステムから得られたデータも多く、いきなり分析を行うことができない場合が多く存在します。また、アンケートの記入漏れのデータや入力ミスをしているデータもあるかもしれません。

 そのため、データを読み込み、変数の定義をしたらまずはデータの概要を把握しましょう。これも立派なデータ分析の第一歩です。

 この作業は、統計解析を行うにも、データマイニングや人工知能関連のアルゴリズムやツールを使う際にも共通の必要な作業です。データ分析の作業の80%は、データ分析を本格的に実施する前の作業に当てられるということが言われていますが、その第一歩がデータの確認作業となります。最新のテクノロジーにより上記のようなデータについても、AIを使って修正するということも可能かと思いますが、できる限りご自身の目で見て把握することをおすすめします。

 さて、ここからはデータの特徴を数値やグラフなどを利用して確認する記述統計について解説していきましょう。

 

データの特徴を明らかにする手法:記述統計

 記述統計(きじゅつとうけい)とは、手元にあるデータの特徴を代表値やグラフ、表などを利用して明らかにする手法です。SPSS Statisticsで準備が整ったらまずは記述統計を行いましょう。

 では、どのように行えば良いのでしょうか?
 記述統計の実施についても実は第3回目のデータの種類、尺度が関係してきます。量的なデータと質的なデータです。その上で数値やグラフを利用して特徴を把握していきます。

 まずは量的なデータと質的なデータの記述統計について解説をしていきましょう。

 

量的なデータの記述統計

 量的なデータ、つまり数値で表現できるデータの記述統計は皆さんも目にしたことがあるものがあるでしょう。例えば、平均値や中央値といったものです。

合計 データのそれぞれの値を足し合わせた値です。
平均値 いわゆる平均です。それぞれのデータの合計をデータの個数で割った数値です。
中央値 データを小さいものから大きいものまで並べたときに、両側から数を数えた際の真ん中の数値を言います。
最小値 そのデータの中の最小の値
最大値 そのデータの中の最大の値


なお、SPSSでは、上記に加えて、分散、範囲、標準偏差、標準誤差といった数値も表示可能です。

そのほかにも分散や標準偏差という基準もありますが、これらの値については後ほど紹介します。
 続いて、質的なデータの把握方法について見ていきましょう。

 

質的なデータの記述統計

・度数分布表

 質的なカテゴリデータのそれぞれの値がどれくらいの量があるのかを把握する方法、それが度数分布表です。度数分布表は、シンプルな表なので度数分布表は棒グラフや円グラフとともに表現させることにより、よりわかりやすく表現することができます。

 

グラフや表による記述統計

 記述統計では、グラフによる表現も有効です。データを視覚的に把握することにより、より多くの知見を発見することが可能になります。

棒グラフ : 質的なデータ(名義尺度や順序尺度)において各項目の度数を把握するのに便利なグラフです。

ヒストグラム : 量的データの把握に使うグラフです。度数分布表と似ていますが、データを要約して表現する方法がヒストグラムです。横軸にはそれぞれの階級をとり、各階級(柱)の面積が度数を示します。高さが度数を表す棒グラフとは違うことに気をつけましょう。

散布図 : 量的なデータと量的なデータの分布を可視化したものが散布図です。たとえば、体重と身長などのデータをそれぞれの項目を座標上にプロットしていくと散布図が完成します。

円グラフ : 円グラフは、各カテゴリがどのくらいの比率を占めるのかを表現します。比率を見ることに意味があるもの、たとえば、性別や売上の構成などの場合に利用するのが効果的です。

今回は記述統計の基本を紹介しました。次回は、SPSSを利用した記述統計を行っていくことにします。

【セミナー情報】はじめてのSPSS Statistics〜基礎操作から初歩の統計解析まで〜

【日時・会場】
[大阪] 2019年5月25日(土)10:00 ‐ 17:00 アットビジネスセンター大阪梅田 702号室
[東京] 2019年6月29日(土)10:00 ‐ 17:00 ※開催場所調整中
[東京] 2019年7月20日(土)10:00 ‐ 17:00 ※開催場所調整中
【概要】
IBM SPSS Statisticsの基本的な操作を習得することを目標に、データの読み込み方からデータ加工の基本、記述統計やクロス集計などの初歩の統計手法までを実際に操作を行いながら学んでいきます。はじめてSPSS Statisticsを操作される方に最適なコースです。

   詳細はこちら