SPSSでデータを確認する手順(外れ値・欠損値)|SPSSの使い方 第5回

PROGRESS
5 / 10
⏱ 所要時間 7分 ⭐ 難易度 ★★☆ 📅 最終更新 2026.05.17 著者:畠 慎一郎

本ページでは、分析を始める前にデータの状態を確認(記述統計・異常値・欠損値のチェック)する手順を解説します。データクリーニングの考え方が身につきます。連載「SPSSの使い方」第5回です。

このページでできるようになること

  • 基本的な記述統計量を出力できる
  • 異常値を発見・確認する手順が分かる
  • 欠損値の存在を把握できる

事前に準備するもの

読み込み済みのSPSSデータセット(量的変数を含むもの)。

分析前のデータ確認と記述統計の基礎(第5回)

前回は、変数を定義し、データ分析の準備が整いました。
「いよいよデータ分析を行っていきましょう。」と言いたいところではありますが、もう少し辛抱ください。

データを分析する際には、はじめにデータの状況を確かめるという作業が必要になります。

なぜでしょう?それは、実際のデータは、データ分析を前提としていないシステムから得られたデータも多く、いきなり分析を行うことができない場合が多く存在します。また、アンケートの記入漏れのデータや入力ミスをしているデータもあるかもしれません。

そのため、データを読み込み、変数の定義をしたらまずはデータの概要を把握しましょう。これも立派なデータ分析の第一歩です。

この作業は、統計解析を行うにも、データマイニングや人工知能関連のアルゴリズムやツールを使う際にも共通の必要な作業です。データ分析の作業の80%は、データ分析を本格的に実施する前の作業に当てられるということが言われていますが、その第一歩がデータの確認作業となります。最新のテクノロジーにより上記のようなデータについても、AIを使って修正するということも可能かと思いますが、できる限りご自身の目で見て把握することをおすすめします。

さて、ここからはデータの特徴を数値やグラフなどを利用して確認する記述統計について解説していきましょう。

データの特徴を明らかにする手法:記述統計

記述統計(きじゅつとうけい)とは、手元にあるデータの特徴を代表値やグラフ、表などを利用して明らかにする手法です。SPSS Statisticsで準備が整ったらまずは記述統計を行いましょう。

では、どのように行えば良いのでしょうか?
記述統計の実施についても実は第3回目のデータの種類、尺度が関係してきます。量的なデータと質的なデータです。その上で数値やグラフを利用して特徴を把握していきます。

まずは量的なデータと質的なデータの記述統計について解説をしていきましょう。

量的なデータの記述統計

量的なデータ、つまり数値で表現できるデータの記述統計は皆さんも目にしたことがあるものがあるでしょう。例えば、平均値や中央値といったものです。

合計データのそれぞれの値を足し合わせた値です。
平均値いわゆる平均です。それぞれのデータの合計をデータの個数で割った数値です。
中央値データを小さいものから大きいものまで並べたときに、両側から数を数えた際の真ん中の数値を言います。
最小値そのデータの中の最小の値
最大値そのデータの中の最大の値


なお、SPSSでは、上記に加えて、分散、範囲、標準偏差、標準誤差といった数値も表示可能です。

そのほかにも分散や標準偏差という基準もありますが、これらの値については後ほど紹介します。続いて、質的なデータの把握方法について見ていきましょう。

質的なデータのデータの要約・まとめ方

・度数分布表

質的なカテゴリデータのそれぞれの値がどれくらいの量があるのかを把握する方法、それが度数分布表です。度数分布表は、シンプルな表なので度数分布表は棒グラフや円グラフとともに表現させることにより、よりわかりやすく表現することができます。

グラフや表による記述統計

記述統計では、グラフによる表現も有効です。データを視覚的に把握することにより、より多くの知見を発見することが可能になります。

棒グラフ : 質的なデータ(名義尺度や順序尺度)において各項目の度数を把握するのに便利なグラフです。

ヒストグラム : 量的データの把握に使うグラフです。度数分布表と似ていますが、データを要約して表現する方法がヒストグラムです。横軸にはそれぞれの階級をとり、各階級(柱)の面積が度数を示します。高さが度数を表す棒グラフとは違うことに気をつけましょう。

散布図 : 量的なデータと量的なデータの分布を可視化したものが散布図です。たとえば、体重と身長などのデータをそれぞれの項目を座標上にプロットしていくと散布図が完成します。

円グラフ : 円グラフは、各カテゴリがどのくらいの比率を占めるのかを表現します。比率を見ることに意味があるもの、たとえば、性別や売上の構成などの場合に利用するのが効果的です。

今回は記述統計の基本を紹介しました。次回は、SPSSを利用した記述統計を行っていくことにします。

よくあるご質問

異常値(外れ値)はどう見つけますか?

「分析」→「記述統計」→「記述統計」で最小値・最大値を確認して明らかに範囲外の値を椝、または「探索的」で箱ひげ図を出力してビジュアル検出します。平均値±3標準偏差を超える値も異常値の可能性ありです。

欠損が多い場合の対処は?

欠損率10%未満は単純除去、それ以上は「データ」→「欠損値の置換」で平均値補完や多重代入法を検討します。【MCAR(完全ランダム欠損)であれば単純除去も許容されますが、そうでない場合はバイアスに注意が必要です。

データクリーニングの基本手順は?

①記述統計で全変数を概観 → ②外れ値・欠損値の特定 → ③値ラベル・尺度の確認 → ④異常値の処理判断、の4ステップが基本です。この工程を省くと分析結果が意味を成さないリスクがあります。

今回利用するソフトウェア

IBM SPSS Statistics

IBM SPSS Statistics

全世界で利用される統計解析のスタンダードソフトウェア。論文・研究で用いる主要な統計手法を網羅し、出力結果は論文記述しやすい形式で整理されています。

関連リンク・あわせて読みたい

📖 統計の理論を深める

🔧 SPSS操作の補足・Tips

📊 関連する分析手法・製品ページ

今回ご紹介ソフトウェア

SPSS Statistics のイメージ

IBM SPSS Statistics

全世界で28万人以上が利用する統計解析のスタンダードソフトウェアです。1968年に誕生し、50年以上にわたり全世界の統計処理をサポート。データ分析の初心者からプロまでデータの読み込みからデータ加工、分析、出力までをカバーする統合ソフトウェアです。

関連情報

知っておきたいSPSSの使い方:小技Live(無料セミナー)

毎月開催の無料セミナー。SPSS Statisticsのおすすめの機能とその使い方についてデモを交えてご紹介します。

「はじめてのSPSS超入門」オンデマンドトレーニング

統計解析ソフトウェア「IBM SPSS Statistics」をはじめて使い始める方向けのオンデマンドトレーニングコースです。

SPSS学生版 Grad Pack|大学生・大学院生向け1年版の価格と購入

SPSSの学生版「IBM SPSS Statistics Grad Pack」は、大学生、大学院生向けに自宅で自身のPCで利用が可能な1年間限定のソフトウェア。当ページでは、便利でお得な学生版についてご紹介。