SPSS Statistics 31 新機能紹介|Boruta(ボルタ)の変数選択をSPSS超入門の畠が解説

Borutaの変数選択をSPSS超入門の畠が解説

2025年にリリースされた SPSS Statistics 31 では、AIアシスタントに加えて、分析の“前処理・設計段階”を大きく進化させる新機能が追加されました。その一つが、Boruta(ボルタ)アルゴリズムによる変数(特徴量)選択機能です。

本記事では、SPSS Statistics 31の新機能である Borutaによる変数選択 について、わかりやすく紹介します。

※本記事は「SPSS Statistics 31 新機能紹介シリーズ」の1本として、Boruta(ボルタ)にフォーカスした個別解説記事です。

SPSS Statistics 31で強化された「変数選択」という考え方

統計分析や機械学習において、「どの変数を使うか」 は、結果の質を大きく左右します。

  • 変数が多すぎる
  • 本来関係のない変数が混ざっている
  • 共線性が強い
  • 解釈が難しくなる

こうした問題は、従来から分析者や研究者が頭を悩ませてきた課題の一つと言えます。

SPSS Statistics 31では、この課題に対する新しいアプローチとしてBoruta(ボルタ)アルゴリズムによる変数選択 が追加されています。

Boruta(ボルタ)とは何か?

Borutaは、ランダムフォレストをベースにした変数(特徴量)選択アルゴリズムです。最大の特徴は、「目的変数に本当に影響している変数かどうか」を統計的に判定するという点にあります。

Borutaの基本的な考え方

Borutaでは、次のような手順で変数の重要性を評価します。

  1. 元の説明変数をランダムに並べ替えた「シャドウ変数」を作成
  2. 元の変数とシャドウ変数を同時にランダムフォレストに投入
  3. それぞれの重要度を比較
  4. シャドウ変数より明確に重要な変数のみを「有効」と判定

つまり、

「偶然でも説明できる変数」か
「本当に意味のある変数」か

を、データから見極める仕組みです。

SPSS Statistics 31でBorutaが使える意味

これまでSPSSでは、変数選択の際には、ステップワイズ法や手動選択、相関やVIFを見ながらの調整を行うことが多かったと思います。SPSS Statistics 31でBorutaが利用できるようになったことで、非線形な関係、複数間の複雑な相互作用、多数の説明変数を含むようなデータでも、より客観的に頑健な変数選択が可能になりました。

 どんな分析でBorutaは役立つのか?

Borutaは、特に次のようなケースで威力を発揮します。

① 説明変数が多い分析

アンケート項目が多い調査、マーケティングデータ、品質管理データなど。

② どの変数が重要かわからない探索的分析

理論仮説が固まりきっていない段階でも、「候補変数の絞り込み」に使えます。

③ 機械学習的アプローチを取り入れたい場合

従来の線形モデル前の前処理として、Borutaで変数を選別 → 回帰やGLMへ、という流れも可能です。

 どんな人に特に向いているのか?

Borutaの変数選択は、次のような方に特におすすめです。

・初学者だが「変数選択の根拠」を持ちたい方

・説明変数が多く、整理に悩んでいる研究者

・マーケティングや品質管理で多変量データを扱う方

・SPSSを使いつつ、機械学習の考え方も取り入れたい方

Borutaを使うための条件

Borutaの変数選択は、SPSS Statistics 31で追加されたRプラグイン拡張機能として提供されています。

  • SPSS Statistics 31 以降
  • Rプラグインが有効な環境

が必要になります。

 まとめ:BorutaはSPSS 31を“一段上の分析ツール”に引き上げる

SPSS Statistics 31に追加されたBorutaは、

  • 分析の前段階を支援し
  • モデル設計の質を高め
  • 解釈しやすい分析へ導く

“静かだが本質的な進化” です。

AIアシスタントが「結果の解釈」を支援する機能だとすれば、Borutaは 「結果に至るまでの道筋」を整える機能と言えます。

SPSS 31では、分析の 前(変数選択)後(解釈) の両方が強化されました。