テキスト分析ソフト開発者が語るSPSSテキストマイニング製品・開発こぼれ話(前編)

 IBM社に買収される以前からSPSS製品ではテキスト分析・テキストマイニング製品を提供していました。今回、SPSSのテキストマイニング製品の元開発社である弊社の特別研究員である川嶋敦子が、SPSSのテキストマイニング製品「SPSS Text Analytics」や「SPSS Text Analytics for Surveys」の開発におけるこぼれ話をご紹介いたします。

 

テキストマイニング製品 開発こぼれ話(前編)

スマート・アナリティクス株式会社 特別研究員 川嶋 敦子

 SPSS がテキストマイニングツールを初めてリリースしたのは、16年前、2002年のことである。Text Mining for Clementine(以下TMC)という製品で、その名の通り、Clementine(クレメンタイン、現在のSPSS Modeler)にアドオンして使うものだった。

 

鉱夫の娘「Clementine」

 Clementineという名を聞き、「おお、懐かしい…!」と感じる人もいるかもしれないが、「ん、何だそれ?」という人たちのために、Clementineについて簡単にふれておこう。

 90年代後半、SPSS社はClementineというデータマイニングツールの開発を手がけるISL社を買収する。チーフエンジニアColin Shearerのもと開発されたClementineは、データ処理プロセスがアイコンで出来ていて、アイコンをつなぎながらデータマイニングを進める、ビジュアル・プログラミングが特長だ。現在はSPSS Modelerという名前で知られている製品である。

 Clementineという名は、”Oh My Darlin’ Clementine”という歌に由来する。川に落ちて死んだ娘クレメンタインを偲《しの》んだ鉱夫の歌で、誰もがよく知るメロディである(日本語では「雪山賛歌」)。

 そもそも「マイニング」の本来の意味は「採掘」である。データの中から知見を採掘するという意味で「データマイニング」という言い方がなされるようになったが、もとは鉱業用語なのである。ゴールドラッシュで押し寄せた鉱夫をイメージした歌が”Oh My Darlin’ Clementine”であり、その歌に出てくる女性名をソフトウェアの名前とした。なんとも粋なネーミングである。

 私が察するには、Colin Shearer たちは、女性の名前としてClementineを選んだと思う。だが、そもそも欧米でClementineと言えば、まず頭に浮かぶのはスーパーの果物売り場に山のように積まれたオレンジである。Clementineは「小さな甘いオレンジ」を指し、その名は栽培者であったClement神父の名に由来する。Clementineの語もつ響きを日本語っぽく言うならば、「私の可愛いみかんちゃん」とでもいう感じだろうか。

 さて、このデータマイニングソフト、かなり長いあいだClementineという名称で売られていたが、途中でModelerと改名された。Modelerというネーミングは、「モデリング」を意識してのことだろうが、これを日本語のカタカナにすると「モデラー」、私には怪獣以外の何物でもなく、なんだか苦笑せずにいられない。

 

数値からテキストの世界へ

 90年後半、Clementineを得たSPSS社は、従来の統計解析の世界からデータマイニングの世界へと製品・サービスの守備範囲を拡大した。そして2000年代初めにはLexiquest社を買収、テキストデータの世界に本格的に参入することとなった。「世の中における数値データは2割、残りの8割はテキストデータ」という調査レポートを謳《うた》い文句に、新たな市場へと船を漕ぎ出したのだ。

 Lexiquest社はOlivier Jouveというフランス人が立ち上げたベンチャー企業で、メンバーのほとんどがフランス人だった。本拠地はパリだったが、チーフエンジニアのDavid Champagneは、なぜかシカゴ在住。シャンパーニュという苗字から生粋《きっすい》のフランス人を連想したが、フランス語はまったく出来ない。フランス語訛《なま》りのおかしな英語を話すフランス人たちと、David のまくしたてるアメリカ英語で、私にとって電話ミーティングは恐怖でしかなかった。Olivier はDavid を非常に高く買っていて、技術面はすべて彼に判断させていた。後に、私は彼の実力を身をもって知ることになる。

 Lexiquest社時代の製品を見せてもらったことがある。集めたドキュメントをフォルダに保存し、抽出した語彙を検索するものだった(そもそもLexiquestのLexiは「語彙《い》」、questは「検索」である)。日本でもこのようなツールが最近注目されつつあるが、欧米ではかなり前から高いニーズがある。特許や文献を分析したいというモチベーションからくるもので、アンケートの自由記述部分を分析したいという日本のニーズとは一線を画す。

 このLexiquest社で培われた技術が、SPSSが買収したデータマイニングツールClementineと出遭《あ》うことで、新たなテキストマイニングツールへと進化することになる。それは、まずテキストデータからキーワード(コンセプト)を取り出しておき、各レコードにおいて、出現したか否かで1か0のフラグをつけ、その結果を数値データと結合し、「混合マイニング」を行うというものだ。

第2回に続く

 

<筆者紹介>

スマート・アナリティクス株式会社 特別研究員 川 嶋 敦 子

情報コミュニケーション学博士号(Ph. D.) 奈良教育大学卒業後、ルーヴァン・カトリック大学大学院(ベルギー)を経て サンテチエンヌ大学大学院(フランス)

✜ 書籍

  • 『SPSS によるテキストマイニング入門』オーム社 2012 年.共同 執筆者:内田治、磯崎幸子.担当箇所:第1章~第 10 章、付録.
  • 『テキストマイニングによるマーケティング調査』上田隆穂他編著 講談社 2005 年.担当部分:第9章「テキストマイニングの実践 – テキストマイニング・ツール開発の背景とツール選択のヒント」.
  • 『入門ミュージアムの評価と改善:行政評価や来館者調査を戦略的 に活かす』 村井良子編著 ミュセ出版社 2002 年.担当部分:「来館 者調査を計画・実施する」、付録.