無数のWeb記事を興味・関心別にジャンル分けするには?
スマートフォンのアプリで記事のレコメンドを受けることってよくありますよね? わたしが担当した案件で、とても技術力のあるお客様がいました。スマートフォンのユーザーひとりひとりが今どんなジャンルに興味があるか正しく理解して、その興味ジャンルに近しい内容の記事をレコメンドする。シンプルに言えばこんなことをやっています。この精度が高ければアプリを気に入って使い続けてくれるでしょうし、副次的に色々なビジネス・メリットがありそうです。
問題は「興味の内容をどのように把握するのか」です。この分析ゴールを念頭に、まずは興味のジャンルにどういったものがあるのかを把握する必要があります。そのために、Web上の膨大な記事を分析対象にして、SVD(※5)というテクニックを使って機械で処理しやすい形に変換します。その上で記事のクラスタリング(記事の内容の近しさでジャンルとして捉える)を行い、興味のジャンルにはどのようなものがあるかを把握します。
あとはユーザーひとりひとりの記事アクセスと記事のジャンルを照合すれば、ユーザーが興味を持っているジャンルがわかります。何をレコメンドすればよいかは自明というわけです。このマイニング技術の特徴は、ジャンル判定の方法を人間が設定するのでなく、機械に任せている点です。
例えば最近、化学工場の相次ぐ爆発事故など、あまりにも痛ましい事件が何度も立て続けに起こっており、一つの興味のジャンルとなっています。このことは半年前に全く予想がつかなかったことです。予め人間がジャンル判定の設定などできるわけもなく、常時機械的にクラスタリング処理を実行しているからこそ浮かび上がるジャンルというわけです。
リスキーな健康被害案件を見極めるためには?
いきなり高度な活用事例が出てきてしまったため、少し身近な例も紹介しましょう。そのお客様は外部から寄せられる健康被害についての情報を収集し、それがどれだけリスキーな事案なのかを判断しています。しかし、テキスト・データが余りにも多いことに閉口した結果、人間がテキストに全部目を通すのでなく、機械に読ませて判断させるという処理をされています。
実はここでテキスト・マイニングが行なっていることは単純です。テキスト・データを機械で処理しやすい情報に変換する処理をした上で、その情報から「過去にリスキーと判断された/されなかった」を説明するデータマイニングのモデルを構築します。その上で、新しいテキストが外部から寄せられたら都度、それを上記のモデルにかけて「リスキーな状況になりそうか」を予測する、というわけです(※6)。
目指すべきは「データを見たら活用シナリオが浮かぶ」マーケター
ほかにも多くの事例がありますが、共通しているのはテキスト・マイニングをとても上手に業務に織り込んだ形でビジネス・プロセスの設計をしている点です。かねてからの私の主張でもあるのですが、テキスト・マイニングに限らずデータ分析は業務に活用できて初めて価値を産み出すことが出来るわけで、マーケターの皆様は「データを見ればすぐに活用シナリオが頭に浮かぶ」ように是非なっていただきたいと思います。
連載は今回で終了ですが、私はECzine Day 2015 Autumn にも講師として参加します。そこでリアルにお会いしましょう。ありがとうございました。
※5 Singular Value Decomposition。情報量を保持したままデータのサイズを小さくする数学的な手法。テキストの冗長なデータをその特徴を保持したまま数値情報に変換しデータサイズを極端に小さくすることで機械が扱いやすくします。
※6 詳細レベルでは他の分析処理も存在していますが、ここでは紙面の制約上単純化しています。