メリットをきちんと理解していますか？失敗と成功から考える「テキスト・マイニング」の活用方法

2015/10/13 14:00

通知

Page 1
- テキスト・マイニングの落とし穴
Page 2
- SNS分析ツールでできること／できないこと
Page 3

無数のWeb記事を興味・関心別にジャンル分けするには？

　スマートフォンのアプリで記事のレコメンドを受けることってよくありますよね？わたしが担当した案件で、とても技術力のあるお客様がいました。スマートフォンのユーザーひとりひとりが今どんなジャンルに興味があるか正しく理解して、その興味ジャンルに近しい内容の記事をレコメンドする。シンプルに言えばこんなことをやっています。この精度が高ければアプリを気に入って使い続けてくれるでしょうし、副次的に色々なビジネス・メリットがありそうです。

　問題は「興味の内容をどのように把握するのか」です。この分析ゴールを念頭に、まずは興味のジャンルにどういったものがあるのかを把握する必要があります。そのために、Web上の膨大な記事を分析対象にして、SVD（※5）というテクニックを使って機械で処理しやすい形に変換します。その上で記事のクラスタリング（記事の内容の近しさでジャンルとして捉える）を行い、興味のジャンルにはどのようなものがあるかを把握します。

　あとはユーザーひとりひとりの記事アクセスと記事のジャンルを照合すれば、ユーザーが興味を持っているジャンルがわかります。何をレコメンドすればよいかは自明というわけです。このマイニング技術の特徴は、ジャンル判定の方法を人間が設定するのでなく、機械に任せている点です。

　例えば最近、化学工場の相次ぐ爆発事故など、あまりにも痛ましい事件が何度も立て続けに起こっており、一つの興味のジャンルとなっています。このことは半年前に全く予想がつかなかったことです。予め人間がジャンル判定の設定などできるわけもなく、常時機械的にクラスタリング処理を実行しているからこそ浮かび上がるジャンルというわけです。

リスキーな健康被害案件を見極めるためには？

　いきなり高度な活用事例が出てきてしまったため、少し身近な例も紹介しましょう。そのお客様は外部から寄せられる健康被害についての情報を収集し、それがどれだけリスキーな事案なのかを判断しています。しかし、テキスト・データが余りにも多いことに閉口した結果、人間がテキストに全部目を通すのでなく、機械に読ませて判断させるという処理をされています。

　実はここでテキスト・マイニングが行なっていることは単純です。テキスト・データを機械で処理しやすい情報に変換する処理をした上で、その情報から「過去にリスキーと判断された／されなかった」を説明するデータマイニングのモデルを構築します。その上で、新しいテキストが外部から寄せられたら都度、それを上記のモデルにかけて「リスキーな状況になりそうか」を予測する、というわけです（※6）。

目指すべきは「データを見たら活用シナリオが浮かぶ」マーケター

　ほかにも多くの事例がありますが、共通しているのはテキスト・マイニングをとても上手に業務に織り込んだ形でビジネス・プロセスの設計をしている点です。かねてからの私の主張でもあるのですが、テキスト・マイニングに限らずデータ分析は業務に活用できて初めて価値を産み出すことが出来るわけで、マーケターの皆様は「データを見ればすぐに活用シナリオが頭に浮かぶ」ように是非なっていただきたいと思います。

　連載は今回で終了ですが、私はECzine Day 2015 Autumn にも講師として参加します。そこでリアルにお会いしましょう。ありがとうございました。

※5 Singular Value Decomposition。情報量を保持したままデータのサイズを小さくする数学的な手法。テキストの冗長なデータをその特徴を保持したまま数値情報に変換しデータサイズを極端に小さくすることで機械が扱いやすくします。
※6 詳細レベルでは他の分析処理も存在していますが、ここでは紙面の制約上単純化しています。

この記事は参考になりましたか？

関連リンク: SAS Institute Japan

マーケティング・アナリティクス・ゼミナール
マーケターのためのアナリティクス活用講座連載記事一覧: メリットをきちんと理解していますか？失敗と成功から考える「テキスト・マイニング」の活用方...

データ活用に大きなインパクトを起こすには？会社を成長させる「ウォレットサイジング」を解説

少ないコストで大きな案件化率を獲得！「アナリティクスによるターゲティング」を実現する4つの...

もっと読む

この記事の著者: 津田高治（ツダタカハル）

USの大学院から経済学修士を取得した後、2001年よりアナリティクスを始める。流通・保険・メディア・製造など各種業界でアナリティック・コンサルティングを実施した後、SAS Institute Japanのソリューション・コンサルティングシニア・マネージャー（現職）として日夜アナリティクスのお客様適用に研鑽を積む。趣味は料理とショッピング。
■講演
Analytics 2013 - SAS® Forum...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

【AD】本記事の内容は記事掲載開始時点のものです　企画・制作　株式会社翔泳社

この記事は参考になりましたか？

この記事をシェア

通知

条件を絞り込んで検索

検索フリーワード

期間の指定

検索対象

人気検索キーワード　直近30日間でよく検索されているキーワード

メリットをきちんと理解していますか？失敗と成功から考える「テキスト・マイニング」の活用方法

無数のWeb記事を興味・関心別にジャンル分けするには？

リスキーな健康被害案件を見極めるためには？

目指すべきは「データを見たら活用シナリオが浮かぶ」マーケター

イベント

アクセスランキング

アクセスランキング

条件を絞り込んで検索

検索フリーワード

期間の指定

検索対象

人気検索キーワード 直近30日間でよく検索されているキーワード

メリットをきちんと理解していますか？ 失敗と成功から考える「テキスト・マイニング」の活用方法

目次

無数のWeb記事を興味・関心別にジャンル分けするには？

リスキーな健康被害案件を見極めるためには？

目指すべきは「データを見たら活用シナリオが浮かぶ」マーケター

イベント

アクセスランキング

アクセスランキング

人気検索キーワード　直近30日間でよく検索されているキーワード

メリットをきちんと理解していますか？失敗と成功から考える「テキスト・マイニング」の活用方法