機械学習は何のためにあるのか?
数十年前から機械学習テクノロジー製品を提供してきたSAS Institute Japan(以下、SAS)は、機械学習をビジネス価値につなげることにフォーカスして大幅な強化・拡張を続けている。現に、Fortune 500のトップ100社中90社がSASを採用しており、世界中で80,000サイトの導入実績を誇る、アナリティクス・ソフトウェアとサービスのリーディング・カンパニーだ。
そんなアナリティクス・ソリューションを先進的に提供してきた同社から見て、「昨今、マーケティングの文脈で語られる機械学習の話では『そもそも機械学習とは何をやるためのものなのか』という話が抜け落ちています」と津田氏は語る。
「機械学習において、人間がやるべきことは“問いかけること”、“データを準備すること”の2つのみ。もちろんデータマイニングや統計ソフトを使わずに、人間が経験や勘をもとに予測することもできます。ただ機械学習によって、より高精度で予測し、詳細に説明できるのであれば、使うべきだと思うのです」(津田氏)
また、予測に機械学習を活用した効果として、津田氏は海外小売業におけるクーポンの利用率を例に挙げた。
「ある企業で、データ分析をせずクーポン配布を行ったところ、利用率は1%未満でした。さらにその結果に基づいて配布時間や内容を改善したことで、利用率を6%から10%まで向上させることができました。しかし機械学習で顧客の購買行動を分析し、予測された最適なタイミングでクーポン配布を行った結果、利用率を25%まで大幅に向上することができました。
つまり、ロジックに基づいて予測をすれば、確実に成果を伸ばすことができる。こういった事例からも、機械学習の必要性を実感していただけるのではないでしょうか」(津田氏)
マーケターに必要なのは「問いかける」こと
機械学習の詳細について触れる前に、データ分析や統計モデルについての理解確認として津田氏は次の資料を提示した。
統計モデルの入門としてよく引き合いに出される、アッシェンフェルター氏が提唱したワインの価格を決定づけるモデルだ。この式ができる以前、ワインの価格は評論家による定性的な味の評価によって決まっていたが、この式の登場をきっかけに定量的な価格設定が行われるようになった。
「なんだか難しそうな式だなと思われるかもしれませんが、とても簡単です。数式を読み解く際、重要なのは符号を見ることです。実際に計算式を見てみると、“冬の降雨量” は係数の前がプラス(+)になっているため、冬に雨がたくさん降るとワインの価格が高くなるということがわかります。逆に収穫期の降雨量はマイナス(-)になっているので、収穫期に雨が降るのは価格が下がる要因になるということですね」と津田氏は解説した。
データが大切だと言われる所以は、こうした数式を立てるための十分な説明変数(ここでは冬の降雨量や気温など)を取ってくる必要があるからだという。画像の右側にあるグラフを見てもらいたい。青色の実線が数式による理論値を表し、赤色の×印が様々なワインの実測値を表している。数式を立てた上で数字を当てはめたときに、すべてのデータが青色の直線上に乗っていたら、その計算式、つまり統計モデルは「超精確」であるのに対し、線上からやたらに離れたデータが散見されると「不精確」であるとされる。「この統計モデルの精確さを確認する作業をデータサイエンティストは日々繰り返している」と津田氏は説明した。
精確性を高めマーケティングに貢献する
先に紹介したワインの数式のように、線で表すことができるのが統計モデルだ。統計学の入門知識として知られる回帰分析などが当てはまり、符号など計算式で表されるので、すぐに意味が理解できる。つまり、分かりやすいというメリットがある。しかし、精確さに欠ける場合があり、超精確なモデルを作ることは難しい。
それに対し、機械学習は統計モデルに精確さで勝るため、マーケティングの実業務での活用に向いているという。そして、その中で重要になるのは「データを集めて、問いかけること」だと津田氏は語る。
「先述のワインの例でいえば『ワインの価格を予測したい』という問いを立て、関連データを集めてAIや機械学習で解かせるという作業が必要なのです。問いという言葉を聞くと難しく感じるかもしれませんが、ビジネス上の問いを立てているのと変わらないため、そこまで難しくありません。実際の式を組み立てるのは機械が自動で行ってくれるからです」(津田氏)
機械と人の役割をはっきりさせる「ディシジョン・ツリー」
次に、津田氏はマーケティング分野における機械学習の3つの主な活用法を紹介した。それは、「レコメンド」「テキスト解析」「画像解析」だ。
まず「レコメンド」だが、ここでは、SASの機械学習エンジンでも使われるディシジョン・ツリーと呼ばれる手法を例に紹介する。
「誰がどんな時に買ってくれるのか?」という問いを立て、年齢・性別・職業、購買実績や過去のマーケティング反応などのデータを掛け合わせると、機械が自動的に解析をして、“どんな条件が揃うと買ってくれるのか”、“何をすれば買ってくれやすくなるのか”といった結果を導き出してくれる。
「ディシジョン・ツリーは、人間と機械がそれぞれ何をすべき役割か明確にするために行っています。人間はデータを準備して問いを立てることが役割であり、機械は顧客が買ってくれる条件やある個人が将来買ってくれる確率、買ってもらうために効率の良い施策を示す役割を担っています。つまりデータの分析から施策の提案までは機械が行ってくれるため、人間はデータを用意した上で問いを明確にし、機械が導き出した分析結果に基づいて最適な意思決定をすることに注力すれば良いのです」(津田氏)
機械学習でテキスト解析する意味は?
津田氏によれば、世の中にあるマーケティングに活用できるデータのうち、20%は「どこで・いつ・何を・いくつ買ったか」といったデータベースに格納できる“構造化データ”である一方、残りの80%は「なぜ買ったのか」といった人間の内面的な動機を示す“非構造化データ”が占めるという。
この“非構造化データ”を見るために有効になるのは、2つ目の活用法である「テキスト解析」だ。今や人々はソーシャルメディアをはじめWeb上で様々なことを投稿している。また、消費者の興味関心のあるジャンルは激しく移り変わるため、事前に想定した仮説が当てはまらないことも多い。その場合、むしろデータから示唆を得た方が確実であり、「特にテキストデータは膨大に蓄積されているため、分析対象としては最適」と津田氏は語る。
「優良顧客やファンになってくれそうな人、中立的な立場の人など、お客さんのタイプを判別する時、テキスト解析はとても役立ちます。構造化データの分析だけでなく、テキスト解析による非構造データの分析を取り入れることで、お客さんの内面を理解し、真に顧客目線の施策を行うことができる。構造化データの分析をした上で、テキスト解析も行えば、顧客の理解度や優良顧客の特定は大幅に進化します」(津田氏)
その一方で対象となるテキストデータは、SNS上の記述や商品レビュー、コールセンターの会話履歴や営業レポートなど日々増大し続けており膨大な量になる。これらを人間が全て読むのは現実には不可能である。そこで注目されているのが機械学習を活用したテキストのサマリーだ。膨大なテキストデータからパターンやトレンド、分類のためのルールや文書に含まれる話題など重要なフレーズだけを、機械学習テクノロジーによって自動的に抽出することで、テキストデータから自動的かつ高速に、精確な洞察を得ることができるようになのだ。
画像解析も今後マーケティング活用へ
最後の「画像解析」だが、まだマーケティング領域における活用はそこまで進んでいないという。しかし、手書きの数字画像データをSASの機械学習で解析した処理ステップを紹介し、「画像解析も十分マーケティングに使える余地がある」と津田氏は語る。
「画像処理に機械学習を使うと、例えば“ある芸能人に最も似ている人”や個性のある顔を抽出するといったことも簡単にできます。今後マーケティングにおいても、Webサイトのデザインによって人々の反応がどう変わるかテストするといったことにも使えると思います」(津田氏)
ここまで、3つの機械学習に関する活用法を解説があったが、津田氏が強調しているのは「データを集めて、ビジネス上の問いを立てること」の重要性である。ほとんどのことを自動化できる機械学習でも、マーケターが何を実現したいのかを考え、それに合ったデータを用意しなければ正しい示唆を導き出せない。津田氏が強調したポイントをマーケターが理解したとき、機械学習がマーケティングにもたらす可能性は、更なる広がりを見せていきそうだ。