今までのクラスタ分析では足りない?
生活者のセグメンテーションでは、主にクラスタ分析が用いられる。クラスタ分析は、購買傾向などの特徴量に基づいて生活者間の類似度を計算し分類する。一般的なクラスタ分析では、①アイテム購買などクラスタリングに用いる変数の情報を何らかの方法で少数の特徴量に縮約してクラスタ(≒セグメント)を作り(図表1左側)、②生活者の特徴量の近似性に基づいて分類する(図表1右側)という2段階の処理が行われる。
しかし、この方法には2つの問題がある。1つ目の問題は、2段階の処理を経ることで、生活者間の近似性に基づく分類精度が落ち、似ていない生活者が同じ分類になるなど、解釈をしにくい結果に陥るリスクがあることだ。2つ目の問題は、各生活者は特定のひとつの分類にしか割り当てられない制約である。たとえば、サワーも飲めば、ウイスキーも飲む人は複数の分類にまたがる可能性がある。こうした生活者の行動を捉えることができないために、生活者を理解する上での情報を削ぎ落としている可能性がある。
トピックモデルによるセグメンテーション
これらの問題を解決し、より的確なセグメンテーションを行う方法として、トピックモデルを紹介する。トピックモデルは元々、文書データに適用される分類手法であり、文書とそこに含まれる単語が複数の「トピック」(≒セグメント)と呼ばれる単語間の共通概念を表したカテゴリから確率的に生成されることを仮定したモデルである。たとえば「野球」「サッカー」といったスポーツ関連の単語が多い場合、「スポーツ」というトピックが生成される。その際、文書にスポーツ関連の単語が多く含まれていたとすると、その文書はスポーツトピックに高い確率で分類される。
従来のクラスタ分析では2段階を経ていた処理をトピックモデルでは一度に行うことができるため、分類精度が高い手法である。図表1でいうと、クラスタ分析での①と②の処理がそれぞれトピックモデルの①と②に対応し、これを同時に行っている。
このトピックモデルは、購買履歴データにも適用できる。このとき、文書にあたるのが生活者、単語にあたるのが購入アイテムになる。今回は弊社SCIデータの低アルコール飲料の購買履歴を使用し、トピックモデルによる生活者セグメンテーションを行ってみよう。なお、分析は東急エージェンシーのTargetFinder®を利用して行った。
トピックモデルを使用すると、2つのアウトプットを得られる。1つ目のアウトプットは、図表2(P54)のような同じ人に買われやすいアイテムのまとまりである。
たとえば、アイテム1とアイテム4はトピック1に86.0%、98.5%の確率で所属している。アイテム1とアイテム4は、両方ともアルコール度数が低く、フルーツ風味の爽やかな口当たりを売りとしたアイテムだった。このように、同じような嗜好を持つ生活者に買われる傾向にあるアイテムのまとまりを、トピックを通じて把握できる。
2つ目は、図表3のような同じようなアイテムの買い回り方をする人のまとまりというアウトプットである。
たとえば、先ほどのトピック1にはモニター1、モニター4がそれぞれ高確率で所属している。したがって、これらの生活者はフルーツ風味の爽やかな口当たりの低アルコール飲料を好み、購入する傾向がある生活者だと推測することができる。
以上の2つの図からわかるように、生活者ごとに各トピックの所属確率が得られる。これを利用することで、従来のクラスタ分析では困難であった複数の分類へまたがって所属する生活者を表現することができる。
