データマイニングの実践
データマイニングとは前述のとおり、ビジネスシーンに役立つ気付きや知識を発見することだ。佐藤氏はこれを簡単に説明するために、『商品Xを売るためにはどうすればよいか』という問題を出し、次の2つのスライドを順に提示した。
上図を見ると相関関係を探し出すのが難しいが、下図を見れば、Xを購買している人は全員女性だということが簡単に分かる。顧客から女性を選んでXを推奨すればより効率よくXを買ってもらえると考えるのが自然だ。こうしたデータを選別していく過程がデータマイニングだ。
上図と下図では本質的な違いはないが、性別と購入履歴に絞ったことで対象が見えやすくなる。しかし、実際のデータベース内には、性別や年齢、所在地などのカラムとなる変数は、大手銀行では約1200個もあるなど、有用な知見をみつけるにはツールの力が不可欠となってくる。
購入確率の予測をサポートするツール
データマイニングは、基本的に4つの場面に使われる。1つ目は、Xを買いやすい人は誰かといった“商品の購入確率の算出”。2つ目は、その商品を買いやすい人はどういう人かという“ターゲットへの寄与要因(変数)の把握”。3つ目は、“マーケティングに有効なセグメントの分類”。4つ目は、『この商品とこの商品は相性がいい』、『この人とこの商品は相性がいい』などを見つける“ターゲット間の関係性の解明”。
“購入確率の予測”とは、クレジットカード会社が『新規キャッシング確率が高い利用者』を発見するといったケースを指す。しかし、データマイニングも万能ではなく、実際に反応する顧客のみを抽出するのは不可能だ。だが逆算して、100万人の顧客のうち“5万人が実際に反応する”DMのキャンペーンを見た場合、反応する確率が高い人上位20%(20万人)のうち、実際に反応する人の50%(2.5万人)を捕捉することが可能だという。この場合、DMの発送コストを80%カットし、売上(キャンペーン反応数)は50%減で済むため、大幅な効率の改善が実現することになる。
以前、ブレインパッドが担当したケースでは、データマイニングを活用して上記ユーザーを割り出し、結果、過去にダイレクトメールを送った施策時と同額の予算で、キャッシング利用者数が5.2倍になったという。
通常、こうした“反応する確率”などの計算は、データマイニングのツールで行う。その操作は簡単だが、様々なアルゴリズムを繋げていかなければならず、『データベース上の何%のデータをサンプルにするか』『データ確保時に欠損値のデータ確保方法はどうするか』『連続変数を区分する時にはどれくらいの区分にすればいいか』など分析官の経験と知識に基づく判断作業が必要なため、分析自体を誰でも行えるかというと難しい場合が多い。
こうした問題意識から開発され、同社が提供しているツールが『KXEN』だ。KXENの特徴は、大量の変数を含む大容量データに対して、高精度なデータマイニングができる。従来、人間のノウハウや判断が必要だった各種の判断を、先進の数理アルゴリズムで自動化することで、データマイニングの生産性を飛躍的に向上させるという。既にエポスカード、ローソン・シーエス・カード、HMVジャパンなどが導入している。
