複雑なデータも、多次元構造分析に帰着すれば分析しやすくなる
消費者行動分析では、顧客が特定された(ID付)購買履歴が基本になります。そこに多くのディメンジョンを付加できれば、それだけ多様な分析ができるわけです。
データ・マイニングを実施する際には、複数のキーとバリューで1レコードを構成する多次元構造化を行ってデータを整えることを考えます。その際、データベースからOLAPキューブを構成することにより、ディメンジョンを明示的に操作しながら(スライス&ダイスなど)、マイニングを実施することができます(下図①)。
多変量解析や時系列分析と合わせて、分析結果の可視化も重要です。決定木(ツリー構造)、クラスター分析(樹形図)、グラフ理論(ネットワーク図)、コレスポンデンス分析(クロス表のマッピング)、因子分析(ディメンジョンの集約と因子得点を用いた知覚マップ)など、さまざまな方法があります。雑駁ではありますが、これが従来のデータ・マイニングのステップです。
この原則は、トランザクション・データに限らず、(データ量増大の問題はありますが)Webログ、GPSログ、VOCのテキスト・データなどのデータ・ソースの違いによりません。
たとえば、図のテキスト・データでは個々の文に現れる注目語の有無(0/1で格納)から単語の共起関係を分析することができますし、Webログ解析では、滞在時間をバリューに入れて滞在時間の特性を分析することができます(上図②③)。要するに、データの種類は何であれ、多次元構造に帰着させることで、データは格段に扱いやすくなるわけです。
従来のデータかビッグデータか、意識せずに操作できるのが理想
ところが一般に、従来のDWHにビッグデータをそのまま格納していくことはできません。ビッグデータ処理で注目されているHadoop(分散処理フレームワーク)とその処理系であるMap/Reduceは、HDFSと呼ばれる別ファイルシステムの配下で動くため、従来の基幹系、情報系のデータとビッグデータ関連のデータ・ソースをどのように連携させていくかが焦点になります。
現在、各ベンダーはそれぞれの強みを生かしたデータ連携の仕組みを提案しており、Hadoopで<Key, Value>のセットを集約してからデータを統合する、あるいは従来のSQLと同じイメージで、アドホックにビッグデータ処理をHadoopに依頼するなどのアイデアで実装していくことになります。
このとき、利用者にとって最も望ましいことは、従来のデータかビッグデータ(非構造化)かを意識せずにデータを操作できることです。先述の「楽天スーパーDB」はそれを実現した、統合化の先進例といえます。
★データに強いマーケターを目指して、まずはアンケート設計とExcelデータ分析から始めましょう★
「プッシュ型リサーチの代表「アンケート」を効果的に活用するために必須の、ビジネス統計を学びます。論理的なアンケート設計、マーケティングに必須の統計の知識、Excelを使ったデータ分析の三本柱を身につければ、あなたも明日からデータに強いマーケターになれるはず!
