「きれいなデータ」とは何か?
データがきれいでない、というのはいろいろなパターンがあります。スラングが多く混じってしまうパターンはよく聞きますね。また全体の論調が極端で、ネットに書き込む人が本来の意図とは違う方向に影響されることもあります。また若者だけ、そのトピックに特別な興味のある人など、コメントする層が偏ってしまうこともよく見受けられるパターンです。また特につらいのは匿名が多いこと。コメントしたひとが誰であるか、年齢・性別・場所などがそのままだと一切判りません。英語のコメントの場合、アメリカ人かインド人かも分からないことがあります(※4)。
(※4) 広告など無関係な情報が混ざってしまう、重複が多い、などのプリミティブなデータの問題は捨象しています。
きれいでない状態を並べても建設的ではないので、きれいな状態とは何かを整理しましょう。ここではマーケティング・リサーチで良いとされるきれいなデータを例に取ります。誰を調査対象(年齢・性別・職業等)にして、どんな質問項目にするか、必要な有効回答数は、などを目的に沿って定義して回答を集めるのです。
集まってきたデータは、回答にエラーがないものに絞ってサンプルとします。正しい調査対象を回答者とし、回答者が質問の意図どおりに回答してくれて、偏りのない・十分な数の回答数があることが大切なのです。信頼のおけるデータを使うことで調査主題(例.30代子育て世代男性のファッション意識)の全体を語ることが初めて可能になる、こうマーケティング・リサーチの理論は説きます。
ネットのデータをきれいにするには?
~女性向けデジタル一眼レフカメラのクチコミを例に~
「ネット上のコメントを、こんなふうにきれいな状態にするなんて無理ではないか」と思われたでしょうが、ちょっと待ってください。ここで重要なのは分析の目的を果たすことであって、データのきれいさは手段であるはずです。これまでの連載で学んだ、アナリティクスの4つのステップ(企画、データ探索、変数作成、モデル構築)に沿って考えていきましょう。
まず、ネット上のコメントをすべて対象にする、なんて言葉はロマンチックですが現実的ではありません。分析の目的に沿って使うデータを取捨選択しましょう。たとえば、女性向けミラーレス一眼レフ・デジカメの評判が量販店での販売数に影響を与えるかを調べたいとします。こんなとき、プロダクト・レビューのサイト、それも女性がアクセスすることの多いサイトを調べるのがひとつのアイデアです。コメント数や評判(好評・不評をアイコンやテキストで表現してあることが多い)が販売数と相関しているか、期をずらしたり抽出条件を足し引きしたりしてデータ探索してください。こうして使えるサイト・データを特定します。
女性に売るカメラをターゲットにしているのですから、分析を女性のコメントに絞れるといいですね。最近のテキスト・マイニングのソフトには、性別や年代を推定できるものもあります。また、明らかにふざけて書いたコメントを外すなどのクレンジングをしてくれるソフトもあるので、これらの活用を検討ください。欲を言えば、単に書き込み数ではなく一眼レフのどんな特徴に関して語っているのか(価格、画像のキレイさ、使いやすさ、等々)も変数として仕分けできれば、より緻密なモデルになりそうですね。
データ分析の結果、「女性にとっての使いやすさ」が販売数を占う重要な変数だ、なんてことが分かれば、量販店での対応や、製品の紹介の仕方など、具体的活用の示唆になるというものです。もちろん、データはきれいなものとは程遠く、性別は推定しただけですし、対象サイトは市場全体の縮図ではない、サイト内のコメントが本当か検証できない、などの欠点はそのままです。でも、そのデータ分析の気づきをベースに「女性にとっての使いやすさ」の施策を実験的にやってみて、効果があれば十分に良いはずです。分析が活用できる目処がたったら、あとはサイトの範囲を広げたり中身のデータを少しずつきれいにしたりする、モデルのブラッシュアップをするなどの改善でどんどん本格的なものになっていくはずです。
