「数値は見ている」の落とし穴1~分析環境で意識すべきポイント
データ活用を実現するためには、企画・分析・解釈というサイクルを繰り返し、ビジネスへ活用できる知見を抽出することが重要になります。特にデータそのものは不変でも、情報の価値は劣化することがあるため、スムーズに分析できない環境ではデータ活用の実現に歯止めをかけてしまいます。では、スムーズに分析できる(数値が把握できる)環境とはなんでしょうか?
データが構造化(正規化)されていること
データの構造化は、データの把握・加工工数の削減をもたらします。例えばネットマーケティングにおいて、サイト上の行動ログは、お客様を理解する上で重要な情報になります。もし、アパッチログのような非構造データとして蓄積していると、複雑なデータ加工が必要になり、本当に知りたいことにたどり着くまでに時間がかかってしまう、ということになりかねません。
データにアクセスできること
アクセス権限がないため、システムの担当者へデータの抽出を依頼したことはありませんか? また、分析のスコープが広がり、再抽出を依頼して申し訳ないと思ったことがありませんか? リクルートの特定事業では、分析者が自由にデータを扱えるよう、本番環境のデータを自動でマスキングし、別環境にコピーする仕組み用意することでデータ活用を推進しています。
データ加工・分析ツールを利用できること
データの加工やマイニング・モデリングなどの分析が簡単にできるかどうかは、利用しているソフトに依存します。HadoopやNeteezaなど大容量データの処理を強みにしているものや、SPSS、SAS、Rなどの統計ソフトは、さまざまな種類が存在し、それぞれのツールの強みは異なってきます。そのためどれが自分たちにとって必要なツールなのかを判断することも重要なポイントとなります。
ただし、宝の持ち腐れにならないように使いこなせる体制が用意されている、もしくは構築することができるかどうかは、忘れずに検討してください。
処理スピードが業務上許容できること
リクルートが運営する1サイトだけでも、行動ログは数十G/月の量が蓄積されています。このような容量が大きいデータに対して複雑な処理をすると、処理時間に一晩必要な場合もあり、時間を圧迫することになります。
実際の体験談になりますが、メモリ24G、CPU2.8のRDBで30分かかった処理が、高スペックのサーバーで処理すると5秒で終ったときは、過去の苦労を思い出し、悲しくなりました…。
もし1つの処理が数十倍の速さで終わるとしたら、仕事の効率が激変すると思いませんか?
つまり、データ活用の実現には分析環境が用意されていることが非常に重要となります。もしデータ活用を推進させるなら、分析環境の課題についても見直してみてはいかがでしょうか。