膨大なデータに打つ手なし
続いて森氏は、いよいよビッグデータについて話を進めた。人類が持っているデジタルデータの量は、2000年までは横ばいだったが、2000年、2003年以降、爆発的に情報量が増加している。その中心はインターネットだ。楽天においても、商品データは爆発的に増えており、それはシステムのキャパを超えてしまう勢いだという。「いままで1日でおわっていたバッチ処理が1か月でも終わらなくなってきている。」
楽天の8000万の会員の購買情報、宿泊情報、クレジットカードの情報、商品サーチのキーワードといった莫大なデータを活用すれば検索レコメンドを改善できるのはわかっていた。しかし、2007年から2009年の間はあふれるデータに打つ手がない状態だったという。
このビッグデータをどう処理するかに際しては、やはりクラウドコンピューティングの存在が大きかった。アクセスログ、システムログ、トランザクションログ、検索ログなど、今までデータベースに入れていなかったようなデータ類を活用していくとき、商用製品ではとても間に合わない。むしろオープンソースだけが唯一頼りになるツールといった状態のようだ。
「Hadoop、Cassandra、kumofs、それらはたいていオープンソースで、バージョンも安定していない。しかし、いま解かなければならない問題にアプローチできる。こういうものをどんどん取り入れて構築していかなければならない。」
オープンソースの中心はHadoop
オープンソースの中で中心となるのは、分散処理実行基盤である「Hadoop」。楽天にはHadoopの専門チームがあり、非構造化データは、Hadoopのクラスタで処理して楽天スーパーDBと連携させていくという。Hadoop活用の一例が「楽天プロダクトランキング」。カメラ、お菓子など何千というジャンルで人気商品のランキングを紹介している。
「ランキングは鮮度が重要。さまざまなデータを取り込み、更新速度を上げることで、売上へのインパクトが違うことがわかっている。とはいえ、数百GBあるデータを処理して何千ジャンルのプロダクトランキングを更新していくのはとんでもない処理で、従来は不可能だった」と語る森氏。これを、Hadoopによる何十台ものクラスタと独自開発した分散キー・バリュー型データストア「ROMA」を使って実現している。
楽天では、ROMAのほかに、分散ファイルシステム「LeoFS」を開発するなど、自らもオープンソースの開発に取り組んでおり、また、バグフィックスやパッチを公開するなど、コミュニティへの貢献も怠っていない。
スマートフォン、O2O…… さらに競争は激化していく
森氏は講演の最後にあたって、来年さらに普及が拡大するであろうスマートフォン、そしてO2Oについても取り組んでいくと語った。同グループは2月にビッグデータ部と同時に、スマートデバイステクノロジー部も創設している。
ネット上の巨大なデータ、集合知などをスマートフォンを通じて実空間の中に持ち込むことで、ユーザーの意思決定に活かしたり、より楽しく買い物ができるようになる。しかし、スマートフォンの爆発的な普及によって、さらなる非構造化データの爆発がやっていくのは目に見えている。
「実空間情報をどんどん統合すると、今現在のプラットフォームでは間に合わない。さらにそれをリアルタイム処理していけば、ビジネス価値が出るということはわかっている。さらなる技術基盤の進化が求められる。今後は、熱い戦いになっていくし、エンジニア、データサイエンティストの獲得競争が激化するだろう。」
森氏は、「今後さらに厳しくなっていくが、挑戦的な面白い時代がやってくる」と語り、実空間とネット空間が融合することで生まれる「Next Reality」というビジョンに向けて取り組んでいくと講演を締めくくった。
