「全量性」と「リアルタイム性」がビッグデータの本質
ここまでの話でカギになっていたのは、ビッグデータとAIの2つ。次に安宅氏から語られたのは、この2つは相互に入れ子構造になっていることだ。データがなければ、機械学習ベースのAIは無力だと氏は強調する。
これまでの定量的・定性的な調査で得られるデータとビッグデータが決定的に異なるのは、単に量の点ではない。あるデバイスやセンサーを携帯するすべての人の、すべてのログ情報が取得できる「全量性」。そして、データ取得から利活用までの時間が圧倒的に短く、ほぼ遅滞なく使うことができる「リアルタイム性」だ。
ビッグデータと呼ばれるログデータは、利用者の属性情報、利用文脈、意識情報などは通常含んでいないが、そのデータの全量性のために、極めてロングテールであり、以前はまったく見えなかったパターンまで見えるようになるという。またリアルタイム性については、たとえばデジタル広告を出稿した場合、得たデータを0.2秒後に利用できるのか1分後に利用できるのかというデータの鮮度が成果に大きく影響する。「データはもはや“鮮魚”。速く使えることが価値を生む」と安宅氏。
「では、データを使う時のポイントは何か? データ利活用の三要素、すなわち”入力>処理>出力”をぐっと睨むとその答えがわかります。どんなデータもアウトプットにつながって初めて意味がある。すなわち、どんなアウトプットにつなげるのかを意識することが鍵になります」(安宅氏)
例えば、昨年Googleが投資を発表したドイツの「Kreditech」という会社は、クレジットビューローの情報は使わず、ECやSNSの利用、位置情報などを元に与信を行っているという。しかも完全に無人で、従来の1万倍以上の速さで、だ。このように目的を明確に持つことで、一見全く関係のないデータから、そのデータだけを見ていても想定できない価値が生まれる。
機械学習が実現する「識別」「予測」「実行」の自動化
「このように、これまでとは桁違いにメッシュが細かく、新鮮な情報を活用したサービス提供が可能になります。AIの前に、データこそが本質的に世の中を変えていることを忘れてはいけないと、強くお伝えしたい」と安宅氏は語る。
ただ、ビッグデータをリアルタイムで処理し、利活用するにはAIの力が不可欠だ。そして現在のAIの大半を占める機械学習ベースのAIは厖大なデータで訓練を行なうことで初めて機能するようになる。パラメータの多い深層学習はとりわけ訓練に必要なデータ量が多い。「ビッグデータとAIは入れ子構造」という氏の言葉の真意はここにある。情報処理環境と情報科学、そしてデータ。この3つがセットになって、新たな価値が生まれていく。
これらの機械学習ベースのAIにより、3つの大きな自動化が起こるという。それが「識別」「予測」「実行」だ。
まず「識別」としては、画像や顔認識はもちろん、映像の中で車やスマートフォンなど特定のなにかを検出し差し替える、なども可能になっている。医療の分野では生検スライドデータなどの画像診断、厖大な遺伝子配列からの診断・予測、歩容解析による認知症の診断などに応用される。また目的別に、世界中のデータが集まることでその精度も大きく向上していく。