第四のトレンド、“生み出す”AIとは
――その中で、AIについても早くから研究されていると思います。今、マーケティング領域でのAI活用に注目が集まっていますが、現況についてのご見解を教えていただけますか?
先ほど“学術的”というワードを強調しましたが、基本的にAIは非常に歴史が長く、そもそも広告技術はAIの研究開発とともに発展してきたという技術者の意見があります。サーチやレコメンデーションも代表的なAI技術といえます。
その発祥は1950年代にさかのぼり、次に、人間が与えた知識を基に推論して判断したり情報提供したりするエキスパートシステムと呼ばれる「知識ベースのAI」が80〜90年代に発展しました。これは第二世代のAIと呼ばれ、続いて2000年代からは第三世代のAIとして「学ぶAI」が大きな注目を浴びます。
膨大なデータから学習して最適化する機械学習やディープラーニング、あるいは所与のデータを使わない、DeepMindの「AlphaGo」で話題になったレインフォースメントラーニング(強化学習)などがあります。みずから体験してその結果をフィードバックして改善していくこの技術を、ディープラーニングと組み合わせたのは同社のすごいところですが、各技術は新しい、突然発明されたようなものでもなかったんです。たとえば米ヤフーは、当初から強化学習を広告の最適化などに活用してきましたし、楽天でもかなり前から広告技術のベースに使っています。
このAIの歴史が今、次のステージに進もうとしています。今年1月、楽天のテクノロジーブログに書いた記事で、ECに有効な8つのAIを解説しました。その最後で触れたのが、今まさに起きているトレンドです。
――現在の既存のAI技術と、8つ目とはなんでしょうか?
既に浸透しつつあるのは、チャットボットや売上予測、顧客のレビューの解析などですね。でもこれらは前述のように、そう新しい技術でもない。8つ目に“まったく新しいコンセプト”として挙げたのは「クリエイティブAI」と言って、私の造語なんですが、学ぶAIに続く第四世代のAIと言えるようになるのでは……と思っているトレンドです。言うならば「生み出すAI」です。
AIが学習しやすいデータを量産する
――「クリエイティブAI」、それはつまり、コピーや広告バナーを作ってくれるということですか?
一足飛びに言うと、それも可能です。たとえば日本経済新聞が昨年、AIに記事を書かせる取り組みを始めてニュースになりましたよね。マイクロソフトが発表した論文で、言葉で「くちばしは小さく黒く、翼は黄色で……」と説明するとAIがその通りの写真を作る研究もありました。他に作曲や小説などアートの領域でも似たような実験が始まっています。
それらをちょっと俯瞰して、何が起こっているかというと、データを作り出しているんですね。これまで与えてやらないといけなかったデータを、みずから作ることができる。
――なぜ、こうしたトレンドが起こっているのですか?
クリエイティブAIのトレンドの裏側には、「GAN(ギャン)」という技術の登場があります。Generative Adversarial(敵対)Networkというんですが、これが生まれた経緯がおもしろい。技術研究の中で、セキュリティにつながる指摘として「ディープラーニングを騙して誤認識させることができる」という研究があったんですね。犬を見て犬、ネコを見てネコといった形で画像を高度に学習していくディープラーニングは、人間の精度を上回ったのではと言われるようになったものの、一方でどう見てもキリンなのに「サイ」だと判断するような、脆弱性が露見することも起きていたんです。
この話は「AIは万能じゃない」という文脈で語られますが、キリンを見せてサイだと誤認識するなら、ディープラーニングは偽物のデータでも本物のデータのように認識して学習できるということを示唆しています。つまり、人間には意味不明でも、AIが「サイ」だと認識するデータを与えればいい。それに気づいた研究者を中心に、本物のデータよりもAIが学習しやすいデータをAIに作らせる応用が始まりました。
人間の認知の仕方をより高度に体得していく
――AI自身に、学びやすいデータを大量生産させるのですか?

そうです。GANに“敵対”という言葉が入っているのは、偽物のデータを作ってAIを騙すというモデルの構造に由来しますが、今はご指摘のような研究として進んでいます。
GANによって、以前はディープラーニングに学習させるのに100万〜1,000万枚の画像が必要でしたが、1,000枚くらいしかなかったとしてもそれを基にGANでデータを作り出して、画像認識の学習精度を高めることが可能になるケースが出てきました。たとえば古文書の解析のような、100万もサンプルが存在しないものにも使えます。
――それは有用性がありますね。でも、まさに先ほどおっしゃったように「人間には意味不明」な領域に突入している感もあります。
実際ディープラーニングも、ニューラルネットワークのレイヤーが50層なり100層なり、深いほど解析の精度が上がることはわかっているんですが、その原理や何層が最適なのかというのはまだ数学的に解明されていないところがあります。また、犬とネコの画像を学習させるのでも、それぞれ学ばせるよりGANによって犬とネコを混ぜた画像が量産されて学ぶほうが精度が上がったりする。
――混ぜた画像でも認識するんですね。それは、人間の認知にむしろ近づいているような……?
そうかもしれません。たとえば赤ちゃんを見たときに、こっちから見るとお父さん似だけど逆から見るとお母さん似だね、みたいなことがありますが、つまり正解は一つではないわけです。以前は必ずデータと正解は一対一でしたが、こうした「両方アリだね」という状態をもAIが扱えるようになったということは、より人間に迫る学習モデルが始まっていると言えます。でも、なぜ「両方似ている」「犬とネコが混ざっている」とわかるのかは、人間にも(感覚としては)わかるけれど、(理屈を説明できないという意味で)わからないという領域の話で、AIが人間のより高度な能力を徐々に解明しつつあるんじゃないかと思います。そうした部分も含めて、新しいステージに踏み出していると感じています。