AlphaGoの設計は何が秀逸なのか?
こうして構築された囲碁AI、AlphaGoの設計はどこが秀逸なのか。筆者の考える、AlphaGoの優れた点は以下の2点だ。
- 教師あり学習と強化学習を組み合わせた
- 盤面評価モデルで、ランダムな一手を打たせている
教師あり学習と強化学習を組み合わせた
「プロ棋士の打ち手を予測するAI(AI[1])」だけでは所詮プロの出来損ないでしかない(もちろん、それでも普通はなかなか構築できないのだが……)。一方、「勝ちを目指すAI(AI[2])」だけでは、滅多にまともな手を打たない状態からの学習となり、学習が効率的に進まない。
まず教師あり学習で予測モデルを構築し、それを初期値として深層強化学習で飛躍的に改良する、というアプローチは、AI開発の方法論として今後よく見られる形になるかもしれない。
盤面評価モデルで、ランダムな一手を打たせている
ランダムな一手を挟むことで多様な・未知の盤面を生み、AIの対応できる幅を拡げることができ、また同時に、人間が思いもよらない効果的な(勝率の上がる)打ち手を学習できる、という効果があるのではないかと考えられる。
1点目に挙げた要素もそうだが、どちらもAIの能力を、人を凌駕するレベルまで飛躍的に押し上げるためになされている工夫なのではないか、と思えてくる。
インタラクティブなコミュニケーションのAI化は可能なのか
マーケティング領域ではないが、GoogleはすでにAlphaGoにも使われている深層強化学習を応用し、データセンターの冷却電力を40%削減できたという報告をしている。AlphaGoの場合であればAI同士の自己対戦の結果が強化学習の報酬(良かったか悪かったかのフィードバック)だったが、報酬をいかにモデル化するかが深層強化学習を活用していくうえで重要となる。このデータセンターの例でいえば電力消費がどれだけ減ったか、というフィードバックが報酬になるだろう。
マーケティング活用を前提として考えると、1人1人の生活者とのマーケティング・コミュニケーションをインタラクティブに行えたら、最良のマーケティングではないだろうか。それを人がやるとなると膨大な時間とコストが必要となるが、これをAIで実現可能となるかもしれない。
例えば、ブランドへの信頼感をより高めるには、認知・興味・理解などの段階を経て行動(購入)が起き、さらにその先に信頼関係があると仮定する。その信頼関係の構築に至るまで、いわゆるパーチェスファネルにおいてある人が今どの段階か判定し、その段階ではどのような接触をするべきか判断し、そして広告などの手段で実際にその人に接触して態度変容を促すところまで、AIが一貫して自動的に行う、というイメージだ。

この場合、報酬として「人がいいと思う瞬間」「人がほしいと思う瞬間」をモデル化するというイメージになるだろうか。AIの起こしたアクションの結果、「人がいいと思う瞬間」に至ったかを判定・評価して、報酬としてAIにフィードバックする。
もちろん、これは容易なことではない。
囲碁はゲーム理論でいうところの「二人零和有限確定完全情報ゲーム」、つまり、プレイヤーは2人で、その利得の合計は常にゼロであって、打ち手は有限で、偶然に左右されずプレイヤーの打ち手のみで結果が確定し、プレイヤーはゲームの経過の情報を理論上完全に得られるゲームだ。10の360乗の複雑さを持つとはいえ、それだけ限定的な環境のもとでAlphaGoは構築されている。マーケティングのように不確定要素が多く情報は不完全で、しかもフレーム自体が規定しにくいような領域にそのままAlphaGoのロジックを適用するのは不可能だし、適用するための工夫もまた大きなイノベーションだ。
しかし、これが実現すれば、「人がいいと思う瞬間」に向けて、自動かつ効果的に、インタラクティブなコミュニケーションを展開することが可能になってくるだろう。
(DAC プロダクト開発本部 第一データ解析部 部長 さつま)