様々な形で提供されるAIアシスタント
2016年10月に入りAIアシスタントに関する発表が相次いでいる。Googleの新型スマートフォン「Pixel」では「Google Assistant」がプリインストールされる。また「Google Assistant」が搭載された音声認識スピーカー「Google Home」も正式に発表された。サムスンはSiriの開発者たちが創業したViv Labsを買収、新型スマートフォン「Galaxy S8」ではViv LabsのAIアシスタントが搭載されると言われている。その他にも、トヨタ自動車がコミュニケーションパートナーと呼ぶ「KIROBO mini」というロボットを発表したり、Sony Mobileが「Xperia Ear」というアシスタント機能を持つイヤフォンタイプのデバイスを発表したりしている。
2014年末にAmazonが販売を開始したスマートスピーカー「Amazon Echo」は、2015年以降販売が伸び、米国の調査会社CIRPによると販売台数300万台を突破したという。また2016年に入り、サイズを小さくした「Echo Dot」、「Amazon Tap」といった最新版の販売も開始している。
これらの発表は、サービスや製品としては異なっているものも多いが、いずれもAIアシスタントといった領域に関するものと言っていいだろう。
そもそもAIアシスタントとはどのようなものなのだろうか? これ以外にも、パーソナルアシスタント、バーチャルアシスタント、デジタルアシスタント、音声○○アシスタント、スマートスピーカー等の様々な呼び方がされている。米国ではIPA(インテリジェントパーソナルアシスタント)といった表現もある。多くに共通する単語として「アシスタント」があるように、「何かを手助けしてくれる秘書のような存在」であることは間違いないだろう。そして形容語から、AIによるもの、個人に最適化されたもの、実在する人物ではなく仮想的な存在なもの、対話により双方向でやり取りされるもの等といった想像もできるのではないだろうか。
AIアシスタントはソフトウェアとして提供されているAppleのSiri、AmazonのAlexa、GoogleのGoogle Assistant等のほか、デバイスとしても様々な形態で提供されている。前述のスマートスピーカーのAmazon Echo(Alexa搭載)やGoogle Home(Google Assistant搭載)といったものから、最近ではウェアラブルデバイスやスマートロボット等の様々なデバイスにも搭載されつつある。
AIアシスタントとは何か?または実装されている技術は?
前述の通り、様々な表現や形で登場しているが、今のところAIアシスタントの明確な定義はされていない。AIアシスタントとは何か? を一言で表すとすれば、「ユーザーとの対話を通じて、必要とされるタスクを実行するサービス」であると言えよう。
AIアシスタントに実装されている技術としては大きく以下の3つに分類することができる。
- テキストや音声等の自然言語を理解するインターフェース
- ユーザーの置かれた状況や前後の文脈を理解
- 必要とされるタスクの判断と実行
1.テキストや音声等の自然言語を理解するインターフェース
対話型のインターフェースという点では、チャットボットと近しいものとも言える。チャットボットとの大きな違いは、AIアシスタントの多くは音声での入力に対応し、音声認識技術が活用されている点にある。音声認識によって人の話し言葉を文字列に変換し、さらに自然言語処理を行うことで、コンピュータでの処理を行いやすくしている。
例えば、Amazon echoでは、過去に買収した複数の企業(Yap、Evi、IVONA)の技術を活用することで音声認識が実現されている。音声認識は言語の壁が発生する技術の1つでもあり、Amazon Echoの日本語版が登場していない理由とも言える。
チャットボットが自然言語を理解する一連のプロセスについては、第4回の記事で解説しており、本記事と合わせてご覧頂くと良いだろう。
2.ユーザーの置かれた状況や前後の文脈を理解
人は普段無意識のうちに、現在地や日時、天気等の状況や、相手との会話の中での文脈を理解しながらコミュニケーションを行っている。例えば会社で、A「ご飯行く?」、B「どこに行こうか?」と会話があったとすると、会話の裏には次の判断がなされている。
A「ご飯行く?」:時間帯が正午前後であれば、Bは当然のようにランチであると理解して話を進める。
B「どこに行こうか?」:さすがに今の場所から電車やタクシーに乗ってランチに行くことは稀であろうから、行き先は現在いる場所周辺のお店であると理解して話を進める。
こうしてそれぞれ文脈を理解しながら、お店のリストアップが行われていく。もしどちらかがお店に詳しく営業時間や休業日も把握していれば、営業外のお店は行き先候補には含めないといったこともあるだろう。また昨日のランチが蕎麦であったならば、そうした候補は外すといったように過去の体験も加味することも考えられる。
AIアシスタントが目指す文脈の理解も、必要な情報を全て入力しなくとも状況や意図を判断し、自然なコミュニケーションを実現するものであると言える。
例えばSiriで、「恵比寿のラーメン屋は?」と聞くと、恵比寿のラーメン屋をリストアップしてくれる。さらに「渋谷は?」と聞くと、渋谷のラーメン屋のリストアップに変わる。これは「渋谷は?」という言葉の示すものが、前回の質問内容の「ラーメン屋」に紐付いたものであるということを理解していると言える。
またGoogle Assistantでも、「マイノリティ・リポートの監督は?」と聞くと答えを教えてくれる。次に「彼が監督した他の映画は?」と聞くと、その作品のリストを教えてくれる。これは、Google Assistantが「彼」とは「自身が教えた人物」だと理解しているということである。
3.必要とされるタスクの判断と実行
ユーザーの文脈に対して、必要とされるタスクを判断し実行する。ここでのタスクは、AIアシスタント自身が実行可能なものであったり、外部のサービスやデバイスと連携しなければ実行できなかったりするようなことが挙げられる。
こうした複数のタスクを統合的に処理していくことで、ユーザーニーズに対応することができる。これらの内容を実現するためには、膨大な情報ソースや様々な外部のサービスやデバイスとの連携が必要となる。どのようなサービスと連携が可能であるかは、AIアシスタントの差別化要素のひとつであり、有用性が高いかどうかの判断基準ともなるだろう。
特に最近では様々なIoTデバイスが登場している。インターネット上のサービスだけでなく、こうしたIoTデバイスと連携できることが、Amazon EchoやGoogle Homeのようなスマートスピーカーが注目されている理由ともなっている。
例えば、Amazon Echoでは、天気情報は「AccuWeather」、音楽は「Amazon Music」、「Pandora」、「Spotify」等、スケジュールは「Googleカレンダー」、他にも複数のニュースやラジオサービス、百科事典サイト「Wikipedia」等、様々なサービスを情報ソースとして連携している。またAmazon Echoを通じて、配車サービス「Uber」で自動車の配車を行ったり、温度調節機器「Nest」で室内の温度を変更したり、IoTプラットフォーム「Smartthings」に接続されている玄関のドアの施錠や照明の点灯・消灯をしたりすることも可能となっている。
Google HomeでもAmazon Echoと同様なことが可能であったり、AppleのSiriでもHomeKitに対応した製品のコントロールができたりと、AIアシスタントで実行可能なタスクは急速に増加している。