2.人の視覚情報に基づく“判断”の代替にも
人による“判断”の中でも多く工数がかかるものとして、視覚で何かをカウントする作業が挙げられる。たとえば、街頭調査では経時的にカウントするため、計測時間もかかる。しかし、そういった時系列で変化する動画情報は画像の連続でしかないため、この情報も画素という数値に置き換えることで、人による“判断”を深層学習で代替することができる。
インテージでは直近の研究例として、テレビ番組やCMなどに映っている企業ロゴやブランドといったマーケティング活動に必要な情報が、何が、どこに、どれくらいの大きさで、どれだけの時間映っていたのかを収集する試みを進めている。メディアへの露出を正しく知ることができれば、広告投資効果も明確に理解できるはずだ。
カウント対象がどこにあるのかを調べるには、まず物体検出が必要なため、似たような物体を識別するタスクを自己学習型の深層学習(※1)で学習させていく。具体的には図表4に示すとおりだが、初期段階では、物体の位置や矩形は定まっておらず、どこに物体があるかはわからない。しかし、学習回数を増やしていくと、物体の位置や矩形の共通性を見出すことができるようになり、似たような物体を同じ認識対象として検出できるようになる。

従来であれば、どこに何があるかを人が判断した学習データが必要だったが、深層学習のアーキテクチャ内に自己学習機構を導入することで、そういった作業を省略可能だ。一度、物体検出ができれば、新たな動画データが入力されたときにも、どこに物体があるか検出できるようになっているため、あとはその物体を特定するだけである。今回であれば広告の特定が目的のため、dataaugmentation(※2)を活用して、広告の画像データ(ブランドやロゴ)を水増しさせることで、特定の広告を識別できるようになり、検出と特定の両軸が揃うことになる。その上でカウントしたい広告が映っている動画データをモデルへ投入することで、どれだけ広告が露出したのかをカウントできるようになり、正しい理解で広告の価値を判断することができるようになるのだ。
またこの他にも、人の視聴反応データとして表情解析等の手法で視聴者の感情データと動画データとの関連性についても研究を進めている。仮に動画から人の感情を推定できるようになれば、番組やCM制作時に視聴者の反応を推測でき、より生活者の理解を得やすい価値を提供できるようになる。