「データクオリティ」とは何か
本連載の第一回ではアドフラウドの基礎知識、第二回では米国の事例などをもとにアドベリフィケーションツールを活用したアドフラウドを防ぐ方法について解説しました。今回は日本においてはまだ認識が低いけれども、アドフラウドを防ぐために重要なカギとなる「データクオリティ」をテーマに取り上げます。
では、「データクオリティ」とはなにを指すのでしょうか。本連載を通して、「bot」ではなく「人」に配信することの重要性を繰り返し語ってきました。しかし、「bot」を限りなく排除し、「人に」配信できる環境が整っているからといって、安心できるわけではありません。
前回お話した通り、アドベリフィケーションツールを活用し、実際に広告配信したデータと、実在するパネルデータを参照し、「人・枠・面」の3つの要素を改善していくことで、費用対効果を高めることは非常に重要です。しかし、そもそも参照する前の段階である、広告配信する対象のデータクオリティを同時に高めていく必要があるのです。
例えば、「女性・20代前半・都内勤務・スマホでは女性向けニュースを頻繁に閲覧・ECで服を購入する頻度が高い」といったターゲットに広告を配信したいと考えた場合、どのようにデータクオリティを担保していけばいいのでしょうか。そのターゲットを正確に狙うためには(1)実データと類推データの区別、(2)実データの種類と信頼性、について正しく把握しておく必要があります。
「実データ」と「類推データ」
まずは実データと類推データの区別から明確にしていきましょう。実データとは、その名の通り、「事実あったデータ」のことを指します。対して類推データは、「仮定や計算、処理をした場合のデータ」になります。
多少わかりにくいかと思いますので、皆さんに馴染みがあるCookieを例にあげて考えてみましょう。Cookieデータから、【「アドフラウド」と検索した】というのは実際に検索しているから実データとなります。では【「アドフラウド」と検索したから、マーケティング関連の方だ】というデータはどうでしょうか。検索したからといって、マーケティング関連の方という確証はないので、これは類推データです。
試しに、Googleのアカウント情報から「Google広告の管理」を見ると、自身の性別や年齢、興味関心が表示されます。あくまで、検索や閲覧履歴などに基いている類推データなので、実データとは呼べません。ちなみに私は仕事柄色々なCookieの履歴があるので、アカウントによっては30代前半の女性と類推されます。私は30代後半の男性であり、類推データが必ずしも正しいわけではないのです。
つまり、かなり正確にターゲットに広告を配信したいならば、類推データから仮説を立てるのではなく、実データから考える必要があります。さらに言えば、botを含んだ類推データを使った場合は、仮説すら土台がゆらいでしまう可能性が高いでしょう。そもそも人ではないのですから。一方、「実データ=事実のデータ」なので、実データをもとにすることで確固たる仮説立案ができることになります。