なぜサンプルサイズが重要か? よく陥りやすい誤り
テレビ×デジタル効果測定を例に、なぜ大規模なサンプルサイズが重要なのか、その理由を深掘りしていきたい。ここでは、ある地域のテレビCM接触者と非接触者の間で、自社サイトの接触率を比較する場合を考える。
まず、事前知識として、年代毎のテレビCM接触率、自社サイト接触率を見ておく(図表1)。

テレビCM接触率は若年よりも高齢のほうが高い。この結果にはそもそも高齢のほうがテレビを長く視聴しているため、それだけテレビCMにも当たりやすくなることが反映されている。逆に、自社サイト接触率は高齢よりも若年のほうが高く、テレビCMとは逆の傾向を示している。テレビとデジタルの間で、たとえば年齢によって、利用の仕方にこうした逆転が生じることはよく起きることである。
このときに、テレビCM接触者と非接触者で自社サイト接触率を単純集計し、比較をしてみたい(図表2)。

結果は、テレビCM接触者のサイト接触率が2.97%、非接触者は3.27%と非接触者のほうが高くなっている。つまり、テレビCMに当たらなかった人のほうが多くサイト接触をしているように見える。
はたして、これは「テレビCMの効果がなかった」という事実を表しているのだろうか? 実はこのようにデータを見ることは適切ではない。同じ分析対象者について年代の層別に集計した図表3を見ていただきたい。

不思議なことに層別で見ると、すべての層において、接触者のほうがサイト接触率は高くなっている。
実はこの結果には“からくり”がある。簡単に読み解くと、テレビCM接触者は非接触者に比べて高齢の割合が多く、高齢はサイト接触率が低い。すると、テレビCM接触者全体でのサイト接触率は高齢の低い値に引っ張られ、結果としてテレビCM非接触者全体よりも低くなってしまっているというわけだ。
この現象は統計学における「シンプソンのパラドックス」という有名な問題として昔から知られている。また、テレビCM接触者(あるいは、非接触者)が本来対象とする消費者全体に比べて偏っているといった状況で、単純に集計を行うことによって生じてしまう結果の歪みは、専門的には「選択バイアス、セレクションバイアス」と呼ばれている。
ここで注意したいのは、この事例に限らず一般的に、テレビとデジタルをクロスさせて結果を捉えていくときには、この「選択バイアス」が往々にして起きがちなことである。選択バイアスへの対処にはいくつかの方法が知られている。
マーケターがシンプルに行うならば「層別分析」や「ウェイト補正(たとえば、選択バイアスの補正に適した傾向スコアを用いたウェイト(星野、2009))」が扱いやすい。特に層別分析は誰でも手軽にできる方法なので、結果に「おや?」と思ったら、いろいろな切り口でデータを眺め直してみることも大切だろう。
ただし、層別分析が一つの有用な対処だと知っていても、そもそもサンプルサイズが小さい場合には層別分析は成立しない。サンプルサイズが小さいと、それによる「偶然誤差(サンプルサイズに起因する誤差)」の影響も大きくなるので、結果が偶然誤差によるものなのか、選択バイアスないしは他のバイアスによるものなのかが区別しにくく、仮に選択バイアスが生じていても見逃しがちである。
その意味でも、実数型の大規模なデータをうまく活用していけば、複雑な解析をしなくても「数である程度解決できてしまう」という部分もあり、多くのマーケターの実用上、強力なツールになりうるだろう。
パネル調査型の中規模なシングルソースデータは各々の会社がそのデータの収集を企画する際、「パネルの調査設計」をきちんと計画し、サンプルサイズを規定していることが通例である。つまり、この集計のこういう指標までは、偶然誤差がこの程度なので、データの使い方として推奨できるという範囲を持っている。一方、その範囲を超える使い方をしたいといった要望もビジネスでは往々にして起きやすい。そうしたときに、実数型の大規模なデータをうまく活用していくという選択肢を持っておくと可能性を拡げていける。
データの特徴を“目利き”して“料理”、新たな発見につなげていく
選択バイアスの事例を説明してきたが、これ以外にもいろいろなバイアスがどんなデータにも発生している。たとえば、MGDPでは、スマートテレビ保有者バイアス(データがスマートテレビ保有者に限定される)とスマホ保有者バイアス(スマホ保有者に限定される)が生じている。これに対して、MGDPでは定期的な母集団調査により対象者やそのテレビ視聴傾向の偏り度合いを把握すること、データ提供カバレッジを制限すること(対象年代の上下限設定)、事後的に対象者の構成を揃えるウェイトバックなど、複数の対処を図っている。
どんなデータにも偏りが存在する。たとえば、無作為抽出により対象者を選定した訪問調査においても、訪問した世帯が不在であったり、調査を拒否したりすることにより、結果的に対象者に偏りが生じるというのはよく起こる問題である。また、データ取得方法の例として、アンケートで聴取したデータとログ収集したデータの間で乖離が生じることなども知られている(中野・残間、2017)。
一方で、ビッグデータやIoTが加速する今の時代では、様々な新しいデータを取得・活用できるチャンスが至るところに転がっている。このとき、従来の方法に固執しすぎると、みすみすそのチャンスを逃すことにつながりかねない。
「バイアスがあるからこのデータは使えない」ではなくて、「バイアスがあるデータをどううまく活用していくか」が今の時代には求められていると筆者は考え、その考え方を大切にしている。今後はデータの性質を「目利きできる力」、そして、適切な分析方法を駆使できる「料理人としての腕」が、多くのマーケターにとって重要になってくる。新しいデータが持つ可能性を引き出し、今までにない発見につなげていくマーケティングデータ活用を志したい。
参考文献
・星野崇宏(2009)調査観察データの統計科学:因果推論・選択バイアス・データ融合、岩波書店.
・中野暁、 残間大地 (2017)、 メディア利用時間における自己申告型調査と行動ログの乖離に関する研究―― 個人のスマートフォン利用時間を対象とした実証分析―― 、 行動計量学、 44(2)、 pp.129-140.