代表性の幻影
マーケティングリサーチの方法論を語るときに欠かせないのは「代表性」についての議論でしょう。「代表性がある」とは、集まったサンプルが調査テーマにとって重要な指標の上で母集団(※)と大きなずれがないことを示します(『マーケティング・リサーチ用語辞典』同友館)。その後に統計的なデータ分析で量的に市場を記述するのも、その数字が市場の実態を示すと判断できるのも、代表性が前提にあるからです。
調査対象条件に該当する、すべての人の集まり。
リサーチの教科書の多くが、リサーチ設計段階での代表性検討の重要性を述べています。代表性を考えるということは、リサーチの対象は誰か/何かを考える、つまりはリサーチのテーマを考えることに繋がりますので、このこと自体は間違いではありません。しかし今では、設計時に代表性をどれだけ精緻に検討したとしても、それを実現することが困難な場合が多いでしょう。さらに、結果として集まったデータに代表性があるかというと、そうとは言い切れない、むしろ代表性があると考える方が難しい状況にあります。
たとえばインターネット調査の場合、対象者はアンケートへ答えたいと調査会社に登録している人で、さらにある一定時間内にアクセスしてくれた(できた)人に限定されてしまいます。あるいはインターネット調査以外で、対象者を従来のように確率的に、無作為に選ぶことができたとしても、実際に回答してくれる人の割合(回答率)が低下しています。以前は7~8割あったものが、いまでは5割程度、もっと低い場合もあります。こうなると、代表性を考慮して設計した対象者と回答者に乖離が生じ、代表性は損なわれます。
設計時に代表性について考えること、できるだけ代表性を損なわない方法を考えることはもちろん大切です。しかし、結果として集まったデータに代表性があると考えるのは、もはや幻影にすぎません。むしろ、集まったデータが代表しているのは誰なのか、そのデータはどんな特徴をもったデータなのかを、事後に確認する作業が不可欠です。代表性を最初に考えるだけでなく、集まった後にも考えるという思考の転換が求められます。
このような代表性についての確認は、アンケートなどの従来の手法に限りません。コールセンターに集まる声は、わざわざ電話をかけてくれた人たちのデータです。ソーシャルリスニングはどうかというと、ブログやtwitterで発言をしている人の声という前提があります。購買履歴にしても、その店のポイントカードを持っていて、かつその店で買い物をした時にポイントカードを使った場合しかデータは集まりません。このように、アンケートに限らず、どのようなデータでも、偏りがある場合が多いと理解しておくこと、その偏りはどのようなものかを考えることが大切です。