基本編からご覧ください
「共変量をバランスさせる手法」でバイアスを除去する
同質化させたい属性や要因が個票データとして入手できる場合には、2つのアプローチのうち、「共変量をバランスさせる手法」を用いることができます。ここでは、以下の例を考えます。
スマホゲームアプリ運営会社が、自社アプリのインストール率を高めることを目的に、Web広告を出稿。このWeb広告の効果を広告接触者(処置群)と広告非接触者(対照群)におけるアプリのインストール率を比較することで測定する。
この場合、「スマートフォンの利用時間」が交絡因子となり、単純比較ではバイアスが生じる可能性があります。
スマートフォンの利用時間が長い人ほど、Webブラウジングの時間が長く、結果的に広告に接触しやすくなり、またスマートフォンの利用時間が長い人は様々なアプリをインストールしやすくなると考えられるためです。つまり、接触者と非接触者のインストール率の単純な差は、必ずしも広告の効果だけでなく、両者のスマートフォンの利用時間の違いによる差を含んでいる可能性がある、ということです。
このような状況下では、「スマートフォンの利用時間」を同質化させたうえで、比較を行うことが必要です。このとき、分析対象者の「スマートフォンの利用時間」が「共変量」として取得できていれば、正しい効果測定ができる可能性があります。
傾向スコアを用いた「重み付け分析」
共変量を用いた分析方法として、最も利用されるものは「重み付け分析」です。この分析では、対照群の一人ひとりに「重み」を定義します。重みは、「その個人を何人分(何倍)として扱うか」という数字です。対照群の結果は、単純な平均ではなく「重み付き」で指標を計算し、それを処置群の指標と比較することで、共変量の違いを除いて効果を算出します。
たとえば、図1の広告非接触群のcさんのスマホ利用時間が150時間であり、利用時間が同程度の人数が、広告接触群では5人、広告非接触群では2人だったとします。「重み付け分析」では、このときcさんを5/2 = 2.5人分として扱い、群全体に占めるcさんの影響力を高めます。また、dさんのスマホ利用時間が50時間であり、同程度の利用時間の人数が、広告接触群では1人、広告非接触群では5人であった場合、dさんは1/5 = 0.2人分として逆に群全体に与える影響力を下げます。
このような処理により、仮想的に、広告接触群に近い属性の人を「増やし」、逆にあまりいない属性の人を「減らす」ことができます。そのため、以下の図2のように、広告非接触群の属性構成を広告接触群に近づけたうえでの比較が可能になります。
なお、実際のマーケティング施策の効果測定においては、交絡因子が複数存在するケースも多いと考えられます。複数の共変量をバランスさせる場合はそれらを別々に扱うのではなく、まず1つの指標にまとめるという操作を行います。
指標の作成の際には、複数の共変量を基に、処置群と対照群のどちらかに入るかを予測する統計モデルを推計。そのモデルを用いて、それぞれの分析対象者が「処置群になる確率」を計算します。この確率は「傾向スコア」と呼ばれ、この値を用いて分析を行います。
「傾向スコア」は「処置群になる確率」であるため、同じ値を取る人の人数を処置群と対照群で計算し直す必要がなく、スコアを変形するだけで「重み」として利用できます。つまり、ある対照群に属する人の傾向スコアが「0.6」であれば、同じ共変量の値が100人いた場合、60人は処置群、40人は対照群に入るという解釈ができるため、0.6/0.4 = 1.5の重みを与えればよい、ということになります。
傾向スコアを用いることで、多くの属性や要因を、処置群と対照群で同質化させることが可能となり、効果測定の正確性は大いに高まると言えます。