「真の効果」を測ることは容易ではない
なぜ、これが本当の効果とはならない可能性があるのか、「本当の効果」の考え方を説明します。ここでは例として、以下を考えます。
メーカーが優良顧客の育成を目的に、自社ECサイト上でクーポンを獲得できるキャンペーンを実施。キャンペーン実施後に、購入金額を評価指標としてクーポンの効果を測定する。
クーポンを獲得した顧客である、aさんへのクーポンの効果は、因果推論の大家であるドナルド・ルービンが用いたフレームワークを借りると、以下のように定義されます。

ここでは、同じaさんに関して、「クーポンあり」の場合と「クーポンなし」の場合の2つの世界を考えています。その2つの世界における購入金額の差がaさんに対するクーポンの「真の効果」と言えるということです。
因果推論では、この例における「クーポンを貰うこと」のような施策を受けることを「処置」、「購入金額」のような評価の指標を「結果」と呼びます。以降の説明では、処置を受けたときの結果をY(1)、処置を受けなかったときの結果をY(0)とします。

Y(1)もY(0)も同じaさんについての結果なので、処置の有無以外は、両者のデータ取得時の条件は同じということになります。また、ここでは個人ごとに効果が定義されますが、マーケティングの実務では、特定のグループに対する効果が知りたいケースも多いと思います。その場合は「分析対象者のY(1)の平均値 - 分析対象者のY(0)の平均値」や「処置を受けた集団のY(1)の平均値 - 処置を受けた集団のY(0)の平均値」として効果が定義されます。
こうした定義によって表される「真の効果」は、マーケティングにとって非常に示唆のある値です。結果の値「〇〇円」はただの「データの傾向」ではなく、データの背後にある「原因と結果の関係性」を示す値であり、「顧客がクーポンを得ると、購入金額が〇〇円上がる」という解釈ができるためです。因果推論では、この値を「因果効果」と呼びます。因果効果がわかれば、キャンペーンの規模を拡大した際に、いくら売上が上がるかを精緻にシミュレートすることができ、次のアクションの精度が高まります。
このように因果効果を得ることはマーケティングにおいて非常に有益な一方で、その計算は容易ではありません。下の図1に示すように、Y(1)とY(0)は異なる世界の結果なので、すべての個人について、どちらか1つしか観察できないためです。

aさんのY(1)とY(0)を同時に得ることは不可能であり、グループ全体の平均値を考えるにしても同様です。直接的に計算ができない以上、観測できない値に関して何らかの前提を置き、補完をしたうえで計算することになります。この「補完」の妥当性が、正しく効果を測定できるかを左右します。
「セクションバイアス」と「交絡因子」に注意
たとえば、このケースで、クーポン獲得者と非獲得者(因果推論では「処置群」「対照群」といいます)の平均購入金額の単純な差を計算して効果を測定するとします。この値が対象者にとってのキャンペーンの因果効果となるためには、図2のように、「クーポン非獲得者の平均購入金額」が、「クーポン獲得者のY(0)の平均値」として補完できる場合に限られます。つまり、「クーポン獲得者がクーポンを貰わなかった場合、平均購入金額は非獲得者と同じになる」という前提が置ける場合のみ、単純な平均値の差を、クーポンの因果効果として考えてよいということです。

しかし、今回の分析の場合は、この前提は現実的でない可能性があります。その理由は、クーポン獲得者と非獲得者で属性が異なっていると考えられ、それは購入金額に差が生まれる要因となり得るためです。前述したように、このキャンペーンは優良顧客の育成を目的として、取得のアクションがあったユーザーのみクーポンを貰える、という内容でした。取得のアクションを行ったほうは、頻繁にサイトを訪れる顧客が多いと考えられ、そのメーカーの愛着といった「ロイヤリティ」が高い顧客が多い可能性もあります。要は、仮にクーポンがなかったとしても、獲得者は未獲得者に比べて購入金額が高いと考えられるということです。
このとき、獲得者と非獲得者の単純な差は、クーポン以外の「効果」を含めてしまっている可能性が高いと考えられます。つまり、購入金額の差はクーポンだけでなく、両者の「ロイヤリティ」の違いによっても生じている可能性を否定できないということです。このように、異なる属性の人々の結果を単純比較してしまうことで生じる「効果」のズレは、因果推論では「セレクションバイアス(あるいは単にバイアス)」と呼ばれます。

バイアスが生じる要因は、この例における「ロイヤリティ」のように、結果に影響を与えてしまい、かつ対象者(処置群)と非対象者(対照群)で同質になっていない「第3の要因」が存在するためです。こういった「第3の要因」は「交絡因子」と呼ばれます。交絡因子がある限り、処置群と対照群の結果の単純な差は「真の効果」にならず、バイアスが生じるため注意が必要です。
