会場からのQ&A
――あなたは2012年の大統領選では勝敗を当て、2016年の大統領選では皆が大きく間違っていたのにあなたは少し外すという結果でした。なぜ、そのようなことが起きるのですか?
マーケットビューと分析による予測の違いだと思います。たとえば、多くの予測を誤った人たちはそれぞれの州を独立した存在として見ていましたが、ペンシルベニア州とウィスコンシン州は人口統計学に似ているため、どちらも同じ結果になっても統計学者としては驚かないのです。
もうひとつ、メディアのバブルも要因だと思います。前日の世論調査によれば、クリントンが3ポイント勝っていた。小さなサンプルで見積もった結果、3ポイントほどのわずかな差で勝敗を決めてしまうのは、とても危険なことなんです。
――モデル化する際に、考えうるすべてのものを組み合わせたほうがいいのでしょうか? データを採用する基準とは?
シンプルなほうがよく、基礎的なところが重要です。あまり複雑にしないほうがいいと思います。重要なのは、最初に作ったモデルにこだわりすぎないこと。たとえば、スポーツの勝敗を予測するのに、ある選手がケガをしたら起こり得ないことが起きますよね。その場合、当初のモデルは役に立たないわけです。
主観的な判断はいけないので、80%はアルゴリズムを使って分析します。でも、コードの間違いや人のミスでバグが起きるかもしれないし、そもそものモデルが間違っているかもしれない。残りの20%は、経験をもとに自分で考えること。やはり人が重要なのです。(了)