モデリング:アナリティクスのハイライト
さて、第2回からの続きで今回はアナリティクスの10ステップの中のステップ3と4、「変数作成」と「モデル構築」の説明です。これを実施すれば、アナリティクスを「始める」段階はクリア!です。この2つのステップはアナリティクスの最も華のある部分で、初心者の方には楽しくて仕方がないと思います。プログラミング経験のある方、初心者のころ楽しくて時間を忘れてのめり込んだことがありませんでしたか? まさに知的興奮そのものです。

では、さっそくステップに沿って議論していきましょう。
STEP 3 「変数作成」
ワインの質=
12.145 + 0.00117 × 冬の降雨量 + 0.0614 × 育成期平均気温 ‐ 0.00386 × 収穫期降雨量
上の式は「アッシェンフェルターのワイン方程式」と呼ばれるもので、『その数学が戦略を決める』(イアン・エアーズ 著、文藝春秋)の中に出てきます。上記の式で言う「ワインの質」が目的変数、つまり分析目的のこと、また「冬の降雨量」、「育成期平均気温」、そして「収穫期降雨量」が、ワインの質を説明付ける説明変数です。ワインにはボルドー、ブルゴーニュ、などたくさんの産地がありますし、また年によって降雨量や気温も変わるので、この3つの説明変数には産地や年によって違う値が入ります。「変数」と呼ばれるのはそういうわけです。目的変数と説明変数に全部値が入っていることを確認したら、モデル構築の準備ができたことになります。モデル構築のステップで12.145や0.00117などの係数をコンピューターに算出させます。
変数作成の具体的手順
気象のデータは日本なら気象庁のサイトから過去30年以上前まで、年月日、時間、都道府県、地点の細かさで降雨量や気温のデータを取得できます。これら細かな地点や時点の気象データを上記の3つの説明変数の形に変換する、これが変数作成の具体的な作業になります。また、「冬」とは?「収穫期」とは?「育成期」とは?など時期に関する定義を決めてそれに沿って気象データを集計する作業も入ります。
ここで「冬の降雨量がワインの質に関係する」というアイデアはどこから得たのかと疑問に思われた方は鋭いです。アッシェンフェルターさんが元々ワインに造詣が深かったか、あるいは自分で勉強したり、よく知っている人に聞いたりしたかもしれません。どちらにせよ、重要なのはあらかじめ関心のある主題に対してよく調べておくことです。調べることによって、変数作成やモデル構築のよいヒントにしたり、現時点の世の中の知見のレベルを把握することができるのです。
有効な変数の裏には、10倍のボツ変数がある
上記の3つの変数のウラには、ボツになったアイデアや試作した変数が山のようにあるはずです。私の経験でお話しますと、説明変数として有効なのは1つのモデルで3から20、その背景には200くらいのボツになった変数があることが多いです。ボツの方がずっと多いというのは知的生産ではよくあることですよね。たくさんの説明変数の候補を作って試すところが試行錯誤のひとつのポイントです。