STEP 4:「モデルの構築」
次のステップは「モデルの構築」です。モデルとは、第1回で説明したとおり「目的変数と説明変数の関係式」を指します。さきほどのアッシェンフェルターの方程式がそれです。しかし、ひとことで「モデルの構築」と言っても、多種多様なモデルがあります。ワインの例を使って構築手順をざっと見てみましょう。

1. 説明変数の定義
今あなたの目の前には、作成した変数たち、1つの目的変数とたくさんの説明変数の候補があるはずです。ツールによって方法は色々ですが、「ワインの質」を目的変数として定義して、「冬の降雨量」を含む説明変数の候補たちを説明変数として定義する作業になります。
2. グルーピング
ひとことで「ワイン」と言っても、カリフォルニア・ワインとボルドー・ワインでは違います。何らかの形のグルーピング処理(あらかじめクラスタリングしておく、階層モデルにするなど)なども適宜実施してください。最初はここを省略し、後の改善でグルーピングを試されてもよいかと思います。
3. 変数の選択とモデルの作成
ワインの質(目的変数)を最も的確に説明する説明変数を選ぶ作業(この結果として冬の降雨量などが選ばれます)です。説明変数がどのようにワインの質(目的変数)を指し示すか(前のページでお伝えした12.145や0.00117などの係数のこと)は、最も統計学のノウハウを必要とする部分です。
でも、ご安心ください。ここは統計ソフトが自動的に実施してくれます。説明変数を選択する処理はコンピューターが自動的に実行をしてくれますが、その変数選択の方法は指定します。(ポピュラーな方法はステップワイズなど)。適宜1~3を指定し、実行ボタンを押せば瞬時にモデルが作成されます。
モデルの検証と説明
モデルができたから完了!と思ってしまうのが、モデル構築段階のワナです。勝負はここから。「検証する」という作業です。
検証には2つの方法がある
検証には大きくは2つの方法があり、ひとつはツールが出力した統計値を評価する作業です。もうひとつは検証用に別に取っておいたデータ(ホールドアウトと言ったりします)をモデルに当てはめてみて、モデルが算出した「ワインの質」と実際のワインの質を比べてみて合致度を見る、という方法です。実際には両方併用しながら、いくつかの試作モデルを比較してベストなものを選ぶことになります。ここが試行錯誤のもうひとつのポイントです。
モデルを言葉で説明できますか?
さて、「検証する」が終わったら、つぎは「説明する」作業に入ります。具体的には、モデルを言葉にしてみて納得感があるかどうか自問する作業です。同僚に感想を聞くのもいいですね。ワインの例ですと、私ならこんな説明です。「育成期に暖かいとブドウが良く育ち、収穫期に雨が少ないと実が美味しくなる。」(※) いかがですか?
説明性が良くないと、説明変数のウラに別な事情や別な要因が働いているのでは?と気づくことがあり、その場合は変数作成からモデル構築までの再実行をしたほうがよいかもしれません。この作業は、説明することのトレーニングにもなります。自分や同僚に上手に説明できなければ他人を説得して活用してもらうことは不可能です。ここが頑張りどころです!
(※)人に説明するときには、係数のプラスやマイナスから説明変数の値の上下が目的変数(ワインの質)の上下にどう影響するかを見て、シンプルな説明を試みるよう心がけましょう。ここでは単純化した説明例を示しています。
なぜ統計モデルを構築するのか
「サッカーW杯の開催国と優勝国は景気が良くなる」なんてことが言われることがありますね。立派なリサーチ機関がそんなレポートを出しています。これって本当でしょうか? 統計的に言えば本当です。厳密に言えば、相関関係がないという仮説が棄却されています。どんな因果関係があるかは別途きちんと調べてください、ということです。
統計モデルの良さは、因果関係を厳密に考えずにクイックに現象を指摘してしまうところです。だって、因果関係の研究に何十年とかけて、その間に経済が落ち込むのを待つくらいなら、さっさとW杯なりオリンピックなりを開催しちゃった方が早いでしょう?(※) 「なぜ?」なんて考える前に行動したほうがいい場合ってありますよね。
私たちのビジネスも同じ。クイックに判断して、クイックに行動、今の時代にマッチしたスピード経営をアナリティクスで実現していきましょう。
※ 強調のためかなり誇張して語っています。また統計学の中には「統計的因果推論」という因果関係に迫る学問領域があるのも事実ですが、ここでは特徴を端的に語っています。