経験と勘に頼っていたことが、数式で表現できる
『その数学が戦略を決める』(イアン・エアーズ著、文春文庫)の中に、アッシェンフェルターさんという方の話が出てきます。従来ワインの質は熟成前のブドウ発酵物を評論家が試飲し、経験と勘で”予測”されていましたが、アッシェンフェルターさんは過去数十年の天候や降雨量とワインの品質を分析し、以下の単純な式で表現してしまったのです。

これは「ブドウの収穫期に雨が少なく、夏の平均気温が高ければ質は上がる」というシンプル式です。その数式の意義は上述の『その数学が戦略を決める』に譲りますが、ここではデータ分析の基本的なステップと用語をワインの例で説明します。
“ワインの質を予測する” ~データ分析の基本的なステップ~
まず目的を明確にしましょう。この分析はズバリ!ワインの質を予測することです。分析用語的には、ワインの質を被説明変数、または目的変数と呼んだりします。
次にワインの質を予測するために、関係しそうなデータを集めます。降雨量や気温、日照時間、土壌の質など手に入るデータは広く活用します。こうした目的変数との関係性を説明するためのデータ項目のことを説明変数と呼びます。説明変数は必要に応じて、たとえば日次降雨量データを春・夏・秋・冬の四季別合計量や平均量に変換するなど、データを加工し、新しい変数を作成する必要もあります。何月から何月までが春なのか、収穫期は何月なのかといった変数のための情報は人間が設定しなければ分かりません。いかに有効な変数を見つけ出すかが分析の精度を考える上では非常に重要です。

分析の目的に沿ってデータを集め変数を作成して初めて分析作業にとりかかることができます。説明変数と被説明変数の関係式をモデルと呼びます。雨や気温がワインの質に及ぼす関係を過去のデータから学び、一般的法則として導き出すことがモデルの目的です。
余談ながら良いモデルとは、法則の当てはまりが良い、つまりそれを使って未来も予測できる、ということです。予測の信頼度が高ければ、雨や気温の複数シナリオから最もワインの質を高めるような組み合わせを選ぶ、という最適化に迫ることも可能になってきます。「モデルの作成」なんて小難しい単語を聞くと統計解析の専門知識が無いとできないんじゃないかと心配される方も多いかと思いますが、変数を作ったあとはそれを統計ツールにかけると一瞬で、アッシェンフェルターさんが作り上げたような関係式、つまりモデルを作ってくれるのです。
モデルが示す関係式に納得がいき、かつ分析結果の信頼性が高ければ、データ分析の作業は完了です。もっとも、この活動が最初から最後まで一回でスムーズに完了することは稀で、実際には個々の作業は繰り返しが何度も発生します。最初は根気が必要と感じられるかと思いますが、徐々に慣れていただけると思います。このPDCAサイクルを何度も繰り返していくことが、データ分析の高度化への隠れた近道なのです。