将来出世する/しない判定から見る機械学習
機械学習は「特徴つかみの名人」である。そのことについて、仮に「将来出世する/しない判定をする機械学習」があったとする想定で説明をしていこう。

突飛な例ではあるが真面目に解説をしていきたい。たとえば、以下のような差がでている、複数人数のリストデータが存在していたとしよう。
・挨拶する,明るい,悪口言わない,勉強家,営業得意
・挨拶しない,普通,悪口言う,勉強家,営業得意
・挨拶する,明るい,悪口言わない,勉強しない,営業苦手
・挨拶しない,暗い,悪口言わない,勉強家, 営業得意
……など
このリスト内の各人の特徴を出す項目群を、機械学習用語では「説明変数」と呼ぶ。説明変数と共に必要になるのが「目的変数」である。目的変数は機械学習モデルによって「予測したい値」だ。ここでは「将来出世するか/しないか」が目的変数だ。機械学習に学習させるデータは“結果”データである必要があり、「出世した/出世しなかった」という結果のラベルがついた状態で上記の説明変数群がセットされた形となる。以下のようなデータセットである。
・挨拶する,明るい,悪口言わない,勉強家,営業得意 →出世した
・挨拶しない,普通,悪口言う,勉強家,営業得意 →出世しなかった
・挨拶する,明るい,悪口言わない,勉強しない,営業苦手 →出世した
・挨拶しない,暗い,悪口言わない,勉強家, 営業得意 →出世しなかった
……など
機械学習では、上記のようなデータセットを反復的に学習させる。過去の事実データから特徴をつかんで法則性を見出すのだ。機械学習は、「与えられたデータから特徴をつかむ名人」であるとイメージしてもらうと良い。大量のデータから”特徴傾向”をつかんで法則性を捉え、当てるべき内容に対して名人技のごとく精度の高い予測を返してくれるのだ。
このように、学習データによって特徴をつかみ、法則性を捉えることをモデル化と呼ぶ。また、そこでできたものを機械学習モデルと呼ぶ。この機械学習モデルを使うことで、「挨拶する,普通,悪口言わない,勉強しない,営業得意」という人がいた際に、将来出世しそうか? しなそうか? を、予測して返してくれるようになる。(今回の例ではもちろんあえて、説明変数を簡略化しているが実際に「将来出世する/しない」を高精度で当てるには、もっと多くの説明変数群が必要になるだろう。)
機械学習は法則の自動化マシーン
機械学習は特徴をうまくつかんで法則化する名人であるとこれまで説明してきたが、”自動化”の側面も重要だ。

機械学習の最終ゴールは、予測判定を”自動化”することにある。「統計と機械学習は何が違うのか?」という問いに対する答えが、この”自動化”にあるとも言える。
「将来出世する/しない」判定の機械学習の例でいくと、学習により得た法則性をシステム化し「将来出世する/しない」を自動的に予測するのだ。具体的には、新しい人のデータを機械学習に渡せば、自動的に将来出世するか、しないかの判定を返してくれる。このように動作する機械学習は「法則の自動化マシーン」と表することもできるだろう。最後に、統計と機械学習の違いについてまとめた表と図を用意したので、次のページを見てほしい。