統計と機械学習は何が違うの?
まず、統計と一言で言っても大きく2つの種類がある。「記述統計」と「推測統計」だ。記述統計は、平均や分散などを計算して分布を表現することによって、事象を正しく把握するためのもので、平たく言うと数量を人間のために整形・表現(記述)する作業といって良い。身近な例でいくならば、小学生の平均身長・平均体重・運動能力の年次推移などを計算したり、分布・グラフ表現するようなものだ。
一方で、推測統計は、少ないサンプルから全体を推定するものだ。視聴率を例にするとわかりやすいが、限られた世帯データ(スモールデータ)から、全体母数の推定を行うといったものだ。全量データが取れない場合に力を発揮する。推測統計の例としては、全体視聴率を一部世帯のデータから推計するなどのケースがわかりやすいのではないだろうか。

機械学習の種類は、前回の記事でも紹介済みであるが、AIの活用タイプ別としては以下の4つがある。
・予測系AI:未知のデータから未来を予測するAI
・識別系AI:画像や動画などAIによる識別認識をするAI
・会話系AI:チャットボットや自然言語対話などを司るAI
・実行系AI:自動運転やロボット制御などを行うAI
「推測統計」と「予測系AI」がよく混同されがちである。あまり突っ込んだ話はしないが、たとえば「説明変数」「目的変数」「モデル」といった言葉が両方の世界で同じくして使われていることや、データを取り扱うことで、傾向の発見もしくは予測を行うという近しい目的のために利用させることから、この混同が起こりやすい。様々な論があるが、本記事では誤解を恐れずに以下のように、統計と機械学習の定義してみたいと思う。
・統計は、人によりデータから傾向を発見し、説明しやすくするもの
・機械学習は、機械によりパターンを学習し、予測・対応を自動化するもの
繰り返しになるが、機械学習は機械による”自動化”だ。一方で統計は人によるデータ傾向の発見と説明であることを考えると、共通用語や共通のメソッドがあったとしても、そもそもの成り立ちの違いをご理解いただけるのではないかと思う。
統計と機械学習の使用目的の違い
最後に統計と機械学習の違いをいくつかの観点からマッピングした図によって締めくくりたい。統計と機械学習のミッションはともに「データによる課題解決」であるが、使用目的が異なる。別の言い方をすると、統計が「仮設・推測を正しく説明することが主な目的」である一方で、機械学習は「自動化・ソフトウェア化が主な目的」とも言えるだろう。また、「説明」と「予測」という2つの違いでも、統計モデルと機械学習モデルの成り立ち・存在を分けることができる。
実はプレーヤーの違いもある。統計のメインプレーヤーは統計家 のあることが多いが、機械学習はAIエンジニア、AIサイエンティスト(呼び名は様々)、AIマーケターといった複数職種が混ざりあっってプロジェクトを動かすことがほとんどである。文系出身者は、統計の世界よりも機械学習の世界のほうが、より力を発揮し、ビジネスを動かす動力になりやすいのではないかと私は思う。

もちろん機械学習が登場したからと言って、統計の必要性がなくなるわけではない。これからも限られたデータから真実を説明し、意思決定の精度を上げていく役割は絶対的なものとして残るはずだ。一方で、未知のデータを予測するソフトウェアをビジネスの中にインストールしていく場合は、自動化を前提とした機械学習がその主たるキー概念になるのだろう。
【お申込み受付中】AIでできることを実際に体験できる講座<2月18日締切>
2019年2月20日(水)に、マーケジンアカデミー『超入門!文系ビジネスマンのためのAI/ディープラーニング教室』を開催します。AIを活用できる人材の育成を目的とし、ビジネスサイドの視点からの“数式・コードを一切紹介しない”文系ビジネスパーソン向けの超入門講座です。詳細・お申込みはこちらから!