教師あり学習/教師なし学習

AIの学習の主要な種類としては教師あり学習と教師なし学習の二つがある。この二つは学習用データのあり方の違いで説明するのがわかりやすい。まず教師あり学習の学習用データだが、AI用の学習データの入力値に対して答えがセットで用意されている状態となる。たとえば写真画像を入力値とした場合、その写真が犬なのか猫なのかなど、答え付きのセットデータになる。
教師なし学習の場合は答えが用意されていない状態で入力値だけによって学習させることになる。たとえば犬や猫といった答えデータを持たないままに写真をクラスターに分けるような学習の仕方になる。教師あり学習、教師なし学習ともに写真を入力値とした時の例を述べたが、入力値が数値や文字の場合も同様である。教師あり学習には分類と回帰という大きく二つの種類がある。
分類と回帰

教師あり学習には大きく二つの種類がある。分類と回帰である。分類は、たとえばあるユーザーをコンバージョンする、コンバージョンしないかの予測で二つに分類したり、写真を入力して写っているのが犬なのか猫なのか馬なのかを判定するといった感じだ。分類は二分類でも三分類でも、分類数はいくつでもかまわない。回帰は、数値を予測するタイプの学習となる。たとえば来月の販売数や在庫数の日別のトレンド予測などである。
過学習

AIにおける学習において、プロジェクトを進めていくと、過学習という課題に向き合わなければならなくなることが多々ある。過学習とは、学習データの状態・コンディションや学習のさせ方等によって偏った学習を行ってしまうことだ。入力値(問い)と答えの組み合わせを丸々覚えてしまうような学習になってしまうことで過学習は生まれることがある。たとえるならば、練習問題を丸々暗記はするが、本番のテストで点数が取れないといった状態に近いと言って良い。
次のページでは過学習を防いだり、AIモデルの精度をあげるために欠かせないデータの「前処理」、またモデルの性能評価における種類について解説をしたい。