前処理

AIモデルの構築と実行のフローの中で重要なステップであり時間を沢山必要とされると言われるのが、前処理の工程だ。前処理とはAIモデル構築に必要な学習データを準備する一連の作業のことを示し、範囲は広い。大きく前処理のステップを分けるとするとデータクリーニングと各種データ操作になる。
データクリーニングは、欠損値(何かの理由で一部取得ができないなどの欠けた値)への対応や、外れ値(他の値と著しく値の大きさが異なる例外データ)の対応が主な内容になる。また、各種データ操作は、AIモデルの精度を向上させるためのあらゆるデータ処理のことを言う。たとえば、連続したバラバラの数値を一定のルールで区切る処理(連続した値の離散化)や結果データに偏りがある場合のデータ処理(不均衡データへの対処)、取りうる値の範囲をあらかじめ決め、大きい範囲の値に引きずられないようにする処理(スケール調整)、「東京、大阪、名古屋……」などの文字列の入った列を変化させ扱いやすくする処理(カテゴリ変数の処理)などがある。
正解率、再現率、適合率

AIの性能を評価する方式にもいくつかある。まず正解率は、最もプレーンに精度を把握するものだ。図にある通り、全体としての予測と答えの一致率である。たとえばユーザーが商品を買うか買わないかを予測するAIの場合を考えてみよう。全体の予測対象人数が100人でそのうち買うか買わないかのいずれかの予測をして70人に対して予測が的中した場合、正解率70%となる。
再現率は正解率とは異なり、買ったか買わなかったの、いずれかの視点からの精度評価方法の一つだ。具体的には「答えが正の中で予測が正とされたものの比率」である。たとえば、買う予測の再現率の考え方はこうだ。実際に買った人が40人で、買った人の中で予測としても買うと示していた人が30人だった場合は、再現率は30÷40で、75%となる。実際に買った人を予測によってどれくらい再現できていたか? といった考え方のもので。また、買わない予測の再現率でいくと、実際に買わなかった人が60人でそのうち買わないと予測していたのが40人であれば、買わない予測の再現率は40÷60で、66.6%となる。
適合率は、再現率の逆のアプローチであり、「予測を正と判断した中で答えも正のものの比率」である。予測した内容の中で本当にそうなったものの比率だ。図の例でいくと、買うと予測したのが50人でそのうち本当に買ったのが30人なので、適合率は30÷50で、60%となる。
今回はAI必須用語について解説してきた。聞き慣れない言葉もあったかと思うが、大事な用語ばかりなので、反復して読んでいただき丸暗記でもよいのでぜひ吸収していただきたい。
【お申込み受付中】AIでできることを実際に体験できる講座<2月18日締切>
2019年2月20日(水)に、マーケジンアカデミー『超入門!文系ビジネスマンのためのAI/ディープラーニング教室』を開催します。AIを活用できる人材の育成を目的とし、ビジネスサイドの視点からの“数式・コードを一切紹介しない”文系ビジネスパーソン向けの超入門講座です。詳細・お申込みはこちらから!