統計的数理モデル「ディシジョンツリー」の開発工程
さて、ここで最も汎用性が高く、広く普及している統計的数理モデルであるディシジョンツリー(decision tree:決定木 )の開発工程を簡単に紹介しよう。

1. データの収集と加工
まず、必要なデータを収集する。基幹系システムから収集されたデータは正規化されている場合がほとんどなので、この段階でデータの非正規化を行う。具体的には、利用明細等は会員IDごとに複数行で蓄積されている。これを1トランザクション(行)にすべてのデータが収まるようデータ設計を行い、この設計に基づきSQL等を使いデータ加工を行う。
2. データクリーニングと目的変数、説明変数の生成
信用リスク管理の場合、目的変数はデフォルトしたか、しないかを0、1のバイナリデータとして生成する。説明変数は複数の変数の組み合わせで合成変数を生成する場合が多い。たとえば、利用金額と与信枠から充足率(=利用金額/枠)等の合成変数を生成する。
そのうえで、モデルの安定性を確保するために、説明変数すべてについて分布あるいは度数を確認し、極端な外れ値を含むトランザクションをマスターデータから除外する。
3. モデル開発用データと精度検証用データに分割
マスターデータをモデル開発用データ約80%と、精度検証用データ約20%にランダムに分割する。
4. モデル作成
手順3で作成したモデル開発用データをデータマイニングツールに投入し、ディシジョンツリーを生成する。
5. モデルの精度検証
手順4で開発したモデルで、精度検証用データのスコアリング(デフォルト率の予見)を行い、実際にデフォルトしたか(黒)しないか(白)と、モデルが予見したデフォルトするかしないか(推定確率)を2次元のクロス集計表にまとめる。精度検証用データの実際のデフォルトを開発したモデルが何%捕捉しているかで、モデルの性能を評価する。精度が低い場合、手順1に戻り収集するデータの見直しを行うか、手順3の合成変数の生成の仕方を工夫する。
さて、次回は信用リスク管理とデータドリブンマーケティングの意外な共通点について解説したい。そのヒントは信用リスク管理とデータドリブンマーケティングは表と裏の関係にあるということだ。