SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

MarkeZine Day(マーケジンデイ)は、マーケティング専門メディア「MarkeZine」が主催するイベントです。 「マーケティングの今を網羅する」をコンセプトに、拡張・複雑化している広告・マーケティング領域の最新情報を効率的にキャッチできる場所として企画・運営しています。

直近開催のイベントはこちら!

MarkeZine Day 2025 Retail

LABO

短期集中連載「金融工学とデータドリブンマーケティング」第1回「金融工学」とは何か


統計的数理モデル「ディシジョンツリー」の開発工程

 さて、ここで最も汎用性が高く、広く普及している統計的数理モデルであるディシジョンツリー(decision tree:決定木 )の開発工程を簡単に紹介しよう。

統計的数理モデルの開発プロセス
信用リスク管理

1. データの収集と加工

 まず、必要なデータを収集する。基幹系システムから収集されたデータは正規化されている場合がほとんどなので、この段階でデータの非正規化を行う。具体的には、利用明細等は会員IDごとに複数行で蓄積されている。これを1トランザクション(行)にすべてのデータが収まるようデータ設計を行い、この設計に基づきSQL等を使いデータ加工を行う。

2.  データクリーニングと目的変数、説明変数の生成

 信用リスク管理の場合、目的変数はデフォルトしたか、しないかを0、1のバイナリデータとして生成する。説明変数は複数の変数の組み合わせで合成変数を生成する場合が多い。たとえば、利用金額と与信枠から充足率(=利用金額/枠)等の合成変数を生成する。

 そのうえで、モデルの安定性を確保するために、説明変数すべてについて分布あるいは度数を確認し、極端な外れ値を含むトランザクションをマスターデータから除外する。

3. モデル開発用データと精度検証用データに分割

 マスターデータをモデル開発用データ約80%と、精度検証用データ約20%にランダムに分割する。

4. モデル作成

 手順3で作成したモデル開発用データをデータマイニングツールに投入し、ディシジョンツリーを生成する。

5. モデルの精度検証

 手順4で開発したモデルで、精度検証用データのスコアリング(デフォルト率の予見)を行い、実際にデフォルトしたか(黒)しないか(白)と、モデルが予見したデフォルトするかしないか(推定確率)を2次元のクロス集計表にまとめる。精度検証用データの実際のデフォルトを開発したモデルが何%捕捉しているかで、モデルの性能を評価する。精度が低い場合、手順1に戻り収集するデータの見直しを行うか、手順3の合成変数の生成の仕方を工夫する。

 さて、次回は信用リスク管理とデータドリブンマーケティングの意外な共通点について解説したい。そのヒントは信用リスク管理とデータドリブンマーケティングは表と裏の関係にあるということだ。

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
LABO連載記事一覧

もっと読む

この記事の著者

河野 洋一(カワノ ヨウイチ)

トランスコスモス株式会社 常務執行役員 兼 トランスコスモス・アナリティクス 代表取締役社長

2003年トランスコスモス入社、2004年同社、執行役員、2009年同社、常務執行役員(現任)。入社以来、コンタクトセンターとWeb/ECを顧客接点としたダイレクトマーケティング関連サービスの開発とデリバリに従事。2008年にトランスコスモス・アナリティクスの前身となる「MCM分析サービス部」をトランスコスモス内に立上げ、トランスコスモス...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

MarkeZine(マーケジン)
2012/09/28 17:47 https://markezine.jp/article/detail/16408

Special Contents

PR

Job Board

PR

おすすめ

イベント

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング