SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

新着記事一覧を見る

MarkeZine Day(マーケジンデイ)は、マーケティング専門メディア「MarkeZine」が主催するイベントです。 「マーケティングの今を網羅する」をコンセプトに、拡張・複雑化している広告・マーケティング領域の最新情報を効率的にキャッチできる場所として企画・運営しています。

直近開催のイベントはこちら!

MarkeZine Day 2025 Retail

実践!WebマーケターのためのR入門

顧客属性データとコンバージョンデータを使ってどんどん打ち手を考えよう!【R入門講座】


CVしてる/していないの違いってなんだろう?

 ここまでで性別、年齢、接触広告によって、CVしているか/いないかに違いがありそうなことはわかりました。もう少し突っ込んだ視覚化する方法をご紹介していきます。

 決定木という手法を使いますが、まずはサックリ手元で動かして頂いてから説明に移りますね。パッケージrpartを読み込みます。

library(rpart)

tree<-rpart(CV~ID+AGE+SEX+AD,data=sample)

 CVしているか/いないか?(CVを被説明変数、目的変数、従属変数なんて言ったりします)を、ID,AGE,SEX,AD(これらは、説明変数、独立変数と言います)で説明するモデルを構築して結果をtreeに格納します。

data=sample

 は、使用するデータのテーブル名ですね。

 決定木の結果を綺麗に出力できるパッケージを使ってみましょう。

library(partykit)
plot(as.party(tree),tp_args=T)

 図の見方ですが…、上から見ていきます。1つ1つの箱はノードと言います。

 CVしているか/していないかを判断するのに、SEX:性別で分割するのが良いとの結果が得られています。

 Male:男性を辿っていくと、n=26となっていますので26人が男性であることがわかります。また、yes/noでyesが濃いグレー、noが薄いグレーとなっておりCV=yesが大半を占めていることが示唆されています。

 一方、Female:女性を辿ると、IDで分割されています。IDが52.5未満か以上か。

 アレ……。IDって単なるラベルでした……よね?

 ランダムに振られた意味のない番号だとしたら、分析結果に入っていたとしても使い道ない!! です。

 ちなみに、IDのような個人を1対1で識別できるような説明変数(←さきほどやりましたね)を決定木に入れるとデータを100%説明できてしまいます。

 例えて言うと同姓同名のいないクラスの生徒を名前で分割するようなものです。でもそれって、使い道がないです。

 と、言う訳でもう一度やり直しを。

tree<-rpart(CV~AGE+SEX+AD,data=sample)
plot(as.party(tree),tp_args=T)

 先ほどIDで分割されていたところが、AGE:年齢と変わっています。

 女性でも年齢が25.5歳未満だとCVしている割合が高くなる(86%)可能性があります。

 但し、このようなケース(女性かつ25.5歳未満)はn=7しかない点は注意が必要です。

 一番左の結果について確認していくと、このようなケース(女性かつ25.5歳以上)はn=17人存在しており、76%はCVしていない、24%がCVしている、となっています。

 結果を異なる形式で出力してみましょう。こちらもなかなかに綺麗です。

library(rattle)
library(rpart.plot)
fancyRpartPlot(tree)

 見方を上から説明していきますね。一番上のノードはyesとあります。これはCVしている/していないについて、

no:0.3(=30%)、yes:0.7(=70%)

 であり、このノードは全データに基づく(100%)ことを示しています。

 次に、SEX:性別=Femaleがnoとなっている(つまりMale:男性ですね)右下のノードを見てみましょう。

 yesとなっており、0.96(96%)の人がCVしています。下の52%は全体100人のうち52%(52人)がこのノードに含まれていることを表しています。

 先ほどのpartykitとrattleとを、必要に応じて使い分けて頂ければと思います。

 また、数値をパパッと確認したいときは、

tree

 と入力してみましょう。

 先ほどの2つの図と同内容をこの形式でも確認できます。

 今回はクロス集計、モザイク図、決定木に加えて、変数の種類について学んできました。

 変数の種類の理解はとっても大事なものです。

  • 手元にあるデータは質的変数なのか量的変数なのか?
  • 知りたいこと(被説明変数)があって、要因(説明変数)を特定したいのか?
  • まずは大雑把に顧客をグルーピングしたい

 などなど。使用するデータの種類とやりたいことに応じて、分析手法を選択する必要があるからです。

 さて、いよいよ次回は最終回です。お楽しみに!

簡単! 2015年2月10日「3つ」覚えて分析から視覚化まで即実践!Rでできるデータ分析講座開催

Rをインストールしたが、無骨なUIに「今日はこのへんで……」と、そっと閉じてしまった方にオススメです!

本講座では実機を使って「できるだけわかりやすく」グラフ化&データ分析をワークショップ形式で簡単に身に付けることができます。

★☆★「Rでできるデータ分析講座」の詳細・お申し込みはこちら★☆★

顧客属性データとコンバージョンデータを効率よく使うために

楽しいR

Amazon /  翔泳社
楽しいR
ビジネスに役立つデータの扱い方・読み解き方を知りたい人のためのR統計分析入門

著者:豊澤栄治
出版社:翔泳社
発売日:2015年2月9日
定価:2,200円(税別)

目次

  • 第1章 とっつきにくいけど実はExcel以上に賢いヤツ
  • 第2章 Rで分析を始める前に
  • 第3章 時系列データを分析すると何がわかる?
  • 第4章 Rのパッケージを使って
  • 第5章 正しい分析手法を選ばないと時間のムダ
  • 第6章 「ダミー変数」でデータをまとめてクラスター分析
  • 第7章 どれだけ○○したら◎◎できるのか?
  • 第8章 総まとめ!

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
関連リンク
実践!WebマーケターのためのR入門連載記事一覧

もっと読む

この記事の著者

豊澤 栄治(トヨサワ エイジ)

株式会社ファンコミュニケーションズ サービス開発部 情報科学技術研究所 所長

横浜国立大学経営学部、一橋大学大学院国際企業戦略研究科卒

SPSS Japan、みずほ第一フィナンシャルテクノロジー(株)、外資系運用会社(Amundi Japan)での経験を活かし、金融の分析ノウハウをマーケティ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

MarkeZine(マーケジン)
2015/04/21 12:07 https://markezine.jp/article/detail/20665

Special Contents

PR

Job Board

PR

おすすめ

イベント

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング