チャチャっと状況確認して次の打ち手を考える
顧客属性データとコンバージョンデータは企業内によく「あるある」データの形式かと思います。こういったデータが手元にある際に、チャチャっと状況を確認して次の打ち手を考えたい! そんなニーズにお応えしていきましょう!
クロス集計表、モザイク図、決定木といった手法を活用していきますが、あくまで手法は目的達成のための手段でしかありません。正しく使って効率化し考える時間を捻出しましょう。
前回解説しましたパワーアップキットこと「パッケージ」についても使っていきます。「パッケージ」の追加設定方法については必要に応じて前回記事をご参考にして下さい!
- vcd
- ggplot2
- rpart
- rpart.plot
早速、こちらのサンプルデータをダウンロードしてRに読み込みましょう。
sample<-read.csv("c:/data/CV_data.csv",header=T)
元のデータはこのようになっています。
Rで確認してみましょう。
head(sample)
- ID:ユーザーID
- CV:コンバージョンした/していない(yes/no)
- AGE:年齢
- SEX:男性/女性(Male/Female)
- AD:接触した広告(DSP/Mail/Listing)
“販売サイトでのユーザー毎の購入データ”や、“マンションなどの資料請求サイト”などをイメージして頂くとよいでしょう。
ポイントは、1ユーザーデータ=1行 という関係です。複数行ではありません。今回の分析においてコレ重要です。
あれ!? なんで今回は日本語の変数名ではないのか? とツッコミが入りそうですね。
そうなんです。vcdパッケージを使うのですが日本語表示で問題がありまして、英語表記とさせて頂きます。環境によってはうまいこといくかも知れませんが……。お許しください!
何はともあれ集計して中身を確認しましょう。
これまでも取り上げた下記コマンドを入力。
summary(sample)
- IDは10から始まって最大値は59
- CVしているユーザー数(yes)は35。CVしていないユーザー数(no)は15。
- 年齢は20から50歳までで分布。中央値35歳>平均値33.38歳なので若い人が外れ値となって平均値を押し下げてるのかも。
- 男女比率はほぼ半々。
- 接触広告はMail>Listing>DSPの順で多い。
といったことがわかりましたね。
データの種類について学びましょう!
さて、ユーザーIDですが数値データですよね? でもってこの数値の大小に意味があるか無いかというと……
ユーザーIDが大きいから役職が上とか、お客様として偉い!とか、なんて事は……ありませんね(番号が若い方がデータベース登録日が古い、ということはあるかもしれません)。
また、ユーザーIDの引き算や割り算といった四則演算に意味がないこともご理解頂けるのではないでしょうか?
つまりこの数値は単なるラベルなんですよね。このような変数のことを「質的変数」「カテゴリカルデータ」なんて言ったりします。
他の変数はどうでしょうか?
CVは「yes」か「no」か(小田和正さん?嵐?世代が……)。性別は男性か女性か、広告はDSPかメルマガかリスティングか…。何れも分類しているだけで大小の区別はありません。という訳でこれらも「質的変数」ってことになります。
一方で、年齢はどうでしょうか?
こちらは数字で表現されていて大小に意味がありますね。さっきは"質"的変数でしたので対義語は…量!と言うことで「量的変数」と呼びます。
簡単! 2015年2月10日「3つ」覚えて分析から視覚化まで即実践!Rでできるデータ分析講座開催
Rをインストールしたが、無骨なUIに「今日はこのへんで……」と、そっと閉じてしまった方にオススメです!
本講座では実機を使って「できるだけわかりやすく」グラフ化&データ分析をワークショップ形式で簡単に身に付けることができます。