相関係数行列/散布図行列の実力
まずは相関係数行列から。
cor(sample3[,2:5])
cor()を使うと一発で相関係数行列を出力できます。純広告(Jyunkou)とリスティング(Listing)の相関係数は0.546であることから純広告のインプレッションとリスティングのクリックはやや強い相関があるようです。
これまでの回で見てきたように、平日と週末で出稿パターンに強弱があることも影響していそうです。
一方、CVについては純広告→CV_純広告は若干のプラス(+0.086)であるものの、純広告→CV_リスティングはややマイナス(-0.086)となっていました。
続いてグラフ化しましょう!シンプルな散布図行列はコチラです。
plot(sample3[,2:5])
これもなんとも昭和的ですがシンプルで見やすい…地味ですなー!!
library(car)
続いてコチラのパッケージを使ってみましょう。
scatterplot.matrix(~Jyunkou+Listing+CV_Jyunkou+CV_Listing,reg.line=lm,data=sample3)
傾向線が追加されていますね。緑色が直線、赤い太い線が曲線で引かれています。
library(psych)
更に続いてはコチラのパッケージを使いますよ。
pairs.panels(sample3[,2:5])
これはなかなか情報量が多い…ですね。対角線上には第2回で取り上げたヒストグラムが、左下には散布図、右上には相関係数がそれぞれの組み合わせで表示されています。
ちょっとゴチャゴチャしているので少しシンプルにしましょう。
pairs.panels(sample3[,2:5], smooth=FALSE, density=FALSE, ellipses=FALSE, scale=FALSE)
意味は以下の通りです。
- smooth:散布図に対して近似線を表示(TRUE)/非表示(FALSE)
- density:ヒストグラムに対してカーネル関数を表示(TRUE)/非表示(FALSE)
- ellipses:散布図に対して円を表示(TRUE)/非表示(FALSE)
- scale:相関係数の表示の大きさを変える(TRUE)/変えない(FALSE)
他にも色だけで相関係数の大小を表現する方法もあります。
cor.plot(cor(sample3[,2:5]))
青ければ青いほど相関が高く、赤に近いとマイナスの相関となります。扱う変数が多い場合はこういった表現も便利ですね。
ではここからイケテル散布図行列を作ってみる! のコーナー。これまでのグラフは確かにサクっと表示されるので便利といえば便利でした。
ただ、少し見栄えがアレですよね。せっかくggplotを覚えたのでひと手間かけてイケてる表現にチャレンジしてみましょう!
簡単! 2015年2月10日「3つ」覚えて分析から視覚化まで即実践!Rでできるデータ分析講座開催
Rをインストールしたが、無骨なUIに「今日はこのへんで……」と、そっと閉じてしまった方にオススメです!
本講座では実機を使って「できるだけわかりやすく」グラフ化&データ分析をワークショップ形式で簡単に身に付けることができます。
