反響の大きさにビックリした「R」の連載
ビジネスの定番ツールと言えばExcelですが、データ活用が進む中、これまで大学や研究機関で使われてきたフリーの統計分析ツール「R」をビジネスの世界で活用する人が増えてきました。MarkeZineで「R」の使い方をわかりやすく解説した豊澤栄治氏の連載が、2月9日に書籍『楽しいR』として発売されるのを記念して、あらためて豊澤氏に、Rの魅力、この本で伝えたかったことをうかがいました。
―豊澤さんの連載は、「MarkeZineで2014年に読まれた記事ランキング」の1位になりました。
豊澤:びっくりしました。一番読まれた連載第1回はすごい数の「いいね」が付いたんですが、これは見出しのインパクトが大きかったと思います。「とっつきにくいけど実はエクセル以上に賢いヤツ」っていうのは、担当編集の押久保さんが付けてくれたタイトルなんですが、あらためて編集長はすごいなと。「編集長ありがとう!」という気持ちです。
統計解析ツール「R」はオープンソースで開発されていて、世界中の人たちが開発に関わっています。基本的な機能だけでもいろいろできますが、「パッケージ」と呼ばれるファイルをインストールすることで、「こんなことができたらいいな」というのを簡単に実現できる。また、Excelよりもずっと多くの分析手法に対応しているので、高度なデータ分析を素早く行い視覚化することができます。
たとえば、本書で紹介しているKmeans(K平均法)というクラスター分析の手法は、なかなか分析結果が安定しない。でも、日本の里 洋平さんが作った「ykmeans」というパッケージを使って、500回計算を繰り返すことによって結果が安定するように工夫しました。こういうことがササっとできるのはRならでは、ですね。
この本は「Rを学んで、Excelを卒業しましょう」という本ではありません。ExcelにはExcelの良さがある。でも、Excelだけではわからない統計分析の世界の一端を感じてほしい、そして広告やマーケティングに携わる人たちに必要な知識やスキルの初歩を身に着けてもらえたらと思っています。
データ分析って「前処理」が大事なんです
―本書は8章構成で、Rのインストールから解説していますね。
豊澤:はい。インストールしたらすぐに分析開始です(笑)。ちょっと強引かもしれませんが、まずは手を動かすことが大事だと思うので。実はデータ分析は、「分析よりもデータの前処理が大事」と言われてまして、分析の前に、データを分析できる状態に整えることが非常に重要です。なので、第2章はデータに異常値がないかを確認する作業を説明しています。
第3章のテーマは「時系列データ」。この本では、サイトのコンテンツのページビューやコンバージョン数など、MarkeZineの読者にとっておなじみのデータをサンプルにして分析しています。こうした、時系列に沿って集められたデータから、私たちは何を知ることができるのかを説明しています。
第4章はさっきも触れた「パッケージ」を使って相関分析を行い、さまざまなグラフを描きます。散布図、ヒストグラム、ベイジアンネットワークなどが登場します。第5章は、「性別や接触広告でコンバージョン数はどのくらい違うのか」を、クロス分析や決定木分析などを使って分析しています。
―ガンガン行きますね。
豊澤:はい。第5章ではとても重要なことを説明しています。それは「質的変数」と「量的変数」の違いです。人間の性別、「男性」と「女性」って足したり引いたりすることはできないですよね。こういう変数を「質的変数」と言います。一方、コンバージョン数のように足したり引いたりしても大丈夫な変数を「量的変数」と言いまして、これらを区別することがデータ分析では大切な作業なんです。
そして第6章では「ダミー変数」というのがでてきます。これは、さきほどの性別のような質的変数を、計算できるように変換したもので、こうすることによってデータ分析が非常にやりやすくなり、できることが広がります。
ビジネスの永遠のテーマにも挑戦
―連載は第6章のところで終わっているのですが、書籍ではそのあと2章加筆してあるんですよね。
豊澤:はい。第7章では「どれだけ○○したら◎◎できるのか?」という、ビジネスの永遠のテーマにチャレンジします。この「どれだけ○○したら◎◎できるのか?」は、統計分析の世界では「因果関係」というのですが、この因果関係を調べるために簡単なモデルを作って分析をします。
そして最後の第8章では、「どんなコンテンツがコンバージョンに影響を与えたのか」を分析します。これまで説明してきたさまざまなグラフや分析手法が総まとめで登場します。回帰分析、重回帰分析、ロジスティック回帰を一気に解説し、算出された係数の信頼度がどのくらい高いのかを知るための数値の見方も紹介しています。
―ついていけるのか心配になりますが、豊澤さんの文章を読んでいるとなぜか笑ってしまうんですよね。
豊澤:実は私、元ミュージシャンで、音楽大好き、アイドル大好きなので、そういったエッセンスも織り交ぜつつ解説しています。MarkeZineでもアイドルのデータ分析をテーマにした連載をしているのですが、読者の方が楽しみながら読めるよう、心が折れないように工夫したつもりです。あと、この本では、エラーになってつまずくところをあえて入れています。「あれ?」という体験をすることで間違いやすいポイントを確認するためなんですが、極力はじめてRに触れる読者に寄り添うことを意識しました。
また、書籍のために、私と仕事上のつながりのあるアトラエの井端さんと対談しています。20代の井端さんから見た広告運用の話は、すごく彼らしいなと。
―井端さんと豊澤さんは、Rのつきあい方が対照的でした。対談はMarkeZineで2回にわたって公開しますので、お楽しみに。
データ分析のリテラシーはこれからますます重要に
―最後にあらためて、本書『楽しいR』で伝えたかったことについて。
豊澤:そうですね。私は外資系の金融機関で長く投資のための分析を担当し、回帰曲線を何回引いてきたかわからないくらいです(笑)。データ活用が本格化しつつあるマーケティングや広告の世界では、データサイエンティストでなくても、データ分析のリテラシーを身につけることがこれからますます重要になると思います。
現在では多くの良書も出ていますし、ネットで検索すれば最新の情報も手に入る。井端さんも言ってましたが、面白い勉強会もたくさんあります。ただ、最初にとっかかりになるような知識というのは必要なので、そのためにこの本を使ってもらえればと思います。
―『楽しいR』は2月9日に発売されます。オンライン書店では現在予約受付中なので、興味のある方はぜひ手に取っていただきたいですね。今日はありがとうございました。
データの扱い方・読み解き方がわかる!『楽しいR』絶賛発売中!
『楽しいR ビジネスに役立つデータの扱い方・読み解き方を知りたい人のためのR統計分析入門』
豊澤栄治 著、翔泳社、A5判/208ページ、本体:2200円+税
全国の書店、オンライン書店(翔泳社/Amazon)で発売中! 2月20日発売の電子版はこちらから予約受付中!
第1章 とっつきにくいけど実はExcel 以上に賢いヤツ
フリー統計解析ソフトウェア「R」を触ってみよう
第2章 Rで分析を始める前に データに異常値がないかを確認しよう
第3章 時系列データを分析すると何がわかる?
時系列分析を使ったデータ分解で「変動要因」の特定に挑戦!
第4章 R のパッケージを使って イケてるグラフをサクッと作成しよう
第5章 正しい分析手法を選ばないと時間のムダ
顧客属性とコンバージョンデータを使って、打ち手を効率よく考える
第6章 「ダミー変数」でデータをまとめてクラスター分析
単位が違うデータは「標準化/基準化」でGo!
第7章 どれだけ○○したら◎◎できるのか? 数値による定量化で「因果関係」を分析する
第8章 総まとめ! コンバージョンに影響を与えたコンテンツは何かを分析してみよう
付録 豊澤栄治(ロックオン)×井端康(アトラエ)
ツールを使いこなすだけでなく、さらに高いレベルを目指したい。