データの前処理、大事です
おひさしぶりです、豊澤です。統計解析ツール「R」の活用法を紹介した本連載は、昨年多くの方に読んでいただき、今年2月には『楽しいR』という書籍にもなりました。あらためて御礼申し上げます。今回は読者の皆様への感謝をこめて、「番外編」としてデータ分析に欠かせない「データの前処理」についてご紹介したいと思います。
2つのテーブルを結合したい!
データ分析を実行する前には、分析に適した形式にデータを整形する必要があります。また、異なるテーブル(表)に保存されているデータを何らかの形でひとつのテーブルにまとめることで新たな観点で分析することが可能になるのです。
たとえば、日付と売上や地域別の来店客数情報があるとしましょう。ここに、日付と地域別の気象情報が加われば、日次の地域別売上、来店者数の分析に加えて、天気と気温という分析軸を考慮することができるようになります。
テーブル1:「日付」と「地域別売上」「地域別来店者数」
テーブル2:「日付」と「地域別の気象情報」
この場合、2つのテーブルを結合する際に重要な「キー」となるのは「日付」と「地域」です。日付や地域が異なるの気象情報を結合しても、誤った結果を導いてしまうことは明白ですね。
日付情報がある場合は(連載でも触れましたが)、曜日情報を追加したり平日や週末といった観点を追加することもできます。年末年始や消費税増税前の影響といった特殊事情がある場合には、当該日付に対応した「年末年始用ダミー変数」や「消費税増税前ダミー変数」を作成して、既存のテーブルに結合することも考えられます。
ここ数年ブームとなっているDMP(Data Management Platform)においても、クッキー情報と企業が保有するユーザーIDをひもづけることで、Web上での行動履歴や広告接触履歴と個々人の属性情報とを結合、分析し、より効率的な広告配信やサイト運営を通じて、顧客とのより円滑なコミュニケーションができるものと期待されています。
非常に基本的ではありますが、このようなデータの結合処理は、前処理において頻繁に発生する重要な操作なのです。今回は、連載でご紹介したcbind関数ではなく、merge関数を使ったデータ結合についてご紹介します。