集計や解析の考え方
量的なデータについては、集めたデータから情報を取り出すための集計や解析、統計についての理解も欠かせません。集計や解析の基本は、データの背景を考え、データの構造を理解し、そして集計・解析の一定の過程を踏まえることにあります。そして、集まったデータは知りたい事象についての記述や推計をするために得られたサンプルであり、そこには様々な誤差が存在するといったような統計的な考え方の理解も必要です。
これは、従来手法である統計調査(アンケートなど)に限らずビッグデータにおいても、むしろビッグデータだからこそ、重要なポイントになります。アンケートなどで集めるデータと異なり、ビッグデータは目的志向で収集されたデータではないので、集計や解析に様々な過程が必要になります。従来手法であるアンケートなどが事前の企画・設計次第で結果が左右される可能性が高いのと対照的に、ビッグデータ分析は集計・解析過程が適切かどうかによって有益な情報が得られるかどうかが決まるといえます。
データの背景を考える
まずデータの背景を考えること。これは前回の代表性についての議論でも述べました。どんなデータでも、集められた背景や、どんな人から得られたデータなのかを考えることが重要です。データの背景を理解することなく、そこから得られた情報を解釈することはできません。誰が、どんな目的で、どんな方法で集めたデータなのか。そこには、どのような偏りが考えられるのか。リサーチ目的や分析目的に叶うデータなのか。あるいは、そのデータから得られた情報は、どのような範囲や制約の下で意味があるデータなのか。集計、解析に入る前に、これらのことを検討することが求められます。
データ構造を考える
データ構造も大切な検討要素です。アンケートやパネルデータなど事前に設計されているデータは、目的に沿って集められた項目のみで構成され、データの構造もわかっています。しかしビッグデータでは、どんな項目が、どんなデータ形式で、どのようなレイアウトになっているかは、データ次第です。分析目的に沿って使えそうな項目を抽出し、形式やレイアウトを揃える必要があります。他のデータと統合したり、集計対象とするデータを抽出する必要もあるかもしれません。さらに、事前に設計されたデータと異なり、すべてのレコード(データの1件分のこと)で、必要とする項目が揃っているわけではありません。このように、集計・解析の前にデータ構造を検討することは不可欠です。
データの作成と集計
データ背景の理解とデータ構造の検討を経て、やっと集計・解析に使うべきデータの作成と集計作業に入ります。この段階でも、データのクリーニング、データの加工、単純集計によるデータの確認、クロス集計による分析、そして多変量解析というように、必ず踏むべきステップや順序があります。これらを知らずに集計や解析を行っても、意味のあるデータが得られないばかりか、誤ったデータによる誤った判断を招く危険性もあります。今回は、それぞれの詳細に触れることはできませんが、集計・解析のフローと各ステップの役割、意味について理解しておくことが必要です。
統計についての理解
そして、統計についての理解も重要です。前回、同質性より異質性という話をしましたが、これも統計的な考え方の理解ができているかどうかで、言わんとすることの理解に差が出るように思います。平均やパーセンテージ、さらには分布などについての本質的な理解が求められます。また、代表性に囚われないといっても、やはり母集団やサンプリングの考え方、誤差とは何か、統計的推計や検定の仕組みや意味するところを理解した上で応用することが必要ですし、このような統計の理解は集計や解析を行う上では欠かせません。