サンプリングされたデータはどこまで信用できるのか
ではサンプリングされたデータはどこまで信用できるのか、言い換えればサンプリングされたデータは本来のデータと比較してどれだけ正確なデータなのかを解説していきます。

上記はあるサイトの集計結果に発生したサンプリングのデータと非サンプリングデータ(後述)を、それぞれ訪問数で比較した結果です。セッションデータ全体の2.30%という僅かな割合から推定されたデータではありますが、サンプリングされていないデータと大幅な乖離が生じているわけではありません。
サンプリングを回避する方法
しかし、どうしてもサンプリングされてないデータが必要になることもあります。そこでサンプリングされないデータを取得するための方法を、いくつかご紹介させていただきます。
集計期間を短くする
集計期間を狭められたことで、全体のセッションデータが50万件を上回らなければサンプリングは発生しません。
標準レポートで出来る範囲を理解する
全体のセッションデータの件数に関係なく、アドバンスセグメントやセカンダリディメンションを使用しない限り、標準レポート上はサンプリングが発生しません。まずは計測したいデータが、アドバンスセグメントやセカンダリディメンションなどを使わなくても標準レポート内で確認できるかを調べてみましょう。
よく使用する特定の条件でビューを作成する
例として、報告用のレポートでPC、スマートフォン、タブレットなど、デバイス別の数値を報告する際にアドバンスセグメントを利用されている方がいらっしゃるとします。デバイスごとの傾向を比較するには問題ありませんが、コンバージョン数のような、より正確なデータを求められる際にはデバイスごとの計測を目的としたビューを事前に作成しておくといいでしょう。同様に粒度の細かさが求められるキャンペーン分析なども用途に応じてビューを作成してもいいでしょう。
目的ごとにビューを作成すると必要以上にビューが増えてしまい、画面上での使いづらさが増したり、レポートを作成する際には複数のビューを使用しなければいけないので作業の手間が掛かってしまいますが、サンプリングを回避する手段として検討する余地はあるでしょう。
Google アナリティクス プレミアムで非サンプリングデータをダウンロード

Google アナリティクスの有償版、Google アナリティクス プレミアムにはサンプリングされていないデータ(非サンプリングデータ)をCSV形式でダウンロードする機能があります。
この機能はサンプリングされていない集計結果を取得できるだけではなく、レコード数が増えがちな「ページ」、「検索キーワード」、「カスタム変数(またはカスタムディメンション)」などで発生しやすい(other)の内訳も確認できます。
ただしプレミアム版で利用できる非サンプリングデータにも下記の制限があります(※2013年12月時点)。
- 集計対象にできる訪問数は最大1億件まで
- エクスポートできるレコード数(行数)は最大300万行まで
大規模なサイトで計測期間を長期間にして活用する場合、集計対象の訪問数が1億件を越えてしまい、非サンプリングデータをリクエストできない場合があります。その場合は計測期間を狭めた上でご利用いただくことを推奨しています。
サンプリングとの正しい付き合い方
通常のPDCA運用において傾向値を把握する上ではサンプリングされたデータで問題ないでしょう。しかし定期的な社内報告用のレポート、または自社の数値を社外へ報告する場合にはサンプリングされたデータは不向きと言えます。同様に細かい粒度で特定のテーマを掘り下げることが求められる分析業務にも避けたほうがいいでしょう。
サンプリングは正確なデータを保証するものではありません。しかしサンプリングを正しく理解することで、サンプリングされたデータは正確ではないので使えない、という誤った認識から開放されます。そしてサンプリングされたデータは決して精度の低いデータではないということ、正確なデータではなくてもデータから読み解けるインサイトに変わりはないこと、今後の施策の判断材料として活用しても問題ないことがご理解いただけるはずです。