ボットをどう扱うべきなのか
それでは、アクセス解析という観点からすると、ボットからのアクセスをどのように扱うべきなのでしょうか。
ボットに対するWebサーバー上での対策として、ボットをブロックする(つまりボットがアクセスしてきた際にサイトにアクセスできないようにする)という方法があり、サーバーの負荷が高くなってしまった時や、大量にアクセスしてくる素性不明のボットがあった時には、そうした手法が有効です。
しかし、本連載はアクセス解析に注目しているので、そうしたブロックの話には触れません。既にボットからのアクセスがログにある状態と仮定した上での扱い方を考えます(それに、筆者はインターネット上に公開されている情報というものはスクレイパーなどの存在も含めて利用可能になっていた方が良いと考えていますし、マナーを守ったボットであればある程度許容されるべきであると思います)。
ボットからのアクセスを強く意識させられる1番多いケースは、おそらく、ある日突然アクセス数が爆発的に増加したが、どこかからリンクが張られた形跡もないく、その理由が何も思い当たらない、と言った場合でしょう。
何が起こったのかと思い、アクセスログを調べて見たときに、ボットのアクセスを見分けられればボットからのアクセスが原因だったことがすぐにわかります。
既に述べたように、ボットは通常の利用者がブラウザを経由してきたアクセスではありません。ですから基本的には、アクセス者数(ページビューやユニークユーザー数)からはボットのアクセスを除いて計算する、というのが一般的なのではないかと思います。
また、プロモーションやサイトリニューアルの効果測定も、当然ボットからのアクセスを除いた数でやるべきです。そうしなければ、たまたま大量にやってきたボットからのアクセスを実際にユーザーがアクセスしてくれたものだと勘違いして、ぬか喜びをしてしまったり、広告のCTRが低くて悩んでしまったりするかもしれませんから注意が必要です。
また、検索エンジンのクローラーなどは、どのページにどれくらいの頻度でアクセスが行われているかを知ることは、どこのページが検索エンジンに認識されているのか、いないのか、どれくらいの頻度で新しい情報が取得されているのかなどを知るために重要な情報になるでしょう。
もちろんこれは、実際にサイトの今後の戦略を練る上で利用する「アクセス実数」を調べる場合の話です。そうした場合は、サイト訪問者のユーザーの行動を分析する必要があるからです。
しかし、対外的に公開する「公称値」の場合はちょっと話が違ってきます。違う、というよりも、公称値にボットからのアクセスが含まれている場合があったりします。例えば昨年7月、Amebaが月間100億PVを達成したという発表をした際に、ボットを含んだアクセス数であるという指摘があり、物議を醸しました。
この件に関しては実際どうなのか、正確なところはわかりませんし、そもそもボットを含んだアクセス数を表示したらいけないというルールもないので、善し悪しをここで語ることはできません。
雑誌なども発行部数の公称値も実売数よりも多い、みたいな話も聞いたことがありますが、それと同じことなのかもしれません。ただ、本連載の目的はアクセス解析を行うことにありますから、ボットはきちんと区別しておきましょう。