「ロボット」がユーザーエージェント情報を偽装する
その場合、人間がページを実際にブラウザで巡回して、メールアドレスを探すのは、とても大変でコスト的に見合いません。そこで、大量にページにアクセスしてメールアドレスを検索するプログラム(ロボット)を利用します。そうしたロボットは、ブラウザと同じようにページにアクセスすることになりますから、その際にユーザーエージェント情報を送ることが可能です。
メールアドレス収集プログラムからのアクセスは、サーバの管理者から見れば来てくれる必要はない、というよりも、来てもらっては迷惑なものです。したがって、もしユーザーエージェント情報から、それがブラウザによるアクセスではないことがばれてしまうと、もしかしたらアクセスを禁止される可能性があります。そうなっては困るために、こうした「来てもらっては迷惑な」プログラムは、ユーザーエージェント情報を偽装し、まるでブラウザからのアクセスであるように、サーバを「だます」のです。

ロボットからのアクセスを見分けるには
しかし、アクセス解析では、ブラウザの構成比なども算出していますから、こうしたアクセスがあまりに多くなってしまうと、その割合に影響してきます。たとえば、今日はいつもよりWindows 2000からのアクセスがやけに多いと思ったら、それらがすべて偽装されたアクセスであった、なんて可能性もあります。
メールアドレス収集用のプログラムは、一つのサイトに大量にアクセスを行うといったことはありませんが、目的によっては、大量にアクセスをかけるロボットもあります。こうしたロボットにアクセスされてしまうと、ブラウザ比率の統計が狂ってしまうだけでなく、アクセスの時間帯、どのページにアクセスしたのか、といったことにもそれらのロボットからのアクセスが含まれてしまいます。ロボットからのアクセスは、人間のアクセスとは全く違いますから、これらが余り多く含まれてしまっては、正しく人間のアクセスを反映した結果ではなくなってしまいます。
筆者は検索エンジンの会社で働いていますが、検索エンジンには、ユーザーエージェント情報は特に問題がないものの、明らかにロボット(少なくとも人間からのアクセスではない)からのアクセスと思われるものが、結構含まれています。それらは、SEO目的で検索結果の順位を調べたりするものなどだと推測はできますが、ユーザーエージェント情報だけでは判別ができません。
そこで、送られてくる他の情報(リファラーなどの他のヘッダ情報が微妙にあやしいなど)、さまざまな状況から、ロボットを判別することになります。そのためには怪しいな、と思ったアクセスの生のログを詳しく調べる、といったことも必要になります。
また、定期的にアクセス解析を行っていく中で、ユーザーエージェントの比率やアクセス数などが急激に変化した場合には、いったいその原因が何かをきちんと追求し、ロボットによるアクセスではないかどうかを調べる必要があります。
