アクセス解析に悪影響を与える「ユーザーエージェント偽装」

更新日: 2008/08/20
公開日: 2008/08/20

通知

Page 1
- 手口その2：ユーザーエージェントの偽装
Page 2
- 「ロボット」がユーザーエージェント情報を偽装する
- ロボットからのアクセスを見分けるには
Page 3
- まとめ

「ロボット」がユーザーエージェント情報を偽装する

　その場合、人間がページを実際にブラウザで巡回して、メールアドレスを探すのは、とても大変でコスト的に見合いません。そこで、大量にページにアクセスしてメールアドレスを検索するプログラム（ロボット）を利用します。そうしたロボットは、ブラウザと同じようにページにアクセスすることになりますから、その際にユーザーエージェント情報を送ることが可能です。

　メールアドレス収集プログラムからのアクセスは、サーバの管理者から見れば来てくれる必要はない、というよりも、来てもらっては迷惑なものです。したがって、もしユーザーエージェント情報から、それがブラウザによるアクセスではないことがばれてしまうと、もしかしたらアクセスを禁止される可能性があります。そうなっては困るために、こうした「来てもらっては迷惑な」プログラムは、ユーザーエージェント情報を偽装し、まるでブラウザからのアクセスであるように、サーバを「だます」のです。

ユーザーエージェント情報を偽装してサーバをだます

ロボットからのアクセスを見分けるには

　しかし、アクセス解析では、ブラウザの構成比なども算出していますから、こうしたアクセスがあまりに多くなってしまうと、その割合に影響してきます。たとえば、今日はいつもよりWindows 2000からのアクセスがやけに多いと思ったら、それらがすべて偽装されたアクセスであった、なんて可能性もあります。

　メールアドレス収集用のプログラムは、一つのサイトに大量にアクセスを行うといったことはありませんが、目的によっては、大量にアクセスをかけるロボットもあります。こうしたロボットにアクセスされてしまうと、ブラウザ比率の統計が狂ってしまうだけでなく、アクセスの時間帯、どのページにアクセスしたのか、といったことにもそれらのロボットからのアクセスが含まれてしまいます。ロボットからのアクセスは、人間のアクセスとは全く違いますから、これらが余り多く含まれてしまっては、正しく人間のアクセスを反映した結果ではなくなってしまいます。

　筆者は検索エンジンの会社で働いていますが、検索エンジンには、ユーザーエージェント情報は特に問題がないものの、明らかにロボット（少なくとも人間からのアクセスではない）からのアクセスと思われるものが、結構含まれています。それらは、SEO目的で検索結果の順位を調べたりするものなどだと推測はできますが、ユーザーエージェント情報だけでは判別ができません。

　そこで、送られてくる他の情報（リファラーなどの他のヘッダ情報が微妙にあやしいなど）、さまざまな状況から、ロボットを判別することになります。そのためには怪しいな、と思ったアクセスの生のログを詳しく調べる、といったことも必要になります。

　また、定期的にアクセス解析を行っていく中で、ユーザーエージェントの比率やアクセス数などが急激に変化した場合には、いったいその原因が何かをきちんと追求し、ロボットによるアクセスではないかどうかを調べる必要があります。

次のページ
まとめ

この記事は参考になりましたか？

水野貴明の“技術から学ぶ”アクセスログの読み方連載記事一覧: 悪質なボットによるアクセスの見分け方

「ボットでPV水増ししてる」とよく聞きますが、　そもそも“ボット”ってなんですか？

アクセス解析に悪影響を与える「ユーザーエージェント偽装」

もっと読む

この記事の著者: 水野貴明（ミズノタカアキ）

1973年東京生まれ。バイドゥ株式会社勤務の兼業テクニカルライター。学生のときに父親が買ってきたパソコン（マイコン）と出会い、コンピュータとの付き合いを開始。大学は有機化学、大学院では分子生物学を学ぶも、就職で再びコンピュータの道を進むことになった。その後インターネットの普及により、様々な方に出会う機会を得て1999年より執筆活動を開始。 http://d.hatena.ne.jp/mizuno_takaaki/

著書
『アクセス解析でホームページの集客を極める本』水野貴明著、ソーテック社、2005年3月　
『詳解RSS~RSSを利用したサービスの理論と実践』水野貴明著、ディー・アート、2005年8月

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

この記事は参考になりましたか？

この記事をシェア

通知

条件を絞り込んで検索

検索フリーワード

期間の指定

検索対象

人気検索キーワード　直近30日間でよく検索されているキーワード

アクセス解析に悪影響を与える「ユーザーエージェント偽装」

「ロボット」がユーザーエージェント情報を偽装する

ロボットからのアクセスを見分けるには

おすすめ

イベント

アクセスランキング

アクセスランキング

条件を絞り込んで検索

検索フリーワード

期間の指定

検索対象

人気検索キーワード 直近30日間でよく検索されているキーワード

アクセス解析に悪影響を与える「ユーザーエージェント偽装」

目次

「ロボット」がユーザーエージェント情報を偽装する

ロボットからのアクセスを見分けるには

おすすめ

イベント

アクセスランキング

アクセスランキング

人気検索キーワード　直近30日間でよく検索されているキーワード