手口その2:ユーザーエージェントの偽装
前回解説した「リファラースパム」の仕組みに続き今回は「ユーザーエージェントの偽装について解説していきます。リファラースパムはいわばリファラー情報の偽装の問題でしたが、アクセス解析のもう一つの問題にユーザーエージェント情報の偽装があります。これは、アクセス解析をターゲットにした行為ではありませんが、結果としてアクセス解析に悪影響を与えます。
ユーザーエージェント情報については、第3回で解説しましたが(ユーザーエージェント情報を使ってアクセス元を読み取る!(前編)、ユーザーエージェント情報を使ってアクセス元を読み取る!(後編))リファラー情報と同様、アクセスの際にブラウザがリクエストヘッダ内に入れて送ってくる情報で、ブラウザの名前やバージョン、OSの種類などの情報を含んでいます。たとえば、Windows Vista上で動作するInternet Explorer 7からのアクセスの場合、以下のようになります。
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)
この情報は、パソコンにインストールされているソフトなどによって若干変わりますが、「MSIE 7.0」がInternet Explorerの7、「Windows NT 6.0」がWindows Vistaであることを表しています。この情報を解析すれば、自分のサイトにアクセスしてきた人が、どんなブラウザを使っているのかがわかります。検索エンジンのクローラーなども独自のユーザーエージェント情報を送ってくるので、どれくらいの頻度でクローラーが巡回してきているのかもわかります。しかし、このユーザーエージェント情報も、リファラー情報と同じく、どんな情報を送ってくるかはブラウザに任されているので、全く嘘の情報を送ることもできてしまいます。
その使い方としては、携帯電話のユーザーエージェント情報を送って、携帯向けのページをチェックしたり、ブラウザによって挙動を変えるページを作っていてその挙動を確かめるなど、テスト的な目的もあるのですが、悪意のある人が、アクセスを目立たせなくするために利用する、というケースも多くあります。
メールアドレスの収集ツールなどが、昔から存在するその典型例でしょう。迷惑メール(スパムメール)は、大量のメールアドレスに、広告目的のメールを送りつける手法です。その際には、送信先として大量のメールアドレスが必要となります。その収集元として、ウェブページが使われています。なぜなら、ウェブページ上には、サイトの管理者が連絡先として掲載しているメールアドレス、掲示板やコメントなどに記述されたメールアドレス、メーリングリストのアーカイブに残されたメールアドレスなど、さまざまなメールアドレスが書かれており、ウェブページを巡回することで、大量のメールアドレスを集められるからです。