SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

MarkeZine Day(マーケジンデイ)は、マーケティング専門メディア「MarkeZine」が主催するイベントです。 「マーケティングの今を網羅する」をコンセプトに、拡張・複雑化している広告・マーケティング領域の最新情報を効率的にキャッチできる場所として企画・運営しています。

直近開催のイベントはこちら!

MarkeZine Day 2025 Retail

水野貴明の“技術から学ぶ”アクセスログの読み方

「ボットでPV水増ししてる」とよく聞きますが、
そもそも“ボット”ってなんですか?


ボットを見分けるには(見分けやすいボット)

 アクセスの中からボットを見分けるために、まず最初に注目すべきなのはそのユーザーエージェント情報です。第3回でも触れたように、多くのボットは独自らのユーザーエージェント情報を送ってくるので、それを使って、ブラウザかボットかを見分けることができます。

 代表的なものが検索エンジンのクローラーです。第3回前編第3回後編でも紹介していますが、もう一度見ておきましょう。

サンプル1 検索エンジンのクローラーのユーザーエージェント情報例
  •  Google Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  •  Yahoo! Mozilla/5.0 (compatible; Yahoo! Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)
  •  Bing msnbot/2.0b (+http://search.msn.com/msnbot.htm)

     

  •  Baidu Baiduspider+ (+http://www.baidu.jp/spider/)
  •  NAVER Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

 これらのクローラーは、基本的に「Googlebot」や「Slurp」と言った特定のキーワードが含まれていますし、自分が何者か、と言うことを記したURLも記述されています。これらの情報を調べれば、何を目的としたアクセスなのか、ということもわかります。

 もちろん、検索エンジンの勢力はどんどんと変化していますし、送信してくるユーザーエージェント情報も常に同じであるとは限りません。

 また、特にモバイル検索向けのユーザーエージェントは、サイトのキャリア判別に適切に判断してもらって目的のページをクロールするため、携帯機種のユーザーエージェント情報をベースにしたものになっています。

 しかし、携帯の機種は変化が激しいため、ユーザーエージェント情報も適宜アップデートされたり、新しい機種をベースにしたものが登場したりしています。例えばGoogleのモバイル検索向けのクローラーは、Nokiaとdocomoの機種類似のものが多いのですが、ほかにもBlackBerryをベースにしたものなども存在しています。

 そのほかにも、ユーザーエージェント情報から、明らかにブラウザではないことがわかるアクセスもたくさんあります。その代表的なものは、各種プログラム言語で標準的に使われているWebページ取得用機能ライブラリのユーザーエージェントです。まずは例を示します。

サンプル2 各種プログラム言語のライブラリの標準ユーザーエージェントの例
  •  Perl libwww-perl/5.833
  •  Java Java/1.6.0_17
  •  Python Python-urllib/2.6

 誰かがあなたのページの内容をスクレイプしたいと思ったとき、つまりWebページにアクセスしてそのデータを取得して、そこからデータを抽出して利用したいと考えた場合に、こうしたユーザーエージェントでアクセスが行われる場合があります(もちろんこうしたユーザーエージェントが残ることが、必ずしもそういったケースとは限りません。例えば、ユーザーエージェントをほかの名前に変えている場合もあります)。

 例えば、ある天気予報サイトに掲載されている、ある地域の天気情報を毎時間取得して、それを自分のメールアドレスに送るプログラムを書いた人がいたとします。するとそのプログラムは、毎時間その天気予報サイトの特定のURLに自動的にアクセスしてHTMLのデータを取得して、その中から目的の情報を取得するようなものになるでしょう。

 その結果、そのページのアクセスログには毎時間そのプログラムからのアクセスのログが残ります。こうしたスクレイプを行うプログラムは、世の中にあるプログラミング言語では簡単に書くことができます。

 なぜなら、現在存在するプログラム言語のほとんどは、URLを指定してWebページにアクセスし、その内容を取ってくるという機能があらかじめ用意されているからです。

 そして、そうした機能を利用した場合、ユーザーエージェントをプログラムの中で指定すれば、そのユーザーエージェント名が使われますが、何も指定しなかった場合はそれぞれの標準のユーザーエージェント名が使われるのです。こうしたユーザーエージェント情報でのアクセスは、ほぼ間違いなくブラウザでのアクセスではありません。

 ちなみに世の中にはボットもブラウザも非常にたくさんあるので、見ただけでは見分けづらい場合もあります。

 そういったときに便利な情報源としてBots vs Browsersというサイトがあります。これはさまざまなユーザーエージェント情報を収集しているサイトで、41万ものユーザーエージェント情報が「ボットかどうか」という情報と共に掲載されているので、知らないユーザーエージェント情報があったら、調べてみるとよいでしょう。

 また、ユーザーエージェント以外にも、ボットを見分ける方法があります。それはIPアドレスです。

 例えば、モバイル検索向けのクローラーは、基本的にどのIPアドレスからアクセスが行われるかということは、それぞれの検索サイト上で公開されています。これは、多くのモバイルサイトがIPアドレスで実際の携帯電話以外のアクセスをブロックしているためで、クローラーを特別視してブロックを解除してもらうためにこうしたことをしているわけですが、その情報はアクセス解析にも利用できます。

 ただし、IPアドレスを公開しているようなボットはほぼ間違いなくユーザーエージェント情報からも判断ができるほか、そうしたIP公開は「ボットがそのIPからアクセスをする」ことを述べているだけで、その「IPからのアクセスが全てボットである」という保証はありません。

 こういう方法が使える場合もある、というくらいに覚えておいた方がよいかもしれません。むしろIPアドレスでの判断は、次回解説する見分けづらいボットの判断で有効な方法です。

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
関連リンク
水野貴明の“技術から学ぶ”アクセスログの読み方連載記事一覧

もっと読む

この記事の著者

水野 貴明 (ミズノタカアキ)

1973年東京生まれ。バイドゥ株式会社勤務の兼業テクニカルライター。学生のとき に父親が買ってきたパソコン(マイコン)と出会い、コンピュータとの付き合い を開始。大学は有機化学、大学院では分子生物学を学ぶも、就職で再びコンピュータの道を進むことになった。その後インターネットの普及により、様々な方に出会う機会を得て1999年より執筆活動を開始。 http://d.hatena.ne.jp/mizuno_takaaki/

 

著書
『アクセス解析でホームページの集客を極める本』 水野 貴明著、 ソーテック社、2005年3月 
『詳解RSS~RSSを利用したサービスの理論と実践』 水野 貴明著、ディー・アート、2005年8月

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

MarkeZine(マーケジン)
2010/03/27 13:41 https://markezine.jp/article/detail/9615

Special Contents

PR

Job Board

PR

おすすめ

イベント

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング