SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

MarkeZine Day(マーケジンデイ)は、マーケティング専門メディア「MarkeZine」が主催するイベントです。 「マーケティングの今を網羅する」をコンセプトに、拡張・複雑化している広告・マーケティング領域の最新情報を効率的にキャッチできる場所として企画・運営しています。

直近開催のイベントはこちら!

MarkeZine Day 2025 Retail

水野貴明の“技術から学ぶ”アクセスログの読み方

「ボットでPV水増ししてる」とよく聞きますが、
そもそも“ボット”ってなんですか?


ボットにはどんな種類があるのか

 それでは、アクセスログに足跡を残す、一般的にボットと呼ばれているものにはどんなものがあるのでしょうか。代表的なものを以下に挙げてみました。

  • 検索エンジンのクローラ
  • RSSリーダーやアンテナなどのWebサイト更新チェックツール
  • コンテンツマッチ広告のページ内容チェックシステム
  • Webページ上の特定のデータを収集するプログラム
  • メールアドレス収集プログラム
  • サイトの脆弱性を探すワームなどの悪意のあるプログラム

 それぞれの特徴を見ていきましょう。

検索エンジンのクローラー

 まず1番有名なのは検索エンジンのクローラでしょう。検索エンジンは検索結果に表示するページを収集するために、常にクローラを走らせてサイトへのアクセスを行っています。ボットというと検索エンジンのクローラを指すこともあるくらい、ボットの中でも主要なものとなっています。世の中にはさまざまな検索エンジンが存在し、クローラもさまざまなものがあります。

RSSリーダー/アンテナなどのWebサイト更新チェックツール

 続いてRSSリーダーやアンテナなどのWebサイト更新チェックツールですが、これは誰かがあなたのサイトの更新をチェックするためのものです。RSSリーダーはRSSという専用のファイル(RSSとアクセス解析の関係を読み解く(前編)RSSとアクセス解析の関係を読み解く(後編)で解説)をチェックしますし、これはもともとRSSリーダーのために用意されたものですから、ボットとしてはちょっと特殊です。

 アンテナは一般的なWebページを定期的にチェックして、前回と内容が変わっているかどうかで更新を調べるツールで、RSSのおかげで利用される量は減ってきていますが、まだまだ利用されています。例えばはてなアンテナなどがそれにあたりますし、個人でアンテナプログラムを実行しているケースもあります。

図02 アンテナの仕組み
 図02 アンテナの仕組み

コンテンツマッチ広告のページ内容チェックシステム

 コンテンツマッチ広告のページ内容チェックシステムは、例えばGoogle AdSenseなどのコンテンツマッチ広告を貼った際に、そのページをチェックするために利用されるボットです。こうした広告は、ページのコンテンツによって適切な広告を表示してくれるのがポイントですが、そのためには当然内容を解析しなくてはならず、そのためにボットが内容の取得を行います。

図03 コンテンツマッチ広告のボット
図03 コンテンツマッチ広告のボット

Webページ上の特定のデータを収集するプログラム

 Webページ上の特定のデータを収集するプログラムもボットです。このプログラムは、あなたのサイトで公開されている情報を誰かが定期的に、あるいはまとめて取得したいと思った場合に使われることが多いです。

 例えばあなたのサイトで、毎朝星占いを公開していたとしましょう。そして誰かあるプログラマが、それを毎日見たいけれど、毎日アクセスするのは面倒だと思ったとします。そのプログラマーは、毎朝定期的にそのサイトにアクセスしてページの内容を取得、占いの情報を切り出して自分にメールを送るプログラムを書くかもしれません。

 こうしたサイトにアクセスするプログラムがボットなのです。こうした手法は「スクレイプ(scrape)」と言われ、比較的一般的な手法です。スクレイプを行うボットは「スクレイパー」と呼ばれます。(参考情報:進化する“Webスクレイピング”技術の世界,@IT)

図04 スクレイパーの挙動
 図04 スクレイパーの挙動

メールアドレス収集プログラム

 メールアドレス収集プログラムは、スクレイパーの一種ですが、目的はメールアドレスを収集して、それを使って迷惑メールを送りつけることです。

 これははなはだ迷惑なボットで、こうしたプログラムが存在しているため、Webサイト上にメールアドレスを公開すると、迷惑メールが大量に送られてきてしまいます。そのため最近ではメールアドレスを画像で表示したりしているサイトも多くなっています。

サイトの脆弱性を探すワームなどの悪意のあるプログラム

 最後は、サイトの脆弱性を探すワームなどの悪意のあるプログラムですが、これはさまざまなサイトに総当たり的に特殊なURLを使ってアクセスをして、そのサイトが利用しているサーバプログラムやWebアプリケーションの持つ問題を利用してサイトを乗っ取ろうとするアクセスです。

 そのワームがターゲットとするサーバやアプリケーションを使っていなければなんの問題もないのですが、ワーム自体はそんなことお構いなしに攻撃をしてくるため、ログにアクセスが残ってしまいます。

 最近ではあまり大きな目立った事件を起こしたワームはありませんが、これまでに何度もそうしたワームが世に解き放たれて、大量のアクセスを多くのサイトのアクセスログに残したことがあります。

 また、ワームでなくても、脆弱性を探す攻撃は常にあります。IPA(独立行政法人情報処理推進機構)によれば、Webサイトの脆弱性をつくアクセスは増加しつつあるということで、IPAはiLogScannerという脆弱性を突くアクセスを解析する専用のログ解析ツールを公開しています。

 このような脆弱性を突くアクセスについては、機会を改めてみていきたいと思いますが、こうしたアクセスも、サイトの閲覧を目的とした人間のアクセスではありませんから、ボットの一部と考えることができるでしょう。

次のページ
ボットを見分けるには(見分けやすいボット)

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
関連リンク
水野貴明の“技術から学ぶ”アクセスログの読み方連載記事一覧

もっと読む

この記事の著者

水野 貴明 (ミズノタカアキ)

1973年東京生まれ。バイドゥ株式会社勤務の兼業テクニカルライター。学生のとき に父親が買ってきたパソコン(マイコン)と出会い、コンピュータとの付き合い を開始。大学は有機化学、大学院では分子生物学を学ぶも、就職で再びコンピュータの道を進むことになった。その後インターネットの普及により、様々な方に出会う機会を得て1999年より執筆活動を開始。 http://d.hatena.ne.jp/mizuno_takaaki/

 

著書
『アクセス解析でホームページの集客を極める本』 水野 貴明著、 ソーテック社、2005年3月 
『詳解RSS~RSSを利用したサービスの理論と実践』 水野 貴明著、ディー・アート、2005年8月

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

MarkeZine(マーケジン)
2010/03/27 13:41 https://markezine.jp/article/detail/9615

Special Contents

PR

Job Board

PR

おすすめ

イベント

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング