ボットにはどんな種類があるのか
それでは、アクセスログに足跡を残す、一般的にボットと呼ばれているものにはどんなものがあるのでしょうか。代表的なものを以下に挙げてみました。
- 検索エンジンのクローラ
- RSSリーダーやアンテナなどのWebサイト更新チェックツール
- コンテンツマッチ広告のページ内容チェックシステム
- Webページ上の特定のデータを収集するプログラム
- メールアドレス収集プログラム
- サイトの脆弱性を探すワームなどの悪意のあるプログラム
それぞれの特徴を見ていきましょう。
検索エンジンのクローラー
まず1番有名なのは検索エンジンのクローラでしょう。検索エンジンは検索結果に表示するページを収集するために、常にクローラを走らせてサイトへのアクセスを行っています。ボットというと検索エンジンのクローラを指すこともあるくらい、ボットの中でも主要なものとなっています。世の中にはさまざまな検索エンジンが存在し、クローラもさまざまなものがあります。
RSSリーダー/アンテナなどのWebサイト更新チェックツール
続いてRSSリーダーやアンテナなどのWebサイト更新チェックツールですが、これは誰かがあなたのサイトの更新をチェックするためのものです。RSSリーダーはRSSという専用のファイル(RSSとアクセス解析の関係を読み解く(前編)、RSSとアクセス解析の関係を読み解く(後編)で解説)をチェックしますし、これはもともとRSSリーダーのために用意されたものですから、ボットとしてはちょっと特殊です。
アンテナは一般的なWebページを定期的にチェックして、前回と内容が変わっているかどうかで更新を調べるツールで、RSSのおかげで利用される量は減ってきていますが、まだまだ利用されています。例えばはてなアンテナなどがそれにあたりますし、個人でアンテナプログラムを実行しているケースもあります。

コンテンツマッチ広告のページ内容チェックシステム
コンテンツマッチ広告のページ内容チェックシステムは、例えばGoogle AdSenseなどのコンテンツマッチ広告を貼った際に、そのページをチェックするために利用されるボットです。こうした広告は、ページのコンテンツによって適切な広告を表示してくれるのがポイントですが、そのためには当然内容を解析しなくてはならず、そのためにボットが内容の取得を行います。

Webページ上の特定のデータを収集するプログラム
Webページ上の特定のデータを収集するプログラムもボットです。このプログラムは、あなたのサイトで公開されている情報を誰かが定期的に、あるいはまとめて取得したいと思った場合に使われることが多いです。
例えばあなたのサイトで、毎朝星占いを公開していたとしましょう。そして誰かあるプログラマが、それを毎日見たいけれど、毎日アクセスするのは面倒だと思ったとします。そのプログラマーは、毎朝定期的にそのサイトにアクセスしてページの内容を取得、占いの情報を切り出して自分にメールを送るプログラムを書くかもしれません。
こうしたサイトにアクセスするプログラムがボットなのです。こうした手法は「スクレイプ(scrape)」と言われ、比較的一般的な手法です。スクレイプを行うボットは「スクレイパー」と呼ばれます。(参考情報:進化する“Webスクレイピング”技術の世界,@IT)

メールアドレス収集プログラム
メールアドレス収集プログラムは、スクレイパーの一種ですが、目的はメールアドレスを収集して、それを使って迷惑メールを送りつけることです。
これははなはだ迷惑なボットで、こうしたプログラムが存在しているため、Webサイト上にメールアドレスを公開すると、迷惑メールが大量に送られてきてしまいます。そのため最近ではメールアドレスを画像で表示したりしているサイトも多くなっています。
サイトの脆弱性を探すワームなどの悪意のあるプログラム
最後は、サイトの脆弱性を探すワームなどの悪意のあるプログラムですが、これはさまざまなサイトに総当たり的に特殊なURLを使ってアクセスをして、そのサイトが利用しているサーバプログラムやWebアプリケーションの持つ問題を利用してサイトを乗っ取ろうとするアクセスです。
そのワームがターゲットとするサーバやアプリケーションを使っていなければなんの問題もないのですが、ワーム自体はそんなことお構いなしに攻撃をしてくるため、ログにアクセスが残ってしまいます。
最近ではあまり大きな目立った事件を起こしたワームはありませんが、これまでに何度もそうしたワームが世に解き放たれて、大量のアクセスを多くのサイトのアクセスログに残したことがあります。
また、ワームでなくても、脆弱性を探す攻撃は常にあります。IPA(独立行政法人情報処理推進機構)によれば、Webサイトの脆弱性をつくアクセスは増加しつつあるということで、IPAはiLogScannerという脆弱性を突くアクセスを解析する専用のログ解析ツールを公開しています。
このような脆弱性を突くアクセスについては、機会を改めてみていきたいと思いますが、こうしたアクセスも、サイトの閲覧を目的とした人間のアクセスではありませんから、ボットの一部と考えることができるでしょう。