そのURLは検索エンジン?
検索エンジン由来のアクセス解析の基本的な方法を紹介したところで、その解析手法の問題点や限界、さらに解析結果にどういう影響を与えるのかについて見ていくことにしましょう。
どれが検索エンジンからのアクセスかわからない
まず、検索エンジン由来のアクセスを解析する上での大きな問題点のひとつは、リファラーとして記録されたURLのうち、どれが検索エンジンのものなのかということを完璧に判別することができない、というものです。
検索結果のURLは、検索エンジンによってさまざまです。そして、検索エンジン以外のリンク元のURLもやはりさまざまです。そのため、アクセス解析を行う際には、リンク元のURLを「これは検索エンジン」、「これは検索エンジンではない」と判別しなければなりません。
この判別作業を行うには、あらかじめ「URLにこういうパターンが含まれていたら検索エンジンですよ」というルールの一覧をプログラム側で用意しておきます。そして、その一覧を使って、ログから得られたURLにそのルールを次々と当てはめて、そのURLが検索エンジンの検索結果かどうかを判断するのです。
例えば、ドメイン名に「google」と含まれていればGoogleから、「yahoo」と入っていればYahoo!から、といった具合です。
世界中の検索エンジンを知ることはできない
しかし、こうした方法には大きな問題があります。それは「ルールに入っていない検索エンジンは検索エンジンとみなされない」ということです。
例えばスイスにはBluewinという検索エンジンがあります。Catcha Malaysiaはマレーシアの検索エンジンです。これらの検索エンジン、ご存知でしたか? ちなみに筆者は今回、Googleで検索をして、はじめて両者の存在を知りました。
こうしたローカルな検索エンジンは世界中にたくさんあり、アクセス解析ツールがそのすべてに対応することはほぼ不可能です。検索エンジンの解析結果には、検索エンジンからのアクセスがどれくらいあったのか、という件数や割合が表示されますが、検索エンジンによってはそれらの中に含まれていない可能性もあるのです。
もちろん、検索エンジンのシェアは、Yahoo!やGoogle、msnといった大手が大半を占めており、それらをきちんと解析して、アクセス解析ツールがはじき出すデータは「ほぼ正しい」といえます。これまで何度もこの連載でも述べているように、アクセス解析は「完璧」なものではなく、おおよその分析を行うものなのです。
しかし、あなたのサイトがマレーシアでものすごく注目され、マレーシアの検索エンジンから大量の流入がある、という可能性も絶対にないとは言い切れません(限りなくゼロに近いかもしれませんが)。そうした場合には、おそらくリンク元のドメイン名の集計結果に、その検索エンジンのドメインがリストアップされるはずなので、そちらの結果も含めて分析を行う必要があるでしょう。
なお、アクセス解析ツールによっては、検索エンジンのURL一覧情報を利用する以外にも、検索エンジンの「検索結果っぽいURL」を自動認識して、自分の知らない検索エンジンもある程度判別してくれるものもあります。
検索エンジンと間違えやすいURL
さらに、URLによる検索エンジンの判別は、「本当は検索結果ではないページも検索エンジンと判断してしまう」という危険性も持っています。
例えばYahoo! Japanは、検索エンジン以外にも、天気予報やニュース、オークション、ショッピングなどさまざまなサービスを用意しており、それらの多くは「○○○.yahoo.co.jp」というドメイン名を使っています。もし、これらの検索エンジン以外のページからリンクが貼られていた場合、リファラー情報には当然そのページのURLが入ります。そして、アクセス解析ツールが「yahoo」を含むリファラーをすべて検索エンジンとしてみなしてしまったとしたら、実際には検索エンジン由来ではないアクセスが、検索エンジンとみなされてしまいます。
実際に、筆者はあるアクセス解析ツールを利用した際に、「Yahoo! ニュース」から貼られたリンクを検索結果にカウントされたことがあります。
したがって、アクセスを解析していて、ある日突然特定の検索エンジンからのアクセスだけが跳ね上がり、しばらくして平常時のアクセス数に戻る、といったことが起こったときには、もしかしたらそうした間違ったカウントが行われている可能性があります。その場合は、リンク元情報などを参考にしながら、原因を探る必要があるでしょう。