文字コードを判別するための情報は?
複数の文字コードを使い分けている検索エンジンの場合、文字コード判別のために、どの文字コードを利用しているかを表す情報がURLに入っていることがあります。とはいえ、それを調べる場合にも、どこにその情報が含まれているのかをあらかじめ情報として持っておく必要があります。
例えば以下のようなURLの場合、使われている文字コードがなんだかわかりますか?

パラメータを見ると、「ie=EUC-JP」と「oe=Shift_JIS」という2つの文字コードらしき情報が含まれています。どちらが正しいでしょうか。
正解は「ie=EUC-JP」です。2つの違いを比較してみましょう。
- 「ie=EUC-JP」…検索キーワードがEUC-JPで表されていることを示す。
- 「oe=Shift_JIS」…検索結果ページがShift_JISで表されていることを示す。
今回のまとめ
このように文字コードの判別はかなり煩雑であるため、アクセス解析ツールでも、きちんと解析を行うことができず、一部の解析結果が文字化けしているケースもよくあります。文字化けが起こってしまうと、同じ検索キーワードであっても、文字コードが違うために別々に集計されてしまうなどの問題が発生し、解析の精度が下がってしまいます。
逆に、検索キーワードがまったく、あるいはほとんど文字化けしていない解析ツールは、かなりがんばっているツールだということもできるでしょう。アクセス解析ツールを選ぶ際、検索キーワードの解析結果は、そのツールの完成度を知るための、よい指標になるともいえます。
