ページビューはきれいなベキ分布にならない
次にページ単位でのページビューの分布を見てみましょう。グラフはやはり対数表示をしたものです。異なる2つのサイトのアクセスログデータを元に、縦軸にページビュー、横軸にページ数をおいた分布図になります。
ご覧になってすぐにお気づきかと思いますが、赤、青いずれのグラフも先ほどのようなきれいな直線にはなっていません。両方とも中間部においては直線的な傾向も見られますが、ページビューの多い左上、ページビューの少ない左下は下向きの曲線を描いて落ち込んでいます。
これを対数表示ではないグラフで表現したものが下のグラフです。
この形で表現するとこの分布もロングテール現象を表しているように見えます。上の対数表示のグラフで見られたように、実際この分布は途中までベキ分布にしたがっています。しかし、先のキーワードの場合との大きな違いはテール部分が短いということです。ベキ分布の大きな特徴である長いベキ乗の裾野が途切れてしまっているのです。
他にもいくつかのWebサイトのページ単位でのページビュー数についても調べてみましたが、やはり上の例と同様に、右下の部分が曲線を描きながら下降する傾向が見られました。これは1万ページを超えるような企業サイトでも、ページ数が100を超える程度のブログでも同様でした。
ただし、数少ないですが、ページビューがベキ分布を示すサイトもあります。そうしたサイトでは総ページ数に対して、グローバルナビゲーションやローカルナビゲーション、バックナンバーなどによってページ間のリンクが多いという傾向があります。
Webサイトのアクセス数にみられる2つのタイプ
その他のアクセスデータに関しても同様に調べてみました。左は、どこのサイトからアクセスしてきたかを示す参照元のデータに関するグラフ、右は、ページごとの閲覧時間に関するグラフです。いずれもこれまで同様、両軸に対数をとった数値を用いています。
参照元のほうはベキ分布を示すきれいな直線になっていますが、閲覧時間のほうはページビューの場合と同様に中間部分のみが直線になっていて右側で急激な下降が見られます。 別のサイトを対象に同様の調査を行っても、同じような傾向が確認できました。他にもユーザーごとの訪問回数も、検索キーワードや参照元の場合と同様に、きれいな直線を描くことがわかりました。
こうしてWebサイトのアクセス数を調べてみると、きれいなベキ分布を示すものと、中間部にのみベキ分布の傾向がみられるものの2つのタイプがあることがわかりました。
では、なぜ2つのタイプに分かれるのでしょう?
想定される要因は有限性の規模が違うということです。つまり、利用可能なリソースの大きさです。きれいなベキ分布を示すのがサイトの外部に有限性がある検索キーワード、参照元、訪問者であるのに対して、中間部のみベキ分布を示すのはページ単位でのページビュー、閲覧時間です。今回、調査を行ったサイトは最大でも2万ページ規模のものでした。一般的な企業サイトであれば、大きくても数万ページ程度の規模でしょう。それと比較すれば、検索キーワードの組み合わせ、参照元となりうるインターネット上のWebサイト、訪問者となりうるインターネットユーザーの数は無限ではないものの、その数は膨大です。ベキ乗の広い裾野をベキ分布が成立するためには、使用可能なリソースがある程度、必要になることは他の研究でもわかっています。
この規模の違いが2つのタイプとして現れたのだと思います。他にも調べてみると、Overtureのキーワードアドバイスツールで調べた「キーワードの月間検索数」や、はてなブックマークの特定のブログ(人気のあるもの)につけられた記事別のブックマーク数などにベキ分布にしたがうものがありましたが、この場合もある程度の数(検索数やブックマークのついた記事数)があることが前提となっていました。