コンピュータウイルスや有害コンテンツ、Web技術を悪用した不正プログラムや迷惑メールまで、インターネット上にはさまざまな脅威が存在する。東京大学とトレンドマイクロは、両者の持つデータベースやノウハウを生かして、Webリンクの構造解析によって、「どのような危険・有害サイトがどこに存在し、どのようなサイトと結びついているのかを把握する」共同研究を行い、その成果の一部を発表した。
研究は、トレンドマイクロの膨大なURLデータベースを利用して行われ、東京大学大学院の情報理工学系研究科講師の増田直紀氏と経済学研究科21世紀COEものづくり経営研究センター特任准教授の安田雪氏が、1,200万以上Webサイトをカテゴリ分類したデータを対象に各種可視化ツールで解析を行った。総ページ数は12,472,530、総リンク数:52,708,173、総ドメイン数:339,828におよんでいる。アクセス解析は、ランダムに抽出した700のURLを出発点とし、各ページ内のリンクを3ジャンプ先までたどることでアクセスできるすべてのページを対象とした。
その結果、相互リンクの密度は性的(アダルト)カテゴリが最も強いことが確認されたという。ドメインの関係性では、性的カテゴリ間の結びつきが強いが、すべてのカテゴリについて、コンピュータ/インターネット関連や検索エンジン/ポータルサイトへの結びつきが強いことが認められたという。また、安全なカテゴリのページからであってもリンクをたどることによって、有害サイトに到達する可能性が高まることが判明。例えば性的カテゴリに到達する率は、安全なカテゴリから出発し平均で0.27%(出発点から1ジャンプ先)から2.69%(2ジャンプ先から3ジャンプ先)まで上昇している。また、性的カテゴリ内で930ドメインがすべて相互リンクする集合、巨大クリークの存在が確認された。
今後両者は、今回明らかになったWebリンクの構造を元に、さらに大規模なデータ収集による解析、情報学ならびに社会科学の知見を活かした研究を進めていくとしている。
【関連リンク】
モバゲー、18歳未満のメールアドレス交換禁止、監視体制を300人に増強などを発表
4割以上の子どもが有害サイトの被害に ヤフー「子どものインターネット利用に関するアンケート」
モバゲーを運営するDeNAの時価総額は1500億円毀損、携帯フィルタリング導入政策の大きすぎる波紋