Live Search(MicrosoftN)のアルゴリズム
Live Searchの検索アルゴリズムは最新の統計学的手法を採用している。例えばスパムメール対策やGoogleに採用されていることで有名な「ベイズ理論」であるが、Microsoftはこのベイズ理論の最高峰の人材を多く抱えている。ベイズ理論の本質は、要するに、データベースの人間的な構築と抽出ということ。しかも学習して成長するのである。
公表されているLive Searchのアルゴリズムの柱は「VIPS」と「RankNet」であるが、どちらも視覚や脳神経などの人間の認識活動をシミュレートしようとしているところが特徴であり、また脅威である。
「VIPS」は、「a Vision-based Page Segmentation Algorithm」の略で、Webページをブラウザで閲覧している人間の視覚をシミュレートするアルゴリズム。要点は、リンクというかハイパーテキストがWebページの大きな要因ではあるものの、それがどこに書かれているかをプログラムとして見抜き、コンテンツパーツに位置するものだけを抽出する技術である。
「RankNet」アルゴリズムは、コンテンツの中身、キーワードというよりもトピック、つまりキーワードに関する話題やテーマなど、を重視する。それぞれ違う複数のキーワードで検索しても、ある同一サイトをクリックする傾向をつかみ、それらのキーワードを関連付ける。例えば、「X」を記述しているページは、「X」のトピックとしては「Y」や「Z」も書かれているべきである、つまりキーワードとして「X」「Y」「Z」などが記述されているページが、トピック「X」に関連性が高いページと判断される。
ユーザー数が少ないLive Searchであるが、今のうちに使って様子を見ておいた方がいいかもしれない。なぜなら、YSTはこれがベースになるかもしれないのだから。