文脈を見る
編集部
関連語を取り出す際は、文脈のようなものを意識しているのでしょうか?
稲垣
直接、文脈を見ているわけではありませんが、「共起語を取り出す」ということが文脈を見ることに相当すると考えており、言葉が出現した周辺3文ぐらいから共起語を取り出しています。もちろん、エンジン的にはどんな範囲でも可能です。
瀬戸口
全文検索だと多くの場合、1つのファイル全てを見るので、文脈が切れていても同じ文章だとして拾ってしまうんです。例えばファイルの頭に出てきた言葉とファイルの最後の方に出てきた言葉が何の関連性もないのに、「関連する」として拾ってしまう。
編集部
それでは検索精度が落ちてしまいますね。
稲垣
そこでkizasiエンジンは単語の周囲にある言葉だけを見るようにしているんですね。これだと単語に近い言葉だから必ず関係ある、ノイズを抑えることができる。これが開発・研究してた当初からの考えで、それを今までずっとやってきている。
瀬戸口
また、異表記にも対応しようとしています。例えば世界的なサッカー大会があり、「日本対中国」という表記がランクインしたとします。この場合、言葉が少し違うせいで、似たような意味の話題がランク内にずらずら並んじゃうんですね。
編集部
例えば、「中国対日本」「日本VS中国」「Japan VS China」といった書かれ方をしたときでしょうか?
瀬戸口
そうです。その言葉を集約できないかなと思い、それぞれの言葉が持つ関連語同士を見比べて、「関連語が同じ言葉は似た言葉なんじゃないか」という推測でマージをしています。これなんか、「バレンタイン」を見てみると本当にいろんな表記があるし、「七夕」で見てみると「織り姫」「織姫」「おりひめ」など漢字の使われ方や送り仮名だけで相当のバリエーションがあったりします。
織り姫の異表記はたくさんあるが、これらを自動的に集約している。

編集部
仕組みはシンプルさを目指しているのでしょうか?
瀬戸口
できるだけ、シンプルに。僕の頭が追いつかないので(笑)。それに、あまり難しくしちゃうと他の人がメンテナンスするときに、「ここでなんかわけのわかんないことしている」ってなってしまいますし。何より、説明するときに自分も忘れたりしているんで。
週末は意味不明なカタカナであふれかえってしまった
稲垣
最初の頃、週末になるとランキングがカタカナの言葉で埋め尽くされることがあって、なんだろな? と思って見ていたんです。
編集部
なんだったんですか?
稲垣
それが、競馬の馬名だったんです。週末が近づいてくるとみなさんブログ上で予想をされる方が多いんですよね。ネット上で馬券購入をされたりする方は、当然ネットには詳しい方が多いのでブログにご自身の予想を書かれたりもする。それが相当数のユーザがいたんです。
編集部
わかってしまえば簡単ですが、いきなり来ると驚きますね。
稲垣
そこでこれをkizasi.jpの検索結果と切り離して、kizasiのランキングとは別に馬のランキングを作りました。でも、そういういっぺん経験してみないとわからないことってありますね。
編集部
ええ、確かに。
稲垣
馬に関して言うと、ブログで予想される皆さんは、本命馬の近くに「◎」をつけて書かれることが多いんですよ。そこで、馬名の横に「◎」あるケースだけ拾っていって集計してみたんです。そうすると、いわゆるブロガー達のオッズができるじゃないですか。
編集部
おお!そうですね。
稲垣
これはさっき言ったようにkizasi的に「今来てる度」で集計したことになるんですが、有馬記念のときにkizasiランキング1位2位の馬が、実際のレースでも1位2位を取ってしまったんです。
編集部
誰か実際に買われたんですか?
稲垣
それが誰も(笑)。おもしろいんでチャンネル化してkizasi的予想を掲載しようかとも思ったんですが、それを参考にして購入された方が損されても保証できないので、さすがにやめました。