ウェブ上の文書には口語やギャル文字、伏せ字などが多数含まれており、言語解析を利用したフィルタリングや評判解析などの精度にも影響を与えている。
KDDI研究所は今回、くだけた表現を、言語解析に適した表現へと自動的に修正する技術を開発。解析不能なくだけた表現を検出し、その修正候補となる表現を新聞文書などの正規な表現を多く含む文書から自動的に検索して取得し、修正候補の中から適切なものを選んで文脈に最適な表現に修正することができる。
これによって、「ゎナ=∪は」(「わたしは」を意味する)のようなギャル文字や「オ●マ大統領」(「オバマ大統領」を意味する)のような伏せ字も正しい表記に修正することが可能になる。KDDI研究所は今後、この技術を違法・有害情報フィルタリング技術などに応用する。
【関連記事】
・Google、翻訳検索機能を追加
・「神待ち」「ホ別」など、ネットの隠語・暗号の解説サイト「ネット危険用語白書」
・渋谷ギャル360名が時を告げる「ギャル時計」オープン