MarkeZine(マーケジン)

MarkeZine(マーケジン)

記事種別

Google、スキャン文書も検索対象に

  • このエントリーをはてなブックマークに追加
  • プッシュ通知を受け取る
2008/10/31 17:10

 Googleは、紙の文書をスキャンしてPDF化したものも、OCRを使って内容を読み取ることで検索可能になったと発表した。

 紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。

検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている

 Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。

上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる

 検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。

【関連記事】
「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
Googleドキュメント、PDFの表示、エクスポート、共有が可能に
Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増

  • このエントリーをはてなブックマークに追加
  • プッシュ通知を受け取る

バックナンバー

連載:MarkeZineニュース

もっと読む

この記事もオススメ


過去の人気記事ランキング

All contents copyright © 2006-2016 Shoeisha Co., Ltd. All rights reserved. ver.1.5