ニュース

新規
会員登録

MarkeZineニュース

Google、スキャン文書も検索対象に

MarkeZine編集部[著]

2008/10/31 17:10

通知

　紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。

検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている

　Official Google Blogの10月30日のエントリによると、Googleは、OCR（光学文字認識）を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。

上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる

　検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O（オー）」なのか「0（ゼロ）」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。

【関連記事】
・「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
・Googleドキュメント、PDFの表示、エクスポート、共有が可能に
・Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171％増、「Gmail」は358％増

この記事は参考になりましたか？

MarkeZineニュース連載記事一覧: データ・ワン、小売事業者の購買データ付広告ID数が6,000万を突破　

TikTok for Business、フィットネスと美容に特化したキャンペーンを8/31...

東急不動産、渋谷の街全体を接点に来街者とブランドをつなぐ「渋谷まるごとコネクト」開始　第1...

もっと読む

この記事の著者: MarkeZine編集部（マーケジンヘンシュウブ）

デジタルを中心とした広告／マーケティングの最新動向を発信する専門メディアの編集部です。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

この記事は参考になりましたか？

この記事をシェア

通知

Special Contents

PR

Job Board

PR

イベント

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます

メールバックナンバー

新規会員登録無料

アクセスランキング

アクセスランキング