SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

おすすめのイベント

おすすめの講座

おすすめのウェビナー

マーケティングは“経営ごと” に。業界キーパーソンへの独自取材、注目テーマやトレンドを解説する特集など、オリジナルの最新マーケティング情報を毎月お届け。

『MarkeZine』(雑誌)

第99号(2024年3月号)
特集「人と組織を強くするマーケターのリスキリング」

MarkeZineプレミアム for チーム/チーム プラス 加入の方は、誌面がウェブでも読めます

MarkeZineニュース

Google、スキャン文書も検索対象に

 紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。

検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている

 Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。

上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる

 検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。

【関連記事】
「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
Googleドキュメント、PDFの表示、エクスポート、共有が可能に
Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
MarkeZineニュース連載記事一覧

もっと読む

この記事の著者

MarkeZine編集部(マーケジンヘンシュウブ)

デジタルを中心とした広告/マーケティングの最新動向を発信する専門メディアの編集部です。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

MarkeZine(マーケジン)
2008/10/31 17:10 https://markezine.jp/article/detail/5822

Special Contents

PR

Job Board

PR

おすすめ


イベント

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング