Logo
スキャンPDFを検索可能にする:OCRベストプラクティス(精度とサイズ)
ブログ

スキャンPDFを検索可能にする:OCRベストプラクティス(精度とサイズ)

画像ベースのPDF/スキャンを検索・コピー可能なテキストへ。前処理、言語選択、表認識、出力形式、圧縮まで丁寧に解説。

日本語

多くのPDFは実は「画像」です。紙書類のスマホ写真、印刷物のスキャン、画像を並べて作成したPDFなどでは、テキストを選択・検索・コピーできません。画像内の文字を実テキストに変換するにはOCR(光学文字認識)が必要です。

本当にOCRが必要?

  • ブラウザ/リーダーでPDFを開き、テキスト選択を試す:単語単位で選択できれば「テキスト型」。ブロック選択しかできない/選択できない場合は「画像型/スキャン」の可能性大。
  • ズームでシャープでも編集できない「文字」は、ベクター図形のことがあります。編集/検索可能にするためにOCRを実行できます。

かんたんスタート:オンラインOCR

最も手軽な方法は:

OCR(PDFを検索可能に)

どの出力を選ぶべき?

  • レイアウト維持・検索/コピーだけ必要: 「検索可能PDF」(元画像上にテキストレイヤー重ね)。
  • 編集したい: PDF→Word または PDF→テキスト

OCR精度を上げる要点

1) 前処理:向き・順序・ノイズ

認識前にページを整えると精度が大きく向上します:

  • 向き/順序: ページ整理 で横向きページの一括回転、ドラッグ&ドロップ並べ替え、白紙/広告ページの削除。

  • 白黒/グレースケール(モノクロ文書に最適): 白黒/グレー変換 でコントラスト向上、カラーノイズ抑制→OCR・圧縮に有利。

  • ラスタライズ(複雑なベクター/CADで誤認識する場合): ベクターのラスタライズ でビットマップ化し干渉を低減。

解像度と鮮明さ

  • 推奨:テキスト中心なら約300DPI。小さい文字/印刷品質が悪い場合は400–600DPI。
  • 強すぎる圧縮/ぼかしは避ける:ノイズ/ブラーが誤認識の原因に。

2) 言語とレイアウト

  • OCRの言語設定は文書に合わせる(ja/en/zh/ko/zh‑Hant など)。多言語混在なら関連言語をすべて選択。
  • 段組・表・脚注・縦書きなど複雑なレイアウトは精度低下要因。必要なら領域分割して個別認識、またはWordに出力して微修正。

3) 出力形式の選択

  • 検索可能PDF:アーカイブ/検索/注釈に最適。見た目は同じでテキストが検索・コピー可能。
  • Word:本格的な編集向け。ただし複雑レイアウトは手直しが必要な場合あり。
  • プレーンテキスト:最軽量。後工程向きだがレイアウト情報はなし。

典型ワークフロー

テキストのスキャン(契約/配布資料/レポート)

  1. ページ整理: ページ整理 → 回転/並べ替え/白紙削除。
  2. 必要に応じ白黒/グレー: 白黒/グレー
  3. OCR: OCR(言語設定を正しく)。
  4. サイズが大きい? PDF圧縮 を使用。

文字+画像の混在(カラー資料)

  1. 先に向き/順序を整える。画像の細部を保つため過度の白黒化は避ける。
  2. そのままOCR→必要なら後で圧縮(カラー文書は「強力/MRC」推奨)。

CAD/ベクターでOCRが乱れる

  1. ラスタライズ: ラスタライズ
  2. 必要に応じ白黒化でコントラスト向上
  3. 再度OCR

よくある質問

Q: 誤認識が多い?

A: 元の鮮明度/コントラストを上げ、言語設定を確認。ノイズ抑制に白黒/グレーを試す。段組/表はWord出力後に校正。

Q: 表の認識がうまくいかない?

A: 複雑な表は PDF→Excel で構造化抽出、またはOCR後に手修正。

Q: ファイルが大きすぎて送れない?

A: OCR後に PDF圧縮 。モノクロ文書は白黒化→圧縮で大幅軽量化しやすい。

Q: 機密文書 — オンラインOCRは安全?

A: ローカル処理や信頼できるサービスを推奨。共有時は「必要ページのみ出力」や仮想印刷でフラット化コピー作成。

Q: 編集/コピー禁止のPDFをOCRするには?

A: 権利がある場合、まず PDF解除 で制限を外し、OCR実行。

実用ヒント

  • おすすめ順序は「整理 → OCR → 圧縮」。
  • ja/en混在は両言語ONで精度向上。
  • 向きが乱れた連続ページは先に一括回転。順序が正しいと検索/構造化が楽。
  • 複数ソース統合スキャンは ページ整理 で順序統一→必要なら 白黒化圧縮 を組み合わせバランス良く。

ツールへのクイックリンク