多くのPDFは実は「画像」です。紙書類のスマホ写真、印刷物のスキャン、画像を並べて作成したPDFなどでは、テキストを選択・検索・コピーできません。画像内の文字を実テキストに変換するにはOCR(光学文字認識)が必要です。
本当にOCRが必要?
- ブラウザ/リーダーでPDFを開き、テキスト選択を試す:単語単位で選択できれば「テキスト型」。ブロック選択しかできない/選択できない場合は「画像型/スキャン」の可能性大。
- ズームでシャープでも編集できない「文字」は、ベクター図形のことがあります。編集/検索可能にするためにOCRを実行できます。
かんたんスタート:オンラインOCR
最も手軽な方法は:
OCR(PDFを検索可能に)OCR精度を上げる要点
1) 前処理:向き・順序・ノイズ
認識前にページを整えると精度が大きく向上します:
-
向き/順序: ページ整理 で横向きページの一括回転、ドラッグ&ドロップ並べ替え、白紙/広告ページの削除。
-
白黒/グレースケール(モノクロ文書に最適): 白黒/グレー変換 でコントラスト向上、カラーノイズ抑制→OCR・圧縮に有利。
-
ラスタライズ(複雑なベクター/CADで誤認識する場合): ベクターのラスタライズ でビットマップ化し干渉を低減。
解像度と鮮明さ
- 推奨:テキスト中心なら約300DPI。小さい文字/印刷品質が悪い場合は400–600DPI。
- 強すぎる圧縮/ぼかしは避ける:ノイズ/ブラーが誤認識の原因に。
2) 言語とレイアウト
- OCRの言語設定は文書に合わせる(ja/en/zh/ko/zh‑Hant など)。多言語混在なら関連言語をすべて選択。
- 段組・表・脚注・縦書きなど複雑なレイアウトは精度低下要因。必要なら領域分割して個別認識、またはWordに出力して微修正。
3) 出力形式の選択
- 検索可能PDF:アーカイブ/検索/注釈に最適。見た目は同じでテキストが検索・コピー可能。
- Word:本格的な編集向け。ただし複雑レイアウトは手直しが必要な場合あり。
- プレーンテキスト:最軽量。後工程向きだがレイアウト情報はなし。
典型ワークフロー
テキストのスキャン(契約/配布資料/レポート)
文字+画像の混在(カラー資料)
- 先に向き/順序を整える。画像の細部を保つため過度の白黒化は避ける。
- そのままOCR→必要なら後で圧縮(カラー文書は「強力/MRC」推奨)。
CAD/ベクターでOCRが乱れる
- ラスタライズ: ラスタライズ
- 必要に応じ白黒化でコントラスト向上
- 再度OCR
よくある質問
Q: 誤認識が多い?
A: 元の鮮明度/コントラストを上げ、言語設定を確認。ノイズ抑制に白黒/グレーを試す。段組/表はWord出力後に校正。
Q: 表の認識がうまくいかない?
A: 複雑な表は PDF→Excel で構造化抽出、またはOCR後に手修正。
Q: ファイルが大きすぎて送れない?
A: OCR後に PDF圧縮 。モノクロ文書は白黒化→圧縮で大幅軽量化しやすい。
Q: 機密文書 — オンラインOCRは安全?
A: ローカル処理や信頼できるサービスを推奨。共有時は「必要ページのみ出力」や仮想印刷でフラット化コピー作成。
Q: 編集/コピー禁止のPDFをOCRするには?
A: 権利がある場合、まず PDF解除 で制限を外し、OCR実行。
実用ヒント
- おすすめ順序は「整理 → OCR → 圧縮」。
- ja/en混在は両言語ONで精度向上。
- 向きが乱れた連続ページは先に一括回転。順序が正しいと検索/構造化が楽。
- 複数ソース統合スキャンは ページ整理 で順序統一→必要なら 白黒化 と 圧縮 を組み合わせバランス良く。
ツールへのクイックリンク
OCR
スキャンを検索可能に。多言語対応。
PDF→Word
編集用にWordへエクスポート。
PDF→テキスト
軽量なプレーンテキストを抽出。
白黒/グレー
コントラスト向上・ノイズ抑制でOCRを支援。
PDFラスタライズ
複雑なベクター/CADをビットマップ化。
PDF圧縮
可読性を保ちつつサイズ削減。