Gescannte PDFs durchsuchbar machen: OCR‑Best‑Practice‑Leitfaden (Genauigkeit & Größe)
Blog

Gescannte PDFs durchsuchbar machen: OCR‑Best‑Practice‑Leitfaden (Genauigkeit & Größe)

Bildbasierte PDFs/Scans in durchsuchbaren, kopierbaren Text umwandeln – inklusive Vorverarbeitung, Sprachauswahl, Tabellenerkennung, Exportformaten und Komprimierung.

Deutsch

Viele PDFs sind eigentlich Bilder – z. B. Handyfotos von Papierdokumenten, Scans von Ausdrucken oder aus Bildern erzeugte PDFs. Text darin lässt sich nicht markieren, suchen oder kopieren. Dafür braucht es OCR (Optical Character Recognition), um Zeichen im Bild als echten Text zu erkennen.

Brauche ich wirklich OCR?

  • Öffne das PDF im Browser/Reader und versuche Text zu markieren: Wenn einzelne Wörter markierbar sind, ist es ein „Text‑PDF“. Wenn die Auswahl blockweise ist oder gar nicht funktioniert, handelt es sich wahrscheinlich um ein „Bild‑PDF/Scan“.
  • Bleibt „Text“ beim Zoomen gestochen scharf, ist aber nicht editierbar, handelt es sich evtl. um Vektorformen statt echtem Text. Du kannst trotzdem OCR ausführen, um es editier‑/durchsuchbar zu machen.

Ein‑Klick‑Start: Online‑OCR

Für den einfachsten Weg nutze:

OCR (PDF durchsuchbar machen)

Welche Ausgabe soll ich wählen?

  • Layout beibehalten, nur Suche/Kopieren benötigt: „Durchsuchbares PDF“ (Textebene über dem Originalseitenbild).
  • Tiefgreifend bearbeiten: PDF zu Word oder PDF zu Text.

Schlüssel‑Schritte für bessere OCR‑Genauigkeit

1) Vorverarbeitung: Ausrichtung, Reihenfolge, Störungen

Vor der Erkennung Seiten aufräumen – das steigert die Genauigkeit deutlich:

  • Ausrichtung/Reihenfolge: PDF‑Seiten organisieren zum Stapeldrehen quer liegender Seiten, per Drag‑and‑drop neu anordnen und Leerseiten/Werbung entfernen.

  • Schwarzweiß/Graustufen (ideal für monochrome Textdokumente): Schwarzweiß/Graustufen erhöht den Kontrast und reduziert Farbrauschen – gut für OCR und spätere Komprimierung.

  • Rastern (wenn komplexe Vektor/CAD‑Inhalte OCR stören): Vektor‑PDF rastern konvertiert komplexe Vektoren in Bitmaps und reduziert Erkennungsstörungen.

Auflösung & Schärfe

  • Empfehlung: Für textlastige Dokumente ca. 300 DPI; bei Kleinschrift/schlechter Druckqualität 400–600 DPI.
  • Über‑Komprimierung/Unschärfe vermeiden: Zu viel Rauschen/Blur führt zu Fehl­erkennungen.

2) Sprachen & Layout

  • OCR‑Sprache(n) immer an den Inhalt anpassen (Deutsch/Englisch/Chinesisch/Japanisch/Koreanisch/Traditionelles Chinesisch etc.). Bei Mischsprachen alle relevanten auswählen.
  • Komplexe Layouts (Mehrspaltig, Tabellen, Fußnoten, Vertikalsatz) senken die Genauigkeit; ggf. Zonen getrennt erkennen oder nach Word exportieren und manuell nacharbeiten.

3) Passendes Ausgabeformat wählen

  • Durchsuchbares PDF: Ideal für Archiv/Suche/Annotationen; Optik bleibt erhalten, Text wird such‑/kopierbar.
  • Word: Für tiefe Bearbeitung; komplexe Layouts erfordern u. U. manuelle Korrekturen.
  • Reiner Text: Am leichtesten; für Weiterverarbeitung geeignet, ohne Layoutinformationen.

Typische Workflows

Textscans (Verträge/Skripte/Berichte)

  1. Seiten organisieren: Seiten organisieren → drehen/neu anordnen/Leerseiten entfernen.
  2. Optional S/W/Graustufen für bessere Lesbarkeit: Schwarzweiß/Graustufen.
  3. OCR ausführen: OCR (korrekte Sprache wählen).
  4. Datei zu groß? Dann: PDF komprimieren.

Gemischte Inhalte (Text + Bilder, Farbseiten)

  1. Zuerst Ausrichtung/Reihenfolge korrigieren; kein aggressives S/W, um Bilddetails zu erhalten.
  2. Direkt OCR; wenn Größe wichtig ist, danach komprimieren (bevorzugt „stark/MRC“ für Farbdokumente).

CAD/Vektor bereitet OCR‑Probleme

  1. Rastern: PDF rastern
  2. Optional S/W für höheren Kontrast
  3. Erneut OCR ausführen

FAQ

F: Zu viele Erkennungsfehler?

A: Vorlage schärfer/kontrastreicher; Sprachauswahl prüfen; S/W/Graustufen gegen Rauschen; bei Mehrspaltig/Tabellen nach Word exportieren und manuell prüfen.

F: Tabellenerkennung schlecht?

A: Für komplexe Tabellen PDF zu Excel für strukturierte Extraktion nutzen oder Tabellen nach dem OCR manuell nacharbeiten.

F: Datei zu groß zum Versenden?

A: Nach dem OCR PDF komprimieren. Bei monochromen Textscans erst S/W, dann komprimieren – meist deutlich kleiner.

F: Sensible Inhalte – ist Online‑OCR sicher?

A: Lokal verarbeiten oder vertrauenswürdige Dienste nutzen. Vor dem Teilen nur nötige Seiten exportieren oder via virtuellen Druck eine „abgeflachte“ Kopie erzeugen.

F: PDF hat Bearbeitungs/Kopierschutz – wie OCR?

A: Mit rechtlicher Befugnis zuerst PDF entsperren und dann OCR ausführen.

Praxis‑Tipps

  • Reihenfolge: „Organisieren → OCR → Komprimieren“, um schlechte Seitenqualität zu vermeiden.
  • Bei gemischtem Chinesisch/Englisch beide Sprachen aktivieren.
  • Bei vielen schiefen Seiten erst stapelweise drehen; korrekte Reihenfolge hilft bei Suche/Kapitelung.
  • Bei „zusammengeführten Mehrquellen‑Scans“ zuerst mit Seiten organisieren die Reihenfolge vereinheitlichen; mit S/W und Komprimierung Klarheit und Größe ausbalancieren.

Schnellzugriff auf Tools