Logo
Maak gescande PDF's doorzoekbaar: OCR‑best practices (nauwkeurigheid en grootte)
Blog

Maak gescande PDF's doorzoekbaar: OCR‑best practices (nauwkeurigheid en grootte)

Zet beeld‑PDF's/scans om in doorzoekbare, kopieerbare tekst — met pre‑processing, taalkeuze, tabelherkenning, exportformaten en compressie.

Nederlands

Veel PDF's zijn eigenlijk afbeeldingen — denk aan foto's van papieren documenten, scans van prints of PDF's die uit afbeeldingen zijn samengesteld. Tekst in zulke bestanden is niet te selecteren, zoeken of kopiëren. Met OCR (Optical Character Recognition) herken je de tekens in de afbeelding en zet je ze om naar echte tekst.

Heb je echt OCR nodig?

  • Open de PDF in je browser/reader en probeer tekst te selecteren: kun je woorden markeren, dan is het een ‘tekst‑PDF’. Gaat de selectie per blok of lukt het niet, dan is het waarschijnlijk een ‘beeld‑/scan‑PDF’.
  • Blijft ‘tekst’ haarscherp bij inzoomen maar is niet te bewerken, dan gaat het mogelijk om vectorvormen. Je kunt alsnog OCR uitvoeren om het bewerkbaar/doorzoekbaar te maken.

Snel aan de slag: online OCR

De makkelijkste route is:

OCR (PDF doorzoekbaar maken)

Welke uitvoer kies ik?

  • Lay‑out behouden; alleen zoeken/kopiëren nodig: kies “doorzoekbare PDF” (tekstlaag over de originele pagina‑afbeelding).
  • Grondig bewerken: PDF naar Word of PDF naar Tekst.

Stappen om de OCR‑nauwkeurigheid te verbeteren

1) Pre‑processing: oriëntatie, volgorde, ruis

Voor de herkenning: ruim pagina's op voor een duidelijke kwaliteitswinst:

  • Oriëntatie/volgorde: PDF‑pagina's ordenen om liggende pagina's batch‑gewijs te roteren, te herschikken via drag‑and‑drop en blanco/advertentiepagina's te verwijderen.

  • Zwart‑wit/grijswaarden (ideaal voor monotekst): Zwart‑wit / Grijswaarden verhoogt het contrast en onderdrukt kleurgeruis — prettig voor OCR en compressie.

  • Rasterizen (als complexe vector/CAD OCR stoort): Vector‑PDF rasterizen zet vectoren om naar bitmaps om storingen te verminderen.

Resolutie & scherpte

  • Aanbeveling: ~300 DPI voor tekstdocumenten; bij klein lettertype/slechte printkwaliteit 400–600 DPI.
  • Vermijd overcompressie/blur: te veel ruis leidt tot verkeerde herkenning.

2) Talen en lay‑out

  • Stem OCR‑talen af op de inhoud (nl/en/zh/ja/ko/zh‑Hant, enz.). Bij meertaligheid: alle relevante talen aanvinken.
  • Complexe lay‑outs (meerkolom, tabellen, voetnoten, verticaal) verlagen de nauwkeurigheid; overweeg zones apart te herkennen of naar Word te exporteren voor handmatige finetuning.

3) Kies het juiste uitvoerformaat

  • Doorzoekbare PDF: ideaal voor archief/zoek/annotaties; uiterlijk gelijk aan origineel, tekst doorzoekbaar/kopieerbaar.
  • Word: ideaal voor diepgaande bewerking; complexe lay‑outs vergen soms handwerk.
  • Platte tekst: het lichtst; handig voor naverwerking, zonder lay‑outinfo.

Typische workflows

Tekstscans (contracten/hand‑outs/rapporten)

  1. Ordenen: Pagina's ordenen → roteren/herschikken/blanco's weg.
  2. Optioneel zwart‑wit/grijswaarden voor scherpte: Zwart‑wit / Grijs.
  3. OCR: OCR (juiste talen selecteren).
  4. Te groot bestand? Gebruik: PDF comprimeren.

Gemengde tekst + beeld (kleurmateriaal)

  1. Eerst oriëntatie/volgorde fixen; vermijd agressief zwart‑wit om beeld‑detail te behouden.
  2. OCR, en indien nodig later comprimeren (bij kleur ‘sterk/MRC’ verkieslijk).

CAD/vector geeft OCR‑problemen

  1. Rasterizen: Rasterizen
  2. Eventueel zwart‑wit voor hoger contrast
  3. OCR opnieuw uitvoeren

Veelgestelde vragen

V: Te veel herkenningsfouten?

A: Bronhelderheid/contrast verbeteren; talen checken; zwart‑wit/grijs proberen; bij multikolom/tabellen naar Word exporteren en handmatig corrigeren.

V: Tabelherkenning slecht?

A: Voor complexe tabellen probeer PDF naar Excel voor gestructureerde extractie, of corrigeer na OCR met de hand.

V: Bestand te groot om te versturen?

A: Na OCR PDF comprimeren. Monotekst eerst zwart‑wit, daarna comprimeren — vaak sterke reductie.

V: Gevoelige inhoud — is online OCR veilig?

A: Liever lokaal of vertrouwde diensten. Voor delen: “alleen benodigde pagina's exporteren” of via virtueel printen een afgevlakte kopie maken.

V: PDF blokkeert bewerken/kopiëren — hoe OCR?

A: Met legale toestemming eerst PDF ontgrendelen en daarna OCR.

Tips

  • Volgorde: “orden → OCR → comprimeer”.
  • Bij nl/en mix beide talen aanzetten.
  • Veel foute oriëntatie? Eerst batch‑rotatie; juiste volgorde helpt zoeken/structureren.
  • “Multi‑bron‑merge”: met Pagina's ordenen volgorde uniformeren; combineer met Zwart‑wit en Compressie voor balans tussen helderheid en grootte.