Veel PDF's zijn eigenlijk afbeeldingen — denk aan foto's van papieren documenten, scans van prints of PDF's die uit afbeeldingen zijn samengesteld. Tekst in zulke bestanden is niet te selecteren, zoeken of kopiëren. Met OCR (Optical Character Recognition) herken je de tekens in de afbeelding en zet je ze om naar echte tekst.
Heb je echt OCR nodig?
- Open de PDF in je browser/reader en probeer tekst te selecteren: kun je woorden markeren, dan is het een ‘tekst‑PDF’. Gaat de selectie per blok of lukt het niet, dan is het waarschijnlijk een ‘beeld‑/scan‑PDF’.
- Blijft ‘tekst’ haarscherp bij inzoomen maar is niet te bewerken, dan gaat het mogelijk om vectorvormen. Je kunt alsnog OCR uitvoeren om het bewerkbaar/doorzoekbaar te maken.
Snel aan de slag: online OCR
De makkelijkste route is:
OCR (PDF doorzoekbaar maken)Welke uitvoer kies ik?
- Lay‑out behouden; alleen zoeken/kopiëren nodig: kies “doorzoekbare PDF” (tekstlaag over de originele pagina‑afbeelding).
- Grondig bewerken: PDF naar Word of PDF naar Tekst.
Stappen om de OCR‑nauwkeurigheid te verbeteren
1) Pre‑processing: oriëntatie, volgorde, ruis
Voor de herkenning: ruim pagina's op voor een duidelijke kwaliteitswinst:
-
Oriëntatie/volgorde: PDF‑pagina's ordenen om liggende pagina's batch‑gewijs te roteren, te herschikken via drag‑and‑drop en blanco/advertentiepagina's te verwijderen.
-
Zwart‑wit/grijswaarden (ideaal voor monotekst): Zwart‑wit / Grijswaarden verhoogt het contrast en onderdrukt kleurgeruis — prettig voor OCR en compressie.
-
Rasterizen (als complexe vector/CAD OCR stoort): Vector‑PDF rasterizen zet vectoren om naar bitmaps om storingen te verminderen.
Resolutie & scherpte
- Aanbeveling: ~300 DPI voor tekstdocumenten; bij klein lettertype/slechte printkwaliteit 400–600 DPI.
- Vermijd overcompressie/blur: te veel ruis leidt tot verkeerde herkenning.
2) Talen en lay‑out
- Stem OCR‑talen af op de inhoud (nl/en/zh/ja/ko/zh‑Hant, enz.). Bij meertaligheid: alle relevante talen aanvinken.
- Complexe lay‑outs (meerkolom, tabellen, voetnoten, verticaal) verlagen de nauwkeurigheid; overweeg zones apart te herkennen of naar Word te exporteren voor handmatige finetuning.
3) Kies het juiste uitvoerformaat
- Doorzoekbare PDF: ideaal voor archief/zoek/annotaties; uiterlijk gelijk aan origineel, tekst doorzoekbaar/kopieerbaar.
- Word: ideaal voor diepgaande bewerking; complexe lay‑outs vergen soms handwerk.
- Platte tekst: het lichtst; handig voor naverwerking, zonder lay‑outinfo.
Typische workflows
Tekstscans (contracten/hand‑outs/rapporten)
- Ordenen: Pagina's ordenen → roteren/herschikken/blanco's weg.
- Optioneel zwart‑wit/grijswaarden voor scherpte: Zwart‑wit / Grijs.
- OCR: OCR (juiste talen selecteren).
- Te groot bestand? Gebruik: PDF comprimeren.
Gemengde tekst + beeld (kleurmateriaal)
- Eerst oriëntatie/volgorde fixen; vermijd agressief zwart‑wit om beeld‑detail te behouden.
- OCR, en indien nodig later comprimeren (bij kleur ‘sterk/MRC’ verkieslijk).
CAD/vector geeft OCR‑problemen
- Rasterizen: Rasterizen
- Eventueel zwart‑wit voor hoger contrast
- OCR opnieuw uitvoeren
Veelgestelde vragen
V: Te veel herkenningsfouten?
A: Bronhelderheid/contrast verbeteren; talen checken; zwart‑wit/grijs proberen; bij multikolom/tabellen naar Word exporteren en handmatig corrigeren.
V: Tabelherkenning slecht?
A: Voor complexe tabellen probeer PDF naar Excel voor gestructureerde extractie, of corrigeer na OCR met de hand.
V: Bestand te groot om te versturen?
A: Na OCR PDF comprimeren. Monotekst eerst zwart‑wit, daarna comprimeren — vaak sterke reductie.
V: Gevoelige inhoud — is online OCR veilig?
A: Liever lokaal of vertrouwde diensten. Voor delen: “alleen benodigde pagina's exporteren” of via virtueel printen een afgevlakte kopie maken.
V: PDF blokkeert bewerken/kopiëren — hoe OCR?
A: Met legale toestemming eerst PDF ontgrendelen en daarna OCR.
Tips
- Volgorde: “orden → OCR → comprimeer”.
- Bij nl/en mix beide talen aanzetten.
- Veel foute oriëntatie? Eerst batch‑rotatie; juiste volgorde helpt zoeken/structureren.
- “Multi‑bron‑merge”: met Pagina's ordenen volgorde uniformeren; combineer met Zwart‑wit en Compressie voor balans tussen helderheid en grootte.
Snelle tool‑links
OCR
Maak scans doorzoekbaar; meertalige steun.
PDF naar Word
Exporteer naar bewerkbaar document voor diepgaande edits.
PDF naar Tekst
Extraheer platte tekst — de lichtste optie.
Zwart‑wit / Grijs
Verhoog contrast en verminder ruis — helpt OCR.
PDF rasterizen
Zet complexe vector/CAD naar bitmap om storingen te verminderen.
PDF comprimeren
Verklein grootte met leesbaarheid in het oog.