Kui PDF „ei ole muudetav“, on põhjus enamasti lihtne: see näeb välja nagu tekst, kuid lehed on tegelikult pildid (skann, telefonifoto või ekraanipiltidest tehtud PDF) ilma tekstikihita. Et saada muudetav Word, kasuta seda loogikat:
- Tee lehed puhtamaks (pööramine/järjekord/servad/müra)
- Kasuta OCR-i, kui vaja (pilt → päris tekst)
- Ekspordi Wordi ja kontrolli olulisi kohti
10 sekundit: kas vajad OCR-i?
- Saad teksti valida ja Ctrl+F leiab sõnu: tavaliselt OCR-i pole vaja — konverteeri otse Wordi.
- Teksti ei saa valida (või ainult plokkidena) ja Ctrl+F ei leia midagi: tõenäoliselt skannitud/pildi‑PDF — lülita OCR sisse.
- Erand: mõnes PDF-is on “tekst” vektorkujundina (terav, aga mitte otsitav). OCR on siiski soovitatav.
Vali õige siht: „muudetav“ või „otsitav“?
| Sinu eesmärk | Parim väljund | Soovitatav tööriist |
|---|---|---|
| Teksti ja paigutuse muutmine | Word (.docx) | PDF Word-iks |
| Säilitada välimus, kuid teha otsitavaks/kopeeritavaks | Otsitav PDF (tekstikiht) | OCR (otsitav PDF) |
| Vaja ainult teksti | Tavaline tekst | PDF tekstiks |
Soovitatud töövoog: skannitud PDF → muudetav Word
Järjekord: selgus → tuvastus → pakkimine
Soovitus: Paranda (valikuline) → Korrasta lehed → Kärbi → Mustvalge/halltoon (valikuline) → OCR/Word → Paki (lõpus).
Varajane pakkimine võib OCR-i täpsust vähendada.
Enne konverteerimist: tee fail OCR‑sõbralikumaks
- Piisav kvaliteet: skannimisel soovitatakse 300 DPI.
- Vähem viltu: viltused lehed rikuvad veergude/ridade tuvastust.
- Väldi varje ja peegeldusi: fotode puhul ühtlane valgus.
- Kui võimalik, kasuta skannerit.
Samm 0 (valikuline): paranda, kui fail ei avane/konverteeru
Paranda PDFSamm 1: pööramine ja lehtede järjekord
Korrasta PDF-lehtiSamm 2 (soovitatav): kärbi servad ja taust
Kärbi PDFSamm 3 (vajadusel): mustvalge / halltoon kontrasti tõstmiseks
Mustvalge / halltoonSamm 4: konverteeri Wordi (OCR-iga, kui vaja)
PDF Word-iksOluline: õige OCR-keel
Kui valid ainult inglise keele dokumendile, mis pole ingliskeelne, kasvab vigade hulk oluliselt. Vali dokumendi keel(ed).
Levinud komistuskivid ja varuplaan
1) Liiga palju vigu tekstis
- paranda lähtefaili kvaliteeti
- tee enne kärpimine
- vali õige OCR keel
2) Tabelid/veerud lagunevad Wordis
Tabelite jaoks proovi:
PDF ExcelisseKui vajad ainult teksti:
PDF tekstiks3) „Terav, aga mitte otsitav“
Võib olla vektor-“tekst”. OCR aitab ka sellisel juhul.
4) Õigused ja piirangud
Ava lukustusMärkus
Kasuta avamist ainult siis, kui sul on õigus (volitatud ligipääs / teadaolev parool). Tööriist ei murra tundmatuid paroole.
Kasulik kombinatsioon: redigeeri Wordis, anna üle PDF-ina
- PDF Word-iks → (redigeeri) → Word PDF-iks
- Vajadusel: Vesimärk / Kaitse / Paki
KKK
Miks on pärast OCR-i ikka palju vigu?
Tavaliselt kolm põhjust:
- vale OCR keel
- kehv allikas (udune, varjud, peegeldused)
- pole eeltöötlust: kärpimine + (vajadusel) mustvalge
Tabelid lähevad Wordis paigast. Mida teha?
Tabelite jaoks proovi PDF Excelisse. Kui vajad ainult teksti, kasuta PDF tekstiks.
Kas on normaalne, et Wordi paigutus erineb originaalist?
Jah. Skannitud PDF → Word on “recognize + reflow”, seega keeruline paigutus ei tule sageli 100% sama.
Kiire kontrollnimekiri pärast konverteerimist
- summad / kuupäevad / ID-numbrid
- tabeliveerud nihkes (vajadusel Excel)
- päised/jalused/lehenumbrid puudu
- read/punktid puudu (eriti fotodel)
Seotud tööriistad
PDF Word-iks
Muuda PDF Wordis muudetavaks (OCR skannidele).
OCR (otsitav PDF)
Tee skannitud PDF otsitavaks enne edasisi samme.
Kärbi PDF
Eemalda servad/taust parema OCR-i jaoks.
Mustvalge / halltoon
Tõsta kontrasti ja vähenda müra tekstiskannidel.
Paranda PDF
Paranda vigased PDF-id enne konverteerimist.
PDF Excelisse
Stabiilsem tabelite jaoks.
PDF tekstiks
Ekstrakti ainult tekst, kui paigutus ei loe.
Word PDF-iks
Pärast muutmist tagasi PDF-i üleandmiseks ja arhiiviks.
