Logo
Skannitud PDF muudetavaks Wordiks: täielik juhend (OCR + paigutus)
Blogi

Skannitud PDF muudetavaks Wordiks: täielik juhend (OCR + paigutus)

Muuda skannitud/fotografeeritud PDF Wordis muudetavaks: 10‑sekundi OCR‑kontroll, eeltöötlus ja kiired lahendused.

Eesti

Kui PDF „ei ole muudetav“, on põhjus enamasti lihtne: see näeb välja nagu tekst, kuid lehed on tegelikult pildid (skann, telefonifoto või ekraanipiltidest tehtud PDF) ilma tekstikihita. Et saada muudetav Word, kasuta seda loogikat:

  1. Tee lehed puhtamaks (pööramine/järjekord/servad/müra)
  2. Kasuta OCR-i, kui vaja (pilt → päris tekst)
  3. Ekspordi Wordi ja kontrolli olulisi kohti

10 sekundit: kas vajad OCR-i?

  • Saad teksti valida ja Ctrl+F leiab sõnu: tavaliselt OCR-i pole vaja — konverteeri otse Wordi.
  • Teksti ei saa valida (või ainult plokkidena) ja Ctrl+F ei leia midagi: tõenäoliselt skannitud/pildi‑PDF — lülita OCR sisse.
  • Erand: mõnes PDF-is on “tekst” vektorkujundina (terav, aga mitte otsitav). OCR on siiski soovitatav.

Vali õige siht: „muudetav“ või „otsitav“?

Sinu eesmärkParim väljundSoovitatav tööriist
Teksti ja paigutuse muutmineWord (.docx)PDF Word-iks
Säilitada välimus, kuid teha otsitavaks/kopeeritavaksOtsitav PDF (tekstikiht)OCR (otsitav PDF)
Vaja ainult tekstiTavaline tekstPDF tekstiks

Soovitatud töövoog: skannitud PDF → muudetav Word

Järjekord: selgus → tuvastus → pakkimine

Soovitus: Paranda (valikuline) → Korrasta lehed → Kärbi → Mustvalge/halltoon (valikuline) → OCR/Word → Paki (lõpus).
Varajane pakkimine võib OCR-i täpsust vähendada.

Enne konverteerimist: tee fail OCR‑sõbralikumaks

  • Piisav kvaliteet: skannimisel soovitatakse 300 DPI.
  • Vähem viltu: viltused lehed rikuvad veergude/ridade tuvastust.
  • Väldi varje ja peegeldusi: fotode puhul ühtlane valgus.
  • Kui võimalik, kasuta skannerit.

Samm 0 (valikuline): paranda, kui fail ei avane/konverteeru

Paranda PDF

Samm 1: pööramine ja lehtede järjekord

Korrasta PDF-lehti

Samm 2 (soovitatav): kärbi servad ja taust

Kärbi PDF

Samm 3 (vajadusel): mustvalge / halltoon kontrasti tõstmiseks

Mustvalge / halltoon

Samm 4: konverteeri Wordi (OCR-iga, kui vaja)

PDF Word-iks

Oluline: õige OCR-keel

Kui valid ainult inglise keele dokumendile, mis pole ingliskeelne, kasvab vigade hulk oluliselt. Vali dokumendi keel(ed).

Levinud komistuskivid ja varuplaan

1) Liiga palju vigu tekstis

  • paranda lähtefaili kvaliteeti
  • tee enne kärpimine
  • vali õige OCR keel

2) Tabelid/veerud lagunevad Wordis

Tabelite jaoks proovi:

PDF Excelisse

Kui vajad ainult teksti:

PDF tekstiks

3) „Terav, aga mitte otsitav“

Võib olla vektor-“tekst”. OCR aitab ka sellisel juhul.

4) Õigused ja piirangud

Ava lukustus

Märkus

Kasuta avamist ainult siis, kui sul on õigus (volitatud ligipääs / teadaolev parool). Tööriist ei murra tundmatuid paroole.

Kasulik kombinatsioon: redigeeri Wordis, anna üle PDF-ina

  1. PDF Word-iks → (redigeeri) → Word PDF-iks
  2. Vajadusel: Vesimärk / Kaitse / Paki

Tüüpiline järjekord

  • Tagasi PDF-i → vesimärk (valikuline) → kaitse (valikuline) → pakkimine (lõpus).
  • Tugevama „ainult vaatamine“ jaoks: enne kaitset Flatten või Rasterize.

KKK

Miks on pärast OCR-i ikka palju vigu?

Tavaliselt kolm põhjust:

  1. vale OCR keel
  2. kehv allikas (udune, varjud, peegeldused)
  3. pole eeltöötlust: kärpimine + (vajadusel) mustvalge

Tabelid lähevad Wordis paigast. Mida teha?

Tabelite jaoks proovi PDF Excelisse. Kui vajad ainult teksti, kasuta PDF tekstiks.

Kas on normaalne, et Wordi paigutus erineb originaalist?

Jah. Skannitud PDF → Word on “recognize + reflow”, seega keeruline paigutus ei tule sageli 100% sama.

Kiire kontrollnimekiri pärast konverteerimist

  • summad / kuupäevad / ID-numbrid
  • tabeliveerud nihkes (vajadusel Excel)
  • päised/jalused/lehenumbrid puudu
  • read/punktid puudu (eriti fotodel)

Seotud tööriistad