Skannað PDF í breytanlegt Word: heildarleiðbeining (OCR + uppsetning)
Blogg

Skannað PDF í breytanlegt Word: heildarleiðbeining (OCR + uppsetning)

Breyttu skönnuðum/mynd‑PDF í breytanlegt Word: 10 sek. OCR‑próf, undirbúningur og algengar lausnir.

Íslenska

Ef PDF “er ekki breytanlegt” er ástæðan oft einföld: það lítur út eins og texti, en síðurnar eru í raun myndir (skönnun, símafoto eða PDF úr skjámyndum) án textalags. Til að fá breytanlegt Word skaltu fylgja þessu:

  1. Hreinsa og laga síður (snúningur/röð/jaðrar/hávaði)
  2. Keyra OCR þegar þarf (mynd → raunverulegur texti)
  3. Flytja út í Word og yfirfara lykilatriði

10 sekúndur: þarftu OCR?

  • Þú getur valið texta og Ctrl+F finnur orð: yfirleitt þarf ekki OCR — breyttu beint í Word.
  • Þú getur ekki valið texta (eða bara í blokkum) og Ctrl+F finnur ekkert: líklega skannað/mynd‑PDF — virkjaðu OCR.
  • Undantekning: sum PDF hafa “texta” sem vektorlögun (mjög skarpur en ekki leitanlegur). OCR er samt ráðlegt.

Veldu rétt markmið: “breytanlegt” eða “leitanlegt”?

MarkmiðBesti útgangurMælt tól
Breyta texta og uppsetninguWord (.docx)PDF í Word
Halda útliti en gera leitanlegt/afritanlegtLeitanlegt PDF (textalag)OCR (leitanlegt PDF)
Þarf bara textannHreinn textiPDF í texta

Mælt með ferli: skannað PDF → breytanlegt Word

Röð: skýrleiki → greining → þjöppun

Mælt með: Laga (valkvætt) → Skipuleggja síður → Skera → Svart/hvítt/grátónar (valkvætt) → OCR/Word → Þjappa (í lokin).
Að þjappa fyrst getur dregið úr OCR-nákvæmni.

Fyrir umbreytingu: gerðu skjalið OCR-vænt

  • 300 DPI skönnun ef mögulegt
  • minnka skekkju (skakkar síður rugla greiningu)
  • forðast skugga/endurkast á ljósmyndum

Skref 0 (valkvætt): lagaðu ef skjalið opnast ekki/klikkar í umbreytingu

Laga PDF

Skref 1: snúningur og röð síðna

Skipuleggja síður

Skref 2: skera jaðra og bakgrunn

Skera PDF

Skref 3 (eftir þörfum): svart/hvítt eða grátónar fyrir betri kontrast

Svart/hvítt / grátónar

Skref 4: breyta í Word (með OCR ef þarf)

PDF í Word

Mikilvægt: rétt OCR-tungumál

Ef þú velur bara ensku fyrir skjal á öðru tungumáli, eykst villuhlutfall mikið. Veldu tungumál eftir innihaldinu.

Algengar gildrur og varaleiðir

1) Of margar villur

  • bættu uppruna (skýrari skönnun, minna endurkast)
  • byrjaðu á skurði
  • rétt OCR-tungumál

2) Töflur brotna í Word

PDF í Excel

Ef þú þarft bara texta:

PDF í texta

3) “Skarpt en ekki leitanlegt”

Getur verið vektor-“texti”. OCR er samt góð leið.

4) Heimildir og takmarkanir

Aflæsa

Athugasemd

Aflæsingu skal aðeins nota með heimild (leyfilegur aðgangur / þekkt lykilorð). Tólið brýtur ekki óþekkt lykilorð.

Gagnleg samsetning: breyta í Word, skila sem PDF

PDF í WordWord í PDF

Eftir þörfum: vatnsmerki, vörn, þjöppun (yfirleitt síðast).

Algengar spurningar (FAQ)

Af hverju eru enn villur eftir OCR?

Algengast er:

  1. rangt OCR‑tungumál
  2. lélegur uppruni (óskýrt, skuggar, endurkast)
  3. engin forvinnsla: skera og (ef þarf) svart/hvítt

Töflur fara úr skorðum í Word. Hvað á ég að gera?

Fyrir töflur er oft betra að nota PDF í Excel. Ef þú þarft bara textann, notaðu PDF í texta.

Er eðlilegt að uppsetningin breytist í Word?

Já. Skannað PDF → Word er “recognize + reflow”, þannig að flókin uppsetning endurtekur sig sjaldan 100%.

Fljótur gátlisti eftir umbreytingu

  • upphæðir / dagsetningar / númer
  • tilfærðar dálkar í töflum
  • vantar haus/fót og blaðsíðutölur
  • vantar línur/ákvæði (oft í símafótum)

Tengd tól