Skenēts PDF uz rediģējamu Word: pilns ceļvedis (OCR + izkārtojums)
Blogs

Skenēts PDF uz rediģējamu Word: pilns ceļvedis (OCR + izkārtojums)

Pārvērt skenētu/fotografētu PDF par rediģējamu Word: 10 s OCR pārbaude, sagatavošana un ātri risinājumi.

Latviešu

Ja PDF “nav rediģējams”, visbiežāk iemesls ir vienkāršs: tas izskatās kā teksts, bet lapas patiesībā ir attēli (skens, telefona foto vai PDF no ekrānuzņēmumiem) bez teksta slāņa. Lai iegūtu rediģējamu Word, izmanto šo pieeju:

  1. Sakārto lapas (rotācija/kārtība/malas/troksnis)
  2. Ja vajag, palaid OCR (attēls → īsts teksts)
  3. Eksportē uz Word un pārbaudi svarīgās vietas

10 sekunžu tests: vai vajag OCR?

  • Vari iezīmēt tekstu un Ctrl+F atrod vārdus: parasti OCR nav vajadzīgs — konvertē uzreiz uz Word.
  • Tekstu nevar iezīmēt (vai tikai blokos) un Ctrl+F neko neatrod: visticamāk skenēts/attēlu PDF — ieslēdz OCR.
  • Izņēmums: dažos PDF “teksts” ir vektoru formas (ļoti ass, bet nemeklējams). OCR joprojām ir ieteicams.

Izvēlies pareizo mērķi: “rediģējams” vai “meklējams”?

MērķisLabākais rezultātsIeteicamais rīks
Rediģēt tekstu un izkārtojumuWord (.docx)PDF uz Word
Saglabāt izskatu, bet padarīt meklējamu/kopējamuMeklējams PDF (teksta slānis)OCR (meklējams PDF)
Vajag tikai tekstuParasts tekstsPDF uz tekstu

Ieteicamā plūsma: skenēts PDF → rediģējams Word

Secība: skaidrība → atpazīšana → saspiešana

Ieteikums: Labot (pēc izvēles) → Sakārtot lapas → Apgriezt → Melnbalts/pelēktoņi (pēc izvēles) → OCR/Word → Saspiest (beigās).
Ja vispirms saspiest, OCR precizitāte var pasliktināties.

Pirms konvertēšanas: sagatavo failu OCR

  • 300 DPI (ja skenē) parasti dod labu rezultātu
  • izlabo šķību lapu slīpumu
  • izvairies no ēnām/atspīdumiem fotogrāfijās

0. solis (pēc izvēles): labot, ja fails neatsveras/nepārvēršas

Labot PDF

1. solis: rotācija un lapu kārtība

Sakārtot lapas

2. solis: apgriezt malas un fonu

Apgriezt PDF

3. solis (pēc vajadzības): melnbalts/pelēktoņi kontrastam

Melnbalts / pelēktoņi

4. solis: konvertē uz Word (ar OCR, ja vajag)

PDF uz Word

Svarīgi: pareiza OCR valoda

Ja izvēlies tikai angļu valodu dokumentam citā valodā, kļūdu būs daudz vairāk. Izvēlies valodu pēc satura.

Biežas kļūdas un “plāns B”

1) Pārāk daudz kļūdu tekstā

  • uzlabo avota kvalitāti
  • vispirms apgriezt
  • izvēlies pareizu OCR valodu

2) Tabulas izjūk Wordā

PDF uz Excel

Ja vajag tikai tekstu:

PDF uz tekstu

3) “Asi, bet nemeklējams”

Iespējams, vektoru slāņi — OCR joprojām palīdz.

4) Ierobežojumi un atļaujas

Atbloķēt

Piezīme

Atbloķēšanu izmanto tikai ar atļauju (autorizēta piekļuve / zināma parole). Rīks nelauž nezināmas paroles.

Noderīga kombinācija: rediģē Wordā, piegādā PDF

PDF uz WordWord uz PDF

Pēc vajadzības: ūdenszīme, aizsardzība, saspiešana (parasti pēdējā).

BUJ

Kāpēc pēc OCR joprojām ir daudz kļūdu?

Parasti iemesli:

  1. nepareiza OCR valoda
  2. slikta avota kvalitāte (izplūdis, ēnas, atspīdumi)
  3. nav priekšapstrādes: apgriešana un (ja vajag) melnbalts

Tabulas Wordā “izjūk”. Ko darīt?

Tabulām bieži stabilāk ir sākt ar PDF uz Excel. Ja vajag tikai tekstu, izmanto PDF uz tekstu.

Vai ir normāli, ka Word izkārtojums atšķiras?

Jā. Skenēts PDF → Word ir “atpazīšana + reflow”, tāpēc sarežģītu izkārtojumu 100% atkārtot ir grūti.

Ātra pārbaude pēc konvertēšanas

  • summas / datumi / līgumu numuri
  • tabulu kolonnu nobīdes
  • pazuduši galvenes/kājenes/lapu numuri
  • izlaistas rindas (īpaši foto)

Saistītie rīki