Skenēts PDF uz rediģējamu Word: pilns ceļvedis (OCR + izkārtojums)

Ja PDF “nav rediģējams”, visbiežāk iemesls ir vienkāršs: tas izskatās kā teksts, bet lapas patiesībā ir attēli (skens, telefona foto vai PDF no ekrānuzņēmumiem) bez teksta slāņa. Lai iegūtu rediģējamu Word, izmanto šo pieeju:

Sakārto lapas (rotācija/kārtība/malas/troksnis)
Ja vajag, palaid OCR (attēls → īsts teksts)
Eksportē uz Word un pārbaudi svarīgās vietas

10 sekunžu tests: vai vajag OCR?

Vari iezīmēt tekstu un Ctrl+F atrod vārdus: parasti OCR nav vajadzīgs — konvertē uzreiz uz Word.
Tekstu nevar iezīmēt (vai tikai blokos) un Ctrl+F neko neatrod: visticamāk skenēts/attēlu PDF — ieslēdz OCR.
Izņēmums: dažos PDF “teksts” ir vektoru formas (ļoti ass, bet nemeklējams). OCR joprojām ir ieteicams.

Izvēlies pareizo mērķi: “rediģējams” vai “meklējams”?

Mērķis	Labākais rezultāts	Ieteicamais rīks
Rediģēt tekstu un izkārtojumu	Word (.docx)	PDF uz Word
Saglabāt izskatu, bet padarīt meklējamu/kopējamu	Meklējams PDF (teksta slānis)	OCR (meklējams PDF)
Vajag tikai tekstu	Parasts teksts	PDF uz tekstu

Ieteicamā plūsma: skenēts PDF → rediģējams Word

Secība: skaidrība → atpazīšana → saspiešana

Ieteikums: Labot (pēc izvēles) → Sakārtot lapas → Apgriezt → Melnbalts/pelēktoņi (pēc izvēles) → OCR/Word → Saspiest (beigās).
Ja vispirms saspiest, OCR precizitāte var pasliktināties.

Pirms konvertēšanas: sagatavo failu OCR

300 DPI (ja skenē) parasti dod labu rezultātu
izlabo šķību lapu slīpumu
izvairies no ēnām/atspīdumiem fotogrāfijās

Svarīgi: pareiza OCR valoda

Ja izvēlies tikai angļu valodu dokumentam citā valodā, kļūdu būs daudz vairāk. Izvēlies valodu pēc satura.

Biežas kļūdas un “plāns B”

1) Pārāk daudz kļūdu tekstā

uzlabo avota kvalitāti
vispirms apgriezt
izvēlies pareizu OCR valodu

2) Tabulas izjūk Wordā

PDF uz Excel

Ja vajag tikai tekstu:

PDF uz tekstu

3) “Asi, bet nemeklējams”

Iespējams, vektoru slāņi — OCR joprojām palīdz.

4) Ierobežojumi un atļaujas

Atbloķēt

Piezīme

Atbloķēšanu izmanto tikai ar atļauju (autorizēta piekļuve / zināma parole). Rīks nelauž nezināmas paroles.

Noderīga kombinācija: rediģē Wordā, piegādā PDF

PDF uz Word → Word uz PDF

Pēc vajadzības: ūdenszīme, aizsardzība, saspiešana (parasti pēdējā).

BUJ

Kāpēc pēc OCR joprojām ir daudz kļūdu?

Parasti iemesli:

nepareiza OCR valoda
slikta avota kvalitāte (izplūdis, ēnas, atspīdumi)
nav priekšapstrādes: apgriešana un (ja vajag) melnbalts

Tabulas Wordā “izjūk”. Ko darīt?

Tabulām bieži stabilāk ir sākt ar PDF uz Excel. Ja vajag tikai tekstu, izmanto PDF uz tekstu.

Vai ir normāli, ka Word izkārtojums atšķiras?

Jā. Skenēts PDF → Word ir “atpazīšana + reflow”, tāpēc sarežģītu izkārtojumu 100% atkārtot ir grūti.

Ātra pārbaude pēc konvertēšanas

summas / datumi / līgumu numuri
tabulu kolonnu nobīdes
pazuduši galvenes/kājenes/lapu numuri
izlaistas rindas (īpaši foto)

Skenēts PDF uz rediģējamu Word: pilns ceļvedis (OCR + izkārtojums)

10 sekunžu tests: vai vajag OCR?

Izvēlies pareizo mērķi: “rediģējams” vai “meklējams”?

Ieteicamā plūsma: skenēts PDF → rediģējams Word

Secība: skaidrība → atpazīšana → saspiešana

Pirms konvertēšanas: sagatavo failu OCR

0. solis (pēc izvēles): labot, ja fails neatsveras/nepārvēršas

1. solis: rotācija un lapu kārtība

2. solis: apgriezt malas un fonu

3. solis (pēc vajadzības): melnbalts/pelēktoņi kontrastam

4. solis: konvertē uz Word (ar OCR, ja vajag)

Svarīgi: pareiza OCR valoda

Biežas kļūdas un “plāns B”

1) Pārāk daudz kļūdu tekstā

2) Tabulas izjūk Wordā

3) “Asi, bet nemeklējams”

4) Ierobežojumi un atļaujas

Piezīme

Noderīga kombinācija: rediģē Wordā, piegādā PDF

BUJ

Kāpēc pēc OCR joprojām ir daudz kļūdu?

Tabulas Wordā “izjūk”. Ko darīt?

Vai ir normāli, ka Word izkārtojums atšķiras?

Ātra pārbaude pēc konvertēšanas

Saistītie rīki

PDF uz Word

OCR (meklējams PDF)

Apgriezt PDF

Melnbalts / pelēktoņi

Labot PDF

PDF uz Excel

PDF uz tekstu

Word uz PDF