Ja PDF “nav rediģējams”, visbiežāk iemesls ir vienkāršs: tas izskatās kā teksts, bet lapas patiesībā ir attēli (skens, telefona foto vai PDF no ekrānuzņēmumiem) bez teksta slāņa. Lai iegūtu rediģējamu Word, izmanto šo pieeju:
- Sakārto lapas (rotācija/kārtība/malas/troksnis)
- Ja vajag, palaid OCR (attēls → īsts teksts)
- Eksportē uz Word un pārbaudi svarīgās vietas
10 sekunžu tests: vai vajag OCR?
- Vari iezīmēt tekstu un Ctrl+F atrod vārdus: parasti OCR nav vajadzīgs — konvertē uzreiz uz Word.
- Tekstu nevar iezīmēt (vai tikai blokos) un Ctrl+F neko neatrod: visticamāk skenēts/attēlu PDF — ieslēdz OCR.
- Izņēmums: dažos PDF “teksts” ir vektoru formas (ļoti ass, bet nemeklējams). OCR joprojām ir ieteicams.
Izvēlies pareizo mērķi: “rediģējams” vai “meklējams”?
| Mērķis | Labākais rezultāts | Ieteicamais rīks |
|---|---|---|
| Rediģēt tekstu un izkārtojumu | Word (.docx) | PDF uz Word |
| Saglabāt izskatu, bet padarīt meklējamu/kopējamu | Meklējams PDF (teksta slānis) | OCR (meklējams PDF) |
| Vajag tikai tekstu | Parasts teksts | PDF uz tekstu |
Ieteicamā plūsma: skenēts PDF → rediģējams Word
Secība: skaidrība → atpazīšana → saspiešana
Ieteikums: Labot (pēc izvēles) → Sakārtot lapas → Apgriezt → Melnbalts/pelēktoņi (pēc izvēles) → OCR/Word → Saspiest (beigās).
Ja vispirms saspiest, OCR precizitāte var pasliktināties.
Pirms konvertēšanas: sagatavo failu OCR
- 300 DPI (ja skenē) parasti dod labu rezultātu
- izlabo šķību lapu slīpumu
- izvairies no ēnām/atspīdumiem fotogrāfijās
0. solis (pēc izvēles): labot, ja fails neatsveras/nepārvēršas
Labot PDF1. solis: rotācija un lapu kārtība
Sakārtot lapas2. solis: apgriezt malas un fonu
Apgriezt PDF3. solis (pēc vajadzības): melnbalts/pelēktoņi kontrastam
Melnbalts / pelēktoņi4. solis: konvertē uz Word (ar OCR, ja vajag)
PDF uz WordSvarīgi: pareiza OCR valoda
Ja izvēlies tikai angļu valodu dokumentam citā valodā, kļūdu būs daudz vairāk. Izvēlies valodu pēc satura.
Biežas kļūdas un “plāns B”
1) Pārāk daudz kļūdu tekstā
- uzlabo avota kvalitāti
- vispirms apgriezt
- izvēlies pareizu OCR valodu
2) Tabulas izjūk Wordā
PDF uz ExcelJa vajag tikai tekstu:
PDF uz tekstu3) “Asi, bet nemeklējams”
Iespējams, vektoru slāņi — OCR joprojām palīdz.
4) Ierobežojumi un atļaujas
AtbloķētPiezīme
Atbloķēšanu izmanto tikai ar atļauju (autorizēta piekļuve / zināma parole). Rīks nelauž nezināmas paroles.
Noderīga kombinācija: rediģē Wordā, piegādā PDF
Pēc vajadzības: ūdenszīme, aizsardzība, saspiešana (parasti pēdējā).
BUJ
Kāpēc pēc OCR joprojām ir daudz kļūdu?
Parasti iemesli:
- nepareiza OCR valoda
- slikta avota kvalitāte (izplūdis, ēnas, atspīdumi)
- nav priekšapstrādes: apgriešana un (ja vajag) melnbalts
Tabulas Wordā “izjūk”. Ko darīt?
Tabulām bieži stabilāk ir sākt ar PDF uz Excel. Ja vajag tikai tekstu, izmanto PDF uz tekstu.
Vai ir normāli, ka Word izkārtojums atšķiras?
Jā. Skenēts PDF → Word ir “atpazīšana + reflow”, tāpēc sarežģītu izkārtojumu 100% atkārtot ir grūti.
Ātra pārbaude pēc konvertēšanas
- summas / datumi / līgumu numuri
- tabulu kolonnu nobīdes
- pazuduši galvenes/kājenes/lapu numuri
- izlaistas rindas (īpaši foto)
Saistītie rīki
PDF uz Word
Konvertē uz rediģējamu Word (OCR skeniem).
OCR (meklējams PDF)
Padari skenēto PDF meklējamu pirms turpmākiem soļiem.
Apgriezt PDF
Noņem malas/fonu labākam OCR.
Melnbalts / pelēktoņi
Palielini kontrastu un samazini troksni teksta skeniem.
Labot PDF
Salabo bojātus PDF pirms konvertēšanas.
PDF uz Excel
Stabilāk tabulām un izrakstiem.
PDF uz tekstu
Izvelc tikai tekstu, ja izkārtojums nav svarīgs.
Word uz PDF
Pēc rediģēšanas atpakaļ PDF piegādei un arhīvam.
