PDF scanáilte go Word in‑eagarthóireachta: treoir iomlán (OCR + leagan amach)
Blag

PDF scanáilte go Word in‑eagarthóireachta: treoir iomlán (OCR + leagan amach)

Déan PDFanna scanáilte/grianghrafaithe in‑eagarthóireachta i Word: tástáil OCR 10 soicind, réamh‑phróiseáil agus réitigh thapa.

Gaeilge

Má “ní féidir PDF a chur in eagar”, is minic gur íomhánna amháin atá ann (scan/grianghraf) gan sraith téacs. Chun Word in‑eagarthóireachta a fháil: glan na leathanaigh → rith OCR más gá → easpórtáil go Word agus seiceáil na réimsí tábhachtacha.

10 soicind: An bhfuil OCR de dhíth?

  • Is féidir téacs a roghnú agus aimsíonn Ctrl+F focail: de ghnáth níl OCR de dhíth — tiontaigh go Word go díreach.
  • Ní féidir téacs a roghnú (nó roghnaítear i mbloic) agus ní aimsíonn Ctrl+F tada: is dócha PDF scanáilte/íomhá — cuir OCR ar siúl.
  • Eisceacht: i roinnt PDFanna tá “téacs” mar veicteoirí (géar ach neamh‑inchuardaithe). Is féidir le OCR cabhrú fós.

Roghnaigh an sprioc cheart: “editable” nó “searchable”?

SpriocAn t‑aschur is fearrUirlis mholta
Eagarthóireacht ar théacs agus ath‑leagan amachWord (.docx)PDF go Word
An cuma a choinneáil ach cuardaithe/kóipeáilteSearchable PDF (text layer)OCR (Searchable PDF)
Téacs amháin (cuardach/AI)Plain textPDF go téacs

Tá an treoir seo dírithe ar “PDF scanáilte → Word in‑eagarthóireachta” chun botúin OCR agus ath‑obair a laghdú.

Sreabhadh molta

Ord: soiléireacht → OCR → comhbhrú

Molta: Deisiú (roghnach) → Eagrú leathanaigh → Bearradh → Dubh/Bán (roghnach) → OCR/Word → Comhbhrú (ag an deireadh).

Deisiú PDF Eagrú leathanaigh Bearradh PDF Dubh/Bán / liathscála PDF go Word

Roimh thiontú: déan an comhad “OCR‑friendly”

  • DPI: 300 DPI molta; faoi 150 DPI, titeann an cruinneas go mór.
  • Skew: má tá leathanaigh claonta, cuirfidh sé isteach ar línte/colúin.
  • Scáthanna/solas: le grianghraif, seachain glare agus cúlra salach.
  • Bearradh: laghdaíonn sé torann agus feabhsaíonn sé OCR.

Is fearr foinse ghlan ná aon socrú

Má tá PDF bunaidh ar fáil (ní screenshot), nó scan níos géire, tosaigh leis sin.

Bí réalaíoch faoi leagan amach

Tá scan PDF → Word bunaithe ar “recognize + reflow”. Ní bheidh leagan amach casta 100% mar an gcéanna (go háirithe táblaí).

Gaisteanna coitianta agus réitigh iontaofa

1) An iomarca earráidí OCR: tosaigh le teanga agus cáilíocht

Na cúiseanna is coitianta:

  • teanga OCR mícheart (an ceann is mó)
  • foinse doiléir/scáthanna/frithchaiteacht
  • imill/cúlra gan bearradh (níos mó “torainn”)

Bain triail as: Bearradh → (más gá) Dubh/Bán → OCR arís leis an teanga cheart.

2) Táblaí/colúin briste i Word: scoilt an sprioc

Do dhoiciméid a bhfuil táblaí iontu, is minic gurb é seo is fearr:

PDF go Excel

Más téacs amháin atá uait:

PDF go téacs

3) Ceadanna: díghlasáil ach amháin má tá tú údaraithe

Díghlasáil PDF

Tábhachtach

Úsáid díghlasáil ach amháin le cead (rochtain údaraithe / pasfhocal ar eolas). Ní “bhriseann” an uirlis seo pasfhocail anaithnide.

Comhcheangal úsáideach: eagarthóireacht i Word, seachadadh mar PDF

  1. PDF go Word → (eagarthóireacht) → Word go PDF
  2. Más gá:

Ord seachadta coitianta

  • Word → PDF → uisce‑mharc (roghnach) → cosaint (roghnach) → comhbhrú (roghnach, ag an deireadh).
  • Le haghaidh “view‑only” níos láidre: roimh chosaint, cuir FlattenRasterize leis (trade‑off: éiríonn an téacs ina íomhá; d’fhéadfadh an comhad fás).

FAQ

Cén fáth go bhfuil an oiread botún OCR ann fós?

De ghnáth mar gheall ar:

  1. teanga OCR mícheart
  2. foinse lag (doiléir/scáthanna/glare)
  3. gan réamh‑phróiseáil: Bearradh + Dubh/Bán

Tá táblaí mí‑ailínithe i Word. Cad ba chóir dom a dhéanamh?

Má tá táblaí i gceist, bain triail as:

PDF go Excel

Seicliosta tapa tar éis tiontaithe

  • suimeanna / dátaí / IDanna / uimhreacha conartha
  • colúin tábla as ailíniú (Excel más gá)
  • ceanntásc/bunlíne/uimhreacha leathanaigh ar iarraidh
  • línte/clásail ar iarraidh (coitianta le grianghraif)

Uirlisí gaolmhara