Logo
Skannattu PDF muokattavaksi Wordiksi: täydellinen opas (OCR + asettelu)
Blogi

Skannattu PDF muokattavaksi Wordiksi: täydellinen opas (OCR + asettelu)

Muuta skannatut/kuvatut PDF:t muokattavaksi Wordiksi: 10 sekunnin OCR‑tarkistus, esikäsittely ja yleiset sudenkuopat.

Suomi

Kun PDF “ei ole muokattava”, se on usein pelkkä kuva (skanni/valokuva) ilman oikeaa tekstikerrosta. Jotta saat muokattavan Word‑tiedoston: siivoa sivut → käytä OCR:ää tarvittaessa → vie Wordiin ja tarkista tärkeät kohdat.

10 sekunnin testi: Tarvitsetko OCR:n?

  • Voit valita tekstiä ja Ctrl+F löytää sanoja: yleensä ei OCR:ää — muunna suoraan Wordiksi.
  • Tekstiä ei voi valita (tai vain lohkoina) eikä Ctrl+F löydä mitään: todennäköisesti skannattu/kuva‑PDF — ota OCR käyttöön.
  • Poikkeus: joissain PDF:issä “teksti” on vektorimuotoa (terävä mutta ei haettavissa). OCR voi silti auttaa.

Valitse oikea tavoite: “muokattava” vai “haettava”?

TavoitteesiParas lopputulosSuositeltu työkalu
Muokata tekstiä ja asetteluaWord (.docx)PDF Wordiksi
Säilyttää ulkoasu, mutta tehdä haettavaksi/kopioitavaksiHaettava PDF (tekstikerros)OCR (haettava PDF)
Tarvitset vain tekstin (käännös/haku/AI)Pelkkä tekstiPDF tekstiksi

Suositeltu työnkulku

Järjestys: selkeys → OCR → pakkaus

Suositus: Korjaa (valinnainen) → Järjestä sivut → Rajaa → Mustavalko/harmaa (valinnainen) → OCR/Word → Pakkaa (lopuksi).

Vaihe 0 (valinnainen): Korjaa jos tiedosto antaa virheitä

Korjaa PDF

Korjaa ennen muunnosta jos:

  • “Tiedosto on vioittunut / ei luettavissa”
  • lataus tai muunnos epäonnistuu toistuvasti
  • sivut eivät renderöidy oikein tai fontteja puuttuu

Vaihe 1: Käännä ja järjestä sivut

Järjestä PDF‑sivut

Tee kolme asiaa:

  • käännä väärin päin olevat sivut (OCR heikkenee heti, jos teksti on “sivuttain”)
  • poista tyhjät/mainossivut (siistimpi tulos, pienempi kustannus)
  • järjestä sivut oikeaan järjestykseen (yleistä skannatuissa sopimuksissa)

Vaihe 2: Rajaa reunat ja tausta

Rajaa PDF

Rajaus parantaa usein:

  • OCR‑tarkkuutta
  • Word-asettelun vakautta
  • käsittelynopeutta

Vaihe 3 (valinnainen): Lisää kontrastia tekstiskanneihin

Mustavalko / harmaasävy

Jos skannissa on paljon kohinaa (paperin tekstuuri, harmaa tausta, varjot), mustavalko/harmaasävy voi:

  • tehdä kirjaimista kontrastisempia
  • vähentää “kohinaa” OCR‑tuloksessa

Vaihe 4: Muunna Wordiksi (OCR tarvittaessa)

PDF Wordiksi

Käytännössä:

  • jos tekstiä voi valita ja hakea, OCR ei usein ole tarpeen
  • jos kyseessä on skanni/kuva, ota OCR käyttöön ja valitse oikea kieli (tai kielet)

Tärkeää: oikea OCR-kieli

Jos valitset vain englannin ei-englanninkieliseen dokumenttiin, virheitä tulee moninkertaisesti. Valitse kieli sisällön mukaan.

Yleiset sudenkuopat ja varmat vaihtoehdot

1) Liikaa virheitä tekstissä: aloita laadusta ja kielestä

Jos näet:

  • puuttuvia kirjaimia/typoja
  • samannäköisten merkkien sekoittumista (0/O, 1/I jne.)
  • outoja symboleja sanojen keskellä

Yleensä auttaa:

  • parempi lähde (vähemmän sumeutta/heijastuksia)
  • Rajaa reunat ja tausta
  • valitse oikea OCR‑kieli

2) Sarakkeet/taulukot hajoavat Wordissa: jaa tavoite

Taulukkopainotteisille skanneille usein parempi:

PDF Exceliksi

Jos tarvitset vain tekstin, tämä on usein vakaampi:

PDF tekstiksi

3) “Terävä mutta ei haettavissa”: vektorit/kerrokset

Jotkin PDF:t näyttävät tekstiltä, mutta ovat vektorimuotoja tai monimutkaisia kerroksia. Tällöin OCR on silti järkevä ratkaisu.

4) Oikeudet: avaa lukitus ensin (vain luvalla)

Jos PDF on rajoitettu (kopiointi/muokkaus), kokeile:

Avaa PDF:n lukitus

Huomio

Käytä lukituksen avausta vain, jos sinulla on lupa (valtuutettu käyttö / tunnettu salasana). Työkalu ei murra tuntemattomia salasanoja.

Hyödyllinen yhdistelmä: muokkaa Wordissa, toimita PDF:nä

Usein Word ei ole lopullinen muoto. Ajattele kahta työnkulkua:

  1. Muokkaus: PDF Wordiksi → (muokkaa Wordissa) → Word PDF:ksi
  2. Toimitus (tarpeen mukaan):

Tyypillinen järjestys

  • Yleensä: takaisin PDF:ksi → vesileima (valinnainen) → suojaus (valinnainen) → pakkaus (valinnainen, viimeinen).
  • Vahvempi “vain katselu”: ennen suojausta lisää “flatten”: Flatten PDF tai Rasterize PDF (kompromissi: teksti muuttuu kuvaksi; koko voi kasvaa).

FAQ

Miksi OCR-virheitä on edelleen paljon?

Yleensä siksi että:

  1. OCR‑kieli on väärä
  2. lähde on heikkolaatuinen (sumeus/heijastus/varjot)
  3. esikäsittely puuttuu (ensin Rajaa, tarvittaessa mustavalko)

Taulukot ovat sekaisin Wordissa. Mitä teen?

Kokeile:

PDF Exceliksi

Onko normaalia, että Word-asettelu muuttuu paljon?

On. Skanni → Word on “tunnistus + uudelleen asettelu”, joten monimutkaiset asettelut eivät toistu täydellisesti. Tavoittele ensin muokattavuutta, viimeistele sitten käsin.

Nopea tarkistuslista muunnoksen jälkeen

  • summat / päivämäärät / tunnisteet (virheherkintä)
  • siirtyneet sarakkeet taulukoissa (käytä Exceliä tarvittaessa)
  • puuttuvat ylä-/alatunnisteet ja sivunumerot (lisää käsin)
  • puuttuvat rivit/ehdot (erityisesti puhelinvalokuvissa)

Liittyvät työkalut