Naskenované PDF do upravitelného Wordu: kompletní návod (OCR + rozvržení)
Blog

Naskenované PDF do upravitelného Wordu: kompletní návod (OCR + rozvržení)

Převeďte skeny/fotky PDF do upravitelného Wordu: 10s kontrola OCR, předzpracování a rychlé opravy častých chyb.

Čeština

Když „nejde PDF upravovat“, často je to proto, že stránky jsou jen obrázky (sken/foto) bez skutečné textové vrstvy. Pro upravitelný Word obvykle stačí: vyčistit stránky → zapnout OCR podle potřeby → export do Wordu a kontrola důležitých údajů.

10 sekund: Potřebujete OCR?

  • Lze označit text a Ctrl+F něco najde: většinou OCR není potřeba — rovnou převést do Wordu.
  • Text nejde označit (nebo jen po blocích) a Ctrl+F nic nenajde: pravděpodobně sken/obrázkové PDF — zapněte OCR.
  • Výjimka: některé PDF mají „text“ jako vektorové tvary (ostré, ale nehledatelné). OCR může pomoci.

Vyberte správný cíl: „upravitelné“ nebo „vyhledatelné“?

Váš cílNejlepší výstupDoporučený nástroj
Upravovat text, přestavět rozvrženíWord (.docx)PDF na Word
Zachovat vzhled, ale umožnit hledání/kopírováníVyhledatelné PDF (textová vrstva)OCR (vyhledávatelné PDF)
Potřebujete jen obsah textu (překlad/hledání/AI)Prostý textPDF na text

Doporučený postup

Pořadí: kvalita → OCR → komprese

Doporučení: Opravit (volitelné) → Uspořádat stránky → Oříznout → ČB/šedá (volitelné) → OCR/Word → Komprimovat (až nakonec).

Krok 0 (volitelné): Oprava při chybách

Opravit PDF

Opravu zvažte, pokud vidíte:

  • „Soubor je poškozený / nelze jej přečíst“
  • opakované selhání nahrání nebo převodu
  • neúplné vykreslení stránek nebo chybějící písma

Krok 1: Otočení a pořadí stránek

Uspořádat stránky

Udělejte tři věci:

  • otočte špatně natočené stránky (OCR je citlivé na „text na bok“)
  • smažte prázdné/reklamní stránky (čistší výstup, nižší náklady)
  • seřaďte pořadí (časté u skenovaných smluv a materiálů)

Krok 2: Oříznutí okrajů a pozadí

Oříznout PDF

Oříznutí často výrazně zlepší:

  • přesnost OCR
  • stabilitu rozvržení ve Wordu
  • rychlost zpracování

Krok 3 (volitelné): Zvýšit kontrast pro textové skeny

Černobílé / odstíny šedi

Pokud je ve skenu šum (šedé pozadí, textura papíru, stíny), převod do černobílé/šedé může:

  • zvýšit kontrast písmen
  • snížit „bordel“ v OCR výsledku

Krok 4: Převod do Wordu (s OCR podle potřeby)

PDF na Word

Prakticky:

  • pokud jde text označit a hledat, obvykle OCR není třeba
  • pokud je to sken/foto, OCR zapněte a zvolte správný jazyk (nebo jazyky)

Důležité: správný jazyk OCR

Pokud zvolíte jen angličtinu pro neanglický dokument, chyb bude násobně víc. Vyberte jazyk podle obsahu PDF.

Časté chyby a spolehlivé náhradní postupy

1) Příliš mnoho chyb v textu: nejdřív kvalita a jazyk

Typické příznaky:

  • vynechaná písmena, překlepy
  • záměna podobných znaků (0/O, 1/I apod.)
  • „divné“ symboly uprostřed slov

Co obvykle pomůže:

  • lepší zdroj (bez odlesků, ostřejší, vyšší DPI)
  • Oříznout okraje a pozadí
  • správně nastavit jazyk OCR

2) Sloupce/tabulky/poznámky pod čarou rozbijí rozvržení: rozdělte cíl

Pokud jde hlavně o tabulky (výpisy, přehledy), často je lepší:

PDF na Excel

Když potřebujete jen text (překlad/hledání), bývá stabilnější:

PDF na text

3) „Vypadá ostře, ale nejde hledat“: vektorové vrstvy

Některé PDF vypadají jako běžný text, ale jsou složené z vektorů nebo vrstev. V takovém případě OCR dává smysl i přesto, že „to vypadá jako text“.

4) Omezení práv: nejdřív odemknout (jen s oprávněním)

Pokud je PDF omezené (kopírování/úpravy), zkuste:

Odemknout PDF

Poznámka k oprávnění

Odemknutí používejte jen pokud máte právo (autorizovaný přístup / známé heslo). Tento nástroj neláme neznámá hesla.

Praktická kombinace: upravit ve Wordu, odevzdat jako PDF

Často Word není finální formát. Typický postup:

  1. Úpravy: PDF na Word → (úpravy ve Wordu) → Word na PDF
  2. Odevzdání (podle potřeby):

Časté pořadí

  • Běžně: převést zpět do PDF → vodoznak (volitelně) → ochrana (volitelně) → komprese (volitelně, poslední).
  • Pro „jen prohlížení“: před ochranou přidejte „zploštění“: Flatten PDF nebo Rasterize PDF (kompromis: text se změní na obrázky; velikost může narůst).

FAQ

Proč je po OCR pořád tolik chyb?

Nejčastěji:

  1. špatně zvolený jazyk OCR
  2. slabá kvalita zdroje (rozmazání, odlesky, stíny)
  3. bez přípravy (nejdřív Oříznout, případně ČB/šedá)

Ve Wordu se mi rozpadly tabulky. Co dělat?

Pro tabulky je obvykle lepší:

PDF na Excel

Je normální, že rozvržení ve Wordu vypadá jinak?

Ano. Sken → Word je rozpoznání a přetečení textu, takže složité rozvržení se nereprodukuje dokonale. Zaměřte se na editovatelnost, pak doladit ručně.

Rychlý checklist po převodu

  • částky / data / identifikátory / čísla smluv (nejrizikovější)
  • posunuté sloupce v tabulkách (pokud je to tabulkové, jděte do Excelu)
  • chybějící záhlaví/zápatí/číslování stránek (doplnit ručně)
  • chybějící řádky/odstavce (hlavně u fotografií)

Související nástroje