Když „nejde PDF upravovat“, často je to proto, že stránky jsou jen obrázky (sken/foto) bez skutečné textové vrstvy. Pro upravitelný Word obvykle stačí: vyčistit stránky → zapnout OCR podle potřeby → export do Wordu a kontrola důležitých údajů.
10 sekund: Potřebujete OCR?
- Lze označit text a Ctrl+F něco najde: většinou OCR není potřeba — rovnou převést do Wordu.
- Text nejde označit (nebo jen po blocích) a Ctrl+F nic nenajde: pravděpodobně sken/obrázkové PDF — zapněte OCR.
- Výjimka: některé PDF mají „text“ jako vektorové tvary (ostré, ale nehledatelné). OCR může pomoci.
Vyberte správný cíl: „upravitelné“ nebo „vyhledatelné“?
| Váš cíl | Nejlepší výstup | Doporučený nástroj |
|---|---|---|
| Upravovat text, přestavět rozvržení | Word (.docx) | PDF na Word |
| Zachovat vzhled, ale umožnit hledání/kopírování | Vyhledatelné PDF (textová vrstva) | OCR (vyhledávatelné PDF) |
| Potřebujete jen obsah textu (překlad/hledání/AI) | Prostý text | PDF na text |
Doporučený postup
Pořadí: kvalita → OCR → komprese
Doporučení: Opravit (volitelné) → Uspořádat stránky → Oříznout → ČB/šedá (volitelné) → OCR/Word → Komprimovat (až nakonec).
Krok 0 (volitelné): Oprava při chybách
Opravit PDFOpravu zvažte, pokud vidíte:
- „Soubor je poškozený / nelze jej přečíst“
- opakované selhání nahrání nebo převodu
- neúplné vykreslení stránek nebo chybějící písma
Krok 1: Otočení a pořadí stránek
Uspořádat stránkyUdělejte tři věci:
- otočte špatně natočené stránky (OCR je citlivé na „text na bok“)
- smažte prázdné/reklamní stránky (čistší výstup, nižší náklady)
- seřaďte pořadí (časté u skenovaných smluv a materiálů)
Krok 2: Oříznutí okrajů a pozadí
Oříznout PDFOříznutí často výrazně zlepší:
- přesnost OCR
- stabilitu rozvržení ve Wordu
- rychlost zpracování
Krok 3 (volitelné): Zvýšit kontrast pro textové skeny
Černobílé / odstíny šediPokud je ve skenu šum (šedé pozadí, textura papíru, stíny), převod do černobílé/šedé může:
- zvýšit kontrast písmen
- snížit „bordel“ v OCR výsledku
Krok 4: Převod do Wordu (s OCR podle potřeby)
PDF na WordPrakticky:
- pokud jde text označit a hledat, obvykle OCR není třeba
- pokud je to sken/foto, OCR zapněte a zvolte správný jazyk (nebo jazyky)
Důležité: správný jazyk OCR
Pokud zvolíte jen angličtinu pro neanglický dokument, chyb bude násobně víc. Vyberte jazyk podle obsahu PDF.
Časté chyby a spolehlivé náhradní postupy
1) Příliš mnoho chyb v textu: nejdřív kvalita a jazyk
Typické příznaky:
- vynechaná písmena, překlepy
- záměna podobných znaků (0/O, 1/I apod.)
- „divné“ symboly uprostřed slov
Co obvykle pomůže:
- lepší zdroj (bez odlesků, ostřejší, vyšší DPI)
- Oříznout okraje a pozadí
- správně nastavit jazyk OCR
2) Sloupce/tabulky/poznámky pod čarou rozbijí rozvržení: rozdělte cíl
Pokud jde hlavně o tabulky (výpisy, přehledy), často je lepší:
PDF na ExcelKdyž potřebujete jen text (překlad/hledání), bývá stabilnější:
PDF na text3) „Vypadá ostře, ale nejde hledat“: vektorové vrstvy
Některé PDF vypadají jako běžný text, ale jsou složené z vektorů nebo vrstev. V takovém případě OCR dává smysl i přesto, že „to vypadá jako text“.
4) Omezení práv: nejdřív odemknout (jen s oprávněním)
Pokud je PDF omezené (kopírování/úpravy), zkuste:
Odemknout PDFPoznámka k oprávnění
Odemknutí používejte jen pokud máte právo (autorizovaný přístup / známé heslo). Tento nástroj neláme neznámá hesla.
Praktická kombinace: upravit ve Wordu, odevzdat jako PDF
Často Word není finální formát. Typický postup:
- Úpravy: PDF na Word → (úpravy ve Wordu) → Word na PDF
- Odevzdání (podle potřeby):
- vodoznak: Přidat vodoznak
- ochrana (heslo/omezení): Zabezpečit PDF
- velikost: Komprimovat PDF (většinou až nakonec)
Časté pořadí
- Běžně: převést zpět do PDF → vodoznak (volitelně) → ochrana (volitelně) → komprese (volitelně, poslední).
- Pro „jen prohlížení“: před ochranou přidejte „zploštění“: Flatten PDF nebo Rasterize PDF (kompromis: text se změní na obrázky; velikost může narůst).
FAQ
Proč je po OCR pořád tolik chyb?
Nejčastěji:
- špatně zvolený jazyk OCR
- slabá kvalita zdroje (rozmazání, odlesky, stíny)
- bez přípravy (nejdřív Oříznout, případně ČB/šedá)
Ve Wordu se mi rozpadly tabulky. Co dělat?
Pro tabulky je obvykle lepší:
PDF na ExcelJe normální, že rozvržení ve Wordu vypadá jinak?
Ano. Sken → Word je rozpoznání a přetečení textu, takže složité rozvržení se nereprodukuje dokonale. Zaměřte se na editovatelnost, pak doladit ručně.
Rychlý checklist po převodu
- částky / data / identifikátory / čísla smluv (nejrizikovější)
- posunuté sloupce v tabulkách (pokud je to tabulkové, jděte do Excelu)
- chybějící záhlaví/zápatí/číslování stránek (doplnit ručně)
- chybějící řádky/odstavce (hlavně u fotografií)
Související nástroje
PDF na Word
Převod do upravitelného Wordu (OCR pro skeny).
OCR (vyhledávatelné PDF)
Udělá ze skenu vyhledávatelné PDF.
Oříznout PDF
Odstraní okraje/pozadí a zlepší OCR.
ČB / odstíny šedi
Zvýší kontrast a sníží šum pro textové skeny.
Opravit PDF
Oprava poškozených PDF před převodem.
PDF na Excel
Lepší volba pro soubory s tabulkami.
Word na PDF
Po úpravách vraťte zpět do PDF pro odevzdání a archiv.
