Wiele plików PDF to w istocie obrazy — zdjęcia dokumentów papierowych, skany wydruków czy PDF-y złożone z obrazów. Tekstu w takich plikach nie da się zaznaczać, wyszukiwać ani kopiować. Potrzebny jest OCR (optyczne rozpoznawanie znaków), aby rozpoznać znaki na obrazie i zamienić je na prawdziwy tekst.
Czy naprawdę potrzebujesz OCR?
- Otwórz PDF w przeglądarce/czytniku i spróbuj zaznaczać tekst: jeśli można zaznaczać słowa, to „PDF tekstowy”. Jeśli zaznaczanie działa blokowo lub wcale — to zapewne „PDF obrazowy/skan”.
- Gdy „tekst” pozostaje ostry po powiększeniu, ale nie da się go edytować, może to być grafika wektorowa. Nadal można uruchomić OCR, by uczynić go edytowalnym/wyszukiwalnym.
Szybki start: OCR online
Najprostsza droga to użycie:
OCR (PDF wyszukiwalny)Jaki format wyjściowy wybrać?
- Zachować układ; potrzebne tylko wyszukiwanie/kopiowanie: „PDF wyszukiwalny” (warstwa tekstowa nad obrazem strony).
- Chcesz głęboko edytować: PDF → Word lub PDF → Tekst.
Kluczowe kroki zwiększające dokładność OCR
1) Pre‑processing: orientacja, kolejność, szum
Przed rozpoznaniem uporządkuj strony, co wyraźnie poprawi dokładność:
-
Orientacja/kolejność: Porządkowanie stron PDF — seryjny obrót stron poziomych, przeciąganie i zmiana kolejności, usuwanie pustych/reklamowych stron.
-
Czarno‑białe/skala szarości (dla dokumentów tekstowych): Czarno‑białe / Skala szarości — poprawa kontrastu i redukcja szumu kolorów, co sprzyja OCR i kompresji.
-
Rastery zacja (gdy złożona grafika wektorowa/CAD zakłóca OCR): Rastery zacja PDF — konwersja wektorów na bitmapę w celu ograniczenia interferencji.
Rozdzielczość i ostrość
- Zalecane: ~300 DPI dla dokumentów tekstowych; dla drobnej czcionki/słabej jakości druku 400–600 DPI.
- Unikaj nadmiernej kompresji/rozmycia: zbyt duży szum/blur powoduje błędy rozpoznania.
2) Języki i układ
- Dopasuj języki OCR do treści (pl/en/zh/ja/ko/zh‑Hant itd.). Przy wielojęzyczności zaznacz wszystkie właściwe.
- Złożone układy (wielokolumny, tabele, przypisy, pionowy tekst) obniżają dokładność; rozważ wydzielanie stref i rozpoznawanie osobno lub eksport do Worda i ręczne poprawki.
3) Wybór formatu wyjściowego
- PDF wyszukiwalny: najlepszy do archiwum/wyszukiwania/annotacji; wygląd jak oryginał, a tekst da się szukać/kopiować.
- Word: dobry do głębokiej edycji; przy złożonych układach możliwe ręczne poprawki.
- Tekst prosty: najlżejszy; wygodny do dalszej obróbki, bez informacji o układzie.
Typowe przepływy pracy
Tekstowe skany (umowy/materiały/raporty)
- Porządkowanie stron: Porządkowanie → obrót/kolejność/usuwanie pustych.
- Opcjonalnie czarno‑białe/szarości dla lepszej czytelności: Czarno‑białe / Szarości.
- OCR: OCR (wybierz poprawne języki).
- Zbyt duży plik? Użyj: Kompresja PDF.
Mieszane tekst + obraz (kolor)
- Najpierw popraw orientację/kolejność; unikaj agresywnego czarno‑białego, by nie stracić szczegółów obrazu.
- Wykonaj OCR; jeśli liczy się rozmiar, kompresuj potem (dla koloru preferuj „silne/MRC”).
Problemy z CAD/wektorami
- Rastery zacja: Rastery zacja PDF
- Opcjonalnie czarno‑białe dla większego kontrastu
- OCR ponownie
FAQ
P: Za dużo błędów rozpoznawania?
O: Popraw ostrość/kontrast źródła; sprawdź wybór języków; spróbuj czarno‑białego/szarości; dla wielokolumn/tabel eksportuj do Worda i skoryguj ręcznie.
P: Słabe rozpoznawanie tabel?
O: Dla złożonych tabel spróbuj PDF → Excel do ekstrakcji strukturalnej lub popraw ręcznie po OCR.
P: Plik zbyt duży do wysyłki?
O: Po OCR użyj Kompresja PDF. Przy mono‑tekście najpierw czarno‑białe, potem kompresja — zwykle duża redukcja.
P: Dokument wrażliwy — czy OCR online jest bezpieczny?
O: Preferuj przetwarzanie lokalne lub zaufane usługi. Przed udostępnieniem „eksportuj tylko potrzebne strony” lub wykonaj spłaszczoną kopię przez wirtualny druk.
P: PDF z ograniczeniami edycji/kopii — jak wykonać OCR?
O: Mając prawo, najpierw Odblokuj PDF potem OCR.
Wskazówki
- Zalecana kolejność: „porządkowanie → OCR → kompresja”.
- Mieszanka pl/en: włącz oba języki.
- Dużo nieprawidłowych orientacji? Najpierw obrót seryjny; poprawna kolejność ułatwia wyszukiwanie/strukturę.
- „Wielu dostawców”: użyj Porządkowania dla ujednolicenia kolejności; połącz z Czarno‑białym i Kompresją dla balansu czytelność/rozmiar.
Szybkie linki do narzędzi
OCR
Uczyń skany wyszukiwalnymi; wsparcie wielu języków.
PDF → Word
Eksport do edytowalnego dokumentu dla głębokich zmian.
PDF → Tekst
Ekstrakcja prostego tekstu — najlżejsza opcja.
Czarno‑białe / Szarości
Zwiększ kontrast i tłum szum — pomoc dla OCR.
Rastery zacja PDF
Konwersja złożonego wektora/CAD do bitmapy, mniej zakłóceń.
Kompresja PDF
Zmniejsz rozmiar z zachowaniem czytelności.