Logo
Uczyń zeskanowane PDF-y wyszukiwalnymi: przewodnik po OCR (dokładność i rozmiar)
Blog

Uczyń zeskanowane PDF-y wyszukiwalnymi: przewodnik po OCR (dokładność i rozmiar)

Zamień obrazowe PDF-y/skany na tekst możliwy do wyszukiwania i kopiowania — pre‑processing, wybór języków, rozpoznawanie tabel, formaty eksportu i kompresja.

Polski

Wiele plików PDF to w istocie obrazy — zdjęcia dokumentów papierowych, skany wydruków czy PDF-y złożone z obrazów. Tekstu w takich plikach nie da się zaznaczać, wyszukiwać ani kopiować. Potrzebny jest OCR (optyczne rozpoznawanie znaków), aby rozpoznać znaki na obrazie i zamienić je na prawdziwy tekst.

Czy naprawdę potrzebujesz OCR?

  • Otwórz PDF w przeglądarce/czytniku i spróbuj zaznaczać tekst: jeśli można zaznaczać słowa, to „PDF tekstowy”. Jeśli zaznaczanie działa blokowo lub wcale — to zapewne „PDF obrazowy/skan”.
  • Gdy „tekst” pozostaje ostry po powiększeniu, ale nie da się go edytować, może to być grafika wektorowa. Nadal można uruchomić OCR, by uczynić go edytowalnym/wyszukiwalnym.

Szybki start: OCR online

Najprostsza droga to użycie:

OCR (PDF wyszukiwalny)

Jaki format wyjściowy wybrać?

  • Zachować układ; potrzebne tylko wyszukiwanie/kopiowanie: „PDF wyszukiwalny” (warstwa tekstowa nad obrazem strony).
  • Chcesz głęboko edytować: PDF → Word lub PDF → Tekst.

Kluczowe kroki zwiększające dokładność OCR

1) Pre‑processing: orientacja, kolejność, szum

Przed rozpoznaniem uporządkuj strony, co wyraźnie poprawi dokładność:

  • Orientacja/kolejność: Porządkowanie stron PDF — seryjny obrót stron poziomych, przeciąganie i zmiana kolejności, usuwanie pustych/reklamowych stron.

  • Czarno‑białe/skala szarości (dla dokumentów tekstowych): Czarno‑białe / Skala szarości — poprawa kontrastu i redukcja szumu kolorów, co sprzyja OCR i kompresji.

  • Rastery zacja (gdy złożona grafika wektorowa/CAD zakłóca OCR): Rastery zacja PDF — konwersja wektorów na bitmapę w celu ograniczenia interferencji.

Rozdzielczość i ostrość

  • Zalecane: ~300 DPI dla dokumentów tekstowych; dla drobnej czcionki/słabej jakości druku 400–600 DPI.
  • Unikaj nadmiernej kompresji/rozmycia: zbyt duży szum/blur powoduje błędy rozpoznania.

2) Języki i układ

  • Dopasuj języki OCR do treści (pl/en/zh/ja/ko/zh‑Hant itd.). Przy wielojęzyczności zaznacz wszystkie właściwe.
  • Złożone układy (wielokolumny, tabele, przypisy, pionowy tekst) obniżają dokładność; rozważ wydzielanie stref i rozpoznawanie osobno lub eksport do Worda i ręczne poprawki.

3) Wybór formatu wyjściowego

  • PDF wyszukiwalny: najlepszy do archiwum/wyszukiwania/annotacji; wygląd jak oryginał, a tekst da się szukać/kopiować.
  • Word: dobry do głębokiej edycji; przy złożonych układach możliwe ręczne poprawki.
  • Tekst prosty: najlżejszy; wygodny do dalszej obróbki, bez informacji o układzie.

Typowe przepływy pracy

Tekstowe skany (umowy/materiały/raporty)

  1. Porządkowanie stron: Porządkowanie → obrót/kolejność/usuwanie pustych.
  2. Opcjonalnie czarno‑białe/szarości dla lepszej czytelności: Czarno‑białe / Szarości.
  3. OCR: OCR (wybierz poprawne języki).
  4. Zbyt duży plik? Użyj: Kompresja PDF.

Mieszane tekst + obraz (kolor)

  1. Najpierw popraw orientację/kolejność; unikaj agresywnego czarno‑białego, by nie stracić szczegółów obrazu.
  2. Wykonaj OCR; jeśli liczy się rozmiar, kompresuj potem (dla koloru preferuj „silne/MRC”).

Problemy z CAD/wektorami

  1. Rastery zacja: Rastery zacja PDF
  2. Opcjonalnie czarno‑białe dla większego kontrastu
  3. OCR ponownie

FAQ

P: Za dużo błędów rozpoznawania?

O: Popraw ostrość/kontrast źródła; sprawdź wybór języków; spróbuj czarno‑białego/szarości; dla wielokolumn/tabel eksportuj do Worda i skoryguj ręcznie.

P: Słabe rozpoznawanie tabel?

O: Dla złożonych tabel spróbuj PDF → Excel do ekstrakcji strukturalnej lub popraw ręcznie po OCR.

P: Plik zbyt duży do wysyłki?

O: Po OCR użyj Kompresja PDF. Przy mono‑tekście najpierw czarno‑białe, potem kompresja — zwykle duża redukcja.

P: Dokument wrażliwy — czy OCR online jest bezpieczny?

O: Preferuj przetwarzanie lokalne lub zaufane usługi. Przed udostępnieniem „eksportuj tylko potrzebne strony” lub wykonaj spłaszczoną kopię przez wirtualny druk.

P: PDF z ograniczeniami edycji/kopii — jak wykonać OCR?

O: Mając prawo, najpierw Odblokuj PDF potem OCR.

Wskazówki

  • Zalecana kolejność: „porządkowanie → OCR → kompresja”.
  • Mieszanka pl/en: włącz oba języki.
  • Dużo nieprawidłowych orientacji? Najpierw obrót seryjny; poprawna kolejność ułatwia wyszukiwanie/strukturę.
  • „Wielu dostawców”: użyj Porządkowania dla ujednolicenia kolejności; połącz z Czarno‑białym i Kompresją dla balansu czytelność/rozmiar.

Szybkie linki do narzędzi