Logo
Зробіть відскановані PDF придатними до пошуку: поради з OCR (точність і розмір)
Блог

Зробіть відскановані PDF придатними до пошуку: поради з OCR (точність і розмір)

Перетворюйте PDF‑зображення/скани на текст, що можна шукати й копіювати — передобробка, вибір мов, розпізнавання таблиць, формати експорту та стиснення.

Українська

Багато PDF — це, насправді, зображення: фото паперових документів, скани або PDF, зібрані з картинок. Текст у таких файлах не виділяється, не шукається і не копіюється. Потрібен OCR (оптичне розпізнавання символів), щоб перетворити символи на зображенні на реальний текст.

Чи справді вам потрібен OCR?

  • Відкрийте PDF у браузері/ридері й спробуйте виділити текст: якщо виділяються окремі слова — це «текстовий PDF». Якщо виділяється блоками або не виділяється взагалі — це, ймовірно, «зображення/скан».
  • Якщо «текст» різкий при масштабуванні, але його не можна редагувати — це можуть бути векторні фігури. Запустіть OCR, щоб зробити вміст придатним до редагування/пошуку.

Швидкий старт: онлайн‑OCR

Найпростіший підхід:

OCR (зробити PDF пошуковим)

Який формат виходу обрати?

  • Зберегти вигляд; потрібен лише пошук/копіювання: «PDF з пошуком» (текстовий шар поверх оригіналу).
  • Потрібне глибоке редагування: PDF у Word або PDF у Текст.

Кроки для кращої точності OCR

1) Передобробка: орієнтація, порядок, шум

Перед розпізнаванням наведіть лад на сторінках — це суттєво підвищує точність:

  • Орієнтація/порядок: Організація сторінок — пакетом повернути горизонтальні сторінки, перетягуванням змінити порядок, видалити порожні/рекламні сторінки.

  • Ч/Б/півтони (для монохромних текстів): Чорно‑біле / Півтони — підвищує контраст, зменшує кольоровий шум — корисно для OCR і стиснення.

  • Растризація (коли складний вектор/CAD заважає OCR): Растризація PDF — перетворення вектора на бітмап для зменшення перешкод.

Роздільність і чіткість

  • Рекомендація: ~300 DPI для текстових документів; для дрібних шрифтів/низької якості друку — 400–600 DPI.
  • Уникайте надмірного стиснення/розмиття — надлишок шуму призводить до помилок розпізнавання.

2) Мови та макет

  • Налаштуйте мови OCR під вміст (uk/en/zh/ja/ko/zh‑Hant тощо). Для змішаного контенту обирайте всі дотичні мови.
  • Складні макети (мультиколонка, таблиці, виноски, вертикальний текст) знижують точність; розгляньте зонування або експорт у Word для ручної правки.

3) Формат виходу

  • PDF з пошуком: найкраще для архіву/пошуку/анотацій; вигляд зберігається, текст шукається/копіюється.
  • Word: для глибокого редагування; складні макети можуть вимагати ручних правок.
  • Простий текст: найлегший; зручно для подальшої обробки, без макета.

Типові сценарії

Текстові скани (контракти/матеріали/звіти)

  1. Організуйте сторінки: Організація → повернути/відсортувати/видалити порожні.
  2. За потреби Ч/Б/півтони для кращої читабельності: Ч/Б / Півтони.
  3. OCR: OCR (оберіть правильні мови).
  4. Файл завеликий? Використайте: Стиснення PDF.

Змішаний текст + зображення (кольорові сторінки)

  1. Спершу виправте орієнтацію/порядок; уникайте агресивного Ч/Б, щоб не втрачати деталі.
  2. Запустіть OCR; якщо важливий розмір, стискайте згодом (для кольору краще «сильне/MRC»).

Проблеми з CAD/вектором

  1. Застосуйте растризацію: Растризація
  2. За потреби використайте Ч/Б для вищого контрасту
  3. Повторіть OCR

Питання‑відповіді

П: Забагато помилок розпізнавання?

В: Поліпшіть чіткість/контраст, перевірте мови, спробуйте Ч/Б/півтони; для мультиколонки/таблиць — експорт у Word і ручна вичитка.

П: Таблиці розпізнаються погано?

В: Для складних таблиць спробуйте PDF у Excel для структурованого витягу або правте таблиці вручну після OCR.

П: Файл зависокий для відправки?

В: Після OCR використайте Стиснення PDF. Для монохрому — спершу Ч/Б, потім стиснення — розмір суттєво падає.

П: Документ конфіденційний — чи безпечний онлайн‑OCR?

В: Перевага локальній обробці або надійним сервісам. Перед публікацією «експортуйте лише потрібні сторінки» або створіть сплощену копію через віртуальний друк.

П: PDF забороняє редагування/копіювання — як запускати OCR?

В: За наявності права спершу Зняти обмеження а потім виконати OCR.

Поради

  • Рекомендований порядок: «організація → OCR → стиснення».
  • Для змішаного uk/en — вмикайте обидві мови.
  • Якщо багато сторінок із неправильною орієнтацією — спершу пакетний поворот; правильний порядок спрощує пошук/структуру.
  • «Збірка з кількох джерел»: Організація сторінок для уніфікації порядку; за потреби додайте Ч/Б і Стиснення для балансу якості/розміру.

Швидкі посилання на інструменти