Сделайте сканы PDF доступными для поиска: руководство по OCR (точность и размер)

Многие PDF фактически представляют собой изображения — фото бумажных документов, сканы распечаток или PDF, собранные из изображений. Текст в таких файлах нельзя выделять, искать или копировать. Необходимо OCR (оптическое распознавание символов), чтобы распознать символы на изображении и превратить их в настоящий текст.

Нужен ли вам OCR?

Откройте PDF в браузере/ридере и попробуйте выделять текст: если выделяются отдельные слова — это «текстовый PDF». Если выделяется блоками или совсем не выделяется — вероятно «изображение/скан».
Если «текст» при увеличении резкий, но не редактируется — это могут быть векторные формы. Запустите OCR, чтобы сделать его редактируемым/доступным для поиска.

Быстрый старт: онлайн‑OCR

Самый простой способ — использовать:

OCR (сделать PDF доступным для поиска)

Какой формат вывода выбрать?

Сохранить макет; нужна лишь возможность поиска/копирования: «PDF с возможностью поиска» (текстовый слой над исходным изображением).
Нужна глубинная правка: PDF в Word или PDF в текст.

Ключевые шаги для повышения точности OCR

1) Предобработка: ориентация, порядок, шум

Перед распознаванием приведите страницы в порядок — это сильно повышает точность:

Ориентация/порядок: Организация страниц PDF для пакетного поворота горизонтальных страниц, перетаскивания и переупорядочивания, удаления пустых/рекламных страниц.
Ч/б/полутон (для монохромных текстовых документов): Ч/б / Полутон повышает контраст и подавляет цветовой шум — полезно для OCR и последующего сжатия.
Растрирование (если сложная векторная/CAD‑графика мешает OCR): Растрирование векторного PDF преобразует вектор в битмап, уменьшая помехи распознаванию.

Разрешение и чёткость

Рекомендуется: ~300 DPI для текстовых документов; для мелкого шрифта/низкого качества печати — 400–600 DPI.
Избегайте сильной компрессии/размытия: шум и блюр ведут к ошибкам распознавания.

2) Языки и макет

Настройте языки OCR под содержимое (ru/en/zh/ja/ko/zh‑Hant и др.). Для смешанных документов выбирайте все релевантные.
Сложные макеты (многоколонки, таблицы, сноски, вертикальный текст) снижают точность; при необходимости выделяйте зоны для отдельного распознавания или экспортируйте в Word и правьте вручную.

3) Выберите правильный формат вывода

PDF с возможностью поиска: лучшее для архива/поиска/аннотаций; вид как у оригинала, текст можно искать/копировать.
Word: для глубокой правки, но сложный макет может потребовать ручной корректировки.
Простой текст: самый лёгкий вариант; удобен для пост‑обработки, без информации о макете.

Типовые сценарии

Текстовые сканы (контракты/материалы/отчёты)

Организуйте страницы: Организация → поворот/переупорядочивание/удаление пустых.
При необходимости Ч/б/полутон для повышения чёткости: Ч/б/Полутон.
OCR: OCR (выберите верные языки).
Слишком большой файл? Используйте: Сжатие PDF.

Смешанный текст + изображения (цветные страницы)

Сначала исправьте ориентацию/порядок; избегайте агрессивного Ч/б, чтобы сохранить детали в изображениях.
Запустите OCR; если важен размер, затем сжимайте (для цветных документов предпочтителен «сильный/MRC»).

Проблемы с CAD/вектором

Растрируйте: Растрирование PDF
При необходимости примените Ч/б для большего контраста
Запустите OCR снова

FAQ

В: Много ошибок распознавания?

О: Улучшите чёткость/контраст источника; проверьте выбор языков; попробуйте Ч/б/полутон; для многоколонки/таблиц экспортируйте в Word и правьте вручную.

В: Плохо распознаются таблицы?

О: Для сложных таблиц попробуйте PDF в Excel для структурированного извлечения, либо правьте таблицы вручную после OCR.

В: Файл слишком большой для отправки?

О: После OCR используйте Сжатие PDF. Для монохромного текста делайте Ч/б, затем сжатие — обычно размер резко уменьшается.

В: Документ конфиденциальный — безопасен ли онлайн‑OCR?

О: Предпочтительна локальная обработка или проверенные сервисы. Перед публикацией «экспортируйте только нужные страницы» или создайте уплощённую копию через виртуальную печать.

В: PDF запрещает редактирование/копирование — как запустить OCR?

О: При наличии права сначала Снять ограничения затем выполнить OCR.

Полезные советы

Рекомендуемая последовательность: «организация → OCR → сжатие».
Для смешанного ru/en включайте оба языка.
Если ориентация множества страниц нарушена — сначала пакетный поворот; верный порядок упрощает поиск/структурирование.
«Сборная» скан‑подборка: сперва Организация страниц для унификации порядка, затем при необходимости Ч/б и Сжатие для баланса читаемости и размера.