Logo
Сделайте сканы PDF доступными для поиска: руководство по OCR (точность и размер)
Блог

Сделайте сканы PDF доступными для поиска: руководство по OCR (точность и размер)

Преобразуйте изображение‑PDF/сканы в текст, доступный для поиска и копирования — предобработка, выбор языков, распознавание таблиц, форматы экспорта и сжатие.

Русский

Многие PDF фактически представляют собой изображения — фото бумажных документов, сканы распечаток или PDF, собранные из изображений. Текст в таких файлах нельзя выделять, искать или копировать. Необходимо OCR (оптическое распознавание символов), чтобы распознать символы на изображении и превратить их в настоящий текст.

Нужен ли вам OCR?

  • Откройте PDF в браузере/ридере и попробуйте выделять текст: если выделяются отдельные слова — это «текстовый PDF». Если выделяется блоками или совсем не выделяется — вероятно «изображение/скан».
  • Если «текст» при увеличении резкий, но не редактируется — это могут быть векторные формы. Запустите OCR, чтобы сделать его редактируемым/доступным для поиска.

Быстрый старт: онлайн‑OCR

Самый простой способ — использовать:

OCR (сделать PDF доступным для поиска)

Какой формат вывода выбрать?

  • Сохранить макет; нужна лишь возможность поиска/копирования: «PDF с возможностью поиска» (текстовый слой над исходным изображением).
  • Нужна глубинная правка: PDF в Word или PDF в текст.

Ключевые шаги для повышения точности OCR

1) Предобработка: ориентация, порядок, шум

Перед распознаванием приведите страницы в порядок — это сильно повышает точность:

  • Ориентация/порядок: Организация страниц PDF для пакетного поворота горизонтальных страниц, перетаскивания и переупорядочивания, удаления пустых/рекламных страниц.

  • Ч/б/полутон (для монохромных текстовых документов): Ч/б / Полутон повышает контраст и подавляет цветовой шум — полезно для OCR и последующего сжатия.

  • Растрирование (если сложная векторная/CAD‑графика мешает OCR): Растрирование векторного PDF преобразует вектор в битмап, уменьшая помехи распознаванию.

Разрешение и чёткость

  • Рекомендуется: ~300 DPI для текстовых документов; для мелкого шрифта/низкого качества печати — 400–600 DPI.
  • Избегайте сильной компрессии/размытия: шум и блюр ведут к ошибкам распознавания.

2) Языки и макет

  • Настройте языки OCR под содержимое (ru/en/zh/ja/ko/zh‑Hant и др.). Для смешанных документов выбирайте все релевантные.
  • Сложные макеты (многоколонки, таблицы, сноски, вертикальный текст) снижают точность; при необходимости выделяйте зоны для отдельного распознавания или экспортируйте в Word и правьте вручную.

3) Выберите правильный формат вывода

  • PDF с возможностью поиска: лучшее для архива/поиска/аннотаций; вид как у оригинала, текст можно искать/копировать.
  • Word: для глубокой правки, но сложный макет может потребовать ручной корректировки.
  • Простой текст: самый лёгкий вариант; удобен для пост‑обработки, без информации о макете.

Типовые сценарии

Текстовые сканы (контракты/материалы/отчёты)

  1. Организуйте страницы: Организация → поворот/переупорядочивание/удаление пустых.
  2. При необходимости Ч/б/полутон для повышения чёткости: Ч/б/Полутон.
  3. OCR: OCR (выберите верные языки).
  4. Слишком большой файл? Используйте: Сжатие PDF.

Смешанный текст + изображения (цветные страницы)

  1. Сначала исправьте ориентацию/порядок; избегайте агрессивного Ч/б, чтобы сохранить детали в изображениях.
  2. Запустите OCR; если важен размер, затем сжимайте (для цветных документов предпочтителен «сильный/MRC»).

Проблемы с CAD/вектором

  1. Растрируйте: Растрирование PDF
  2. При необходимости примените Ч/б для большего контраста
  3. Запустите OCR снова

FAQ

В: Много ошибок распознавания?

О: Улучшите чёткость/контраст источника; проверьте выбор языков; попробуйте Ч/б/полутон; для многоколонки/таблиц экспортируйте в Word и правьте вручную.

В: Плохо распознаются таблицы?

О: Для сложных таблиц попробуйте PDF в Excel для структурированного извлечения, либо правьте таблицы вручную после OCR.

В: Файл слишком большой для отправки?

О: После OCR используйте Сжатие PDF. Для монохромного текста делайте Ч/б, затем сжатие — обычно размер резко уменьшается.

В: Документ конфиденциальный — безопасен ли онлайн‑OCR?

О: Предпочтительна локальная обработка или проверенные сервисы. Перед публикацией «экспортируйте только нужные страницы» или создайте уплощённую копию через виртуальную печать.

В: PDF запрещает редактирование/копирование — как запустить OCR?

О: При наличии права сначала Снять ограничения затем выполнить OCR.

Полезные советы

  • Рекомендуемая последовательность: «организация → OCR → сжатие».
  • Для смешанного ru/en включайте оба языка.
  • Если ориентация множества страниц нарушена — сначала пакетный поворот; верный порядок упрощает поиск/структурирование.
  • «Сборная» скан‑подборка: сперва Организация страниц для унификации порядка, затем при необходимости Ч/б и Сжатие для баланса читаемости и размера.

Быстрые ссылки на инструменты