Многие PDF фактически представляют собой изображения — фото бумажных документов, сканы распечаток или PDF, собранные из изображений. Текст в таких файлах нельзя выделять, искать или копировать. Необходимо OCR (оптическое распознавание символов), чтобы распознать символы на изображении и превратить их в настоящий текст.
Нужен ли вам OCR?
- Откройте PDF в браузере/ридере и попробуйте выделять текст: если выделяются отдельные слова — это «текстовый PDF». Если выделяется блоками или совсем не выделяется — вероятно «изображение/скан».
- Если «текст» при увеличении резкий, но не редактируется — это могут быть векторные формы. Запустите OCR, чтобы сделать его редактируемым/доступным для поиска.
Быстрый старт: онлайн‑OCR
Самый простой способ — использовать:
OCR (сделать PDF доступным для поиска)Какой формат вывода выбрать?
- Сохранить макет; нужна лишь возможность поиска/копирования: «PDF с возможностью поиска» (текстовый слой над исходным изображением).
- Нужна глубинная правка: PDF в Word или PDF в текст.
Ключевые шаги для повышения точности OCR
1) Предобработка: ориентация, порядок, шум
Перед распознаванием приведите страницы в порядок — это сильно повышает точность:
-
Ориентация/порядок: Организация страниц PDF для пакетного поворота горизонтальных страниц, перетаскивания и переупорядочивания, удаления пустых/рекламных страниц.
-
Ч/б/полутон (для монохромных текстовых документов): Ч/б / Полутон повышает контраст и подавляет цветовой шум — полезно для OCR и последующего сжатия.
-
Растрирование (если сложная векторная/CAD‑графика мешает OCR): Растрирование векторного PDF преобразует вектор в битмап, уменьшая помехи распознаванию.
Разрешение и чёткость
- Рекомендуется: ~300 DPI для текстовых документов; для мелкого шрифта/низкого качества печати — 400–600 DPI.
- Избегайте сильной компрессии/размытия: шум и блюр ведут к ошибкам распознавания.
2) Языки и макет
- Настройте языки OCR под содержимое (ru/en/zh/ja/ko/zh‑Hant и др.). Для смешанных документов выбирайте все релевантные.
- Сложные макеты (многоколонки, таблицы, сноски, вертикальный текст) снижают точность; при необходимости выделяйте зоны для отдельного распознавания или экспортируйте в Word и правьте вручную.
3) Выберите правильный формат вывода
- PDF с возможностью поиска: лучшее для архива/поиска/аннотаций; вид как у оригинала, текст можно искать/копировать.
- Word: для глубокой правки, но сложный макет может потребовать ручной корректировки.
- Простой текст: самый лёгкий вариант; удобен для пост‑обработки, без информации о макете.
Типовые сценарии
Текстовые сканы (контракты/материалы/отчёты)
- Организуйте страницы: Организация → поворот/переупорядочивание/удаление пустых.
- При необходимости Ч/б/полутон для повышения чёткости: Ч/б/Полутон.
- OCR: OCR (выберите верные языки).
- Слишком большой файл? Используйте: Сжатие PDF.
Смешанный текст + изображения (цветные страницы)
- Сначала исправьте ориентацию/порядок; избегайте агрессивного Ч/б, чтобы сохранить детали в изображениях.
- Запустите OCR; если важен размер, затем сжимайте (для цветных документов предпочтителен «сильный/MRC»).
Проблемы с CAD/вектором
- Растрируйте: Растрирование PDF
- При необходимости примените Ч/б для большего контраста
- Запустите OCR снова
FAQ
В: Много ошибок распознавания?
О: Улучшите чёткость/контраст источника; проверьте выбор языков; попробуйте Ч/б/полутон; для многоколонки/таблиц экспортируйте в Word и правьте вручную.
В: Плохо распознаются таблицы?
О: Для сложных таблиц попробуйте PDF в Excel для структурированного извлечения, либо правьте таблицы вручную после OCR.
В: Файл слишком большой для отправки?
О: После OCR используйте Сжатие PDF. Для монохромного текста делайте Ч/б, затем сжатие — обычно размер резко уменьшается.
В: Документ конфиденциальный — безопасен ли онлайн‑OCR?
О: Предпочтительна локальная обработка или проверенные сервисы. Перед публикацией «экспортируйте только нужные страницы» или создайте уплощённую копию через виртуальную печать.
В: PDF запрещает редактирование/копирование — как запустить OCR?
О: При наличии права сначала Снять ограничения затем выполнить OCR.
Полезные советы
- Рекомендуемая последовательность: «организация → OCR → сжатие».
- Для смешанного ru/en включайте оба языка.
- Если ориентация множества страниц нарушена — сначала пакетный поворот; верный порядок упрощает поиск/структурирование.
- «Сборная» скан‑подборка: сперва Организация страниц для унификации порядка, затем при необходимости Ч/б и Сжатие для баланса читаемости и размера.
Быстрые ссылки на инструменты
OCR
Сделайте сканы доступными для поиска; поддержка нескольких языков.
PDF в Word
Экспорт в редактируемый документ для глубокой правки.
PDF в текст
Извлечь простой текст — самый лёгкий формат.
Ч/б/Полутон
Увеличить контраст и снизить шум для улучшения OCR.
Растрирование PDF
Преобразовать сложный вектор/CAD в битмап, снизив помехи.
Сжатие PDF
Уменьшить размер, сохранив читаемость.