Основы PDF
Перед сжатием PDF важно понимать базовую структуру PDF-файлов и определить цель сжатия, что поможет выбрать наиболее подходящую стратегию.
Разные типы PDF требуют разных методов сжатия
Черно-белые сканы текста: Алгоритм сжатия JBIG2 может уменьшить размер файла на 95-98%, сохраняя при этом четкость и читаемость текста
Цветные сканы текста: Технология сжатия MRC может уменьшить размер файла на 70-85%, сохраняя цвета
Текстовые PDF: Нативный текстовый контент уже высоко оптимизирован; сжатие в основном достигается за счет оптимизации встроенных изображений, обычно уменьшая размер файла на 10-30%
Документы с векторной графикой: Например, чертежи САПР, могут быть сжаты путем растрирования в битовую карту с последующим применением черно-белого или серого кодирования, уменьшая размер файла на 60-80%
Выбор правильного метода сжатия - ключ к обеспечению как уменьшения размера файла, так и сохранения качества документа.
Разница между текстовыми PDF и PDF на основе изображений
PDF-файлы содержат различные элементы, в основном текст, изображения и векторную графику. Иногда контент, который выглядит как текст, на самом деле может быть изображением или векторной графикой.
Быстрые советы по определению типов PDF
Используйте браузер Chrome или Edge для открытия PDF; контент, который можно выделить и подсветить, является настоящими текстовыми элементами.
Текстовые PDF: Контент состоит из настоящих текстовых элементов, которые можно выделять и искать
PDF на основе изображений: Контент существует в виде изображений, например, отсканированные документы или текст, представленный в виде изображений/векторов
Элементы PDF, подходящие для сжатия
Различные элементы в PDF имеют разный потенциал сжатия:
- Текстовые элементы: Формат PDF уже сжал их изначально, с ограниченным дополнительным пространством для сжатия (обычно только 5-10% уменьшения)
- Повторяющиеся объекты, вложения и шрифты: Большинство инструментов сжатия могут эффективно обрабатывать их, но пространство для сжатия ограничено (обычно 10-20% уменьшения)
- Изображения и векторы: Основные объекты для сжатия PDF, предлагающие наибольший потенциал сжатия (обычно 50-90% уменьшения объема)
Стратегии сжатия
Сжатие текстовых PDF
Для PDF, которые преимущественно содержат текст:
- Очистка избыточных данных: Удаление комментариев, полей форм, повторяющихся объектов
- Оптимизация шрифтов: Использование подмножеств шрифтов или стандартных шрифтов
- Настройка качества изображений: Соответствующее снижение качества изображений в документе
Рекомендуемый инструмент: Инструмент сжатия PDF
Обратите внимание, что текстовые PDF обычно уже оптимизированы при создании, с дополнительным пространством для сжатия, в основном из изображений и векторных элементов в документе.
Сжатие векторной графики
Векторная графика остается четкой даже при увеличении и по сути представляет собой серию инструкций данных, описывающих графику.
Чертежи САПР являются типичными примерами, содержащими большое количество векторов. Хотя сами векторы трудно сжать, значительное сжатие может быть достигнуто путем преобразования их в битовые карты (особенно черно-белые изображения). Преобразование в черно-белые битовые карты обычно уменьшает исходный файл на 60-85%, а преобразование в оттенки серого может уменьшить его на 50-70%.
Этапы операции:
-
Растрирование чертежей САПР в битовые карты
Растрировать PDF -
Преобразование битовых карт в черно-белые изображения (применение алгоритма JBIG2)
PDF в черно-белый
Соображения по конвертации чертежей САПР
Сложные векторы в PDF могут влиять на результаты преобразования формата.
PDF, содержащие чертежи САПР, склонны к ошибкам при конвертации в форматы Office, поскольку большое количество векторов в чертежах САПР мешает процессу конвертации.
Решение состоит в том, чтобы сначала растрировать страницы, содержащие САПР, в изображения, а затем выполнить конвертацию формата.
Техники сжатия изображений
PDF поддерживает несколько алгоритмов сжатия изображений; выбирайте подходящий алгоритм в зависимости от различных сценариев.
Сжатие черно-белых документов
Подходит для документов, которые могут быть представлены в черно-белом виде (например, чистые сканы текста), алгоритм JBIG2 не хранит информацию о цвете и может достичь степени сжатия более 98%.
Лучше всего для: Сканы текста, линейные рисунки
Коэффициент сжатия: 2-5% от оригинального размера файла (сокращение на 95-98%)
Этапы обработки:
Черно-белое преобразование Обработка сжатияСжатие документов в оттенках серого
Подходит для документов, преимущественно используемых для черно-белой или серой печати, сжатие достигается за счет отказа от информации о цвете.
Лучше всего для: Документы для печати, контент, который не требует сохранения цветов
Коэффициент сжатия: 15-30% от оригинального размера файла (сокращение на 70-85%)
Этапы обработки:
Преобразование в оттенки серого Обработка сжатияСжатие цветных документов
Для цифровых документов, которым необходимо сохранить цвета, технология Mixed Raster Content (MRC) является лучшим выбором. MRC обрабатывает изображения, разделяя их на три слоя:
- Передний план: Содержит текст и линии, обрабатывается с высоким разрешением
- Фон: Содержит фотографии или фоны изображений, обрабатывается с более низким разрешением
- Маска: Определяет границы между передним планом и фоном
MRC упрощает информацию изображения, объединяя схожие области пикселей, особенно подходит для цветных сканов, значительно уменьшая размер файла при сохранении четкости. По сравнению с традиционными методами сжатия, технология MRC обычно дает на 30-50% лучшие результаты сжатия для цветных документов.
Лучше всего для: Цветные сканы, смешанные документы, содержащие текст и изображения
Коэффициент сжатия: 15-40% от оригинального размера файла (сокращение на 60-85%)
Рекомендуемый инструмент: Мощное сжатие (Выберите уровень "Мощное сжатие" для включения технологии MRC)
Сравнение эффекта сжатия
В следующей таблице обобщены ожидаемые эффекты различных методов сжатия для разных типов документов:
Тип документа | Рекомендуемый метод сжатия | Ожидаемый коэффициент сжатия | Влияние на качество | Применимые сценарии |
---|---|---|---|---|
Чистый текстовый PDF | Стандартное сжатие | 90-95% от исходного размера | Почти нет влияния | Электронные документы, преимущественно содержащие текст |
Текстовый PDF с несколькими изображениями | Стандартное сжатие | 70-90% от исходного размера | Незначительное влияние | Отчеты, статьи |
Черно-белые сканы текста | Алгоритм JBIG2 | 2-5% от исходного размера | Края текста могут быть слегка размыты | Отсканированные документы, контракты |
Документы в оттенках серого | Преобразование в оттенки серого + сжатие | 15-30% от исходного размера | Потеря информации о цвете | Документы для печати |
Цветные отсканированные документы | Технология MRC | 15-40% от исходного размера | Незначительная потеря деталей | Отсканированные журналы, цветные отчеты |
Чертежи САПР | Растрирование + преобразование в черно-белое | 15-40% от исходного размера | Потеря векторных свойств, невозможность редактирования | Инженерные чертежи только для просмотра |
PDF с преимущественно фотографиями | Стандартное сжатие изображений | 30-60% от исходного размера | Зависит от уровня сжатия | Коллекции фотографий, каталоги продуктов |
Выбор лучшего решения
Исходя из характеристик и назначения PDF-документа, следуйте этому процессу принятия решений для выбора лучшего решения:
- Документы, преимущественно содержащие текст: Используйте стандартное сжатие, при необходимости вручную настройте разрешение изображения и метод сжатия
- Документы, содержащие многочисленные векторы САПР: Сначала растрируйте векторные страницы, затем преобразуйте в черно-белый или оттенки серого
- Черно-белые отсканированные документы: Примените алгоритм JBIG2
- Документы для печати в оттенках серого: Преобразуйте в изображения в оттенках серого
- Документы, требующие сохранения цвета: Используйте технологию MRC (мощное сжатие)
Соображения по сжатию
Важное уведомление о рисках
Компромисс между сжатием и качеством: Более высокие степени сжатия обычно означают более низкое качество изображения; найдите баланс между размером файла и качеством
Резервное копирование оригинальных файлов: Рекомендуется сохранять оригинальные файлы перед применением высоких степеней сжатия
Выбор стратегии в зависимости от цели: Выбирайте различные стратегии сжатия в зависимости от конечной цели документа (чтение на экране, печать или архивирование)
Итог
Сжатие PDF - это искусство баланса, требующее выбора лучшего метода сжатия в зависимости от типа и назначения документа. Понимая базовый состав PDF и характеристики различных алгоритмов сжатия, мы можем максимизировать уменьшение размера файла при сохранении соответствующей четкости.
Рекомендуемые стратегии:
- Текстовые PDF: Используйте стандартное сжатие
- Черно-белые сканы: Применяйте алгоритм JBIG2
- Важные цветные документы: Используйте технологию MRC
Практические инструменты
Инструмент растрирования векторов PDF
Преобразует сложную векторную графику в битовый формат, решая проблемы с конвертацией САПР
Инструмент преобразования PDF в черно-белый/оттенки серого
Конвертирует цветные PDF в черно-белый формат или оттенки серого для уменьшения размера файла
Инструмент умного сжатия PDF
Автоматически определяет тип документа и применяет лучший алгоритм сжатия