Logo
Полное руководство по сжатию PDF
Блог

Полное руководство по сжатию PDF

Выберите лучшее решение для сжатия на основе типа PDF-документа и сценария использования

Pусский

Основы PDF

Перед сжатием PDF важно понимать базовую структуру PDF-файлов и определить цель сжатия, что поможет выбрать наиболее подходящую стратегию.

Разные типы PDF требуют разных методов сжатия

Черно-белые сканы текста: Алгоритм сжатия JBIG2 может уменьшить размер файла на 95-98%, сохраняя при этом четкость и читаемость текста

Цветные сканы текста: Технология сжатия MRC может уменьшить размер файла на 70-85%, сохраняя цвета

Текстовые PDF: Нативный текстовый контент уже высоко оптимизирован; сжатие в основном достигается за счет оптимизации встроенных изображений, обычно уменьшая размер файла на 10-30%

Документы с векторной графикой: Например, чертежи САПР, могут быть сжаты путем растрирования в битовую карту с последующим применением черно-белого или серого кодирования, уменьшая размер файла на 60-80%

Выбор правильного метода сжатия - ключ к обеспечению как уменьшения размера файла, так и сохранения качества документа.

Разница между текстовыми PDF и PDF на основе изображений

PDF-файлы содержат различные элементы, в основном текст, изображения и векторную графику. Иногда контент, который выглядит как текст, на самом деле может быть изображением или векторной графикой.

Быстрые советы по определению типов PDF

Используйте браузер Chrome или Edge для открытия PDF; контент, который можно выделить и подсветить, является настоящими текстовыми элементами.

Текстовые PDF: Контент состоит из настоящих текстовых элементов, которые можно выделять и искать

PDF на основе изображений: Контент существует в виде изображений, например, отсканированные документы или текст, представленный в виде изображений/векторов

Элементы PDF, подходящие для сжатия

Различные элементы в PDF имеют разный потенциал сжатия:

  • Текстовые элементы: Формат PDF уже сжал их изначально, с ограниченным дополнительным пространством для сжатия (обычно только 5-10% уменьшения)
  • Повторяющиеся объекты, вложения и шрифты: Большинство инструментов сжатия могут эффективно обрабатывать их, но пространство для сжатия ограничено (обычно 10-20% уменьшения)
  • Изображения и векторы: Основные объекты для сжатия PDF, предлагающие наибольший потенциал сжатия (обычно 50-90% уменьшения объема)

Стратегии сжатия

Сжатие текстовых PDF

Для PDF, которые преимущественно содержат текст:

  1. Очистка избыточных данных: Удаление комментариев, полей форм, повторяющихся объектов
  2. Оптимизация шрифтов: Использование подмножеств шрифтов или стандартных шрифтов
  3. Настройка качества изображений: Соответствующее снижение качества изображений в документе

Рекомендуемый инструмент: Инструмент сжатия PDF

Обратите внимание, что текстовые PDF обычно уже оптимизированы при создании, с дополнительным пространством для сжатия, в основном из изображений и векторных элементов в документе.

Сжатие векторной графики

Векторная графика остается четкой даже при увеличении и по сути представляет собой серию инструкций данных, описывающих графику.

Чертежи САПР являются типичными примерами, содержащими большое количество векторов. Хотя сами векторы трудно сжать, значительное сжатие может быть достигнуто путем преобразования их в битовые карты (особенно черно-белые изображения). Преобразование в черно-белые битовые карты обычно уменьшает исходный файл на 60-85%, а преобразование в оттенки серого может уменьшить его на 50-70%.

Этапы операции:

  • Растрирование чертежей САПР в битовые карты
    Растрировать PDF

  • Преобразование битовых карт в черно-белые изображения (применение алгоритма JBIG2)
    PDF в черно-белый

Соображения по конвертации чертежей САПР

Сложные векторы в PDF могут влиять на результаты преобразования формата.

PDF, содержащие чертежи САПР, склонны к ошибкам при конвертации в форматы Office, поскольку большое количество векторов в чертежах САПР мешает процессу конвертации.

Решение состоит в том, чтобы сначала растрировать страницы, содержащие САПР, в изображения, а затем выполнить конвертацию формата.

Техники сжатия изображений

PDF поддерживает несколько алгоритмов сжатия изображений; выбирайте подходящий алгоритм в зависимости от различных сценариев.

Сжатие черно-белых документов

Подходит для документов, которые могут быть представлены в черно-белом виде (например, чистые сканы текста), алгоритм JBIG2 не хранит информацию о цвете и может достичь степени сжатия более 98%.

Лучше всего для: Сканы текста, линейные рисунки
Коэффициент сжатия: 2-5% от оригинального размера файла (сокращение на 95-98%)

Этапы обработки:

Черно-белое преобразование Обработка сжатия

Сжатие документов в оттенках серого

Подходит для документов, преимущественно используемых для черно-белой или серой печати, сжатие достигается за счет отказа от информации о цвете.

Лучше всего для: Документы для печати, контент, который не требует сохранения цветов
Коэффициент сжатия: 15-30% от оригинального размера файла (сокращение на 70-85%)

Этапы обработки:

Преобразование в оттенки серого Обработка сжатия

Сжатие цветных документов

Для цифровых документов, которым необходимо сохранить цвета, технология Mixed Raster Content (MRC) является лучшим выбором. MRC обрабатывает изображения, разделяя их на три слоя:

  • Передний план: Содержит текст и линии, обрабатывается с высоким разрешением
  • Фон: Содержит фотографии или фоны изображений, обрабатывается с более низким разрешением
  • Маска: Определяет границы между передним планом и фоном

MRC упрощает информацию изображения, объединяя схожие области пикселей, особенно подходит для цветных сканов, значительно уменьшая размер файла при сохранении четкости. По сравнению с традиционными методами сжатия, технология MRC обычно дает на 30-50% лучшие результаты сжатия для цветных документов.

Лучше всего для: Цветные сканы, смешанные документы, содержащие текст и изображения
Коэффициент сжатия: 15-40% от оригинального размера файла (сокращение на 60-85%)

Рекомендуемый инструмент: Мощное сжатие (Выберите уровень "Мощное сжатие" для включения технологии MRC)

Сравнение эффекта сжатия

В следующей таблице обобщены ожидаемые эффекты различных методов сжатия для разных типов документов:

Тип документаРекомендуемый метод сжатияОжидаемый коэффициент сжатияВлияние на качествоПрименимые сценарии
Чистый текстовый PDFСтандартное сжатие90-95% от исходного размераПочти нет влиянияЭлектронные документы, преимущественно содержащие текст
Текстовый PDF с несколькими изображениямиСтандартное сжатие70-90% от исходного размераНезначительное влияниеОтчеты, статьи
Черно-белые сканы текстаАлгоритм JBIG22-5% от исходного размераКрая текста могут быть слегка размытыОтсканированные документы, контракты
Документы в оттенках серогоПреобразование в оттенки серого + сжатие15-30% от исходного размераПотеря информации о цветеДокументы для печати
Цветные отсканированные документыТехнология MRC15-40% от исходного размераНезначительная потеря деталейОтсканированные журналы, цветные отчеты
Чертежи САПРРастрирование + преобразование в черно-белое15-40% от исходного размераПотеря векторных свойств, невозможность редактированияИнженерные чертежи только для просмотра
PDF с преимущественно фотографиямиСтандартное сжатие изображений30-60% от исходного размераЗависит от уровня сжатияКоллекции фотографий, каталоги продуктов

Выбор лучшего решения

Исходя из характеристик и назначения PDF-документа, следуйте этому процессу принятия решений для выбора лучшего решения:

  • Документы, преимущественно содержащие текст: Используйте стандартное сжатие, при необходимости вручную настройте разрешение изображения и метод сжатия
  • Документы, содержащие многочисленные векторы САПР: Сначала растрируйте векторные страницы, затем преобразуйте в черно-белый или оттенки серого
  • Черно-белые отсканированные документы: Примените алгоритм JBIG2
  • Документы для печати в оттенках серого: Преобразуйте в изображения в оттенках серого
  • Документы, требующие сохранения цвета: Используйте технологию MRC (мощное сжатие)

Соображения по сжатию

Важное уведомление о рисках

Компромисс между сжатием и качеством: Более высокие степени сжатия обычно означают более низкое качество изображения; найдите баланс между размером файла и качеством

Резервное копирование оригинальных файлов: Рекомендуется сохранять оригинальные файлы перед применением высоких степеней сжатия

Выбор стратегии в зависимости от цели: Выбирайте различные стратегии сжатия в зависимости от конечной цели документа (чтение на экране, печать или архивирование)

Итог

Сжатие PDF - это искусство баланса, требующее выбора лучшего метода сжатия в зависимости от типа и назначения документа. Понимая базовый состав PDF и характеристики различных алгоритмов сжатия, мы можем максимизировать уменьшение размера файла при сохранении соответствующей четкости.

Рекомендуемые стратегии:

  • Текстовые PDF: Используйте стандартное сжатие
  • Черно-белые сканы: Применяйте алгоритм JBIG2
  • Важные цветные документы: Используйте технологию MRC

Практические инструменты