PDFهای اسکن‌شده را قابل جست‌وجو کنید: راهنمای بهترین‌های OCR (دقت و اندازه)
وبلاگ

PDFهای اسکن‌شده را قابل جست‌وجو کنید: راهنمای بهترین‌های OCR (دقت و اندازه)

PDFهای تصویری/اسکن را به متنِ قابل جست‌وجو و کپی تبدیل کنید — شامل پیش‌پردازش، انتخاب زبان، شناسایی جدول‌ها، قالب‌های خروجی و فشرده‌سازی.

فارسی

بسیاری از PDFها در حقیقت «تصویر» هستند — مانند عکس موبایلی از اسناد کاغذی، اسکن چاپ‌ها یا PDFهایی که از تصاویر ساخته شده‌اند. در این فایل‌ها متن قابل انتخاب/جست‌وجو/کپی نیست. برای تبدیل حروفِ تصویر به متن واقعی باید از OCR (تشخیص نوری کاراکترها) استفاده کرد.

واقعاً به OCR نیاز دارید؟

  • PDF را در مرورگر/ریدر باز کنید و تلاش کنید متن را انتخاب کنید: اگر کلمه‌ها جداگانه انتخاب می‌شوند، «PDF متنی» است. اگر انتخاب بلوکی است یا اصلاً انتخاب نمی‌شود، احتمالاً «PDF تصویری/اسکن» است.
  • اگر «متن» با بزرگ‌نمایی شارپ می‌ماند ولی قابل ویرایش نیست، ممکن است شکل وکتوری باشد؛ با این حال می‌توانید با OCR آن را ویرایش/جست‌وجوپذیر کنید.

شروع سریع: OCR آنلاین

ساده‌ترین راه:

OCR (قابلِ جست‌وجو کردن PDF)

کدام خروجی را انتخاب کنم؟

  • حفظ چیدمان؛ فقط نیاز به جست‌وجو/کپی: «PDF قابل جست‌وجو» (لایه متن روی تصویر صفحه اصلی).
  • نیاز به ویرایش عمیق: PDF به Word یا PDF به متن.

گام‌های کلیدی برای بهبود دقت OCR

۱) پیش‌پردازش: جهت، ترتیب، نویز

قبل از شناسایی، صفحات را مرتب کنید — دقت به‌طور محسوسی افزایش می‌یابد:

  • جهت/ترتیب: سازماندهی صفحات PDF برای چرخش دسته‌ای صفحات افقی، مرتب‌سازی با درگ‑اند‑دراپ، حذف صفحات خالی/تبلیغاتی.

  • سیاه‑سفید/طیف خاکستری (برای اسناد متنی): سیاه‑سفید / خاکستری کنتراست را بالا می‌برد و نویز رنگی را کاهش می‌دهد — به OCR و فشرده‌سازی کمک می‌کند.

  • رستریزاسیون (اگر وکتور/CAD پیچیده باعث اختلال در OCR می‌شود): رستریزاسیون PDF وکتوری وکتور را به بیت‌مپ تبدیل می‌کند تا تداخل کاهش یابد.

رزولوشن و وضوح

  • توصیه: حدود 300 DPI برای اسناد متنی؛ برای فونت ریز/کیفیت چاپ ضعیف، 400–600 DPI.
  • از فشرده‌سازی افراطی/تاری پرهیز کنید: نویز/بلور زیاد منجر به خطا در شناسایی می‌شود.

۲) زبان‌ها و چیدمان

  • زبان(های) OCR را با محتوای سند هماهنگ کنید (fa/en/zh/ja/ko/zh‑Hant و...). برای چندزبانه، همه زبان‌های مرتبط را انتخاب کنید.
  • چیدمان پیچیده (چندستونه، جدول، پانویس، متن عمودی) دقت را پایین می‌آورد؛ ناحیه‌بندی و شناسایی جداگانه یا خروجی به Word و اصلاح دستی را در نظر بگیرید.

۳) انتخاب قالب خروجی مناسب

  • PDF قابل جست‌وجو: بهترین برای بایگانی/جست‌وجو/یادداشت؛ ظاهر همان، متن قابل جست‌وجو/کپی.
  • Word: مناسب برای ویرایش عمیق؛ اما چیدمان پیچیده ممکن است اصلاح دستی بخواهد.
  • متن ساده: سبک‌ترین؛ برای پردازش بعدی آسان، بدون اطلاعات چیدمان.

گردش‌کارهای تیپیک

اسکن‌های متنی (قرارداد/جزوه/گزارش)

  1. سازماندهی صفحات: سازماندهی → چرخش/مرتب‌سازی/حذف خالی.
  2. به‌دلخواه سیاه‑سفید/خاکستری برای وضوح: سیاه‑سفید/خاکستری.
  3. OCR: OCR (زبان‌ها را درست انتخاب کنید).
  4. فایل بزرگ است؟ استفاده کنید از: فشرده‌سازی PDF.

متن+تصویر (رنگی)

  1. ابتدا جهت/ترتیب را اصلاح کنید؛ برای حفظ جزئیات تصویر از سیاه‑سفید تهاجمی پرهیز کنید.
  2. مستقیماً OCR؛ اگر اندازه مهم است بعداً فشرده‌سازی کنید (برای رنگی «قوی/MRC» بهتر است).

مشکلات CAD/وکتور

  1. رستریزاسیون: رستریزاسیون PDF
  2. به‌دلخواه سیاه‑سفید برای کنتراست بیشتر
  3. دوباره OCR

پرسش‌های پرتکرار

س: خطای شناسایی زیاد است؟

ج: وضوح/کنتراست منبع را افزایش دهید؛ انتخاب زبان را بررسی کنید؛ سیاه‑سفید/خاکستری را بیازمایید؛ برای چندستونه/جدول به Word خروجی بگیرید و دستی اصلاح کنید.

س: شناسایی جدول ضعیف است؟

ج: برای جدول‌های پیچیده از PDF به Excel برای استخراج ساختاری استفاده کنید یا پس از OCR دستی اصلاح کنید.

س: فایل برای ارسال خیلی بزرگ است؟

ج: پس از OCR از فشرده‌سازی PDF استفاده کنید. برای متن تک‌رنگ: اول سیاه‑سفید، سپس فشرده‌سازی — معمولاً کاهش چشمگیر می‌آورد.

س: سند محرمانه — آیا OCR آنلاین امن است؟

ج: پردازش محلی یا سرویس‌های مورد اعتماد را ترجیح دهید. پیش از اشتراک، «فقط صفحات لازم» را خروجی بگیرید یا با چاپ مجازی نسخه تخت بسازید.

س: PDF ویرایش/کپی را محدود کرده — OCR چگونه؟

ج: در صورت مجوز قانونی، ابتدا بازکردن قفل PDF و سپس OCR را اجرا کنید.

نکته‌های کاربردی

  • ترتیب پیشنهادی: «سازماندهی → OCR → فشرده‌سازی».
  • محتوای fa/en: هر دو زبان را فعال کنید.
  • جهت صفحاتِ نابسامان زیاد است؟ ابتدا چرخش دسته‌ای؛ ترتیب درست جست‌وجو/بخش‌بندی را ساده می‌کند.
  • «ترکیب چند منبع»: با سازماندهی صفحات ترتیب را یکسان کنید؛ عنداللزوم با سیاه‑سفید و فشرده‌سازی تعادل وضوح/اندازه را برقرار کنید.

پیوندهای سریع ابزارها