بسیاری از PDFها در حقیقت «تصویر» هستند — مانند عکس موبایلی از اسناد کاغذی، اسکن چاپها یا PDFهایی که از تصاویر ساخته شدهاند. در این فایلها متن قابل انتخاب/جستوجو/کپی نیست. برای تبدیل حروفِ تصویر به متن واقعی باید از OCR (تشخیص نوری کاراکترها) استفاده کرد.
واقعاً به OCR نیاز دارید؟
- PDF را در مرورگر/ریدر باز کنید و تلاش کنید متن را انتخاب کنید: اگر کلمهها جداگانه انتخاب میشوند، «PDF متنی» است. اگر انتخاب بلوکی است یا اصلاً انتخاب نمیشود، احتمالاً «PDF تصویری/اسکن» است.
- اگر «متن» با بزرگنمایی شارپ میماند ولی قابل ویرایش نیست، ممکن است شکل وکتوری باشد؛ با این حال میتوانید با OCR آن را ویرایش/جستوجوپذیر کنید.
شروع سریع: OCR آنلاین
سادهترین راه:
OCR (قابلِ جستوجو کردن PDF)کدام خروجی را انتخاب کنم؟
- حفظ چیدمان؛ فقط نیاز به جستوجو/کپی: «PDF قابل جستوجو» (لایه متن روی تصویر صفحه اصلی).
- نیاز به ویرایش عمیق: PDF به Word یا PDF به متن.
گامهای کلیدی برای بهبود دقت OCR
۱) پیشپردازش: جهت، ترتیب، نویز
قبل از شناسایی، صفحات را مرتب کنید — دقت بهطور محسوسی افزایش مییابد:
-
جهت/ترتیب: سازماندهی صفحات PDF برای چرخش دستهای صفحات افقی، مرتبسازی با درگ‑اند‑دراپ، حذف صفحات خالی/تبلیغاتی.
-
سیاه‑سفید/طیف خاکستری (برای اسناد متنی): سیاه‑سفید / خاکستری کنتراست را بالا میبرد و نویز رنگی را کاهش میدهد — به OCR و فشردهسازی کمک میکند.
-
رستریزاسیون (اگر وکتور/CAD پیچیده باعث اختلال در OCR میشود): رستریزاسیون PDF وکتوری وکتور را به بیتمپ تبدیل میکند تا تداخل کاهش یابد.
رزولوشن و وضوح
- توصیه: حدود 300 DPI برای اسناد متنی؛ برای فونت ریز/کیفیت چاپ ضعیف، 400–600 DPI.
- از فشردهسازی افراطی/تاری پرهیز کنید: نویز/بلور زیاد منجر به خطا در شناسایی میشود.
۲) زبانها و چیدمان
- زبان(های) OCR را با محتوای سند هماهنگ کنید (fa/en/zh/ja/ko/zh‑Hant و...). برای چندزبانه، همه زبانهای مرتبط را انتخاب کنید.
- چیدمان پیچیده (چندستونه، جدول، پانویس، متن عمودی) دقت را پایین میآورد؛ ناحیهبندی و شناسایی جداگانه یا خروجی به Word و اصلاح دستی را در نظر بگیرید.
۳) انتخاب قالب خروجی مناسب
- PDF قابل جستوجو: بهترین برای بایگانی/جستوجو/یادداشت؛ ظاهر همان، متن قابل جستوجو/کپی.
- Word: مناسب برای ویرایش عمیق؛ اما چیدمان پیچیده ممکن است اصلاح دستی بخواهد.
- متن ساده: سبکترین؛ برای پردازش بعدی آسان، بدون اطلاعات چیدمان.
گردشکارهای تیپیک
اسکنهای متنی (قرارداد/جزوه/گزارش)
- سازماندهی صفحات: سازماندهی → چرخش/مرتبسازی/حذف خالی.
- بهدلخواه سیاه‑سفید/خاکستری برای وضوح: سیاه‑سفید/خاکستری.
- OCR: OCR (زبانها را درست انتخاب کنید).
- فایل بزرگ است؟ استفاده کنید از: فشردهسازی PDF.
متن+تصویر (رنگی)
- ابتدا جهت/ترتیب را اصلاح کنید؛ برای حفظ جزئیات تصویر از سیاه‑سفید تهاجمی پرهیز کنید.
- مستقیماً OCR؛ اگر اندازه مهم است بعداً فشردهسازی کنید (برای رنگی «قوی/MRC» بهتر است).
مشکلات CAD/وکتور
- رستریزاسیون: رستریزاسیون PDF
- بهدلخواه سیاه‑سفید برای کنتراست بیشتر
- دوباره OCR
پرسشهای پرتکرار
س: خطای شناسایی زیاد است؟
ج: وضوح/کنتراست منبع را افزایش دهید؛ انتخاب زبان را بررسی کنید؛ سیاه‑سفید/خاکستری را بیازمایید؛ برای چندستونه/جدول به Word خروجی بگیرید و دستی اصلاح کنید.
س: شناسایی جدول ضعیف است؟
ج: برای جدولهای پیچیده از PDF به Excel برای استخراج ساختاری استفاده کنید یا پس از OCR دستی اصلاح کنید.
س: فایل برای ارسال خیلی بزرگ است؟
ج: پس از OCR از فشردهسازی PDF استفاده کنید. برای متن تکرنگ: اول سیاه‑سفید، سپس فشردهسازی — معمولاً کاهش چشمگیر میآورد.
س: سند محرمانه — آیا OCR آنلاین امن است؟
ج: پردازش محلی یا سرویسهای مورد اعتماد را ترجیح دهید. پیش از اشتراک، «فقط صفحات لازم» را خروجی بگیرید یا با چاپ مجازی نسخه تخت بسازید.
س: PDF ویرایش/کپی را محدود کرده — OCR چگونه؟
ج: در صورت مجوز قانونی، ابتدا بازکردن قفل PDF و سپس OCR را اجرا کنید.
نکتههای کاربردی
- ترتیب پیشنهادی: «سازماندهی → OCR → فشردهسازی».
- محتوای fa/en: هر دو زبان را فعال کنید.
- جهت صفحاتِ نابسامان زیاد است؟ ابتدا چرخش دستهای؛ ترتیب درست جستوجو/بخشبندی را ساده میکند.
- «ترکیب چند منبع»: با سازماندهی صفحات ترتیب را یکسان کنید؛ عنداللزوم با سیاه‑سفید و فشردهسازی تعادل وضوح/اندازه را برقرار کنید.
پیوندهای سریع ابزارها
OCR
اسکنها را قابل جستوجو کنید؛ پشتیبانی چندزبانه.
PDF به Word
برای ویرایش عمیق، به سند قابل ویرایش صادر کنید.
PDF به متن
متن ساده — سبکترین بایگانی.
سیاه‑سفید/خاکستری
کنتراست را بالا ببرید و نویز را کاهش دهید — به OCR کمک میکند.
رستریزاسیون PDF
وکتور/CAD پیچیده را به بیتمپ تبدیل کنید تا تداخل کاهش یابد.
فشردهسازی PDF
کاهش اندازه با حفظ خوانایی.