Logo
اجعل ملفات PDF الممسوحة قابلة للبحث: دليل ممارسات OCR (الدقة والحجم)
المدونة

اجعل ملفات PDF الممسوحة قابلة للبحث: دليل ممارسات OCR (الدقة والحجم)

حوِّل ملفات PDF المعتمدة على الصور/الممسوحة إلى نص قابل للبحث والنسخ — يشمل التهيئة المسبقة، اختيار اللغات، التعرف على الجداول، صيغ التصدير، والضغط.

العربية

العديد من ملفات PDF هي في الحقيقة صور — مثل صور الهاتف للوثائق الورقية، أو عمليات المسح للمطبوعات، أو ملفات PDF المؤلفة من صور. لا يمكن تحديد النص داخل هذه الملفات أو البحث عنه أو نسخه. تحتاج إلى OCR (التعرّف الضوئي على الحروف) للتعرّف على المحارف داخل الصورة وتحويلها إلى نص فعلي.

هل تحتاج فعلاً إلى OCR؟

  • افتح ملف PDF في المتصفح/القارئ وحاول تحديد النص: إذا استطعت تمييز الكلمات، فهذا "PDF نصي". إذا كان التحديد ككتلة أو لم يعمل، فغالبًا هو "PDF صوري/مسح".
  • إذا بدا "النص" حادًا عند التكبير لكنه غير قابل للتحرير، فقد يكون أشكالًا متجهية لا نصًا حقيقيًا. يمكنك تشغيل OCR لجعله قابلًا للتحرير/البحث.

بداية بنقرة واحدة: OCR عبر الإنترنت

لأسهل طريقة، استخدم:

OCR (جعل PDF قابلًا للبحث)

أي مخرجات أختار؟

  • الحفاظ على التنسيق والاكتفاء بالبحث/النسخ: اختر "PDF قابل للبحث" (طبقة نص فوق صورة الصفحة الأصلية).
  • بحاجة إلى تحرير عميق: PDF إلى Word أو PDF إلى نص.

خطوات أساسية لتحسين الدقة

1) التهيئة المسبقة: الاتجاه، الترتيب، والضجيج

قبل التعرف، نظِّف الصفحات لتحسين الدقة بشكل ملحوظ:

  • الاتجاه/الترتيب: تنظيم صفحات PDF للدوران الدُفعي للصفحات الأفقية، وإعادة الترتيب بالسحب والإفلات، وحذف الصفحات الفارغة/الإعلانية.

  • أبيض وأسود/درجات الرمادي (مناسب لوثائق النصوص): أبيض/أسود ودرجات الرمادي يعزز التباين ويقلل ضجيج الألوان — مفيد لـ OCR والضغط لاحقًا.

  • التسطيح/التحويل إلى نقطي (عند إرباك OCR بمحتوى متجهي/CAD معقد): تحويل PDF المتجهي إلى نقطي لتقليل التداخلات في التعرف.

الدقة والوضوح

  • الموصى به: نحو 300 DPI لوثائق النصوص؛ للخطوط الصغيرة/جودة الطباعة الرديئة ارفع إلى 400–600 DPI.
  • تجنب الضغط المفرط/الطمس: الضجيج/الطمس الزائد يؤدي إلى أخطاء التعرف.

2) اللغات والتخطيط

  • طابِق لغة OCR مع محتوى الوثيقة (ar/en/zh/ja/ko/zh‑Hant... إلخ). للوثائق متعددة اللغات، اختر جميع اللغات ذات الصلة.
  • التخطيطات المعقدة (متعددة الأعمدة، الجداول، الحواشي، النص العمودي) قد تُخفض الدقة؛ فكّر في تقسيم الصفحة مناطق للتعرف منفصل، أو التصدير إلى Word والتصحيح يدويًا.

3) اختيار صيغة الإخراج المناسبة

  • PDF قابل للبحث: الأفضل للأرشفة/البحث/التعليقات؛ يحافظ على المظهر مع قابلية البحث/النسخ.
  • Word: مناسب للتحرير العميق، لكن التخطيطات المعقدة قد تتطلب مراجعة يدوية.
  • نص عادي: الأخف؛ مناسب للمعالجة اللاحقة دون تخطيط.

مسارات عمل نموذجية

مسوحات نصية (عقود/مذكرات/تقارير)

  1. نظّم الصفحات: تنظيم الصفحات → دوران/ترتيب/حذف الفارغة.
  2. اختياريًا أبيض/أسود لزيادة الوضوح: أبيض/أسود ودرجات الرمادي.
  3. OCR: OCR (اختر اللغات الصحيحة).
  4. الملف كبير؟ استخدم: ضغط PDF.

مواد مختلطة نص + صور (صفحات ملوّنة)

  1. أصلح الاتجاه/الترتيب أولًا؛ تجنب الأبيض/الأسود العنيف للحفاظ على التفاصيل.
  2. نفّذ OCR؛ إن كان الحجم مهمًا، اضغط لاحقًا (ويُفضّل "قوي/MRC" للوثائق الملوّنة).

محتوى CAD/متجهي يسبب مشاكل

  1. حوّل إلى نقطي: تحويل إلى نقطي
  2. اختياريًا أبيض/أسود لزيادة التباين
  3. نفّذ OCR مجددًا

الأسئلة الشائعة

س: أخطاء تعرف كثيرة؟

ج: حسّن وضوح/تباين المصدر؛ تحقق من اللغات المختارة؛ جرّب الأبيض/الأسود؛ للمُعَمّد/الجداول صدّر إلى Word وراجع يدويًا.

س: التعرف على الجداول ضعيف؟

ج: للجداول المعقدة، جرّب PDF إلى Excel لاستخراج منظم، أو صحّح يدويًا بعد OCR.

س: الملف كبير للإرسال؟

ج: بعد OCR استخدم ضغط PDF. للنص أحادي اللون، اجعل أبيض/أسود أولًا ثم اضغط — غالبًا ينخفض الحجم كثيرًا.

س: الوثيقة حساسة — هل OCR عبر الإنترنت آمن؟

ج: فضّل المعالجة المحلية أو الخدمات الموثوقة. قبل المشاركة، "صدّر الصفحات اللازمة فقط" أو أنشئ نسخة مُسطّحة بالطباعة الافتراضية.

س: PDF مقيّد التحرير/النسخ — كيف أنفّذ OCR؟

ج: إن كان لديك إذن قانوني، أولًا افتح قفل PDF ثم نفّذ OCR.

نصائح عملية

  • الترتيب الموصى به: "نظّم → OCR → اضغط".
  • لمحتوى ar/en المختلط، فعّل اللغتين لتحسين الدقة.
  • لصفحات كثيرة مائلة، دوِّر جماعيًا أولًا؛ الترتيب الصحيح يفيد البحث والتقسيم.
  • لملفات مسح من مصادر متعددة، استخدم تنظيم الصفحات لتوحيد الترتيب، ثم أبيض/أسود و الضغط لموازنة الوضوح والحجم.

روابط أدوات سريعة