Logo
স্ক্যান করা PDF থেকে এডিটেবল Word — পূর্ণ গাইড (OCR + লে‑আউট টিপস)
ব্লগ

স্ক্যান করা PDF থেকে এডিটেবল Word — পূর্ণ গাইড (OCR + লে‑আউট টিপস)

স্ক্যান/ফটো PDF কে এডিটেবল Word বানান: ১০‑সেকেন্ড OCR টেস্ট, প্রি‑প্রসেসিং, কমন সমস্যা ও নির্ভরযোগ্য বিকল্প পথ।

বাংলা

অনেক সময় “PDF এডিট করা যাচ্ছে না” — এর মানে হলো: ফাইলটা দেখতে টেক্সটের মতো হলেও ভেতরে আসলে প্রতিটি পেজ ছবি (স্ক্যান/মোবাইল ফটো/স্ক্রিনশট দিয়ে বানানো)। Word‑এ এডিটেবল করতে মূল কাজগুলো হলো:

  1. পেজ ক্লিন‑আপ (রোটেশন/অর্ডার/বর্ডার/নয়েজ)
  2. দরকার হলে OCR (ছবির লেখাকে আসল টেক্সটে)
  3. Word এ এক্সপোর্ট করে গুরুত্বপূর্ণ অংশ যাচাই

১০ সেকেন্ড টেস্ট: OCR দরকার কি?

  • টেক্সট সিলেক্ট হয় এবং Ctrl+F কাজ করে: সাধারণত OCR দরকার নেই — সরাসরি Word।
  • টেক্সট সিলেক্ট হয় না/ব্লক হিসেবে সিলেক্ট হয়, Ctrl+F খুঁজে পায় না: স্ক্যান/ইমেজ PDF — OCR অন করুন।
  • ব্যতিক্রম: কিছু PDF‑এ “টেক্সট” ভেক্টর শেপ (খুব শার্প কিন্তু সার্চ হয় না) — এ ক্ষেত্রেও OCR উপকারী।

লক্ষ্য ঠিক করুন: “এডিটেবল” নাকি “সার্চেবল”?

প্রয়োজনরেকমেন্ডেড আউটপুটরেকমেন্ডেড টুল
লেখা/প্যারাগ্রাফ বদলানো, রি‑ফরম্যাটWord (.docx)PDF → Word
লে‑আউট একই রেখে সার্চ/কপিSearchable PDF (টেক্সট লেয়ার)OCR (Searchable PDF)
শুধু টেক্সট কনটেন্টTextPDF → Text

রেকমেন্ডেড ওয়ার্কফ্লো (সাকসেস রেট বেশি)

সবচেয়ে স্টেবল: পরিষ্কার → রিকগনিশন → কমপ্রেস

সাজেশন: Repair (ঐচ্ছিক) → Organize → Crop → B/W বা Gray (ঐচ্ছিক) → OCR/Word → Compress (প্রয়োজনে)।
OCR‑এর আগে কমপ্রেস করলে একিউরেসি কমতে পারে।

Step 0 (ঐচ্ছিক): ফাইল ওপেন/কনভার্ট ফেল করলে আগে Repair

Repair PDF

Step 1: পেজ রোটেশন/অর্ডার ঠিক করুন

Organize Pages

Step 2: কালো বর্ডার/ব্যাকগ্রাউন্ড Crop করুন

Crop PDF

Step 3: টেক্সট ডকুমেন্টে কনট্রাস্ট বাড়াতে B/W বা Gray

Black & White / Grayscale

Step 4: Word এ কনভার্ট (প্রয়োজনে OCR অন)

PDF → Word

কনভার্টের পরে দ্রুত যাচাই করুন: ২–৩ প্যারাগ্রাফ + গুরুত্বপূর্ণ সংখ্যা (অ্যামাউন্ট/ডেট/আইডি)।

কমন সমস্যা ও সমাধান

1) ভুল বেশি: ভাষা ও সোর্স‑কোয়ালিটি চেক

  • ভুল ভাষা সিলেক্ট করা সবচেয়ে কমন কারণ।
  • ব্লার/গ্লেয়ার/শেডো হলে ভালো সোর্স ব্যবহার করুন।
  • ব্যাকআপ পথ: CropB/W → আবার কনভার্ট।

2) টেবিল/কলাম এলোমেলো: Excel বা Text ব্যবহার করুন

3) শার্প কিন্তু সার্চ হয় না: Rasterize করে নিন

Rasterize PDF

4) পারমিশন লিমিট: অথরাইজড হলে Unlock

Unlock PDF

কমপ্লায়েন্স

কেবল অনুমতি/জানা পাসওয়ার্ড থাকলে Unlock ব্যবহার করুন। অজানা পাসওয়ার্ড ভাঙা সমর্থিত নয়।

এডিট করে আবার “ডেলিভারেবল PDF” বানান

PDF → Word → (Word এ এডিট) → Word → PDF

ডেলিভারির সময় (ক্লায়েন্ট/সাবমিশন/টেন্ডার) সাধারণত দরকার হতে পারে:

  • মালিকানা/অ্যান্টি‑মিসইউজ: Add Watermark
  • কপি/এডিট/প্রিন্ট সীমা বা ওপেন পাসওয়ার্ড: Protect PDF
  • সাইজ লিমিট: Compress PDF (সাধারণত শেষ ধাপে)

কমন অর্ডার

  • Word → PDF → watermark (ঐচ্ছিক) → protect (ঐচ্ছিক) → compress (ঐচ্ছিক, শেষ)।
  • “view‑only” আরও শক্ত করতে: protect‑এর আগে Flatten বা Rasterize যোগ করা যায় (trade‑off: টেক্সট ইমেজ হয়ে যায়; ফাইল সাইজ বাড়তে পারে)।

FAQ

OCR করার পরও ভুল কেন থাকে?

সাধারণত ৩ কারণে:

  1. ভাষা ঠিকমতো সিলেক্ট হয়নি
  2. সোর্স‑কোয়ালিটি খারাপ (blur/glare/shadow)
  3. প্রি‑প্রসেসিং হয়নি: Crop + B/W

Word‑এ টেবিল/কলাম নষ্ট হলে কী করব?

টেবিল বেশি হলে আগে:

PDF → Excel

Layout অনেক বদলে গেলে কি এটা স্বাভাবিক?

হ্যাঁ। স্ক্যান PDF → Word হলো “recognize + reflow”, তাই জটিল লে‑আউট 100% একরকম নাও হতে পারে।

কুইক চেকলিস্ট (কনভার্টের পরে)

  • অ্যামাউন্ট/ডেট/ID/কনট্র্যাক্ট নম্বর
  • টেবিল কলাম শিফট (প্রয়োজনে Excel)
  • header/footer/page number মিসিং
  • লাইন/ক্লজ মিসিং (ফোন ফটোতে বেশি)