PDF จำนวนมากจริง ๆ แล้วเป็น “รูปภาพ” — เช่น รูปเอกสารที่ถ่ายด้วยมือถือ ไฟล์สแกนจากเอกสารพิมพ์ หรือ PDF ที่ประกอบจากภาพ ทำให้ข้อความภายในไม่สามารถเลือก ค้นหา หรือคัดลอกได้ จึงต้องใช้ OCR (Optical Character Recognition) เพื่อรู้จำอักขระในภาพและแปลงเป็นข้อความจริง
จำเป็นต้องใช้ OCR จริงหรือ?
- เปิด PDF ในเบราว์เซอร์/ตัวอ่านแล้วลองลากเลือกข้อความ: หากเลือกได้เป็นคำ ๆ แสดงว่าเป็น “PDF ข้อความ”; ถ้าเลือกได้เป็นบล็อคหรือเลือกไม่ได้เลย น่าจะเป็น “PDF รูปภาพ/ไฟล์สแกน”.
- หาก “ข้อความ” คมชัดแม้ซูมแต่แก้ไขไม่ได้ อาจเป็นวัตถุเวกเตอร์ไม่ใช่ข้อความจริง ยังสามารถใช้ OCR เพื่อทำให้แก้ไข/ค้นหาได้
เริ่มต้นแบบคลิกเดียว: OCR ออนไลน์
หากต้องการวิธีที่ง่ายที่สุด ให้ใช้:
OCR (ทำให้ PDF ค้นหาได้)ควรเลือกเอาต์พุตแบบใด?
- ต้องการเก็บเลย์เอาต์เดิมและแค่ค้นหา/คัดลอก: เลือก “PDF ค้นหาได้” (วางชั้นข้อความบนภาพหน้าเดิม)
- ต้องการแก้ไขเนื้อหา: PDF เป็น Word หรือ PDF เป็นข้อความ
ขั้นตอนสำคัญเพื่อเพิ่มความแม่นยำ
1) เตรียมก่อนรู้จำ: ทิศทาง ลำดับ และสัญญาณรบกวน
ก่อนรู้จำ ควรจัดระเบียบหน้าเพื่อเพิ่มความแม่นยำอย่างเห็นได้ชัด:
-
ทิศทาง/ลำดับ: จัดหน้า PDF หมุนหน้าที่เอียงจำนวนมาก จัดลำดับด้วยการลาก‑วาง และลบหน้าว่าง/โฆษณา
-
ขาวดำ/เทา (เหมาะกับเอกสารข้อความ): ขาวดำ/ระดับเทา เพิ่มความคอนทราสต์ ลดสัญญาณรบกวนสี ช่วยให้ OCR และการบีบอัดมีประสิทธิภาพ
-
แปลงเป็นบิตแมป (เมื่อเวกเตอร์/CAD ซับซ้อนรบกวน OCR): แปลงเวกเตอร์เป็นบิตแมป ลดการรบกวนจากกราฟิกซับซ้อน
ความละเอียดและความคมชัด
- แนะนำ ~300 DPI สำหรับเอกสารข้อความ; สำหรับตัวอักษรเล็ก/คุณภาพพิมพ์ต่ำ ใช้ 400–600 DPI
- หลีกเลี่ยงการบีบอัดรุนแรง/ภาพเบลอ: สัญญาณรบกวน/ความเบลอมากทำให้รู้จำผิดพลาด
2) ภาษาและเลย์เอาต์
- ตั้งค่าภาษา OCR ให้ตรงกับเนื้อหา (th/en/zh/ja/ko/zh‑Hant ฯลฯ) หากหลายภาษา ให้เลือกทั้งหมดที่เกี่ยวข้อง
- เลย์เอาต์ซับซ้อน (หลายคอลัมน์ ตาราง เชิงอรรถ ตัวอักษรแนวตั้ง) อาจลดความแม่นยำ; พิจารณาแบ่งโซนหน้าแล้วรู้จำแยก หรือส่งออกเป็น Word เพื่อปรับด้วยตนเอง
3) เลือกรูปแบบเอาต์พุตให้เหมาะสม
- PDF ค้นหาได้: เหมาะที่สุดสำหรับจัดเก็บ/ค้นหา/ใส่หมายเหตุ; หน้าตาเหมือนเดิมแต่ค้นหา/คัดลอกได้
- Word: เหมาะสำหรับแก้ไขเชิงลึก แต่เลย์เอาต์ซับซ้อนอาจต้องตรวจแก้ด้วยตนเอง
- ข้อความล้วน: เบาที่สุด; เหมาะกับการประมวลผลต่อไป ไม่มีข้อมูลเลย์เอาต์
เวิร์กโฟลว์ทั่วไป
ไฟล์สแกนข้อความ (สัญญา/เอกสารการสอน/รายงาน)
- จัดหน้า: จัดหน้า → หมุน/เรียง/ลบหน้าว่าง
- ตัวเลือก ขาวดำ/เทา เพื่อความคมชัด: ขาวดำ/เทา
- OCR: OCR (เลือกภาษาให้ถูกต้อง)
- ไฟล์ใหญ่เกิน? ใช้: บีบอัด PDF
เอกสารสีผสมภาพและข้อความ
- แก้ทิศทาง/ลำดับก่อน; หลีกเลี่ยงขาวดำหนักเพื่อคงรายละเอียดภาพ
- รู้จำ OCR; ถ้าต้องคุมขนาด ให้บีบอัดภายหลัง (เอกสารสีควรใช้ “แรง/MRC”)
เนื้อหา CAD/เวกเตอร์ทำให้ OCR ผิดพลาด
- แปลงเวกเตอร์เป็นบิตแมป: แปลงเวกเตอร์
- อาจใช้ขาวดำเพื่อเพิ่มคอนทราสต์
- รัน OCR อีกครั้ง
คำถามที่พบบ่อย
ถาม: ข้อผิดพลาดในการรู้จำเยอะ?
ตอบ: เพิ่มความคมชัด/คอนทราสต์ ตรวจสอบภาษา ลองขาวดำ/เทา; สำหรับหลายคอลัมน์/ตาราง ส่งออก Word แล้วแก้มือ
ถาม: รู้จำตารางไม่ดี?
ตอบ: สำหรับตารางซับซ้อน ลอง PDF เป็น Excel เพื่อดึงข้อมูลเชิงโครงสร้าง หรือแก้มือหลัง OCR
ถาม: ไฟล์ใหญ่เกินส่ง?
ตอบ: หลัง OCR ใช้ บีบอัด PDF. เอกสารข้อความขาวดำ มักเล็กลงอย่างมากเมื่อทำขาวดำก่อนแล้วค่อยบีบอัด
ถาม: เอกสารลับ — OCR ออนไลน์ปลอดภัยหรือไม่?
ตอบ: ควรประมวลผลภายในเครื่องหรือบริการที่เชื่อถือได้ ก่อนแชร์ให้ “ส่งออกเฉพาะหน้าที่จำเป็น” หรือพิมพ์ผ่านเครื่องพิมพ์เสมือนเพื่อทำสำเนาแบบแบน
ถาม: PDF ถูกจำกัดการแก้ไข/คัดลอก — ทำ OCR อย่างไร?
ตอบ: หากมีสิทธิ์ถูกต้อง ให้ ปลดล็อก PDF ก่อน แล้วจึงทำ OCR
เคล็ดลับ
- ลำดับแนะนำ: “จัดหน้า → OCR → บีบอัด”.
- เนื้อหาไทย/อังกฤษปนกัน ให้เปิดทั้งสองภาษา
- หน้าเอียงหลายหน้า? หมุนแบบกลุ่มก่อน; ลำดับที่ถูกต้องช่วยการค้นหา/โครงร่าง
- ไฟล์สแกนจากหลายแหล่ง: ใช้ จัดหน้า เพื่อรวมลำดับ จากนั้นอาจ ทำขาวดำ และ บีบอัด เพื่อสมดุลความคมชัดและขนาดไฟล์
ลิงก์เครื่องมือด่วน
OCR
ทำให้ไฟล์สแกนค้นหาได้ รองรับหลายภาษา
PDF เป็น Word
ส่งออกเป็นเอกสารแก้ไขได้เพื่อแก้ไขเชิงลึก
PDF เป็นข้อความ
ดึงข้อความล้วน ไฟล์เบาที่สุด
ขาวดำ/เทา
เพิ่มคอนทราสต์ ลดสัญญาณรบกวน ช่วยให้ OCR แม่นขึ้น
แปลงเวกเตอร์เป็นบิตแมป
ลดการรบกวนจากกราฟิก/แบบ CAD ซับซ้อน
บีบอัด PDF
ลดขนาดไฟล์โดยยังคงอ่านง่าย