ทำให้ PDF จากสแกนค้นหาได้: คู่มือปฏิบัติ OCR (ความแม่นยำและขนาดไฟล์)

PDF จำนวนมากจริง ๆ แล้วเป็น “รูปภาพ” — เช่น รูปเอกสารที่ถ่ายด้วยมือถือ ไฟล์สแกนจากเอกสารพิมพ์ หรือ PDF ที่ประกอบจากภาพ ทำให้ข้อความภายในไม่สามารถเลือก ค้นหา หรือคัดลอกได้ จึงต้องใช้ OCR (Optical Character Recognition) เพื่อรู้จำอักขระในภาพและแปลงเป็นข้อความจริง

จำเป็นต้องใช้ OCR จริงหรือ?

เปิด PDF ในเบราว์เซอร์/ตัวอ่านแล้วลองลากเลือกข้อความ: หากเลือกได้เป็นคำ ๆ แสดงว่าเป็น “PDF ข้อความ”; ถ้าเลือกได้เป็นบล็อคหรือเลือกไม่ได้เลย น่าจะเป็น “PDF รูปภาพ/ไฟล์สแกน”.
หาก “ข้อความ” คมชัดแม้ซูมแต่แก้ไขไม่ได้ อาจเป็นวัตถุเวกเตอร์ไม่ใช่ข้อความจริง ยังสามารถใช้ OCR เพื่อทำให้แก้ไข/ค้นหาได้

เริ่มต้นแบบคลิกเดียว: OCR ออนไลน์

หากต้องการวิธีที่ง่ายที่สุด ให้ใช้:

OCR (ทำให้ PDF ค้นหาได้)

ควรเลือกเอาต์พุตแบบใด?

ต้องการเก็บเลย์เอาต์เดิมและแค่ค้นหา/คัดลอก: เลือก “PDF ค้นหาได้” (วางชั้นข้อความบนภาพหน้าเดิม)
ต้องการแก้ไขเนื้อหา: PDF เป็น Word หรือ PDF เป็นข้อความ

ขั้นตอนสำคัญเพื่อเพิ่มความแม่นยำ

1) เตรียมก่อนรู้จำ: ทิศทาง ลำดับ และสัญญาณรบกวน

ก่อนรู้จำ ควรจัดระเบียบหน้าเพื่อเพิ่มความแม่นยำอย่างเห็นได้ชัด:

ทิศทาง/ลำดับ: จัดหน้า PDF หมุนหน้าที่เอียงจำนวนมาก จัดลำดับด้วยการลาก‑วาง และลบหน้าว่าง/โฆษณา
ขาวดำ/เทา (เหมาะกับเอกสารข้อความ): ขาวดำ/ระดับเทา เพิ่มความคอนทราสต์ ลดสัญญาณรบกวนสี ช่วยให้ OCR และการบีบอัดมีประสิทธิภาพ
แปลงเป็นบิตแมป (เมื่อเวกเตอร์/CAD ซับซ้อนรบกวน OCR): แปลงเวกเตอร์เป็นบิตแมป ลดการรบกวนจากกราฟิกซับซ้อน

ความละเอียดและความคมชัด

แนะนำ ~300 DPI สำหรับเอกสารข้อความ; สำหรับตัวอักษรเล็ก/คุณภาพพิมพ์ต่ำ ใช้ 400–600 DPI
หลีกเลี่ยงการบีบอัดรุนแรง/ภาพเบลอ: สัญญาณรบกวน/ความเบลอมากทำให้รู้จำผิดพลาด

2) ภาษาและเลย์เอาต์

ตั้งค่าภาษา OCR ให้ตรงกับเนื้อหา (th/en/zh/ja/ko/zh‑Hant ฯลฯ) หากหลายภาษา ให้เลือกทั้งหมดที่เกี่ยวข้อง
เลย์เอาต์ซับซ้อน (หลายคอลัมน์ ตาราง เชิงอรรถ ตัวอักษรแนวตั้ง) อาจลดความแม่นยำ; พิจารณาแบ่งโซนหน้าแล้วรู้จำแยก หรือส่งออกเป็น Word เพื่อปรับด้วยตนเอง

3) เลือกรูปแบบเอาต์พุตให้เหมาะสม

PDF ค้นหาได้: เหมาะที่สุดสำหรับจัดเก็บ/ค้นหา/ใส่หมายเหตุ; หน้าตาเหมือนเดิมแต่ค้นหา/คัดลอกได้
Word: เหมาะสำหรับแก้ไขเชิงลึก แต่เลย์เอาต์ซับซ้อนอาจต้องตรวจแก้ด้วยตนเอง
ข้อความล้วน: เบาที่สุด; เหมาะกับการประมวลผลต่อไป ไม่มีข้อมูลเลย์เอาต์

เวิร์กโฟลว์ทั่วไป

ไฟล์สแกนข้อความ (สัญญา/เอกสารการสอน/รายงาน)

จัดหน้า: จัดหน้า → หมุน/เรียง/ลบหน้าว่าง
ตัวเลือก ขาวดำ/เทา เพื่อความคมชัด: ขาวดำ/เทา
OCR: OCR (เลือกภาษาให้ถูกต้อง)
ไฟล์ใหญ่เกิน? ใช้: บีบอัด PDF

เอกสารสีผสมภาพและข้อความ

แก้ทิศทาง/ลำดับก่อน; หลีกเลี่ยงขาวดำหนักเพื่อคงรายละเอียดภาพ
รู้จำ OCR; ถ้าต้องคุมขนาด ให้บีบอัดภายหลัง (เอกสารสีควรใช้ “แรง/MRC”)

เนื้อหา CAD/เวกเตอร์ทำให้ OCR ผิดพลาด

แปลงเวกเตอร์เป็นบิตแมป: แปลงเวกเตอร์
อาจใช้ขาวดำเพื่อเพิ่มคอนทราสต์
รัน OCR อีกครั้ง

คำถามที่พบบ่อย

ถาม: ข้อผิดพลาดในการรู้จำเยอะ?

ตอบ: เพิ่มความคมชัด/คอนทราสต์ ตรวจสอบภาษา ลองขาวดำ/เทา; สำหรับหลายคอลัมน์/ตาราง ส่งออก Word แล้วแก้มือ

ถาม: รู้จำตารางไม่ดี?

ตอบ: สำหรับตารางซับซ้อน ลอง PDF เป็น Excel เพื่อดึงข้อมูลเชิงโครงสร้าง หรือแก้มือหลัง OCR

ถาม: ไฟล์ใหญ่เกินส่ง?

ตอบ: หลัง OCR ใช้ บีบอัด PDF. เอกสารข้อความขาวดำ มักเล็กลงอย่างมากเมื่อทำขาวดำก่อนแล้วค่อยบีบอัด

ถาม: เอกสารลับ — OCR ออนไลน์ปลอดภัยหรือไม่?

ตอบ: ควรประมวลผลภายในเครื่องหรือบริการที่เชื่อถือได้ ก่อนแชร์ให้ “ส่งออกเฉพาะหน้าที่จำเป็น” หรือพิมพ์ผ่านเครื่องพิมพ์เสมือนเพื่อทำสำเนาแบบแบน

ถาม: PDF ถูกจำกัดการแก้ไข/คัดลอก — ทำ OCR อย่างไร?

ตอบ: หากมีสิทธิ์ถูกต้อง ให้ ปลดล็อก PDF ก่อน แล้วจึงทำ OCR

เคล็ดลับ

ลำดับแนะนำ: “จัดหน้า → OCR → บีบอัด”.
เนื้อหาไทย/อังกฤษปนกัน ให้เปิดทั้งสองภาษา
หน้าเอียงหลายหน้า? หมุนแบบกลุ่มก่อน; ลำดับที่ถูกต้องช่วยการค้นหา/โครงร่าง
ไฟล์สแกนจากหลายแหล่ง: ใช้ จัดหน้า เพื่อรวมลำดับ จากนั้นอาจ ทำขาวดำ และ บีบอัด เพื่อสมดุลความคมชัดและขนาดไฟล์