Nhiều PDF thực chất là ảnh — ví dụ ảnh chụp tài liệu giấy, bản quét từ bản in, hoặc PDF ghép từ ảnh. Văn bản trong các tệp này không thể chọn, tìm kiếm hay sao chép. Bạn cần OCR (Nhận dạng Ký tự Quang học) để nhận dạng ký tự trong ảnh và chuyển thành văn bản thực.
Bạn có thực sự cần OCR?
- Mở PDF bằng trình duyệt/trình đọc và thử chọn văn bản: nếu bôi đậm được từng từ, đó là “PDF văn bản”. Nếu chỉ chọn theo khối hoặc không chọn được, khả năng cao là “PDF ảnh/quét”.
- Nếu “văn bản” phóng to vẫn rất nét nhưng không chỉnh sửa được, có thể đó là dạng vector chứ không phải văn bản. Vẫn có thể chạy OCR để biến nó thành nội dung có thể chỉnh sửa/tìm kiếm.
Bắt đầu nhanh: OCR trực tuyến
Đơn giản nhất, hãy dùng:
OCR (biến PDF có thể tìm kiếm)Chọn đầu ra nào?
- Giữ nguyên bố cục; chỉ cần tìm kiếm/sao chép: chọn “PDF có thể tìm kiếm” (lớp văn bản phủ lên ảnh gốc).
- Cần chỉnh sửa sâu: PDF sang Word hoặc PDF sang Văn bản.
Các bước then chốt để tăng độ chính xác
1) Tiền xử lý: hướng, thứ tự, nhiễu
Trước khi nhận dạng, dọn dẹp trang sẽ cải thiện độ chính xác rõ rệt:
-
Hướng/thứ tự: Sắp xếp trang PDF để xoay hàng loạt trang nằm ngang, kéo‑thả đổi thứ tự, xoá trang trắng/quảng cáo.
-
Đen‑trắng/Thang xám (hợp với tài liệu văn bản đơn sắc): Đen‑trắng / Thang xám tăng tương phản, giảm nhiễu màu — có lợi cho OCR và nén sau đó.
-
Raster hoá (khi vector/CAD phức tạp gây nhiễu OCR): Raster hoá PDF vector chuyển vector phức tạp thành bitmap để giảm can nhiễu.
Độ phân giải & độ nét
- Khuyến nghị: ~300 DPI cho tài liệu nhiều chữ; với cỡ chữ nhỏ/chất lượng in kém, tăng lên 400–600 DPI.
- Tránh nén quá mạnh/mờ: nhiễu/nhòe nhiều gây nhận dạng sai.
2) Ngôn ngữ & bố cục
- Thiết lập ngôn ngữ OCR khớp nội dung (vi/en/zh/ja/ko/zh‑Hant…). Với nội dung đa ngôn ngữ, chọn tất cả ngôn ngữ liên quan.
- Bố cục phức tạp (đa cột, bảng, chú thích, chữ dọc) làm giảm độ chính xác; cân nhắc chia vùng trang để nhận dạng riêng, hoặc xuất Word để chỉnh tay.
3) Chọn định dạng xuất phù hợp
- PDF có thể tìm kiếm: tốt nhất cho lưu trữ/tìm kiếm/ghi chú; giữ nguyên hiển thị nhưng có thể tìm/sao chép.
- Word: tốt cho chỉnh sửa sâu; bố cục phức tạp có thể cần chỉnh tay.
- Văn bản thuần: nhẹ nhất; dễ xử lý tiếp, không có bố cục.
Quy trình mẫu
Quét văn bản (hợp đồng/tài liệu giảng/báo cáo)
- Sắp xếp trang: Sắp xếp → xoay/sắp xếp/xoá trắng.
- Tuỳ chọn đen‑trắng/thang xám để tăng độ rõ: Đen‑trắng / Thang xám.
- OCR: OCR (chọn đúng ngôn ngữ).
- Tệp quá lớn? Dùng: Nén PDF.
Tài liệu màu trộn chữ + ảnh
- Sửa hướng/thứ tự trước; tránh đen‑trắng mạnh để không mất chi tiết ảnh.
- Chạy OCR; nếu quan tâm dung lượng, nén sau (ưu tiên “mạnh/MRC” cho tài liệu màu).
Nội dung CAD/vector gây lỗi OCR
- Raster hoá: Raster hoá PDF
- Tuỳ chọn: chuyển đen‑trắng để tăng tương phản
- Chạy OCR lại
Câu hỏi thường gặp
H: Quá nhiều lỗi nhận dạng?
Đ: Tăng độ nét/tương phản nguồn; kiểm tra chọn ngôn ngữ; thử đen‑trắng/thang xám; với đa cột/bảng, xuất Word và rà soát tay.
H: Nhận dạng bảng kém?
Đ: Với bảng phức tạp, thử PDF sang Excel để trích xuất cấu trúc, hoặc chỉnh tay sau OCR.
H: Tệp quá lớn để gửi?
Đ: Sau OCR, dùng Nén PDF. Với quét văn bản đơn sắc, nên đen‑trắng trước rồi nén — thường giảm mạnh dung lượng.
H: Tài liệu nhạy cảm — OCR trực tuyến có an toàn?
Đ: Ưu tiên xử lý cục bộ hoặc dịch vụ tin cậy. Trước khi chia sẻ, “chỉ xuất trang cần thiết” hoặc tạo bản phẳng qua in ảo.
H: PDF bị hạn chế chỉnh/sao — OCR thế nào?
Đ: Nếu có quyền, trước hết Mở khoá PDF rồi chạy OCR.
Mẹo
- Thứ tự gợi ý: “sắp xếp → OCR → nén”.
- Nội dung vi/en trộn: bật cả hai ngôn ngữ.
- Nhiều trang bị ngược: xoay hàng loạt trước; thứ tự đúng giúp tìm kiếm/đề mục.
- “Ghép nhiều nguồn”: dùng Sắp xếp để thống nhất thứ tự; kết hợp Đen‑trắng và Nén để cân bằng rõ ràng & dung lượng.
Liên kết công cụ nhanh
OCR
Biến bản quét thành có thể tìm kiếm; hỗ trợ đa ngôn ngữ.
PDF sang Word
Xuất thành tài liệu có thể chỉnh sửa để biên tập sâu.
PDF sang Văn bản
Trích xuất văn bản thuần — nhẹ nhất.
Đen‑trắng / Thang xám
Tăng tương phản, giảm nhiễu — hỗ trợ OCR.
Raster hoá PDF
Chuyển vector/CAD thành bitmap để giảm can nhiễu.
Nén PDF
Giảm dung lượng nhưng vẫn dễ đọc.