Jadikan PDF imbasan boleh dicari: panduan amalan terbaik OCR (ketepatan & saiz)
Blog

Jadikan PDF imbasan boleh dicari: panduan amalan terbaik OCR (ketepatan & saiz)

Tukar PDF berasaskan imej/imbasan kepada teks yang boleh dicari dan disalin — merangkumi pra‑pemprosesan, pemilihan bahasa, pengecaman jadual, format eksport dan pemampatan.

Bahasa Melayu

Banyak PDF sebenarnya ialah imej — contohnya foto telefon dokumen kertas, imbasan cetakan atau PDF yang disusun daripada imej. Teks dalam fail sebegini tidak boleh dipilih, dicari atau disalin. Anda memerlukan OCR (Optical Character Recognition) untuk mengenal pasti aksara pada imej dan menukarnya menjadi teks sebenar.

Perlukah anda OCR?

  • Buka PDF dalam pelayar/pembaca dan cuba pilih teks: jika boleh menanda perkataan individu, itu ‘PDF teks’. Jika pemilihan berblok atau langsung tidak boleh, itu mungkin ‘PDF imej/imbasan’.
  • Jika ‘teks’ kekal tajam apabila dizum tetapi tidak boleh diedit, ia mungkin bentuk vektor. Anda masih boleh jalankan OCR untuk membolehkannya diedit/dicari.

Mula segera: OCR dalam talian

Untuk cara paling mudah, gunakan:

OCR (jadikan PDF boleh dicari)

Pilih keluaran yang mana?

  • Kekalkan susun atur; hanya perlu cari/salin: pilih “PDF boleh dicari” (lapisan teks di atas imej halaman asal).
  • Perlu suntingan mendalam: PDF ke Word atau PDF ke Teks.

Langkah utama meningkatkan ketepatan OCR

1) Pra‑pemprosesan: orientasi, turutan, hingar

Sebelum pengecaman, kemaskan halaman untuk meningkatkan ketepatan dengan ketara:

  • Orientasi/turutan: Susun Halaman PDF untuk putar secara berkumpulan halaman melintang, susun semula secara seret‑lepas dan buang halaman kosong/iklan.

  • Hitam‑putih/Skala kelabu (sesuai untuk dokumen teks monokrom): Hitam‑putih / Skala kelabu meningkatkan kontras dan menindas hingar warna — membantu OCR dan pemampatan.

  • Rasterize (apabila vektor/CAD kompleks mengelirukan OCR): Rasterisasi PDF vektor menukar vektor kepada bitmap untuk mengurangkan gangguan pengecaman.

Resolusi & kejelasan

  • Disyorkan: ~300 DPI untuk dokumen teks; untuk fon kecil/kualiti cetak rendah, 400–600 DPI.
  • Elak pemampatan berlebihan/kabur: hingar/blur berlebihan menyebabkan salah pengecaman.

2) Bahasa & susun atur

  • Padankan bahasa OCR dengan kandungan (ms/en/zh/ja/ko/zh‑Hant, dsb.). Untuk kandungan bercampur, tandakan semua yang berkaitan.
  • Susun atur kompleks (berbilang lajur, jadual, nota kaki, teks menegak) menurunkan ketepatan; pertimbang zonkan halaman dan kenali berasingan, atau eksport ke Word untuk pembetulan manual.

3) Pilih format keluaran yang betul

  • PDF boleh dicari: terbaik untuk arkib/carian/annotasi; rupa sama tetapi teks boleh dicari/disalin.
  • Word: terbaik untuk suntingan mendalam; susun atur kompleks mungkin perlukan pembetulan manual.
  • Teks biasa: paling ringan; mudah diproses lanjut, tiada maklumat susun atur.

Aliran kerja tipikal

Imbasan teks (kontrak/nota/laporan)

  1. Susun halaman: Susun → putar/susun/ buang kosong.
  2. Pilihan H/P/SK untuk kejelasan: Hitam‑putih / Skala kelabu.
  3. OCR: OCR (pilih bahasa yang betul).
  4. Fail terlalu besar? Guna: Mampatkan PDF.

Campuran teks + imej (warna)

  1. Betulkan orientasi/turutan dahulu; elak H/P agresif supaya butiran imej terpelihara.
  2. Jalankan OCR; jika saiz penting, mampatkan kemudian (pilih “kuat/MRC” untuk dokumen berwarna).

Kandungan CAD/vektor mengganggu OCR

  1. Rasterisasi: Rasterisasi PDF
  2. Pilihan: H/P untuk kontras lebih tinggi
  3. Jalankan OCR semula

Soalan lazim

S: Banyak kesilapan pengecaman?

J: Tingkatkan kejelasan/kontras sumber; semak pilihan bahasa; cuba H/P/SK; untuk berbilang lajur/jadual, eksport ke Word dan betulkan manual.

S: Pengecaman jadual lemah?

J: Untuk jadual kompleks, cuba PDF ke Excel untuk ekstrak berstruktur, atau betulkan manual selepas OCR.

S: Fail terlalu besar untuk dihantar?

J: Selepas OCR, guna Mampatkan PDF. Untuk teks monokrom, H/P dahulu kemudian mampat — saiz biasanya turun banyak.

S: Dokumen sensitif — OCR dalam talian selamat?

J: Utamakan pemprosesan setempat atau servis dipercayai. Untuk perkongsian, “eksport halaman perlu sahaja” atau wujudkan salinan rata melalui cetakan maya.

S: PDF menghadkan edit/salin — bagaimana OCR?

J: Jika ada kebenaran sah, mula‑mula Nyahkunci PDF kemudian jalankan OCR.

Petua

  • Turutan: “susun → OCR → mampatkan”.
  • Kandungan ms/en bercampur? Aktifkan kedua‑dua bahasa.
  • Banyak halaman orientasi salah? Putar berkumpulan dahulu; turutan betul membantu carian/pembahagian.
  • “Gabungan pelbagai sumber”: guna Susun Halaman untuk seragamkan turutan; gabung dengan H/P dan Mampatan bagi imbang jelas/saiz.

Pautan alat pantas