Jadikan PDF hasil scan dapat dicari: panduan praktik terbaik OCR (akurasi & ukuran)
Blog

Jadikan PDF hasil scan dapat dicari: panduan praktik terbaik OCR (akurasi & ukuran)

Ubah PDF berbasis gambar/hasil scan menjadi teks yang dapat dicari dan disalin — meliputi pra‑pemrosesan, pilihan bahasa, pengenalan tabel, format ekspor, dan kompresi.

Bahasa Indonesia

Banyak PDF sebenarnya berupa gambar — misalnya foto dokumen kertas, hasil scan cetakan, atau PDF yang disusun dari gambar. Teks di file seperti ini tidak bisa dipilih, dicari, atau disalin. Anda perlu OCR (Optical Character Recognition) untuk mengenali karakter dalam gambar dan mengubahnya menjadi teks nyata.

Benarkah Anda butuh OCR?

  • Buka PDF di peramban/pembaca dan coba pilih teks: jika bisa menyorot kata per kata, itu “PDF teks”. Jika pilihan berupa blok atau tidak bisa sama sekali, kemungkinan itu “PDF gambar/scan”.
  • Jika “teks” tetap sangat tajam saat dizoom namun tak bisa diedit, mungkin itu bentuk vektor, bukan teks. Tetap bisa jalankan OCR agar menjadi dapat diedit/dicari.

Mulai instan: OCR online

Untuk cara termudah, gunakan:

OCR (jadikan PDF dapat dicari)

Output mana yang dipilih?

  • Pertahankan tata letak; hanya butuh cari/salin: pilih “PDF dapat dicari” (lapisan teks di atas gambar asli).
  • Perlu suntingan mendalam: PDF ke Word atau PDF ke Teks.

Langkah kunci meningkatkan akurasi

1) Pra‑pemrosesan: orientasi, urutan, dan noise

Sebelum mengenali, rapikan halaman untuk meningkatkan akurasi:

  • Orientasi/urutan: Atur Halaman PDF untuk rotasi massal halaman menyamping, atur ulang dengan seret‑lepas, hapus halaman kosong/iklan.

  • Hitam‑putih/Abu‑abu (cocok untuk dokumen teks monokrom): Hitam‑Putih / Abu‑abu meningkatkan kontras dan menekan noise warna; membantu OCR dan kompresi.

  • Rasterisasi (saat vektor/CAD kompleks mengacaukan OCR): Rasterisasi PDF vektor mengonversi vektor kompleks ke bitmap untuk mengurangi gangguan pengenalan.

Resolusi & kejernihan

  • Rekomendasi: ~300 DPI untuk dokumen teks; untuk huruf kecil/kualitas cetak buruk, naikkan ke 400–600 DPI.
  • Hindari kompresi berlebihan/kabur: noise/blur berlebih memicu salah pengenalan.

2) Bahasa dan tata letak

  • Sesuaikan bahasa OCR dengan isi (id/en/zh/ja/ko/zh‑Hant, dll.). Untuk campuran, pilih semua bahasa terkait.
  • Tata letak kompleks (multi‑kolom, tabel, catatan kaki, teks vertikal) menurunkan akurasi; pertimbangkan membagi zona halaman lalu kenali terpisah, atau ekspor ke Word untuk perbaikan manual.

3) Pilih format keluaran yang tepat

  • PDF dapat dicari: terbaik untuk arsip/pencarian/annotasi; tampilan tetap sama namun bisa dicari/disalin.
  • Word: terbaik untuk suntingan mendalam, namun tata letak rumit mungkin perlu koreksi manual.
  • Teks polos: paling ringan; mudah diproses lebih lanjut, tanpa tata letak.

Alur kerja umum

Scan teks (kontrak/handout/laporan)

  1. Atur halaman: Atur Halaman → rotasi/urutkan/hapus kosong.
  2. Opsional hitam‑putih/abu‑abu untuk kejernihan: Hitam‑Putih / Abu‑abu.
  3. OCR: OCR (pilih bahasa yang benar).
  4. Berkas terlalu besar? Gunakan: Kompresi PDF.

Campuran teks + gambar (halaman berwarna)

  1. Benahi orientasi/urutan dulu; hindari hitam‑putih agresif agar detail gambar terjaga.
  2. Jalankan OCR; jika ukuran penting, kompres setelahnya (disarankan “kuat/MRC” untuk dokumen berwarna).

Konten CAD/vektor mengganggu OCR

  1. Rasterisasi: Rasterisasi PDF
  2. Opsional: ubah ke hitam‑putih untuk kontras lebih tinggi
  3. Jalankan OCR lagi

FAQ

T: Banyak kesalahan pengenalan?

J: Tingkatkan kejernihan/kontras sumber; pastikan pilihan bahasa; coba hitam‑putih/abu‑abu; untuk multi‑kolom/tabel, ekspor ke Word dan koreksi manual.

T: Pengenalan tabel buruk?

J: Untuk tabel kompleks, coba PDF ke Excel untuk ekstraksi terstruktur, atau perbaiki manual setelah OCR.

T: Berkas terlalu besar untuk dikirim?

J: Setelah OCR, gunakan Kompresi PDF. Untuk scan teks monokrom, lakukan hitam‑putih dulu baru kompres — ukuran biasanya turun drastis.

T: Dokumen sensitif — apakah OCR online aman?

J: Lebih baik proses lokal atau layanan tepercaya. Jika berbagi, “ekspor hanya halaman yang perlu” atau buat salinan diratakan via cetak virtual.

T: PDF dibatasi edit/salin — bagaimana OCR?

J: Jika Anda punya izin, terlebih dulu Buka Kunci PDF baru jalankan OCR.

Tips

  • Urutan kerja: “atur → OCR → kompres”.
  • Campuran id/en? Aktifkan kedua bahasa.
  • Banyak halaman miring? Putar massal lebih dulu; urutan benar membantu pencarian/struktur.
  • “Gabungan multi‑sumber”: gunakan Atur Halaman untuk samakan urutan; kombinasikan dengan Hitam‑Putih dan Kompresi untuk menyeimbangkan kejernihan dan ukuran.

Pintasan alat