Logo
Taranmış PDF’leri aranabilir yapın: OCR en iyi uygulamalar rehberi (doğruluk ve boyut)
Blog

Taranmış PDF’leri aranabilir yapın: OCR en iyi uygulamalar rehberi (doğruluk ve boyut)

Görüntü tabanlı PDF’leri/taramaları aranabilir, kopyalanabilir metne dönüştürün — ön işleme, dil seçimi, tablo tanıma, çıktı formatları ve sıkıştırma dahil.

Türkçe

Birçok PDF aslında görüntüdür — kâğıt belgelerin telefonla çekilmiş fotoğrafları, basılı sayfaların taramaları veya resimlerden birleştirilmiş PDF’ler gibi. Bu dosyalardaki metin seçilemez, aranamaz veya kopyalanamaz. Görüntüdeki karakterleri gerçek metne dönüştürmek için OCR (Optik Karakter Tanıma) gerekir.

Gerçekten OCR’a ihtiyacınız var mı?

  • PDF’yi tarayıcı/okuyucuda açıp metin seçmeyi deneyin: Kelimeler tek tek seçilebiliyorsa “metin PDF”dir. Seçim blok halinde oluyor ya da hiç olmuyorsa “görüntü PDF/tarama”dır.
  • “Metin” yakınlaştırıldığında çok keskin kalıyor ama düzenlenemiyorsa, gerçek metin değil vektör şekiller olabilir. Yine de OCR çalıştırarak düzenlenebilir/aranabilir hâle getirebilirsiniz.

Tek tıkla başlangıç: Çevrim içi OCR

En kolay yaklaşım için şunu kullanın:

OCR (PDF’yi aranabilir yap)

Hangi çıktıyı seçmeliyim?

  • Yerleşim kalsın, sadece arama/kopyalama gerekli: “Aranabilir PDF” (metin katmanı orijinal sayfa görüntüsünün üzerinde).
  • Derin düzenleme gerekliyse: PDF’den Word’e veya PDF’den Metne.

Doğruluğu artıran kritik adımlar

1) Ön işleme: yön, sıra ve gürültü

Tanımadan önce sayfaları toparlamak doğruluğu belirgin artırır:

  • Yön/sıra: PDF Sayfalarını Düzenle ile yana dönük sayfaları topluca çevirin, sürükle‑bırak ile sıralayın, boş/reklam sayfalarını silin.

  • Siyah‑beyaz/Gri tonlama (tek renkli metin belgeleri için ideal): Siyah‑Beyaz / Gri kontrastı artırır, renk gürültüsünü bastırır; OCR ve sıkıştırmaya yardımcı olur.

  • Rasterleştirme (karmaşık vektör/CAD içerik OCR’ı şaşırtıyorsa): Vektör PDF’yi Rasterleştir ile karmaşık vektörleri bitmape çevirip paraziti azaltın.

Çözünürlük ve netlik

  • Öneri: Metin ağırlıklı belgeler için ~300 DPI; küçük puntolar/kötü baskı kalitesi için 400–600 DPI.
  • Aşırı sıkıştırma/bulanıklıktan kaçının: Fazla gürültü/blur yanlış tanımaya yol açar.

2) Diller ve yerleşim

  • OCR dil(ler)ini içeriğe uygun seçin (tr/en/zh/ja/ko/zh‑Hant vb.). Karışık diller için ilgili tüm dilleri işaretleyin.
  • Çok sütunlu düzen, tablolar, dipnotlar, dikey metin doğruluğu düşürebilir; sayfayı bölgelere ayırıp ayrı tanımayı düşünün veya Word’e aktararak elle düzeltin.

3) Doğru çıktı formatı

  • Aranabilir PDF: Arşiv/arama/ek açıklama için en uygun; görünüm aynı, metin aranabilir/kopyalanabilir olur.
  • Word: Derin düzenleme için uygun; karmaşık yerleşimler elle düzeltme gerektirebilir.
  • Düz metin: En hafif; ileri işlemeye uygun, yerleşim bilgisi yoktur.

Tipik iş akışları

Metin taramaları (sözleşme/ders notu/rapor)

  1. Sayfaları düzenleyin: Sayfa düzeni → çevir/sırala/boşları sil.
  2. İhtiyaca göre siyah‑beyaz: Siyah‑Beyaz / Gri.
  3. OCR: OCR (doğru dilleri seçin).
  4. Dosya büyük mü? Şunu kullanın: PDF Sıkıştırma.

Metin + görsel karışık (renkli malzeme)

  1. Önce yön/sıra düzeltin; görsel detaylar için agresif siyah‑beyazdan kaçının.
  2. Doğrudan OCR; boyut önemliyse sonra sıkıştırın (renkli belgelerde “güçlü/MRC” daha iyi).

CAD/vektör OCR’ı bozuyor

  1. Rasterleştirin: PDF’yi Rasterleştir
  2. Gerekirse siyah‑beyaz ile kontrastı artırın
  3. Yeniden OCR

SSS

S: Çok hata çıkıyor?

C: Kaynağın netlik/kontrastını artırın; dil seçimlerini doğrulayın; gürültü için siyah‑beyaz/griden yararlanın; çok sütun/tabloda Word’e aktarın ve kontrol edin.

S: Tablo tanıma zayıf?

C: Karmaşık tablolar için PDF’den Excel’e ile yapısal çıkarım deneyin veya OCR sonrası elle düzeltin.

S: Dosya göndermek için fazla büyük?

C: OCR’dan sonra PDF Sıkıştırma kullanın. Tek renk metin taramalarında önce siyah‑beyaz, sonra sıkıştırma büyük düşüş sağlar.

S: Belge hassas — çevrim içi OCR güvenli mi?

C: Yerel işlem veya güvenilir hizmetleri tercih edin. Paylaşmadan önce “sadece gerekli sayfaları” dışa aktarın ya da sanal yazıcıyla düzleştirilmiş kopya oluşturun.

S: PDF düzenleme/kopyalama kısıtlı — nasıl OCR?

C: Yasal yetkiniz varsa önce PDF Kilidini Aç ve ardından OCR çalıştırın.

İpuçları

  • Sıra: “düzenle → OCR → sıkıştır”.
  • tr/en karışık içerikte her iki dili etkinleştirin.
  • Çok sayıda yanlış yön? Önce toplu çevirin; doğru sıra aramaya/başlıklandırmaya yardım eder.
  • Çok kaynaklı birleşik taramalarda Sayfaları Düzenle ile sırayı birleştirip, gerekirse Siyah‑Beyaz ve Sıkıştırma ile netlik/boyutu dengeleyin.

Hızlı araç bağlantıları