스캔 PDF를 검색 가능하게: OCR 베스트 프랙티스 가이드(정확도 & 용량)
블로그

스캔 PDF를 검색 가능하게: OCR 베스트 프랙티스 가이드(정확도 & 용량)

이미지 기반 PDF/스캔을 검색·복사 가능한 텍스트로 변환 — 전처리, 언어 선택, 표 인식, 출력 형식, 압축까지 정리.

한국어

많은 PDF는 사실 이미지입니다. 종이 문서를 휴대폰으로 촬영한 사진, 인쇄물 스캔, 이미지로 만든 PDF 등은 텍스트 선택/검색/복사가 되지 않습니다. 이미지 속 문자를 실제 텍스트로 바꾸려면 OCR(광학 문자 인식)이 필요합니다.

정말 OCR이 필요할까요?

  • 브라우저/리더로 열어 텍스트 선택을 시도: 단어 단위로 선택되면 ‘텍스트형 PDF’. 블록 선택만 되거나 전혀 안 되면 ‘이미지형/스캔 PDF’일 가능성 큼.
  • 확대해도 또렷하지만 편집이 안 되면 벡터 도형일 수 있습니다. 이 경우에도 OCR로 편집/검색 가능하게 만들 수 있습니다.

한 번에 시작: 온라인 OCR

가장 간단한 방법은 다음을 사용하세요:

OCR(검색 가능한 PDF 만들기)

어떤 출력이 좋을까요?

  • 레이아웃 유지, 검색/복사만 필요: “검색 가능한 PDF”.
  • 깊이 있게 편집 필요: PDF→Word 또는 PDF→텍스트.

정확도를 높이는 핵심 단계

1) 전처리: 방향, 순서, 노이즈

인식 전 페이지 정리로 정확도를 크게 올릴 수 있습니다:

  • 방향/순서: 페이지 정리 로 가로 페이지 일괄 회전, 드래그로 순서 변경, 공백/광고 페이지 삭제.

  • 흑백/그레이(단색 텍스트 문서에 적합): 흑백/그레이 변환 으로 대비 향상·색상 노이즈 억제 → OCR/압축에 유리.

  • 래스터화(복잡한 벡터/CAD가 OCR을 방해할 때): 벡터 래스터화 로 비트맵으로 전환해 간섭을 줄이기.

해상도와 선명도

  • 권장: 텍스트 중심은 약 300DPI, 작은 글씨/저품질 인쇄는 400–600DPI.
  • 과도한 압축/블러는 지양: 노이즈/흐림은 오인식 원인.

2) 언어와 레이아웃

  • OCR 언어 설정을 문서에 맞추세요(ko/en/zh/ja/zh‑Hant 등). 혼합 언어면 관련 언어를 모두 선택.
  • 다단/표/각주/세로쓰기 등 복잡 레이아웃은 정확도 저하 요인. 영역 분할 인식이나 Word로 내보내 수동 보정 고려.

3) 출력 형식 선택

  • 검색 가능한 PDF: 보관/검색/주석에 최적. 외관은 동일하나 검색/복사 가능.
  • Word: 심층 편집에 적합. 복잡 레이아웃은 수작업 보정 필요 가능.
  • 일반 텍스트: 가장 가벼움. 후처리 용이, 레이아웃 정보 없음.

대표 워크플로우

텍스트 스캔(계약/자료/보고서)

  1. 페이지 정리: 정리 → 회전/정렬/공백 삭제.
  2. 필요 시 흑백/그레이: 흑백/그레이.
  3. OCR 실행: OCR (언어 정확히 선택).
  4. 파일이 크면: PDF 압축.

텍스트+이미지 혼합(컬러 자료)

  1. 방향/순서부터 교정. 이미지 디테일 보존을 위해 과한 흑백화는 지양.
  2. 바로 OCR → 용량이 걱정되면 이후 압축(컬러 문서는 “강력/MRC” 권장).

CAD/벡터로 오류 발생 시

  1. 래스터화: 래스터화
  2. 필요 시 흑백으로 대비 강화
  3. 다시 OCR

자주 묻는 질문

Q: 오인식이 많나요?

A: 원본 선명도/대비를 높이고, 언어 선택을 재확인. 노이즈 억제를 위해 흑백/그레이를 시도. 다단/표는 Word로 내보내 점검.

Q: 표 인식이 약한가요?

A: 복잡한 표는 PDF→Excel 로 구조화 추출을 시도하거나 OCR 후 수동 수정.

Q: 파일이 너무 커서 전송이 어렵나요?

A: OCR 후 PDF 압축 을 사용. 단색 텍스트는 흑백→압축 순서가 효과적.

Q: 민감 문서 — 온라인 OCR이 안전한가요?

A: 로컬 처리 또는 신뢰 가능한 서비스 권장. 공유 전 “필요 페이지만 내보내기”나 가상 인쇄로 평탄화 복사본 생성.

Q: 편집/복사 제한된 PDF는?

A: 권한이 있다면 먼저 PDF 잠금 해제 후 OCR 실행.

  • 권장 순서: “정리 → OCR → 압축”.
  • ko/en 혼합은 두 언어를 함께 활성화.
  • 방향 뒤섞인 페이지는 일괄 회전 먼저. 올바른 순서는 검색/구조화에 유리.
  • 다중 소스 병합 스캔은 페이지 정리 로 순서 통일 후, 흑백압축 으로 선명도와 용량을 균형 있게.

도구 빠른 링크