스캔 PDF를 검색 가능하게: OCR 베스트 프랙티스 가이드(정확도 & 용량)

많은 PDF는 사실 이미지입니다. 종이 문서를 휴대폰으로 촬영한 사진, 인쇄물 스캔, 이미지로 만든 PDF 등은 텍스트 선택/검색/복사가 되지 않습니다. 이미지 속 문자를 실제 텍스트로 바꾸려면 OCR(광학 문자 인식)이 필요합니다.

정말 OCR이 필요할까요?

브라우저/리더로 열어 텍스트 선택을 시도: 단어 단위로 선택되면 ‘텍스트형 PDF’. 블록 선택만 되거나 전혀 안 되면 ‘이미지형/스캔 PDF’일 가능성 큼.
확대해도 또렷하지만 편집이 안 되면 벡터 도형일 수 있습니다. 이 경우에도 OCR로 편집/검색 가능하게 만들 수 있습니다.

한 번에 시작: 온라인 OCR

가장 간단한 방법은 다음을 사용하세요:

OCR(검색 가능한 PDF 만들기)

어떤 출력이 좋을까요?

레이아웃 유지, 검색/복사만 필요: “검색 가능한 PDF”.
깊이 있게 편집 필요: PDF→Word 또는 PDF→텍스트.

정확도를 높이는 핵심 단계

1) 전처리: 방향, 순서, 노이즈

인식 전 페이지 정리로 정확도를 크게 올릴 수 있습니다:

방향/순서: 페이지 정리 로 가로 페이지 일괄 회전, 드래그로 순서 변경, 공백/광고 페이지 삭제.
흑백/그레이(단색 텍스트 문서에 적합): 흑백/그레이 변환 으로 대비 향상·색상 노이즈 억제 → OCR/압축에 유리.
래스터화(복잡한 벡터/CAD가 OCR을 방해할 때): 벡터 래스터화 로 비트맵으로 전환해 간섭을 줄이기.

해상도와 선명도

권장: 텍스트 중심은 약 300DPI, 작은 글씨/저품질 인쇄는 400–600DPI.
과도한 압축/블러는 지양: 노이즈/흐림은 오인식 원인.

2) 언어와 레이아웃

OCR 언어 설정을 문서에 맞추세요(ko/en/zh/ja/zh‑Hant 등). 혼합 언어면 관련 언어를 모두 선택.
다단/표/각주/세로쓰기 등 복잡 레이아웃은 정확도 저하 요인. 영역 분할 인식이나 Word로 내보내 수동 보정 고려.

3) 출력 형식 선택

검색 가능한 PDF: 보관/검색/주석에 최적. 외관은 동일하나 검색/복사 가능.
Word: 심층 편집에 적합. 복잡 레이아웃은 수작업 보정 필요 가능.
일반 텍스트: 가장 가벼움. 후처리 용이, 레이아웃 정보 없음.

대표 워크플로우

텍스트 스캔(계약/자료/보고서)

페이지 정리: 정리 → 회전/정렬/공백 삭제.
필요 시 흑백/그레이: 흑백/그레이.
OCR 실행: OCR (언어 정확히 선택).
파일이 크면: PDF 압축.

텍스트+이미지 혼합(컬러 자료)

방향/순서부터 교정. 이미지 디테일 보존을 위해 과한 흑백화는 지양.
바로 OCR → 용량이 걱정되면 이후 압축(컬러 문서는 “강력/MRC” 권장).

CAD/벡터로 오류 발생 시

래스터화: 래스터화
필요 시 흑백으로 대비 강화
다시 OCR

자주 묻는 질문

Q: 오인식이 많나요?

A: 원본 선명도/대비를 높이고, 언어 선택을 재확인. 노이즈 억제를 위해 흑백/그레이를 시도. 다단/표는 Word로 내보내 점검.

Q: 표 인식이 약한가요?

A: 복잡한 표는 PDF→Excel 로 구조화 추출을 시도하거나 OCR 후 수동 수정.

Q: 파일이 너무 커서 전송이 어렵나요?

A: OCR 후 PDF 압축 을 사용. 단색 텍스트는 흑백→압축 순서가 효과적.

Q: 민감 문서 — 온라인 OCR이 안전한가요?

A: 로컬 처리 또는 신뢰 가능한 서비스 권장. 공유 전 “필요 페이지만 내보내기”나 가상 인쇄로 평탄화 복사본 생성.

Q: 편집/복사 제한된 PDF는?

A: 권한이 있다면 먼저 PDF 잠금 해제 후 OCR 실행.

팁

권장 순서: “정리 → OCR → 압축”.
ko/en 혼합은 두 언어를 함께 활성화.
방향 뒤섞인 페이지는 일괄 회전 먼저. 올바른 순서는 검색/구조화에 유리.
다중 소스 병합 스캔은 페이지 정리 로 순서 통일 후, 흑백 및 압축 으로 선명도와 용량을 균형 있게.

도구 빠른 링크

OCR

스캔을 검색 가능하게. 다국어 지원.

PDF→Word

심층 편집을 위해 Word로 내보내기.

PDF→텍스트

가장 가벼운 보관용 일반 텍스트 추출.

흑백/그레이

대비 향상, 노이즈 억제로 OCR 보조.

PDF 래스터화

복잡한 벡터/CAD를 비트맵으로 변환.

PDF 압축

가독성을 유지하며 용량 감소.