많은 PDF는 사실 이미지입니다. 종이 문서를 휴대폰으로 촬영한 사진, 인쇄물 스캔, 이미지로 만든 PDF 등은 텍스트 선택/검색/복사가 되지 않습니다. 이미지 속 문자를 실제 텍스트로 바꾸려면 OCR(광학 문자 인식)이 필요합니다.
정말 OCR이 필요할까요?
- 브라우저/리더로 열어 텍스트 선택을 시도: 단어 단위로 선택되면 ‘텍스트형 PDF’. 블록 선택만 되거나 전혀 안 되면 ‘이미지형/스캔 PDF’일 가능성 큼.
- 확대해도 또렷하지만 편집이 안 되면 벡터 도형일 수 있습니다. 이 경우에도 OCR로 편집/검색 가능하게 만들 수 있습니다.
한 번에 시작: 온라인 OCR
가장 간단한 방법은 다음을 사용하세요:
OCR(검색 가능한 PDF 만들기)정확도를 높이는 핵심 단계
1) 전처리: 방향, 순서, 노이즈
인식 전 페이지 정리로 정확도를 크게 올릴 수 있습니다:
-
방향/순서: 페이지 정리 로 가로 페이지 일괄 회전, 드래그로 순서 변경, 공백/광고 페이지 삭제.
-
흑백/그레이(단색 텍스트 문서에 적합): 흑백/그레이 변환 으로 대비 향상·색상 노이즈 억제 → OCR/압축에 유리.
-
래스터화(복잡한 벡터/CAD가 OCR을 방해할 때): 벡터 래스터화 로 비트맵으로 전환해 간섭을 줄이기.
해상도와 선명도
- 권장: 텍스트 중심은 약 300DPI, 작은 글씨/저품질 인쇄는 400–600DPI.
- 과도한 압축/블러는 지양: 노이즈/흐림은 오인식 원인.
2) 언어와 레이아웃
- OCR 언어 설정을 문서에 맞추세요(ko/en/zh/ja/zh‑Hant 등). 혼합 언어면 관련 언어를 모두 선택.
- 다단/표/각주/세로쓰기 등 복잡 레이아웃은 정확도 저하 요인. 영역 분할 인식이나 Word로 내보내 수동 보정 고려.
3) 출력 형식 선택
- 검색 가능한 PDF: 보관/검색/주석에 최적. 외관은 동일하나 검색/복사 가능.
- Word: 심층 편집에 적합. 복잡 레이아웃은 수작업 보정 필요 가능.
- 일반 텍스트: 가장 가벼움. 후처리 용이, 레이아웃 정보 없음.
대표 워크플로우
텍스트 스캔(계약/자료/보고서)
텍스트+이미지 혼합(컬러 자료)
- 방향/순서부터 교정. 이미지 디테일 보존을 위해 과한 흑백화는 지양.
- 바로 OCR → 용량이 걱정되면 이후 압축(컬러 문서는 “강력/MRC” 권장).
CAD/벡터로 오류 발생 시
- 래스터화: 래스터화
- 필요 시 흑백으로 대비 강화
- 다시 OCR
자주 묻는 질문
Q: 오인식이 많나요?
A: 원본 선명도/대비를 높이고, 언어 선택을 재확인. 노이즈 억제를 위해 흑백/그레이를 시도. 다단/표는 Word로 내보내 점검.
Q: 표 인식이 약한가요?
A: 복잡한 표는 PDF→Excel 로 구조화 추출을 시도하거나 OCR 후 수동 수정.
Q: 파일이 너무 커서 전송이 어렵나요?
A: OCR 후 PDF 압축 을 사용. 단색 텍스트는 흑백→압축 순서가 효과적.
Q: 민감 문서 — 온라인 OCR이 안전한가요?
A: 로컬 처리 또는 신뢰 가능한 서비스 권장. 공유 전 “필요 페이지만 내보내기”나 가상 인쇄로 평탄화 복사본 생성.
Q: 편집/복사 제한된 PDF는?
A: 권한이 있다면 먼저 PDF 잠금 해제 후 OCR 실행.
팁
- 권장 순서: “정리 → OCR → 압축”.
- ko/en 혼합은 두 언어를 함께 활성화.
- 방향 뒤섞인 페이지는 일괄 회전 먼저. 올바른 순서는 검색/구조화에 유리.
- 다중 소스 병합 스캔은 페이지 정리 로 순서 통일 후, 흑백 및 압축 으로 선명도와 용량을 균형 있게.
도구 빠른 링크
OCR
스캔을 검색 가능하게. 다국어 지원.
PDF→Word
심층 편집을 위해 Word로 내보내기.
PDF→텍스트
가장 가벼운 보관용 일반 텍스트 추출.
흑백/그레이
대비 향상, 노이즈 억제로 OCR 보조.
PDF 래스터화
복잡한 벡터/CAD를 비트맵으로 변환.
PDF 압축
가독성을 유지하며 용량 감소.