스캔 PDF를 편집 가능한 Word로: 완전 가이드(OCR + 레이아웃 보정)
블로그

스캔 PDF를 편집 가능한 Word로: 완전 가이드(OCR + 레이아웃 보정)

스캔/사진 PDF를 편집 가능한 Word로 변환하는 방법: 10초 OCR 판별, 전처리 팁, 흔한 실패와 확실한 대안.

한국어

“PDF가 편집이 안 돼요”의 대부분은 겉으로는 글자처럼 보여도 실제로는 페이지가 이미지(스캔/사진/캡처)로 되어 있기 때문입니다. Word에서 편집 가능하게 만들려면 핵심 흐름은 아래와 같습니다.

  1. 페이지를 깨끗하게 정리(방향/순서/테두리/노이즈)
  2. 필요하면 OCR(이미지 속 글자를 실제 텍스트로)
  3. Word로 내보낸 뒤 핵심 항목을 검수

10초 자가진단: OCR이 필요할까요?

  • 텍스트 선택이 되고 Ctrl+F 검색이 된다: 보통 OCR 없이 바로 Word 변환.
  • 텍스트 선택이 안 되거나 블록으로만 선택되고 Ctrl+F가 안 된다: 스캔/이미지 PDF일 확률이 높아 OCR 활성화 권장.
  • 예외: 아주 선명하지만 검색이 안 되는 PDF(벡터 도형 텍스트)도 있어, 이 경우에도 OCR이 유효합니다.

목표부터 정하기: “편집”인가 “검색”인가?

목표추천 결과추천 도구
문장 수정/단락 편집/재편집Word(.docx)PDF→Word
모양은 유지하고 검색/복사 가능하게검색 가능한 PDF(텍스트 레이어)OCR(검색 가능화)
텍스트만 필요(번역/검색/AI)텍스트PDF→텍스트

이 글은 “스캔 PDF를 편집 가능한 Word로” 바꾸면서 오타·레이아웃 붕괴·재작업을 줄이는 데 초점을 둡니다.

추천 워크플로: 스캔 → 편집 가능한 Word(성공률 순)

가장 안정적: 선명도 → 인식 → 압축

권장 순서: 복구(선택) → 페이지 정리 → 자르기 → 흑백/그레이(선택) → OCR/Word 변환 → 압축(필요 시).
OCR 전에 먼저 압축하면 인식률이 떨어지기 쉽습니다.

변환 전 준비: OCR이 잘 되도록 원본을 다듬기

원본 품질이 낮으면 OCR이 한계가 있습니다. 아래 준비가 효과가 큽니다.

  • 해상도: 스캔은 300dpi 권장. 150dpi 이하에서는 정확도가 크게 떨어질 수 있습니다.
  • 기울어짐 최소화: 페이지가 많이 비스듬하면 줄/열이 쉽게 깨집니다.
  • 반사/그림자 피하기: 사진 촬영 시 직광을 피하고 배경을 깔끔하게.
  • 평판 스캐너 우선: 가능하면 사진보다 안정적입니다.

설정보다 더 강력한 건 ‘더 좋은 원본’입니다

스크린샷 대신 원본 PDF, 저해상도 사진 대신 고해상도 스캔 등 더 좋은 원본이 있으면 먼저 사용하세요.

0단계(선택): 열리지 않거나 실패하면 먼저 복구

다음 상황이면 복구 후 변환을 권장합니다.

  • “파일이 손상됨/읽을 수 없음”
  • 업로드/변환이 반복 실패
  • 페이지 렌더링이 깨지거나 폰트가 누락됨
PDF 복구

1단계: 페이지 방향/순서 정리

PDF 페이지 정리

세 가지를 해두면 좋습니다.

  • 방향이 틀린 페이지 회전(OCR에 직접 영향)
  • 빈 페이지/광고 페이지 삭제
  • 순서 정리(스캔 후 뒤섞이는 경우가 많음)

2단계(강력 추천): 검은 여백/배경을 잘라내기

PDF 자르기

검은 테두리, 책상 배경, 그림자는 노이즈가 됩니다. 본문 영역만 남기면 정확도가 크게 좋아질 수 있습니다.

3단계(문서 유형별 선택): 흑백/그레이로 대비 강화

흑백/그레이 변환

적합:

  • 텍스트 위주 문서(계약서, 강의자료, 신분증 사본, 영수증)
  • 종이가 누렇거나 글자가 옅은 스캔본

비추천:

  • 색상 자체가 의미가 있는 문서(형광표시, 컬러 주석). 이 경우는 건너뛰고 OCR/Word로 진행하세요.

4단계: Word로 변환(필요 시 OCR 활성화)

PDF→Word

실전 팁:

  • 스캔/사진은 OCR을 켜고 언어를 정확히 선택(중/영 혼용이면 함께).
  • 변환 후 빠른 검수: 본문 2~3단락 + 핵심 숫자(금액/날짜/번호) 확인.

레이아웃에 대한 현실적인 기대

  • 스캔 PDF→Word는 “인식 + 재배치”라 복잡한 서식을 100% 복원하기 어렵습니다.
  • 목표 우선순위: 복사 가능 → 검색 가능 → 편집 가능, 그 다음 레이아웃 유사도.

흔한 실패와 확실한 대안

1) 오타/누락이 많다: 선명도와 언어부터 점검

  • 언어 선택 오류가 가장 흔합니다.
  • 흐림/반사/그림자: 더 좋은 원본이 가장 효과적입니다.
  • 전처리 대안: 자르기흑백/그레이 → 재변환.

2) 다단/표/각주 때문에 레이아웃이 무너진다: 목표를 분리

  • 표 중심(명세서/성적표 등): Excel이 더 안정적입니다. PDF→Excel
  • 내용만 필요: 텍스트 추출이 더 안정적입니다. PDF→텍스트

3) “엄청 선명한데 검색이 안 된다”: 벡터/복잡한 레이어

다음을 시도해보세요.

4) 권한 제한이 있다: 먼저 잠금 해제(합법적 권한이 있을 때만)

PDF 잠금 해제

컴플라이언스 안내

문서 처리 권한이 있거나 비밀번호를 알고 있는 경우에만 사용하세요. 알 수 없는 비밀번호를 해킹/크랙하는 기능은 지원하지 않습니다.

고가치 조합: Word로 편집하고 “제출용 PDF”로 마무리

실제 업무에서는 Word가 끝이 아니라 “제출 가능한 PDF”가 목표인 경우가 많습니다. 아래처럼 두 구간으로 생각하면 편합니다.

  1. 편집 구간: PDF→Word → (Word 편집) → Word→PDF
  2. 제출 구간(필요 시 추가):

자주 쓰는 순서

  • 일반: PDF로 다시 변환 → 워터마크(선택) → 보호(선택) → 압축(선택, 마지막).
  • 더 강한 ‘보기 전용’이 필요하면 보호 전에 평탄화 또는 래스터화를 추가(텍스트가 이미지가 되며 용량이 늘 수 있음).

FAQ

OCR 후에도 오타가 많은 이유는?

대개 아래 3가지입니다.

  1. 언어 선택 오류.
  2. 원본이 흐림/반사/그림자.
  3. 전처리 부족: 자르기 + 흑백/그레이.

Word로 변환했더니 표가 틀어졌어요.

표 중심 문서라면 PDF→Excel이 더 안정적입니다. 텍스트만 필요하면 PDF→텍스트를 권장합니다.

Word 레이아웃이 원본과 많이 다른데 정상인가요?

정상입니다. “인식 + 재배치” 특성상 완벽 복원이 어렵습니다. 중요한 단락은 Word에서 수동으로 다듬는 게 현실적입니다.

변환 후 체크리스트

  • 금액/날짜/신분증 번호/계약 번호
  • 표 열이 밀림(필요 시 Excel로)
  • 머리말/꼬리말/페이지 번호 누락
  • 문장/조항 누락(특히 사진 촬영본)

관련 도구