스캔한 PDF를 OCR 처리해 검색 가능하게 만드는 방법

스캔한 PDF는 일반 문서처럼 보이지만, 컴퓨터에게는 사진 더미일 뿐입니다. 검색할 수 없고, 복사할 문장을 선택할 수 없으며, 화면 낭독기도 읽어 주지 못합니다. “텍스트처럼 보이는 것”과 “텍스트인 것” 사이의 이 간극을 메우는 것이 바로 OCR — 광학 문자 인식 — 입니다.

이 가이드에서는 Doqnest의 OCR 도구로 스캔한 PDF에 OCR을 실행하는 과정을 안내합니다. 전 과정이 브라우저에서 이루어지고, 문서는 사용자의 기기에서 처리되며, 서버에 업로드되는 것이 없고, 사용해 보는 데 계정도 필요 없습니다.

네 단계로 스캔 PDF에 OCR 실행하기

Doqnest는 스캔 페이지를 자동으로 감지하므로, 전체 과정은 파일을 열고 버튼 하나를 클릭하는 것으로 요약됩니다.

  1. OCR PDF 도구를 열고 스캔한 PDF를 선택하거나 페이지로 드래그 앤 드롭하세요.
  2. 편집기가 열리면 스캔으로 인식된 페이지 — 텍스트 레이어가 없는 이미지 전용 페이지 — 에 표시가 붙습니다.
  3. OCR 실행을 클릭하세요. 표시된 페이지에 대해 브라우저에서 인식이 실행되고, 각 스캔 이미지 위에 보이지 않는 텍스트 레이어가 추가됩니다. 페이지 모습은 그대로지만 이제 진짜 텍스트가 담겨 있습니다.
  4. 다운로드를 클릭해 검색 가능한 PDF를 기기에 저장하세요.
팁: 다운로드한 파일에서 스캔 페이지에 보이는 단어를 검색해 보세요(Ctrl+F 또는 Cmd+F). 검색되면 OCR이 성공한 것입니다. 이제 그 페이지는 검색 가능한 PDF입니다.

OCR이 문서에 실제로 하는 일

OCR은 스캔 이미지를 대체하지 않습니다. 이미지를 읽습니다. 소프트웨어가 각 페이지의 그림을 분석해 글자와 단어의 모양을 인식하고, 찾아낸 내용을 인쇄된 글자 바로 아래에 정밀하게 배치된 숨겨진 텍스트 레이어에 기록합니다. 눈에 보이는 페이지는 그대로이며, 달라지는 것은 컴퓨터가 그 페이지로 할 수 있는 일입니다.

OCR 후에는 스캔 페이지가 처음부터 디지털로 만들어진 페이지처럼 동작합니다. 검색하고, 구절을 선택해 복사하고, 접근성 도구가 읽게 할 수 있습니다. 인식이 어떻게 작동하고 어디에서 왔는지 더 알고 싶다면 OCR이란 무엇이고 어떻게 작동할까를 참고하세요.

종이 문서로 검색 가능한 PDF 만드는 방법

스캔한 PDF가 아직 없는 경우도 많습니다. 종이 문서나 휴대폰 사진 몇 장만 있는 것이죠. 모든 것을 하나의 PDF로 모으고 나면 작업 흐름은 같습니다. 각 페이지를 촬영하거나 스캔하고, 이미지를 하나의 문서로 합친 다음, 결과물에 OCR을 실행하세요.

합치는 단계도 Doqnest가 처리합니다. 스캔한 페이지를 하나의 PDF로 합치기 안내에서 JPG 폴더를 하나의 깔끔한 문서로 만드는 방법을 보여 줍니다. 페이지가 모두 조립되면 OCR 도구에서 파일을 열고 전체를 한 번에 인식시키세요.

최고의 인식 정확도를 얻는 방법

OCR 품질은 대부분 스캔 품질입니다. 선명하고 반듯하며 조명이 좋은 페이지는 거의 완벽하게 인식되지만, 어둡고 기울어진 휴대폰 사진은 오류를 만듭니다. 몇 가지 습관이 큰 차이를 만듭니다.

  • 300 DPI로 스캔하거나 좋은 조명에서 촬영하세요. 저해상도이거나 흐릿한 이미지가 글자 오인식의 첫 번째 원인입니다.
  • 페이지를 반듯하게 유지하세요. OCR을 실행하기 전에 편집기에서 옆으로 누운 페이지를 회전하세요. 인식은 줄 단위로 작동하며 똑바로 선 텍스트를 전제로 합니다.
  • 평평한 페이지를 사용하세요. 책등 근처의 휘어진 텍스트와 접힌 자국은 글자 모양을 왜곡합니다.
  • 깨끗한 원본을 선호하세요. 형광펜 자국, 도장, 인쇄된 글자 위의 손글씨는 인식기를 혼란스럽게 합니다. 단순한 배경 위의 인쇄 텍스트가 가장 잘 됩니다.

기밀 스캔을 온라인에서 OCR 처리해도 안전할까요?

스캔 문서는 종종 민감한 문서입니다. 계약서, 의료 기록, 신분증 페이지, 오래된 세금 서류 같은 것들이죠. 많은 온라인 OCR 서비스에서 “온라인”이란 스캔이 서버에 업로드되어 그곳에서 처리되고, 적어도 일시적으로는 남의 컴퓨터에 저장된다는 뜻입니다.

Doqnest는 다른 접근을 취합니다. 인식이 사용자의 기기 처리 능력을 사용해 브라우저 안에서 실행됩니다. 파일이 어느 시점에도 컴퓨터를 벗어나지 않으므로, 낯선 사람에게 이메일로 보내지 않을 서류에도 브라우저 기반 OCR은 믿을 만한 선택입니다.

OCR 이후에 할 일

검색 가능한 PDF가 보통 목표이지만, 동시에 출발점이기도 합니다. 이제 텍스트가 진짜이므로, 오래된 보고서의 인용문을 다시 타이핑하는 대신 복사할 수 있고, 100페이지 스캔에서 이름을 몇 초 만에 검색할 수 있으며, 나중에 실제로 다시 찾을 수 있다는 확신을 갖고 문서를 보관할 수 있습니다.

인식된 문서는 나머지 작업 흐름과도 잘 어울립니다. 디지털로 만들어진 파일과 병합하고, 서명하고, 전송용으로 줄이세요. 스캔은 인쇄 해상도로 저장되어 무거운 편이므로, OCR 후 이메일용으로 파일 크기 줄이기가 흔한 마지막 단계입니다.

자주 묻는 질문

내 PDF에 OCR이 필요한지 어떻게 알 수 있나요?

마우스로 텍스트를 선택해 보거나 페이지에 보이는 단어를 검색해 보세요. 아무것도 선택되거나 검색되지 않으면 그 페이지는 이미지 전용 스캔입니다. Doqnest는 파일을 열 때 스캔 페이지를 자동으로 표시하고 OCR 실행을 제안하기도 합니다.

OCR이 문서의 모양을 바꾸나요?

아니요. OCR은 스캔 이미지 아래에 보이지 않는 텍스트 레이어를 추가합니다. 눈에 보이는 페이지는 픽셀 하나까지 그대로입니다. 유일한 차이는 이제 텍스트를 검색하고, 선택하고, 복사할 수 있다는 점입니다.

OCR은 무료인가요? 제한이 있나요?

계정을 만들지 않고도 OCR을 실행할 수 있으며, 무료 다운로드에는 작은 Doqnest 워터마크가 표시됩니다. OCR 처리할 수 있는 페이지 수는 플랜에 따라 다릅니다. 무료 체험으로 시작하는 유료 플랜에는 더 많은 페이지 허용량과 워터마크 없는 다운로드가 포함됩니다.

OCR이 손글씨도 읽을 수 있나요?

OCR이 빛나는 영역은 인쇄체와 타자기 텍스트입니다. 또박또박 쓴 정자체는 가끔 인식되지만, 필기체와 흘려 쓴 메모는 신뢰하기 어렵습니다. 손글씨 페이지라면 OCR 결과를 원본과 대조할 초안 정도로 여기세요.

OCR은 어떤 언어에서 작동하나요?

기본적으로 표준 인쇄체 라틴 문자 텍스트를 인식하며, 대부분의 일상 문서가 여기에 해당합니다. 언어와 무관하게 깨끗한 고해상도 스캔에서 정확도가 가장 높습니다. 인식이 다양한 문자를 어떻게 처리하는지는 OCR이란 무엇인가를 참고하세요.