如何对扫描PDF进行OCR识别并使其可搜索

扫描PDF看起来像正常文档,但对你的电脑来说,它只是一叠照片。你无法搜索它,无法选中一句话复制,屏幕阅读器也无法朗读它。“看起来像文字”和“真的是文字”之间的鸿沟,正是OCR——光学字符识别——要填平的。

本指南将带你用Doqnest的OCR工具对扫描PDF运行OCR,全程在浏览器中完成。文档在你自己的设备上处理,不会上传到任何服务器,试用也不需要账号。

四步对扫描PDF运行OCR

Doqnest会自动检测扫描页面,所以整个过程就是打开文件、点一个按钮这么简单。

  1. 打开OCR PDF工具,选择你的扫描PDF,或直接拖放到页面上。
  2. 编辑器打开后会标记出它识别为扫描件的页面——即背后没有文本层的纯图片页面。
  3. 点击运行OCR。识别在浏览器中对标记的页面进行,并在每张扫描图像上叠加一个不可见的文本层,页面外观完全不变,但现在包含了真正的文字。
  4. 点击下载,把可搜索的PDF保存到你的设备。
小技巧:在下载的文件里搜索(Ctrl+F或Cmd+F)一个你能在扫描页上看到的词。如果能找到,说明OCR成功了——这一页现在是可搜索的PDF了。

OCR到底对你的文档做了什么

OCR不会替换扫描图像——它是在读取图像。软件分析每一页的图片,识别字母和单词的形状,然后把识别结果写入一个隐藏的文本层,精确地放在印刷字符的下方。可见的页面丝毫未动;区别完全在于你的电脑现在能用它做什么。

经过OCR后,扫描页的表现就和原生数字页面一样:可以搜索、可以选中并复制段落、可以让无障碍工具朗读。如果想深入了解识别的原理和它的来龙去脉,见什么是OCR以及它如何工作

如何从纸质文档制作可搜索的PDF

很多时候扫描PDF还不存在——你手上是纸,或者几张手机照片。只要把所有内容整合成一个PDF,流程就是一样的:拍摄或扫描每一页,把图片合并成一个文档,然后对结果运行OCR。

Doqnest也能完成合并这一步:把扫描页合并成一个PDF这篇教程展示了如何把一个装满JPG的文件夹变成一份干净的文档。页面组装好后,在OCR工具中打开文件,一次性对整个文档运行识别。

获得最佳识别精度

OCR的质量很大程度上就是扫描的质量。清晰、端正、光线充足的页面几乎能完美识别;昏暗、歪斜的手机照片则会产生错误。几个习惯能带来很大差别:

  • 以300 DPI扫描,或在光线充足处拍摄。低分辨率或模糊的图像是字符误读的头号原因。
  • 保持页面端正。运行OCR前先在编辑器里把横向页面转正——识别是逐行进行的,默认文字是正立的。
  • 使用平整的页面。书脊附近的弯曲文字和折痕会扭曲字母形状。
  • 尽量用干净的原件。荧光笔痕迹、印章和覆盖在印刷文字上的手写会干扰识别器;纯色背景上的印刷文字效果最好。

在线OCR机密扫描件安全吗?

扫描文档往往正是敏感的那一类——合同、医疗记录、证件页、旧税务文书。对许多在线OCR服务来说,“在线”意味着你的扫描件被上传到服务器、在那里处理,并至少临时存储在别人的机器上。

Doqnest采用不同的方式:识别在你的浏览器内部运行,使用的是你自己设备的处理能力。文件自始至终不离开你的电脑,因此即使是你不会随便发给陌生人的文书,基于浏览器的OCR也是稳妥的选择。

OCR之后可以做什么

可搜索的PDF通常是目标,但它同时也是一个起点。因为文字现在是真实的,你可以从旧报告里复制引文而不用重新打字、几秒钟内在一百页扫描件中搜到一个名字、归档文档时确信以后真的能找回来。

识别后的文档也能很好地融入你的其他工作流:与原生数字文件合并、签署,或压缩后发送。由于扫描件以打印分辨率存储,它们往往很大——OCR之后为邮件减小文件体积是常见的收尾步骤。

常见问题

怎么知道我的PDF需不需要OCR?

试着用鼠标选中一些文字,或搜索一个页面上能看到的词。如果什么都选不中、搜不到,这一页就是纯图片扫描件。Doqnest在你打开文件时也会自动标记扫描页面,并提示对它们运行OCR。

OCR会改变文档的外观吗?

不会。OCR是在扫描图像下方添加一个不可见的文本层;可见页面逐像素保持不变。唯一的区别是你现在可以搜索、选中和复制文字了。

OCR免费吗?有限制吗?

无需创建账号即可运行OCR,免费下载的文件带有一个小的Doqnest水印。可OCR的页数取决于你的方案——付费方案(提供免费试用)包含更大的页数额度和无水印下载。

OCR能识别手写吗?

OCR最擅长的是印刷和打字文本。工整的正楷手写有时能识别,但连笔字和潦草笔记并不可靠。对手写页面,请把OCR结果当作需要对照原件核对的草稿。

OCR支持哪些语言?

识别开箱即用地支持标准的拉丁字母印刷文本,覆盖了大多数日常文档。无论什么语言,干净、高分辨率的扫描件精度最高——关于识别如何处理不同文字系统,见什么是OCR