如何对扫描PDF进行OCR识别并使其可搜索
扫描PDF看起来像正常文档,但对你的电脑来说,它只是一叠照片。你无法搜索它,无法选中一句话复制,屏幕阅读器也无法朗读它。“看起来像文字”和“真的是文字”之间的鸿沟,正是OCR——光学字符识别——要填平的。
本指南将带你用Doqnest的OCR工具对扫描PDF运行OCR,全程在浏览器中完成。文档在你自己的设备上处理,不会上传到任何服务器,试用也不需要账号。
四步对扫描PDF运行OCR
Doqnest会自动检测扫描页面,所以整个过程就是打开文件、点一个按钮这么简单。
- 打开OCR PDF工具,选择你的扫描PDF,或直接拖放到页面上。
- 编辑器打开后会标记出它识别为扫描件的页面——即背后没有文本层的纯图片页面。
- 点击运行OCR。识别在浏览器中对标记的页面进行,并在每张扫描图像上叠加一个不可见的文本层,页面外观完全不变,但现在包含了真正的文字。
- 点击下载,把可搜索的PDF保存到你的设备。
OCR到底对你的文档做了什么
OCR不会替换扫描图像——它是在读取图像。软件分析每一页的图片,识别字母和单词的形状,然后把识别结果写入一个隐藏的文本层,精确地放在印刷字符的下方。可见的页面丝毫未动;区别完全在于你的电脑现在能用它做什么。
经过OCR后,扫描页的表现就和原生数字页面一样:可以搜索、可以选中并复制段落、可以让无障碍工具朗读。如果想深入了解识别的原理和它的来龙去脉,见什么是OCR以及它如何工作。
如何从纸质文档制作可搜索的PDF
很多时候扫描PDF还不存在——你手上是纸,或者几张手机照片。只要把所有内容整合成一个PDF,流程就是一样的:拍摄或扫描每一页,把图片合并成一个文档,然后对结果运行OCR。
Doqnest也能完成合并这一步:把扫描页合并成一个PDF这篇教程展示了如何把一个装满JPG的文件夹变成一份干净的文档。页面组装好后,在OCR工具中打开文件,一次性对整个文档运行识别。
获得最佳识别精度
OCR的质量很大程度上就是扫描的质量。清晰、端正、光线充足的页面几乎能完美识别;昏暗、歪斜的手机照片则会产生错误。几个习惯能带来很大差别:
- 以300 DPI扫描,或在光线充足处拍摄。低分辨率或模糊的图像是字符误读的头号原因。
- 保持页面端正。运行OCR前先在编辑器里把横向页面转正——识别是逐行进行的,默认文字是正立的。
- 使用平整的页面。书脊附近的弯曲文字和折痕会扭曲字母形状。
- 尽量用干净的原件。荧光笔痕迹、印章和覆盖在印刷文字上的手写会干扰识别器;纯色背景上的印刷文字效果最好。
在线OCR机密扫描件安全吗?
扫描文档往往正是敏感的那一类——合同、医疗记录、证件页、旧税务文书。对许多在线OCR服务来说,“在线”意味着你的扫描件被上传到服务器、在那里处理,并至少临时存储在别人的机器上。
Doqnest采用不同的方式:识别在你的浏览器内部运行,使用的是你自己设备的处理能力。文件自始至终不离开你的电脑,因此即使是你不会随便发给陌生人的文书,基于浏览器的OCR也是稳妥的选择。
OCR之后可以做什么
可搜索的PDF通常是目标,但它同时也是一个起点。因为文字现在是真实的,你可以从旧报告里复制引文而不用重新打字、几秒钟内在一百页扫描件中搜到一个名字、归档文档时确信以后真的能找回来。
识别后的文档也能很好地融入你的其他工作流:与原生数字文件合并、签署,或压缩后发送。由于扫描件以打印分辨率存储,它们往往很大——OCR之后为邮件减小文件体积是常见的收尾步骤。
常见问题
怎么知道我的PDF需不需要OCR?
试着用鼠标选中一些文字,或搜索一个页面上能看到的词。如果什么都选不中、搜不到,这一页就是纯图片扫描件。Doqnest在你打开文件时也会自动标记扫描页面,并提示对它们运行OCR。
OCR会改变文档的外观吗?
不会。OCR是在扫描图像下方添加一个不可见的文本层;可见页面逐像素保持不变。唯一的区别是你现在可以搜索、选中和复制文字了。
OCR免费吗?有限制吗?
无需创建账号即可运行OCR,免费下载的文件带有一个小的Doqnest水印。可OCR的页数取决于你的方案——付费方案(提供免费试用)包含更大的页数额度和无水印下载。
OCR能识别手写吗?
OCR最擅长的是印刷和打字文本。工整的正楷手写有时能识别,但连笔字和潦草笔记并不可靠。对手写页面,请把OCR结果当作需要对照原件核对的草稿。
OCR支持哪些语言?
识别开箱即用地支持标准的拉丁字母印刷文本,覆盖了大多数日常文档。无论什么语言,干净、高分辨率的扫描件精度最高——关于识别如何处理不同文字系统,见什么是OCR。