如何对扫描PDF进行OCR识别并使其可搜索

扫描PDF看起来像正常文档，但对你的电脑来说，它只是一叠照片。你无法搜索它，无法选中一句话复制，屏幕阅读器也无法朗读它。“看起来像文字”和“真的是文字”之间的鸿沟，正是OCR——光学字符识别——要填平的。

本指南将带你用Doqnest的OCR工具对扫描PDF运行OCR，全程在浏览器中完成。文档在你自己的设备上处理，不会上传到任何服务器，试用也不需要账号。

四步对扫描PDF运行OCR

Doqnest会自动检测扫描页面，所以整个过程就是打开文件、点一个按钮这么简单。

小技巧：在下载的文件里搜索（Ctrl+F或Cmd+F）一个你能在扫描页上看到的词。如果能找到，说明OCR成功了——这一页现在是可搜索的PDF了。

OCR不会替换扫描图像——它是在读取图像。软件分析每一页的图片，识别字母和单词的形状，然后把识别结果写入一个隐藏的文本层，精确地放在印刷字符的下方。可见的页面丝毫未动；区别完全在于你的电脑现在能用它做什么。

经过OCR后，扫描页的表现就和原生数字页面一样：可以搜索、可以选中并复制段落、可以让无障碍工具朗读。如果想深入了解识别的原理和它的来龙去脉，见什么是OCR以及它如何工作。

很多时候扫描PDF还不存在——你手上是纸，或者几张手机照片。只要把所有内容整合成一个PDF，流程就是一样的：拍摄或扫描每一页，把图片合并成一个文档，然后对结果运行OCR。

Doqnest也能完成合并这一步：把扫描页合并成一个PDF这篇教程展示了如何把一个装满JPG的文件夹变成一份干净的文档。页面组装好后，在OCR工具中打开文件，一次性对整个文档运行识别。

OCR的质量很大程度上就是扫描的质量。清晰、端正、光线充足的页面几乎能完美识别；昏暗、歪斜的手机照片则会产生错误。几个习惯能带来很大差别：

扫描文档往往正是敏感的那一类——合同、医疗记录、证件页、旧税务文书。对许多在线OCR服务来说，“在线”意味着你的扫描件被上传到服务器、在那里处理，并至少临时存储在别人的机器上。

Doqnest采用不同的方式：识别在你的浏览器内部运行，使用的是你自己设备的处理能力。文件自始至终不离开你的电脑，因此即使是你不会随便发给陌生人的文书，基于浏览器的OCR也是稳妥的选择。

可搜索的PDF通常是目标，但它同时也是一个起点。因为文字现在是真实的，你可以从旧报告里复制引文而不用重新打字、几秒钟内在一百页扫描件中搜到一个名字、归档文档时确信以后真的能找回来。

识别后的文档也能很好地融入你的其他工作流：与原生数字文件合并、签署，或压缩后发送。由于扫描件以打印分辨率存储，它们往往很大——OCR之后为邮件减小文件体积是常见的收尾步骤。

试着用鼠标选中一些文字，或搜索一个页面上能看到的词。如果什么都选不中、搜不到，这一页就是纯图片扫描件。Doqnest在你打开文件时也会自动标记扫描页面，并提示对它们运行OCR。

不会。OCR是在扫描图像下方添加一个不可见的文本层；可见页面逐像素保持不变。唯一的区别是你现在可以搜索、选中和复制文字了。

无需创建账号即可运行OCR，免费下载的文件带有一个小的Doqnest水印。可OCR的页数取决于你的方案——付费方案（提供免费试用）包含更大的页数额度和无水印下载。

OCR最擅长的是印刷和打字文本。工整的正楷手写有时能识别，但连笔字和潦草笔记并不可靠。对手写页面，请把OCR结果当作需要对照原件核对的草稿。

识别开箱即用地支持标准的拉丁字母印刷文本，覆盖了大多数日常文档。无论什么语言，干净、高分辨率的扫描件精度最高——关于识别如何处理不同文字系统，见什么是OCR。