スキャンしたPDFをOCRで検索可能にする方法

スキャンしたPDFは普通の文書に見えますが、コンピューターにとっては写真の束にすぎません。検索できず、文を選択してコピーすることもできず、スクリーンリーダーも読み上げられません。「文字に見える」と「文字である」の間のこの溝を埋めるのが、OCR——光学文字認識——です。

このガイドでは、DoqnestのOCRツールを使い、すべてブラウザ内でスキャンPDFにOCRをかける手順を解説します。文書はお使いのデバイス上で処理され、サーバーには何もアップロードされず、お試しにアカウントも不要です。

4つのステップでスキャンPDFにOCRをかける

Doqnestはスキャンページを自動検出するため、全工程はファイルを開いてボタンを1つクリックするだけです。

  1. OCR PDFツールを開き、スキャンしたPDFを選択するか、ページにドラッグ&ドロップします。
  2. エディタが開き、スキャンと認識されたページ——背後にテキストレイヤーを持たない画像のみのページ——に印が付きます。
  3. OCRを実行をクリックします。認識は印の付いたページに対してブラウザ内で実行され、各スキャン画像の上に見えないテキストレイヤーが追加されます。ページの見た目はまったく変わりませんが、本物のテキストを含むようになります。
  4. ダウンロードをクリックして、検索可能になったPDFをデバイスに保存します。
ヒント:ダウンロードしたファイルで、スキャンページに見えている単語を検索(Ctrl+FまたはCmd+F)してみましょう。見つかればOCRは成功——そのページは検索可能なPDFになっています。

OCRが文書に実際に行うこと

OCRはスキャン画像を置き換えるのではなく、読み取ります。ソフトウェアが各ページの画像を分析し、文字や単語の形を認識して、読み取った内容を印刷された文字のちょうど下に位置する隠しテキストレイヤーに書き込みます。見えるページには手を付けません。違いは、コンピューターがそのページで何をできるようになるかにあります。

OCR後のスキャンページは、最初からデジタルで作られたページと同じように振る舞います。検索でき、文章を選択・コピーでき、アクセシビリティツールに読み上げさせることもできます。認識の仕組みとその成り立ちをより深く知りたい方は、OCRとは何か、どう機能するのかをご覧ください。

紙の書類から検索可能なPDFを作る方法

スキャンPDFがまだ存在しないこともよくあります。手元にあるのは紙、あるいはスマホ写真の何枚か。すべてを1つのPDFにまとめてしまえば、流れは同じです。各ページを撮影またはスキャンし、画像を1つの文書に結合し、その結果にOCRをかけます。

Doqnestは結合の工程もこなします。スキャンしたページを1つのPDFにまとめる方法の解説では、JPGでいっぱいのフォルダーを1つのきれいな文書に変える手順を紹介しています。ページがそろったら、OCRツールでファイルを開き、全体に一度で認識をかけましょう。

認識精度を最大限に高めるには

OCRの品質は、ほぼスキャンの品質で決まります。鮮明でまっすぐ、明るく撮れたページはほぼ完璧に認識され、暗くて傾いたスマホ写真はエラーを生みます。いくつかの習慣が大きな差を生みます。

  • 300 DPIでスキャンするか、明るい場所で撮影する。低解像度やぼやけた画像は、文字の誤認識の最大の原因です。
  • ページをまっすぐに保つ。OCRを実行する前に、横向きのページをエディタで回転させましょう。認識は行単位で行われ、文字が正立している前提です。
  • 平らなページを使う。本の背表紙付近の湾曲した文字や折り目は、文字の形をゆがめます。
  • きれいな原本を選ぶ。蛍光ペンの跡、スタンプ、印刷文字に重なる手書きは認識エンジンを混乱させます。無地の背景に印刷された文字が最も良い結果になります。

機密スキャンのオンラインOCRは安全?

スキャン文書は往々にして機微なものです——契約書、医療記録、身分証のページ、昔の税務書類。多くのオンラインOCRサービスにおいて「オンライン」とは、スキャンがサーバーにアップロードされ、そこで処理され、少なくとも一時的に他人のマシンに保存されることを意味します。

Doqnestは別のアプローチを取ります。認識はブラウザの内部で、お使いのデバイスの処理能力を使って実行されます。ファイルはどの時点でもパソコンの外に出ないため、見知らぬ相手にメールでは送らないような書類でも、ブラウザベースのOCRなら安心して使えます。

OCRの後にすること

検索可能なPDFはたいていゴールですが、同時にスタート地点でもあります。テキストが本物になったので、古い報告書から引用を打ち直さずにコピーでき、100ページのスキャンから名前を数秒で検索でき、後で確実に見つけられると分かった上で文書をアーカイブできます。

認識済みの文書は、その後のワークフローとも相性抜群です。デジタル生まれのファイルと結合する、署名する、送信用に縮小する。スキャンは印刷解像度で保存されるため重くなりがちで、OCR後にメール用にファイルサイズを減らすのはよくある仕上げの一手です。

よくある質問

自分のPDFにOCRが必要かどうかは、どう分かりますか?

マウスで文字を選択してみるか、ページに見えている単語を検索してみてください。何も選択できず見つからなければ、そのページは画像だけのスキャンです。Doqnestはファイルを開いたときにスキャンページを自動で検出し、OCRの実行を提案します。

OCRで文書の見た目は変わりますか?

いいえ。OCRはスキャン画像の下に見えないテキストレイヤーを追加するだけで、見えるページはピクセル単位で同じままです。違いは、テキストの検索・選択・コピーができるようになることだけです。

OCRは無料ですか?制限はありますか?

アカウントを作らなくてもOCRを実行でき、無料ダウンロードには小さなDoqnestの透かしが入ります。OCRできるページ数はプランによって異なり、有料プラン(無料トライアルから始められます)ではより大きなページ数の枠と透かしなしダウンロードが利用できます。

OCRは手書き文字を読めますか?

OCRが得意なのは印刷・タイプされた文字です。丁寧なブロック体の手書きは認識できることもありますが、筆記体や走り書きは当てになりません。手書きのページでは、OCRの結果を原本と照合すべき下書きとして扱ってください。

OCRはどの言語に対応していますか?

認識は標準的なラテン文字の印刷テキストに標準対応しており、日常的な文書の大半をカバーします。言語を問わず、きれいで高解像度のスキャンほど精度は高くなります。認識がさまざまな文字体系をどう扱うかはOCRとはをご覧ください。