画像内にかかれているテキストは厳密にはテキスト形式ではないためコピーできません。
「画像にかかれているテキストをコピペしたい」
そんな時は、OCR(光学文字認識)ツールが便利です。今回はデスクトップ用として、Adobe Acrobat ProとGoogle DriveをのOCR機能を利用してその結果を比較してみました。
目次
Acrobat ProとAcrobat StandardのOCR機能の違いは編集の有無?
そもそもとして、AdobeのOCR機能は、どちらも有料のAcrobat Proと、Acrobat Standard の両バージョンで提供されていますが、機能に違いがあるようです。自分の環境ではProしか確認できないため具体的にどのように異なるのかのチェックができませんが、公式では編集機能が制限されるとあります。
Acrobat Standard は OCR モードの「検索可能な画像」および「検索可能な画像とテキスト」をサポートしています。スキャンされた文書では、OCR モードの「編集可能なテキストと画像」はサポートされていません。
Acrobat Pro は、スキャンされた文書で次の 3 つの OCR モードをサポートしています。
Acrobat STD で、OCR またはテキスト認識を使用できますか?
- 検索可能な画像
- 検索可能な画像とテキスト
- 編集可能なテキストと画像
おそらく、通常の画像のテキストを検出したいという場合であれば、Pro / Standard どちらでも利用できるかと思います。もしStandardで画像のOCRができるというのがわかればコメント欄でお知らせいただけると助かります。
Creative CloudコンプリートプランであればAcrobat Proが含まれています。OCRだけ使いたいというのであれば、Acrobat Pro / Standard 単体のプランも有り。
Adobe Acrobat ProにおけるOCRの手順
Adobe Acrobat Pro環境で話を進めます。Acrobat ProはPDF編集ツールの決定版となり、強力なOCR機能を搭載しています。以下の手順で、画像からテキストを抽出しました。
- Acrobat Proを開き、「ファイル」メニューから「作成」→「ファイルからPDF」を選択して、画像ファイルを選択すると、PDFとして読み込まれる。
- サイドバー「すべてのツール」から「スキャンとOCR」を選択し、「このファイル」から言語が日本語になっていることを確認して「テキストを認識」を実行する。
- OCRが完了すると、テキストが選択可能になり、コピーして別のドキュメントにペーストできます。
後に詳しく解説しますが、Adobe Acrobat ProのOCR精度は非常に高く、ほとんどのテキストが正確に読み取られました。テキストの順番が少し入れ替わりましたが、これは今回使ったサンプル画像が縦書き(右から左に読む形式)だったからと言えます。
Google Driveを使用したOCR
Google DriveもまたOCR機能を備えており、以下の手順で実行しました。
- Googleドライブにログインし、左上にある「新規+」より「ファイルのアップロード」を選択し、OCRを行いたい画像ファイルを選択してドライブにアップロードする。
- アップロードが完了後、画像ファイルを右クリックし、「アプリで開く」より「Googleドキュメント」を選択。
- 別タブが開き、自動的に画像のテキストが読み取られ、編集可能な状態でGoogleドキュメントが生成される。
こちらも後述しますが、Google DriveでのOCR結果は文字の大きさが勝手に変更されることがあるものの、テキストは適切に検出されており、Acrobatと同様に精度が高いことが確認できました。
OCR結果の比較
宮沢賢治の詩「雨ニモマケズ」と弊社のブログ記事を対象に、Adobe Acrobat ProとGoogle Driveを用いたOCRの精度とその結果の違いを比較します。
「雨ニモマケズ」 – Adobe Acrobat Pro
まずは雨ニモマケズのAcrobat Pro。
テキストの読み取りは正確でしたが、全選択してテキストエディタにペーストした際に、元の画像が縦書きレイアウトのためか一部順序が入れ替わってしまう箇所がありました。
「雨ニモマケズ」 – Google Drive
次にDriveです。
テキストは正確に読み取られたものの、文字の大きさが自動的に変更されたことが気になりました。
テキストエディタにペーストした際には、文字の装飾情報は消えるため原文のレイアウトに忠実なのが一発でわかりました。
弊社ブログ記事のスクリーンショット – Adobe Acrobat Pro
次に題材をブログ記事のスクリーンショットに変更します。まずはAcrobat Pro。
OCRの制度は前回同様完璧です。
Acrobat Proが要素ごとに文章を認識し、それによって元の記事のレイアウトを尊重した形でテキストがペーストされました。
弊社ブログ記事のスクリーンショット – Google Drive
最後にDriveでの確認です。
Google Driveはテキストの流れを保ちながら、テキストサイズやフォントスタイルの変更を含む編集が可能なドキュメントを生成しました。テキストの装飾を維持したい場合は便利そうですね。
テキストエディタにペーストすると、文章の順序を正しく保ちつつ、一部改行となるものの、多くのケースで改行位置に半角スペースを出力した結果となりました。
まとめ
Adobe Acrobat ProとGoogle Driveは、どちらも使いやすく、高精度のOCRというのがよくわかりました。ペーストした際に順序がかわるケースがあるというのと、装飾情報を維持したい場合はGoogleドライブが望ましいといえます。
今回はデスクトップ環境でしたが、モバイル版ではAdobe ScanアプリがAdobe Scanアプリがありますし、iPhoneユーザーであれば、iOS標準のOCR機能が利用できるできます。
参考: iPhone や iPad で写真の中のテキストをコピーおよび翻訳する
画像内のテキスト情報を取得したい時にOCRツールを活用し、面倒な抽出作業をコンピュータにまかせまてラクしましょう。
コメントを残す