PDFおよび画像ファイルからテキストを抽出する

すべてのテキストを抽出したいPDFドキュメント(PDF document)がありますか?編集可能なテキストに変換したいスキャンしたドキュメントの画像ファイルはどうですか?これらは、ファイルを操作するときに職場で見た最も一般的な問題の一部です。

この記事では、 PDF(PDF)または画像からテキストを抽出するためのさまざまな方法について説明します。抽出結果は、 PDFまたは画像(PDF or image)のテキストの種類と品質(type and quality)によって異なります。また、使用するツールによって結果が異なるため、最良の結果を得るには、以下のオプションをできるだけ多く試してみることをお勧めします。

画像またはPDFからテキストを抽出する

開始する最も簡単で迅速な方法は、オンラインPDFテキスト(PDF text) 抽出サービス(extractor service)を試すことです。これらは通常無料で、コンピュータに何もインストールしなくても、探しているものを正確に提供できます。これが私が使用した2つで、非常に良い結果から優れた結果が得られました。

ExtractPDF

extractpdf

ExtractPDFは、PDFファイルから画像、(PDF file)テキスト、フォント(text and fonts)を取得するための無料のツールです。唯一の制限は、PDFファイルの(PDF file)最大サイズ(max size)が10MBであることです。それは少し小さいです。したがって、より大きなファイルがある場合は、以下の他の方法のいくつかを試してください。ファイルを選択し、[ファイルの送信(Send file)]ボタンをクリックします。通常、結果は非常に高速であり、[テキスト]タブ(Text tab)をクリックするとテキストのプレビューが表示されます。

テキストをダウンロード

また、必要な場合に備えて、 PDFファイル(PDF file)から画像を抽出することも利点です。全体として、オンラインツールはうまく機能しますが、面白い出力を提供するPDFドキュメントをいくつか見つけました。(PDF docs)テキストは問題なく抽出されますが、何らかの理由で、各単語の後に改行が入ります。(line break)短いPDFファイル(PDF file)の場合は大きな問題ではありませんが、テキストが多いファイルの場合は確かに問題になります。それが発生した場合は、次のツールを試してください。

オンラインOCR

オンラインOCRは通常、 (Online OCR)ExtractPDFで適切に変換されなかったドキュメントに対して機能する傾向があるため、両方のサービスを試して、どちらがより良い出力を提供するかを確認することをお勧めします。オンラインOCR(Online OCR)には、ドキュメント全体ではなく数ページのテキストを変換するだけでよい大きなPDFファイル(PDF file)を持っている人にとって便利ないくつかの優れた機能もあります。

最初にやりたいことは、先に進んで無料のアカウントを作成することです。少し面倒ですが、無料のアカウントを作成しないと、ドキュメント全体ではなく、 PDFの一部しか変換されません。(PDF)また、5 MBのドキュメント(MB document)しかアップロードできないのではなく、アカウントを使用してファイルごとに最大100MBをアップロードできます。

オンラインocr

まず、言語を選択してから、変換されたファイルに使用する出力形式のタイプを選択します。いくつかのオプションがあり、必要に応じて複数を選択できます。[複数ページのドキュメント](Multipage document)で、[ページ番号(Page numbers)]を選択してから、変換するページのみを選択できます。次に、ファイル(file and click) を選択して[変換(Convert)]をクリックします。

オンラインocrドキュメント

変換後、[ドキュメント(Documents)]セクション(ログインしている場合)が表示され、残りの利用可能な空きページの数と、変換されたファイルをダウンロードするためのリンクが表示されます。1日25ページしか無料ではないようです。それ以上必要な場合は、少し待つか、さらにページを購入する必要があります。

オンラインOCR(Online OCR)は、テキストの実際のレイアウトを維持することができたため、 PDFを変換する優れた仕事をしました。私のテストでは、箇条書きやさまざまなフォントサイズなどを使用したWord文書を取得し、 (Word doc)PDFに変換しました。次に、オンラインOCRを使用して(Online OCR)Word形式(Word format)に変換し直しましたが、元の形式と約95%同じでした。それは私にとってかなり印象的です。

さらに、画像をテキストに変換する場合、OnlineOCRは(Online OCR)PDFファイルからテキストを抽出するのと同じくらい簡単にそれを行うことができます。

無料のオンラインOCR

画像からテキストへのOCR(OCR)について話していたので、画像で非常にうまく機能する別の優れたWebサイトについて説明します。 テスト画像からテキストを抽出する場合、無料のオンラインOCR(Free Online OCR)は非常に優れていて非常に正確でした。iPhoneから本やパンフレットなどのページの写真を何枚か撮りましたが、テキストをうまく変換できたことに驚きました。

無料のオンラインOCR

ファイルを選択し、[アップロード]ボタン(Upload button)をクリックします。次の画面には、いくつかのオプションと画像のプレビューがあります。全体をOCRしたくない場合は、トリミングできます。次に、[ OCR]ボタン(OCR button)をクリックするだけで、変換されたテキストが画像プレビュー(image preview)の下に表示されます。また、制限はありません。これは本当に素晴らしいことです。

オンラインサービスに加えて、変換を実行するためにコンピューター上でローカルに実行されているソフトウェアが必要な場合に備えて、 2つのフリーウェアPDFコンバーターについて言及したいと思います。(PDF)オンラインサービスでは、常にインターネット接続(Internet connection)が必要ですが、それがすべての人に可能であるとは限りません。しかし、フリーウェアプログラムからの変換の品質がWebサイトの変換の品質よりも大幅に悪いことに気づきました。

A-PDFテキストエクストラクタ

A-PDF Text Extractorは、PDFファイル(PDF file)からテキストを抽出するのにかなり良い仕事をするフリーウェアです。ダウンロードしてインストールしたら、[開く]ボタンをクリック(Once)(Open button)PDFファイル(PDF file)を選択します。次に、[テキストの抽出(Extract text)]をクリックしてプロセスを開始します。

apdfエクストラクタ

テキスト出力ファイル(text output file)を保存する場所を尋ねられ、抽出が開始されます。[オプション(Option)]ボタンをクリックして、抽出する特定のページと抽出タイプ(extraction type)のみを選択することもできます。2番目のオプションは、さまざまなレイアウトでテキストを抽出するため興味深いものであり、3つすべてを試して、どれが最良の出力を提供するかを確認する価値があります。

PDF2Textパイロット

PDF2Text Pilot は、テキストを抽出するという大丈夫な仕事をします。オプションはありません。ファイルやフォルダを追加し、変換し(convert and hope)て、最高のものを期待するだけです。一部のPDF(PDFs)ではうまく機能しましたが、大部分のPDFには多くの問題がありました。

pdf2text

[ファイルの追加(Add Files)]をクリックしてから、[変換(Convert)]をクリックするだけです。変換が完了したら、[参照]をクリックし(Browse)ファイルを開きます。このプログラムを使用するとマイレージが異なりますので、あまり期待しないでください。

また、企業環境にいる場合、または仕事からAdobe Acrobatのコピーを手に入れることができる場合は、はるかに優れた結果を得ることができることにも言及する価値があります。Acrobatは明らかに無料ではありませんが、PDFWordExcel、およびHTML形式(Excel and HTML format)に変換するオプションがあります。また、元のドキュメントの構造を維持し、複雑なテキストを変換するのに最適です。



About the author

私はユタ大学でコンピュータ エンジニアリングを卒業し、ソフトウェア開発と Windows 開発で 10 年以上の経験があります。PDF や Office ドキュメントを扱った経験があり、iOS や Android プラットフォームを使用してガジェットを作成した経験もあります。



Related posts