ハイライトされたテキストをPDFからテキストファイルとして抽出する方法は?

PDFドキュメントのテキストを強調表示すると、後ですばやくアクセスできる重要な領域をマークするのに便利です。Microsoft Edgeを(Microsoft Edge to highlight PDF)使用して、PDFまたはPDF強調表示機能 を備えたその他のソフトウェアを強調表示できます。場合によっては、重要なテキストをすべて含むPDFの要約を作成できるように、強調表示されたテキストのみを表示する必要があると感じたこともあります。PDFから強調表示されたテキストのみを(PDF)TXTファイルとして保存する方法を探している場合は、この投稿が役立ちます。

PDFからハイライトされたテキストを抽出する

PDFファイルからハイライトされたテキストを抽出してテキストファイルとして保存するための無料のソフトウェアとサービスがいくつかあります。

  • PDFハイライトエクストラクタ
  • Foxit Reader
  • Sumnotes.net
  • DyAnnotationExtractor。

これらのPDFハイライトエクストラクタ(PDF Highlight Extractor)ソフトウェアを1つずつ確認してみましょう。

1]PDFハイライトエクストラクタ

PDFハイライト抽出ソフトウェア

PDFハイライトエクストラクタは、 (PDF Highlight Extractor)PDFファイルからハイライトされたテキストを抽出するための最も簡単なオプションの1つです。このオープンソースの(open-source) PDFテキストハイライトエクストラクタ(PDF text highlight extractor)には、注目を集める2つの機能があります。ソフトウェアインターフェイスでPDFの強調表示されたテキストをプレビュー(preview highlighted text)できます。

2番目の機能は、開始ページ、終了ページ、またはページ範囲を設定してテキストを抽出できることです(set start or end page or page range to extract the text)したがって、 PDF(PDF)全体をスキャンする代わりに、ページ番号を定義して強調表示されたテキストを取得できます。

もう1つの優れた機能は、テキストをプレーンテキスト(save text as plain text)またはExcelファイル(Excel file)として保存するオプションがあることです。

そのインターフェイスで、指定されたオプションを使用してPDFファイルを追加し、[(PDF)抽出(Extract)]ボタンを押します。ページ範囲を設定するか、そのままにする場合は、[すべてのページ]オプションをオフにします。(All Pages)テキストが取得されると、プレビューできます。最後に、 [テキスト(Text)]または[ Excel ]ボタンを押して、強調表示されたテキストを保存します。

このソフトウェアはここ(here)からダウンロードできます。このソフトウェアを使用するには、 Java(Java)も必要です。したがって、Javaをインストールし(まだインストールされていない場合)、このソフトウェアを実行して使用します。

2] Foxit Reader

PDFからハイライトされたテキストを抽出する

Foxit Readerは、最高の無料PDFリーダーの1つです。複数のPDFファイルを別々のタブで開いたり、 PDFを強調表示したり、メモを追加したり、コメントをエクスポートしたり(export comments)署名(add signatures)を追加したりすることができます。機能の膨大なリストの中には、 PDF(PDF)からハイライトされたテキストを抽出することもあります。この機能の最も優れている点は、抽出されたテキストとともにページ番号も保存される(saves page numbers along with the extracted text)ことです。

強調表示されたテキストをPDF(PDF)から取得するには、そのインターフェイスでPDFファイルを開き、[コメント(Comment)]タブにアクセスします。そのタブで、[コメントの管理]セクションにある[(Manage Comments)エクスポート(Export)]オプションをクリックします。[強調表示されたテキスト(Highlighted Text)]オプションが表示されます。このオプションを使用すると、強調表示されたすべてのテキストをテキストファイルとして保存できます。

この(Here)ソフトウェアのダウンロードリンクは次のとおりです。インストール中に、このソフトウェアの必要なコンポーネントのみを含めるようにカスタムインストール(custom installation)を選択する必要があります。

3] Sumnotes.net

要約

Sumnotes.netは、 (Sumnotes.net)PDFに注釈を付けたり、強調表示されたテキストを抽出したりできる無料のサービスです。ハイライトされたテキストはすべて、左側のサイドバーに個別に表示されます。そのサイドバーを使用して、不要な強調表示されたテキストを削除して(remove highlighted text that you don’t need)から、強調表示された残りのテキストをダウンロードすることもできます。

ハイライトされたテキストをダウンロードする前に、ページ番号を含めたり、特定の色(highlighted text of specific color)のハイライトされたテキストを除外(exclude)したりすることもできます。

PDFから強調表示されたテキストをExcel(save highlighted text from PDF as Excel)またはWordファイルとして保存するオプションもあります。だから、機能は良いです。無料プランでサインアップしてから、ダウンロードごとに(per download)50のハイライト(extract 50 highlights)または注釈を抽出できます。これはほとんどの場合十分です。

こちら(Here)がそのホームページへのリンクです。PDFから強調表示されたテキストを抽出するには、PCまたはGoogleドライブから(Google Drive)PDFを追加します。PDFをアップロードすると、左側に注釈と強調表示されたテキストが表示されます。[注釈のダウンロード(Download Annotations)]オプションを使用すると、強調表示されたテキストをTXTXLSX、またはDOC形式のファイルに保存できます。

4] DyAnnotationExtractor

DyAnnotationExtractorコマンドラインソフトウェア

DyAnnotationExtractorソフトウェアは、PDFドキュメントから強調表示されたテキストとコメント(comments)を抽出するのに役立ちます。これはコマンドライン(command-line)ソフトウェアですが、使用は非常に簡単です。1つのコマンドだけで、入力PDF(PDF)ファイルで強調表示されているテキストをフェッチします。

このリンク(this link)を使用してこのソフトウェアを入手できます。ZIPファイルをダウンロード(Download)して解凍します。コマンドを実行しやすくするために、このソフトウェアを解凍したのと同じフォルダーにPDFを配置する必要もあります。(PDF)その後、そのフォルダでコマンドプロンプト(Command Prompt)ウィンドウを開きます。そのフォルダのアドレスボックスにcmdと入力し、 (cmd)Enterキーを押すと、これを行うことができます。

CMDウィンドウが開いたら、このソフトウェアのBATファイル、入力PDFのパスを含む入力コマンド、出力コマンド、出力ファイルの名前、および「.txt」拡張子を追加します。完全なコマンドは次のようになります-

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

コマンドを実行します。数秒待つと、その(Wait)PDFからフェッチされたすべての強調表示されたテキストとコメントを含むプレーンテキストファイルの準備が整います。出力ファイルは同じ入力フォルダーに保存されます。

したがって、これらは、 PDF(PDF)から強調表示されたテキストを抽出し、出力をテキストファイルとして保存するために使用できるいくつかのオプションです。これらの助けを願っ(Hope)ています。



About the author

私はユタ大学でコンピュータ エンジニアリングを卒業し、ソフトウェア開発と Windows 開発で 10 年以上の経験があります。PDF や Office ドキュメントを扱った経験があり、iOS や Android プラットフォームを使用してガジェットを作成した経験もあります。



Related posts