LinuxでgImageReaderを使用してPDFや画像からテキストを抽出する方法

学生さんや、仕事でたくさんの画像やPDFを扱っている方は、画像や文書からテキストを抽出する必要性を感じたことがあるのではないでしょうか。

幸いなことに、テキスト抽出を使えばこれが可能になります。gImageReaderはその一つです。これは無料で使用でき、画像ファイルとPDFドキュメントの両方で動作します。

それでは、gImageReaderの詳細と、画像やPDFからテキストを抽出する方法について見ていきましょう。

gImageReaderとは?

gImageReaderは、Linux上で画像やPDFからテキストを抽出するためのアプリケーションです。ヒューレットパッカード社が開発したオープンソースのOCRエンジンであるTesseractのGUIまたはフロントエンドです。

gImageReaderを使えば、数回のクリックで、画像やPDF文書から簡単に、しかも正確にテキストを抽出することができます。そして、抽出されたテキストをテキストファイルやPDFファイルにエクスポートして、さらに利用することができます。

gImageReaderの特徴

gImageReaderは以下の機能を備えています。

  • 異なるソース(ディスク、スキャンデバイス、クリップボード、スクリーンショット)からPDF文書や画像を取り込む
  • 画像や文書のバッチ処理、すなわち複数の画像や文書から一度にテキストを抽出
  • テキストスニペットをプレーンテキストまたはhOCR文書として認識します。
  • スペルチェッカー内蔵
  • テキストエリアの自動検出
  • 基本的な画像/文書編集
  • テキストファイルとして出力を保存

LinuxにおけるgImageReaderのインストール方法

gImageReaderは、ほとんどの主要なLinuxディストロで利用可能です。しかし、そのインストールを進める前に、あなたのシステムにTesseract OCRエンジンをインストールする必要があります。

そのためには、システムのソフトウェア・マネージャを開き、tesseractを検索します。結果一覧が表示されたら、tesseract-ocrとtesseract-ocr-engパッケージをインストールします。また、ターミナルの方が使いやすいという方は、コマンドラインのパッケージマネージャを使ってインストールすることもできます'。

この後、以下の各項のインストール方法を確認し、gImageReaderをパソコンにインストールしてください。

DebianまたはUbuntuをお使いの場合,ターミナルを開いて,以下のコマンドを実行し,gImageReaderをインストールしてください.

sudo add-apt-repository ppa:sandromani/gimagereadersudo apt-get updatesudo aptinstallgimagereader

Fedora、CentOS、またはRed Hat Enterprise Linux(RHEL)の場合。

sudo dnfinstallgimagereader-qt

Arch LinuxまたはManjaroの場合。

sudo pacman -S gimagereader

openSUSEのユーザは、以下の方法でgImageReaderをインストールできます。

sudo zypperインストールgimagereader

他のLinuxディストロをお使いの場合は、gImageReaderのGitHubにある手順に従って、ソースからビルドすることができます。

LinuxでのgImageReaderの使い方

gImageReaderは非常に使いやすく、PDF文書だけでなく、あらゆる種類の画像ファイルに対応しています。Linuxで画像やPDFからテキストを抽出するには、以下の手順に従ってください。

アプリケーションメニューを開き、gImageReader を検索して、アプリを起動します。gImageReaderのウィンドウで最大化ボタンを押し、全画面表示にしてください。

次に、ツールバー下の左ペインにある「画像の追加」ボタンをクリックし、ファイルブラウザを使って、テキストを抽出したい画像またはPDFを選択します。

adding image to gimagereader

Ok] をクリックすると、画像または PDF が gImageReader にインポートされます。また、画面に表示されている内容からテキストを抽出したい場合は、[画像の追加]ボタン横のドロップダウンをクリックし、[スクリーンショットを撮る]を選択します。

gImageReaderに画像を追加したら、出力ペイン切り替えボタン(メモ帳のアイコンのもの)をクリックして、出力ペインを表示させましょう。ここには、画像やPDFから抽出したテキストが表示されます。

次に、画像または PDF 内のテキストを自動または手動で識別するオプションがあります。自動で行う場合は、[レイアウトの自動検出] ボタンをクリックすると、選択した画像または PDF 文書内のすべてのテキストブロックがハイライト表示されます。

gimagereader autodetect

この後、「選択部分を認識する> 現在のページ」をタップすると、テキストの抽出処理が開始されます。

また、手動でテキストを選択する場合は、抽出したいテキストにカーソルを合わせ、十字キーでテキストを抽出したい領域の周囲にボックスを描画します。その後、「選択範囲を認識する」ボタンをクリックしてください。

gimagereader manual text extraction

PDF文書で、異なるページからテキストを抽出したい場合は、プラス( )ボタンをタップして、ページをめくってください。

selecting a page in a pdf file

戻るには、マイナス(-)ボタンを押します。そして、抽出したいテキストを選択し、選択部分を認識するボタンを押すと抽出されます。

稀にですが、gImageReaderが抽出したテキストを英語以外の言語で返してしまう場合があります。このような場合は、Recognize selection ボタンの横にあるドロップダウンボタンをタップして、英語のオプションを選択するだけです。

最後に、抽出したテキストを保存するために、「出力の保存」ボタンをクリックします。すると、保存ウィンドウが表示されます。ここで、ファイルに名前を付けて、Okを押してください。

gImageReaderで他に何ができるのでしょうか?

前述のとおり、gImageReaderは、明るさ、コントラスト、解像度など、取り込んだ画像やドキュメントの特定の側面を変更するオプションも提供しています。さらに、必要に応じて、色を反転したり、画像やドキュメントを回転させたりすることもできます。

これらのオプションは、画像や文書内のテキストが読み取れず、ツールでテキストを認識できない場合に有効です。

これらの編集オプションにアクセスするには、[画像コントロール] ボタンをクリックすると、メイン ツールバーの下にミニ ツールバーが表示されます。ここから、適切なボタンを選択して、画像や文書に必要な編集操作を行います。

gImageReader で Linux でのテキスト抽出が容易に

テキスト抽出には、画像や文書内のテキストを効率的に識別できる信頼性の高い高精度なOCRエンジンを搭載したツールが必要な場合が多く、手間をかけずに効率的にテキストを抽出できます。

gImageReaderは、バックグラウンドで使用されるTesseract OCRエンジンのおかげで、これをうまく達成することができます。その使いやすさを考えると、gImageReaderは間違いなくLinuxで利用可能な最高のテキスト抽出ツールの一つでしょう。

また、よりシンプルなソリューションをお探しなら、高速でかなり使いやすいTextSnatcherをチェックすることができます。

Scroll to Top