OpenAIのWhisper(Windows版)で音声をテキストに変換する方法

あなたのような読者は、MUOをサポートするために役立ちます。当サイトのリンクを使って購入された場合、アフィリエイト報酬が発生する場合があります。続きを読む

OpenAI'のWhisperは、あなたの声をテキストに変えることができる、新しいAI搭載のソリューションです。何より、コストゼロで利用できるのが魅力です。

しかし、そこにはキャッチボールがあります:それは、平均的なWindowsユーティリティよりもインストールと使用がより困難です。特に、Nvidia GPUのTensor Coresを使用して、素晴らしいブーストを与えたい場合は、なおさらです。

でも、心配しないでください。そのために私たちはここにいるのですから。インストール方法と使用方法、そしてNvidia GPUをお持ちの方は、Whisperを活用する方法をご紹介しています。

OpenAI'のWhisperとは?

ChatGPTが流行っていますが、OpenAIによるChatGPTの使い方はすでに紹介しました。しかし、OpenAIのプロジェクトで面白いのはそれだけではありません。

ディープラーニングとニューラルネットワークを搭載したWhisperは、音声を理解し、それをテキストに書き起こすことができる自然言語処理システムです。しかし、それはまた、独自のものであり、すべての類似のソリューションの間で右のスポットに座っています。

  • ウィスパーは、自然言語に基づいて学習されたAIソリューションです。そのため、旧来のソリューションよりも、人間の通常の話し言葉を理解することに長けています。
  • Whisperはインターフェースを持っていませんし、音声を録音することもできません。既存の音声ファイルを取り込み、テキストファイルを出力するだけです。
  • 言語の意味を理解することが得意なため、Whisperはワンステップで自動翻訳を行うことも可能です。
  • Whisperはオンラインサービスではないので、完全にオフラインで動作させることができます。
  • 比較的新しいNvidia GPU(GTX970以降)をお持ちの場合、Whisperはハードウェアアクセラレーションモードで動作し、処理速度を向上させることが可能です。
  • 登録、ライセンス購入、サブスクリプションの購入は必要ありません。

なぜAMD GPUはサポートされていないのですか?

GPUがグラフィック以外の用途に役立つには、完全にプログラム可能なプロセッサとして動作する必要があります。そのため、NvidiaはCUDAを開発しました。CUDAは、並列コンピューティングプラットフォームおよびプログラミングモデルとして公式に認められています。CUDAと関連ハードウェア("CUDAコア")の詳細については、CUDAコアとは何か、PCゲームをどのように改善するかについての記事をご覧ください。

CUDAはNvidia独自の技術であり、Nvidia GPUとしか互換性がありません。AMD'のハードウェアに最も近い代替品は、OpenCLとRadeon Compute Platformです。各社のソリューションの比較については、AMD Compute Units vs. Nvidia CUDA Coresの記事をご覧ください。

代替品と比較すると、CUDA はより成熟し、性能が高く、使いやすいと考えられています。したがって、ほとんどの開発者はCUDAだけをターゲットにしており、その結果、彼らのソフトウェアはNvidia GPUのハードウェア機能だけを利用することになります。そして、それはWhisperも含みます。

Whisperのダウンロードとインストール方法

残念ながら、Whisperは、ダウンロードしてインストールして実行できるスタンドアローンアプリではありません。他のソフトウェアに依存しており、そのソフトウェアもインストールする必要があります。

Windowsの場合、このガイドを簡単にするために、必要なソフトウェアのほとんどをインストールするために、Chocolateyを多用することにします。Chocolateyの詳細については、Windowsのソフトウェアをインストールする最短の方法をご覧ください。

LinuxとMacの場合、インストール方法は(Windowsのパス変数と、私たちが作成する使いやすいバッチファイルを除いて)似ているはずです。

  • Whisperをインストールし使用するには、PythonとそのPIPツールをインストールし、Windowsの"Path"変数に追加しておく必要があります。これについては、Windows、Mac、LinuxにPython PIPをインストールする方法をご覧ください。
  • FFMPEGをChocolateyから次のコマンドでインストールします: chocoinstallffmpeg また、Pythonのバージョンを次のコマンドでインストールします: pip3installpython-ffmpegpip install python ffmpeg
  • 最後に、WhisperをGithubのページからインストールします: pip3 install git https://github.com/openai/whisper.git
  • WhisperのCUDA対応版の入手

    WhisperはNvidia GPUを使用しませんが、依存するtorchパッケージはCUDAアクセラレーションバージョンを提供しています。f}plain"バージョンの代わりにこれを使うと、Nvidia GPUの助けを借りてWhisperのトランスクリプションをより速く完了させることができます。

    WhisperがNvidia GPUのCUDAコアを使用するようにするには。

  • すでに "vanilla" 版の torch をインストールしている場合は、以下のようにアンインストールして残りをパージしてください: pip3uninstalltorch 終了後、以下のようにフォローアップしてください: pipcache purge
  • トーチのCUDA対応版をインストールします: pip3installtorch torchvision torchaudio–extra-index-url https://download.pytorch.org/whl/cu117 pip3 install torch torchvision torchaudio
  • WhisperがNvidia GPUを使えるかどうか確認するには、次のようにします。 whisper–help | findstr -i pytorch(default: cpu) の代わりに (default: cuda) と表示されるはずです。
  • Torchのインストールに失敗した場合の対処法

    torch のインストール中に "no version found" というエラーが発生した場合、古いバージョンの Python を並行してインストールする必要があるかもしれません。

    そのためには、このコマンドを使います。

    chocoinstallpython–version OLDER_VERSION -サイドバイサイド

    f}OLDER_VERSION"を3.10などのバージョンに置き換えてください。

    choco install python alternate version

    そして、全ての"generic"コマンドにセカンダリバージョンのパスを使用する。Whisperコマンド(例: "pip" だけでなく、"c: \Python310\Scripts\pip.exe" )にセカンダリバージョンを使う。

    音声の録音方法

    録音アプリを使えば、自分の声をWAVファイルやMP3ファイルにすることができます。Windowsにはそのようなアプリがあります—詳しくは、Windows 10のボイスレコーダーアプリの使い方をご覧ください。

    よりフル機能のオプションをお探しなら、Audacity をお試しください。WindowsとMacでオーディオを録音するためにAudacityを使用する方法についてのガイドでその方法を学んでください。

    Recording voice with Audacity

    ウィスパーでテープ起こしを始めるには

    Whisperは使いやすいGUIを備えていませんが、使い方はとてもシンプルです。

    例えば、ギリシャ語の音声を含む LatestNote.mp3 が c:\MyAudioFiles フォルダにあり、これを英語に翻訳してテキストファイルに書き出したいとします。

  • まず、コマンドプロンプトまたはPowerShellを起動します。
  • オーディオファイルが保存されているディレクトリを次のコマンドで変更します。
  • Whisper –model base –language gr –task translate LatestNote.mp3 Whisper translate gr このファイルに対してWhisperを実行します。
  • 処理されると、同じフォルダにテキストファイル("LatestNote.mp3.txt"という名前)が現れます。これをメモ帳などのテキストエディタで開くと、翻訳されたテキストが表示されます。

    英語の書き起こしはもっと簡単で、"–language" と "-task" フラグを "lose" するだけですから、翻訳の例で説明しました。したがって、平易なトランスクリプションの場合、上記のコマンドは次のようになる。

    whisper –model base 最新ノート.mp3

    Whisperは様々なオプションの中から一つを使うので、"model"フラグは必須です。あなたのニーズに合わせて最適なものを選択するために、それらについて説明します。

    どのモデルを選べばいいの?

    Whisperは様々な言語モデルを提供しています。モデルが大きくなるほど、精度が向上しますが、ハードウェアの要件も高くなります。それらは以下の通りです。

  • タイニー
  • ベースが
  • 小さい
  • ミディアム
  • Large.
  • ほとんどの英語母語話者は、tinyまたはbaseモデルで問題ないはずです。英語を母国語としない方は、SmallやMediumといった大きめのモデルを使用すると、より良い結果が得られるかもしれません。

    ただし、中型と大型のモデルでは、8GB以上のVRAM(つまり、GPU'のメモリ")が必要になるので注意が必要です。

    whisper model small

    そのうちの一つを選択するには、コマンドの "–model" スイッチの後にモデルを指定します。

    whisper–model tiny/small/medium/large [ファイル]

    例えば

    ささやき声 -モデル My_Voice_Note.mp3

    トランスクリプションを効率化する方法

    音声を書き写すのに毎回Whisperコマンドを入力するのは面倒です。そこで、この作業を効率化するために、グローバルにアクセスできるバッチファイルを作ってみましょう。

  • Windowsエクスプローラを起動し、C:ドライブにアクセスします。
  • スクリプト用のフォルダを作成し、そのパスをクリップボードにコピーします。
  • Windowsのスタートメニューから"path"を検索し、「システム環境変数の編集」を選択します。 Windows Start Edit The System Environment Variables
  • ユーザー変数」の「YOUR_USERNAME」にある「Path」変数を探します。それをダブルクリックして編集します。Newをクリックし、scriptsフォルダのパスを貼り付けます。OKをクリックし、変更を受け入れます。 Environment Variables User Account Path
  • Windowsエクスプローラでscriptsフォルダに戻ります。そこに"wht.bat"という名前の新しいバッチファイルを作成します。"その中に、次のコマンドを入力します: whisper–model tiny –language en /span>Creating WHT Batch File
  • さらに2つのバッチファイル、"whs"と"whm"を作成します。
  • これを最初のスクリプトの中に入れてください: whisper–model small –language en /span>
  • 次のスクリプトを2番目のスクリプトの中に入れてください: whisper–model medium –language en /span>
  • これで、Whisper' の tiny、small、medium モデルを音声ファイルで簡単に使用するための3つのスクリプトが完成しました!おめでとうございます。音声ファイルをテキストに書き起こす。

  • Windowsのファイルエクスプローラーでファイルを探します。
  • 何もないところで右クリックし、「ターミナルで開く」を選択します。
  • f}wht"を"whs"または"whm"に置き換えて、次のコマンドを入力します:wht YOUR_AUDIO_FILE.mp3
  • ウィスパーで音速のタイピング

    どんなに早くタッチタイピングをする人でも、私たちが話すスピードにはかないません。しかし、最近まで、タイピングの代わりに話すことは、文書作成には最適ではありませんでした。

    ほとんどの音声テキスト化ソリューションが平凡な結果を出していました。試す価値のあるソリューションもいくつかありましたが、使い方が複雑だったり、コストが高かったりしました。しかし、Whisperがそれを変えてくれました。

    以上の手順で、たった一つのコマンドで、高い精度で音声を書き起こしたり、翻訳したりすることができるようになるはずです。

    Scroll to Top