OpenAIのWhisper（Windows版）で音声をテキストに変換する方法

あなたのような読者は、MUOをサポートするために役立ちます。当サイトのリンクを使って購入された場合、アフィリエイト報酬が発生する場合があります。続きを読む

OpenAI'のWhisperは、あなたの声をテキストに変えることができる、新しいAI搭載のソリューションです。何より、コストゼロで利用できるのが魅力です。

しかし、そこにはキャッチボールがあります：それは、平均的なWindowsユーティリティよりもインストールと使用がより困難です。特に、Nvidia GPUのTensor Coresを使用して、素晴らしいブーストを与えたい場合は、なおさらです。

でも、心配しないでください。そのために私たちはここにいるのですから。インストール方法と使用方法、そしてNvidia GPUをお持ちの方は、Whisperを活用する方法をご紹介しています。

OpenAI'のWhisperとは？

ChatGPTが流行っていますが、OpenAIによるChatGPTの使い方はすでに紹介しました。しかし、OpenAIのプロジェクトで面白いのはそれだけではありません。

ディープラーニングとニューラルネットワークを搭載したWhisperは、音声を理解し、それをテキストに書き起こすことができる自然言語処理システムです。しかし、それはまた、独自のものであり、すべての類似のソリューションの間で右のスポットに座っています。

ウィスパーは、自然言語に基づいて学習されたAIソリューションです。そのため、旧来のソリューションよりも、人間の通常の話し言葉を理解することに長けています。
Whisperはインターフェースを持っていませんし、音声を録音することもできません。既存の音声ファイルを取り込み、テキストファイルを出力するだけです。
言語の意味を理解することが得意なため、Whisperはワンステップで自動翻訳を行うことも可能です。
Whisperはオンラインサービスではないので、完全にオフラインで動作させることができます。
比較的新しいNvidia GPU（GTX970以降）をお持ちの場合、Whisperはハードウェアアクセラレーションモードで動作し、処理速度を向上させることが可能です。
登録、ライセンス購入、サブスクリプションの購入は必要ありません。

なぜAMD GPUはサポートされていないのですか？

GPUがグラフィック以外の用途に役立つには、完全にプログラム可能なプロセッサとして動作する必要があります。そのため、NvidiaはCUDAを開発しました。CUDAは、並列コンピューティングプラットフォームおよびプログラミングモデルとして公式に認められています。CUDAと関連ハードウェア（"CUDAコア"）の詳細については、CUDAコアとは何か、PCゲームをどのように改善するかについての記事をご覧ください。

CUDAはNvidia独自の技術であり、Nvidia GPUとしか互換性がありません。AMD'のハードウェアに最も近い代替品は、OpenCLとRadeon Compute Platformです。各社のソリューションの比較については、AMD Compute Units vs. Nvidia CUDA Coresの記事をご覧ください。

代替品と比較すると、CUDA はより成熟し、性能が高く、使いやすいと考えられています。したがって、ほとんどの開発者はCUDAだけをターゲットにしており、その結果、彼らのソフトウェアはNvidia GPUのハードウェア機能だけを利用することになります。そして、それはWhisperも含みます。

Whisperのダウンロードとインストール方法

残念ながら、Whisperは、ダウンロードしてインストールして実行できるスタンドアローンアプリではありません。他のソフトウェアに依存しており、そのソフトウェアもインストールする必要があります。

Windowsの場合、このガイドを簡単にするために、必要なソフトウェアのほとんどをインストールするために、Chocolateyを多用することにします。Chocolateyの詳細については、Windowsのソフトウェアをインストールする最短の方法をご覧ください。

LinuxとMacの場合、インストール方法は（Windowsのパス変数と、私たちが作成する使いやすいバッチファイルを除いて）似ているはずです。

Whisperをインストールし使用するには、PythonとそのPIPツールをインストールし、Windowsの"Path"変数に追加しておく必要があります。これについては、Windows、Mac、LinuxにPython PIPをインストールする方法をご覧ください。

FFMPEGをChocolateyから次のコマンドでインストールします： chocoinstallffmpeg また、Pythonのバージョンを次のコマンドでインストールします： pip3installpython-ffmpeg

最後に、WhisperをGithubのページからインストールします： pip3 install git https://github.com/openai/whisper.git

WhisperのCUDA対応版の入手

WhisperはNvidia GPUを使用しませんが、依存するtorchパッケージはCUDAアクセラレーションバージョンを提供しています。f}plain"バージョンの代わりにこれを使うと、Nvidia GPUの助けを借りてWhisperのトランスクリプションをより速く完了させることができます。

WhisperがNvidia GPUのCUDAコアを使用するようにするには。

すでに "vanilla" 版の torch をインストールしている場合は、以下のようにアンインストールして残りをパージしてください： pip3uninstalltorch 終了後、以下のようにフォローアップしてください： pipcache purge

トーチのCUDA対応版をインストールします： pip3installtorch torchvision torchaudio–extra-index-url https://download.pytorch.org/whl/cu117

WhisperがNvidia GPUを使えるかどうか確認するには、次のようにします。 whisper–help | findstr -i pytorch(default: cpu) の代わりに (default: cuda) と表示されるはずです。

Torchのインストールに失敗した場合の対処法

torch のインストール中に "no version found" というエラーが発生した場合、古いバージョンの Python を並行してインストールする必要があるかもしれません。

そのためには、このコマンドを使います。

chocoinstallpython–version OLDER_VERSION -サイドバイサイド

f}OLDER_VERSION"を3.10などのバージョンに置き換えてください。

そして、全ての"generic"コマンドにセカンダリバージョンのパスを使用する。Whisperコマンド（例： "pip" だけでなく、"c: \Python310\Scripts\pip.exe" ）にセカンダリバージョンを使う。

音声の録音方法

録音アプリを使えば、自分の声をWAVファイルやMP3ファイルにすることができます。Windowsにはそのようなアプリがあります—詳しくは、Windows 10のボイスレコーダーアプリの使い方をご覧ください。

よりフル機能のオプションをお探しなら、Audacity をお試しください。WindowsとMacでオーディオを録音するためにAudacityを使用する方法についてのガイドでその方法を学んでください。

ウィスパーでテープ起こしを始めるには

Whisperは使いやすいGUIを備えていませんが、使い方はとてもシンプルです。

例えば、ギリシャ語の音声を含む LatestNote.mp3 が c:\MyAudioFiles フォルダにあり、これを英語に翻訳してテキストファイルに書き出したいとします。

まず、コマンドプロンプトまたはPowerShellを起動します。

オーディオファイルが保存されているディレクトリを次のコマンドで変更します。

Whisper –model base –language gr –task translate LatestNote.mp3

このファイルに対してWhisperを実行します。

処理されると、同じフォルダにテキストファイル（"LatestNote.mp3.txt"という名前）が現れます。これをメモ帳などのテキストエディタで開くと、翻訳されたテキストが表示されます。

英語の書き起こしはもっと簡単で、"–language" と "-task" フラグを "lose" するだけですから、翻訳の例で説明しました。したがって、平易なトランスクリプションの場合、上記のコマンドは次のようになる。

whisper –model base 最新ノート.mp3

Whisperは様々なオプションの中から一つを使うので、"model"フラグは必須です。あなたのニーズに合わせて最適なものを選択するために、それらについて説明します。

どのモデルを選べばいいの？

Whisperは様々な言語モデルを提供しています。モデルが大きくなるほど、精度が向上しますが、ハードウェアの要件も高くなります。それらは以下の通りです。

タイニー

ベースが

小さい

ミディアム

Large.

ほとんどの英語母語話者は、tinyまたはbaseモデルで問題ないはずです。英語を母国語としない方は、SmallやMediumといった大きめのモデルを使用すると、より良い結果が得られるかもしれません。

ただし、中型と大型のモデルでは、8GB以上のVRAM（つまり、GPU'のメモリ"）が必要になるので注意が必要です。

そのうちの一つを選択するには、コマンドの "–model" スイッチの後にモデルを指定します。

whisper–model tiny/small/medium/large [ファイル]。

例えば

ささやき声 -モデル小 My_Voice_Note.mp3

トランスクリプションを効率化する方法

音声を書き写すのに毎回Whisperコマンドを入力するのは面倒です。そこで、この作業を効率化するために、グローバルにアクセスできるバッチファイルを作ってみましょう。

Windowsエクスプローラを起動し、C:ドライブにアクセスします。

スクリプト用のフォルダを作成し、そのパスをクリップボードにコピーします。

Windowsのスタートメニューから"path"を検索し、「システム環境変数の編集」を選択します。

Windows Start Edit The System Environment Variables

ユーザー変数」の「YOUR_USERNAME」にある「Path」変数を探します。それをダブルクリックして編集します。Newをクリックし、scriptsフォルダのパスを貼り付けます。OKをクリックし、変更を受け入れます。

Windowsエクスプローラでscriptsフォルダに戻ります。そこに"wht.bat"という名前の新しいバッチファイルを作成します。"その中に、次のコマンドを入力します： whisper–model tiny –language en /span>

さらに2つのバッチファイル、"whs"と"whm"を作成します。

これを最初のスクリプトの中に入れてください： whisper–model small –language en /span>

次のスクリプトを2番目のスクリプトの中に入れてください： whisper–model medium –language en /span>

これで、Whisper' の tiny、small、medium モデルを音声ファイルで簡単に使用するための3つのスクリプトが完成しました！おめでとうございます。音声ファイルをテキストに書き起こす。

Windowsのファイルエクスプローラーでファイルを探します。

何もないところで右クリックし、「ターミナルで開く」を選択します。

f}wht"を"whs"または"whm"に置き換えて、次のコマンドを入力します：wht YOUR_AUDIO_FILE.mp3。

ウィスパーで音速のタイピング

どんなに早くタッチタイピングをする人でも、私たちが話すスピードにはかないません。しかし、最近まで、タイピングの代わりに話すことは、文書作成には最適ではありませんでした。

ほとんどの音声テキスト化ソリューションが平凡な結果を出していました。試す価値のあるソリューションもいくつかありましたが、使い方が複雑だったり、コストが高かったりしました。しかし、Whisperがそれを変えてくれました。

以上の手順で、たった一つのコマンドで、高い精度で音声を書き起こしたり、翻訳したりすることができるようになるはずです。

OpenAIのWhisper（Windows版）で音声をテキストに変換する方法

OpenAI'のWhisperとは？

なぜAMD GPUはサポートされていないのですか？

Whisperのダウンロードとインストール方法

WhisperのCUDA対応版の入手

Torchのインストールに失敗した場合の対処法

音声の録音方法

ウィスパーでテープ起こしを始めるには

どのモデルを選べばいいの？

トランスクリプションを効率化する方法

ウィスパーで音速のタイピング

About The Author

酒井雅惠

OpenAI'のWhisperとは？

なぜAMD GPUはサポートされていないのですか？

Whisperのダウンロードとインストール方法

WhisperのCUDA対応版の入手

Torchのインストールに失敗した場合の対処法

音声の録音方法

ウィスパーでテープ起こしを始めるには

どのモデルを選べばいいの？

トランスクリプションを効率化する方法

ウィスパーで音速のタイピング

関連記事

About The Author

酒井雅惠