目次
あなたのような読者は、MUOをサポートするために役立ちます。当サイトのリンクを使って購入された場合、アフィリエイト報酬が発生する場合があります。続きを読む
OpenAI'のWhisperは、あなたの声をテキストに変えることができる、新しいAI搭載のソリューションです。何より、コストゼロで利用できるのが魅力です。
しかし、そこにはキャッチボールがあります:それは、平均的なWindowsユーティリティよりもインストールと使用がより困難です。特に、Nvidia GPUのTensor Coresを使用して、素晴らしいブーストを与えたい場合は、なおさらです。
でも、心配しないでください。そのために私たちはここにいるのですから。インストール方法と使用方法、そしてNvidia GPUをお持ちの方は、Whisperを活用する方法をご紹介しています。
OpenAI'のWhisperとは?
ChatGPTが流行っていますが、OpenAIによるChatGPTの使い方はすでに紹介しました。しかし、OpenAIのプロジェクトで面白いのはそれだけではありません。
ディープラーニングとニューラルネットワークを搭載したWhisperは、音声を理解し、それをテキストに書き起こすことができる自然言語処理システムです。しかし、それはまた、独自のものであり、すべての類似のソリューションの間で右のスポットに座っています。
- ウィスパーは、自然言語に基づいて学習されたAIソリューションです。そのため、旧来のソリューションよりも、人間の通常の話し言葉を理解することに長けています。
- Whisperはインターフェースを持っていませんし、音声を録音することもできません。既存の音声ファイルを取り込み、テキストファイルを出力するだけです。
- 言語の意味を理解することが得意なため、Whisperはワンステップで自動翻訳を行うことも可能です。
- Whisperはオンラインサービスではないので、完全にオフラインで動作させることができます。
- 比較的新しいNvidia GPU(GTX970以降)をお持ちの場合、Whisperはハードウェアアクセラレーションモードで動作し、処理速度を向上させることが可能です。
- 登録、ライセンス購入、サブスクリプションの購入は必要ありません。
なぜAMD GPUはサポートされていないのですか?
GPUがグラフィック以外の用途に役立つには、完全にプログラム可能なプロセッサとして動作する必要があります。そのため、NvidiaはCUDAを開発しました。CUDAは、並列コンピューティングプラットフォームおよびプログラミングモデルとして公式に認められています。CUDAと関連ハードウェア("CUDAコア")の詳細については、CUDAコアとは何か、PCゲームをどのように改善するかについての記事をご覧ください。
CUDAはNvidia独自の技術であり、Nvidia GPUとしか互換性がありません。AMD'のハードウェアに最も近い代替品は、OpenCLとRadeon Compute Platformです。各社のソリューションの比較については、AMD Compute Units vs. Nvidia CUDA Coresの記事をご覧ください。
代替品と比較すると、CUDA はより成熟し、性能が高く、使いやすいと考えられています。したがって、ほとんどの開発者はCUDAだけをターゲットにしており、その結果、彼らのソフトウェアはNvidia GPUのハードウェア機能だけを利用することになります。そして、それはWhisperも含みます。
Whisperのダウンロードとインストール方法
残念ながら、Whisperは、ダウンロードしてインストールして実行できるスタンドアローンアプリではありません。他のソフトウェアに依存しており、そのソフトウェアもインストールする必要があります。
Windowsの場合、このガイドを簡単にするために、必要なソフトウェアのほとんどをインストールするために、Chocolateyを多用することにします。Chocolateyの詳細については、Windowsのソフトウェアをインストールする最短の方法をご覧ください。
LinuxとMacの場合、インストール方法は(Windowsのパス変数と、私たちが作成する使いやすいバッチファイルを除いて)似ているはずです。
WhisperのCUDA対応版の入手
WhisperはNvidia GPUを使用しませんが、依存するtorchパッケージはCUDAアクセラレーションバージョンを提供しています。f}plain"バージョンの代わりにこれを使うと、Nvidia GPUの助けを借りてWhisperのトランスクリプションをより速く完了させることができます。
WhisperがNvidia GPUのCUDAコアを使用するようにするには。
Torchのインストールに失敗した場合の対処法
torch のインストール中に "no version found" というエラーが発生した場合、古いバージョンの Python を並行してインストールする必要があるかもしれません。
そのためには、このコマンドを使います。
chocoinstallpython–version OLDER_VERSION -サイドバイサイド
f}OLDER_VERSION"を3.10などのバージョンに置き換えてください。
そして、全ての"generic"コマンドにセカンダリバージョンのパスを使用する。Whisperコマンド(例: "pip" だけでなく、"c: \Python310\Scripts\pip.exe" )にセカンダリバージョンを使う。
音声の録音方法
録音アプリを使えば、自分の声をWAVファイルやMP3ファイルにすることができます。Windowsにはそのようなアプリがあります—詳しくは、Windows 10のボイスレコーダーアプリの使い方をご覧ください。
よりフル機能のオプションをお探しなら、Audacity をお試しください。WindowsとMacでオーディオを録音するためにAudacityを使用する方法についてのガイドでその方法を学んでください。
ウィスパーでテープ起こしを始めるには
Whisperは使いやすいGUIを備えていませんが、使い方はとてもシンプルです。
例えば、ギリシャ語の音声を含む LatestNote.mp3 が c:\MyAudioFiles フォルダにあり、これを英語に翻訳してテキストファイルに書き出したいとします。
処理されると、同じフォルダにテキストファイル("LatestNote.mp3.txt"という名前)が現れます。これをメモ帳などのテキストエディタで開くと、翻訳されたテキストが表示されます。
英語の書き起こしはもっと簡単で、"–language" と "-task" フラグを "lose" するだけですから、翻訳の例で説明しました。したがって、平易なトランスクリプションの場合、上記のコマンドは次のようになる。
whisper –model base 最新ノート.mp3
Whisperは様々なオプションの中から一つを使うので、"model"フラグは必須です。あなたのニーズに合わせて最適なものを選択するために、それらについて説明します。
どのモデルを選べばいいの?
Whisperは様々な言語モデルを提供しています。モデルが大きくなるほど、精度が向上しますが、ハードウェアの要件も高くなります。それらは以下の通りです。
ほとんどの英語母語話者は、tinyまたはbaseモデルで問題ないはずです。英語を母国語としない方は、SmallやMediumといった大きめのモデルを使用すると、より良い結果が得られるかもしれません。
ただし、中型と大型のモデルでは、8GB以上のVRAM(つまり、GPU'のメモリ")が必要になるので注意が必要です。
そのうちの一つを選択するには、コマンドの "–model" スイッチの後にモデルを指定します。
whisper–model tiny/small/medium/large [ファイル]。
例えば
ささやき声 -モデル 小 My_Voice_Note.mp3
トランスクリプションを効率化する方法
音声を書き写すのに毎回Whisperコマンドを入力するのは面倒です。そこで、この作業を効率化するために、グローバルにアクセスできるバッチファイルを作ってみましょう。
これで、Whisper' の tiny、small、medium モデルを音声ファイルで簡単に使用するための3つのスクリプトが完成しました!おめでとうございます。音声ファイルをテキストに書き起こす。
ウィスパーで音速のタイピング
どんなに早くタッチタイピングをする人でも、私たちが話すスピードにはかないません。しかし、最近まで、タイピングの代わりに話すことは、文書作成には最適ではありませんでした。
ほとんどの音声テキスト化ソリューションが平凡な結果を出していました。試す価値のあるソリューションもいくつかありましたが、使い方が複雑だったり、コストが高かったりしました。しかし、Whisperがそれを変えてくれました。
以上の手順で、たった一つのコマンドで、高い精度で音声を書き起こしたり、翻訳したりすることができるようになるはずです。