US Startupの有用なセンサーは、Moonshineと呼ばれるオープンソースの音声認識モデルをリリースし、オーディオデータ処理の効率を向上させることを目指しています。 Openaiのささやきと比較して、Moonshineはコンピューティングリソースでより経済的であり、特にリソースに制約のあるハードウェアとリアルタイムアプリケーションで、処理速度が5倍増加しました。その柔軟なアーキテクチャとオーディオの長さに応じた処理時間の動的調整により、短いオーディオクリップを処理するときに傑出し、処理オーバーヘッドを効果的に削減します。 Moonshineは、それぞれ2710万と6150万のパラメーターを備えた2つのバージョンの2つのバージョンを提供します。どちらもリソース利用における同様のモデルのパフォーマンスよりも優れています。
オーディオを固定30秒のクリップに分割するささやきとは異なり、Moonshineは実際のオーディオの長さに応じて処理時間を調整します。これにより、より短いオーディオクリップを処理するときにパフォーマンスが良くなり、パディングがゼロのために処理オーバーヘッドが減少します。
Moonshineには2つのバージョンがあります。小さなバージョンのパラメーターボリュームは2710万枚で、大きなベースバージョンのパラメーターボリュームは6150万です。対照的に、Openaiの同様のモデルパラメーターは大きく、Whisper Tiny.enは3780万人、Base.enは7260万人です。
テストの結果は、Moonshineの小さなモデルが精度の点でささやきに匹敵し、コンピューティングリソースが少ないことを示しています。 Moonshineの両方のバージョンは、さまざまなオーディオレベルとバックグラウンドノイズでWordエラー率(WER)がささやきよりも低く、パフォーマンスが強いことを示しています。
研究チームは、非常に短いオーディオチップ(1秒未満)を処理する際に、ムーンシャインにはまだ改善の余地があることを指摘しました。これらの短いオーディオは、トレーニングデータのわずかな割合を占めており、このようなオーディオクリップのトレーニングを増やすとモデルのパフォーマンスが向上する可能性があります。
さらに、ムーンシャインのオフライン機能は、新しいアプリケーションシナリオを開き、ハードウェアの制限が原因で以前は利用できなかったアプリケーションが実現可能になりました。より高い消費電力を必要とするささやきとは異なり、ムーンシャインはスマートフォンやRaspberry Piなどの小さなデバイスでの実行に適しています。有用なセンサーは、ムーンシャインを使用して、英語のスペイン語の翻訳者であるTorreを開発しています。
MoonshineのコードはGitHubでリリースされており、ユーザーはWhisperなどのAI転写システムがエラーを経験する可能性があることに注意する必要があります。いくつかの研究では、ウィスパーがコンテンツを生成するときに、特に言語の障壁を持つ人々の場合、エラー率が高いことが誤った情報の可能性が1.4%あることが示されています。
プロジェクトの入り口:https://github.com/usefulsensors/moonshine
キーポイント:
ムーンシャインは、Openaiのささやきの5倍の速さを処理するオープンソースの音声認識モデルです。
このモデルは、音声の長さに応じて処理時間を調整できます。特に短いオーディオクリップに適しています。
Moonshineはオフライン操作をサポートしており、限られたリソースでの使用に適しています。
要するに、Moonshineは、特にリソース制約のデバイスとリアルタイムアプリケーションシナリオで、効率的な処理速度、柔軟なアーキテクチャ、リソースの低い需要を備えた新しい可能性を音声認識テクノロジーにもたらします。また、オープンソース機能は、開発者が改善と適用を促進し、注意を払う価値があり、楽しみにしています。