Downcodes エディターのレポート: 米国の新興企業 Useful Sensors は、Moonshine と呼ばれるオープンソースの音声認識モデルをリリースしました。このモデルは、OpenAI の Whisper モデルと比較して、速度が 5 倍向上していることがわかります。 Moonshine は、リソースに制約のあるハードウェアにリアルタイム アプリケーションを実装するように設計されており、その柔軟なアーキテクチャにより、さまざまなアプリケーション シナリオに適応できます。これは、低電力デバイス上で実行する音声認識を必要とするアプリケーションにとっては大きな進歩です。
音声を 30 秒の固定セグメントに処理する Whisper とは異なり、Moonshine は実際の音声の長さに基づいて処理時間を調整します。これにより、短いオーディオ クリップを処理するときにパフォーマンスが向上し、ゼロ パディングによる処理のオーバーヘッドが軽減されます。
Moonshine には 2 つのバージョンがあり、小さい Tiny バージョンには 2,710 万のパラメータがあり、大きい Base バージョンには 6,150 万のパラメータがあります。比較すると、OpenAI の類似モデルのパラメータは大きく、Whisper tiny.en は 3,780 万、base.en は 7,260 万です。
テスト結果は、Moonshine の Tiny モデルは精度において Whisper と同等でありながら、消費するコンピューティング リソースが少ないことを示しています。さまざまなオーディオ レベルとバックグラウンド ノイズにわたって、Moonshine の両バージョンはワード エラー レート (WER) が Whisper よりも低く、優れたパフォーマンスを示しました。
研究チームは、非常に短い音声クリップ (1 秒未満) の処理に関しては、Moonshine にはまだ改善の余地があると指摘しました。これらの短い音声がトレーニング データに占める割合は比較的小さいため、このような音声クリップのトレーニングを増やすと、モデルのパフォーマンスが向上する可能性があります。
さらに、Moonshine のオフライン機能により、新しいアプリケーション シナリオが開かれ、ハードウェアの制限により以前は不可能だったアプリケーションが実現可能になります。より高い電力消費を必要とする Whisper とは異なり、Moonshine はスマートフォンや Raspberry Pi などの小型デバイスでの実行に適しています。 Useful Sensors は Moonshine を使用して英語-スペイン語翻訳ツール Torre を開発しています。
Moonshine のコードは GitHub で公開されていますが、Whisper のような AI 文字起こしシステムにはエラーが発生する可能性があることにユーザーは注意する必要があります。一部の研究によると、Whisper ではコンテンツ生成時に誤った情報が含まれる可能性が 1.4% あり、特に言語障害のある人にとってはエラー率が高くなります。
プロジェクトの入り口: https://github.com/usefulsensors/moonshine
Moonshine オープンソース音声認識モデルの登場により、低リソース デバイス上の音声認識アプリケーションに新たな可能性がもたらされ、その効率的なパフォーマンスと柔軟なアーキテクチャにより、多くの分野での幅広い応用が可能になります。ただし、ユーザーは潜在的なエラーにも注意し、注意して使用する必要があります。 Downcodes の編集者は、その後の更新と改善に注意を払うことをすべての人に推奨しています。