Xiaohongshu Fireredチームは、新しい音声認識モデルFireredasrを開設しました。その単語エラー率(CER)は、以前のベストモデルから8.4%減の3.05%で、短いビデオ、ライブブロードキャスト、音声入力などの複数の実用的なアプリケーションシナリオで強力なパフォーマンスを示しています。 Fireredasrは2つのコア構造を提供します。Fireredasr-llmは精度に焦点を当て、Fireredasr-Aedのバランスは精度と効率性です。このモデルは、マンダリン、中国の方言、英語を含む複数の地域をサポートし、GithubとHugging Faceに供給されています。
Fireredasrのコアインジケーターは、単語エラー率(CER)です。最近の公開テストでは、FireredasrのCERは3.05%に達し、以前のベストモデルであるSeed-Asrから8.4%減少しました。この結果は、発砲チームの音声認識技術における革新的な能力を示しています。
Fireredasrモデルは、Fireredasr-llmとFireredasr-aedの2つのコア構造に分割されています。前者は究極の音声認識の精度に焦点を当て、後者は精度と推論効率の間の良いバランスをとっています。チームは、さまざまなアプリケーションシナリオのニーズを満たすために、さまざまなサイズのモデルと推論コードを提供します。
Fireredasrはまた、複数の毎日のアプリケーションシナリオで強力なパフォーマンスを示しています。ショートビデオ、ライブストリーミング、音声入力などのさまざまなソースで構成されるテストセットでは、Fireredasr-LLMのCERは、業界の大手サービスプロバイダーと比較して23.7%から40%削減されました。特に歌詞認識が必要なシナリオでは、モデルは特に顕著であり、CERは50.2%から66.7%の相対的な減少を達成しています。
さらに、Fireredasrは中国の方言や英語のシナリオでうまく機能しており、CERはkespeechおよびLibrispeechテストセットの以前のオープンソースモデルよりもかなり優れており、複数のロケールでの堅牢性と適応性を示しています。
Fireredチームは、この新しいモデルのオープンソースを通じて音声認識技術の開発と適用を促進し、音声相互作用の将来に貢献したいと考えています。すべてのモデルとコードがGitHubで公開されており、より多くの開発者と研究者が参加することを奨励しています。
Huggingface:https://huggingface.co/fireredteam
github:https://github.com/fireredteam/fireredasr
キーポイント:
-FireRedasrは、Xiaohongshuチームによって新たにリリースされたオープンソースの音声認識モデルであり、中国の認識の精度が優れています。
- モデルは、精度と効率の要件のために、それぞれfireredasr-llmとfireredasr-aedに分割されます。
-Fireredasrは、多くのシナリオで優れたパフォーマンスを発揮し、マンダリン、中国の方言、英語などのさまざまな言語環境に適しています。
Fireredasrのオープンソースは、間違いなく中国の音声認識技術の開発を加速し、開発者と研究者に強力なツールを提供し、また、より便利でインテリジェントな音声相互作用体験が将来来ることを示します。 Fireredasrに基づいたより革新的なアプリケーションを楽しみにしています!