Fish Audioは、新しい音声処理モデルであるFish Agent V0.13Bをリリースしました。これは、スピーチを効率的かつ正確に生成および処理できる印象的な音声からスピーチへのモデルであり、さまざまな音のシミュレーションとクローン化に優れています。このモデルは、QWEN-2.5-3B-Instructに基づいて事前に訓練されており、2000億の音声トークンとテキストトークンを含む大規模なデータセットを使用しています。その革新は、音声を音声レベルで直接処理する「セマンティックトークンフリー」アーキテクチャの採用にあり、それにより速度と効率を改善し、「インスタント」音声クローンとテキストからスピーチの変換を実現します。このモデルは複数の言語をサポートし、オープンソースであり、AI Voice Technologyの開発に新しい可能性をもたらします。
最近、Fish Audioは、特にさまざまな音のシミュレーションまたはクローニングで、新しい音声処理モデルv0.13bをリリースしました。これは、自然で応答性の高いAI音声アシスタントを持つことに一歩近づいていることを意味します。
魚のエージェントV0.13Bモデルは、QWEN-2.5-3B-Instructに基づいて事前に訓練されており、2000億の音声トークンとテキストトークンを含む大規模なデータセットを使用しています。最初に音声を複雑なセマンティックエンコーディングに変換する必要がある従来のモデルとは異なり、魚のエージェントv0.13bは、「セマンティックレストークン」と呼ばれるアーキテクチャを採用して、音レベルで直接音声を処理および生成します。この直接処理は、モデル構造を簡素化するだけでなく、モデルの反応速度と効率も向上させます。
この革新的なアーキテクチャのおかげで、魚のエージェントv0.13bは迅速かつ自然に高品質の音声を生成し、テキストからオーディオへの変換時間(TTFA)で「インスタント」音声クローニングとテキストからスピーチへの変換を可能にします。 。この機能により、音声アシスタント、自動カスタマーサービス、高速の音声フィードバックを必要とするその他のシナリオなど、リアルタイムの音声生成が必要なアプリケーションシナリオに最適です。
魚のエージェントv0.13bモデルは、英語、中国語、ドイツ語、日本、フランス語、スペイン語、韓国語、アラビア語を含む複数の言語をサポートし、トレーニングに約700,000時間の多言語オーディオデータを使用しています。これは、複数の言語とコンテキストを処理できることを意味し、実在の人物に対してより自然でより緊密な発音を生成することを意味します。
音声からスピーチの生成とテキスト間変換機能に加えて、魚のエージェントv0.13bには次の重要な機能もあります。
ゼロサンプル音声クローニング:音声クローニングは、トレーニングなしで実現できます。
簡素化された3Bパラメーター:30億パラメーターを使用して、簡単に開発します。
テキストとオーディオ入力をサポート:柔軟なマルチ入力法。
現在、Fish AudioはFish Agent V0.13Bモデルを開いており、ユーザーエクスペリエンス向けの予備的なデモバージョンを提供しています。このモデルのリリースは、AI Voice Technologyの開発をさらに促進し、音声アシスタントや仮想人などのアプリケーションにより多くの可能性をもたらします。
github:https://github.com/fishaudio/fishspeech
魚のエージェントデモ:https://huggingface.co/spaces/fishaudio/fish-agent
モデルのダウンロード:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
技術レポート:https://arxiv.org/abs/2411.01156
Fish Agent V0.13Bモデルのオープンソースリリースは、AI Voiceフィールドの研究と応用に新しいブレークスルーをもたらし、音声技術の将来の開発におけるその役割を楽しみにしています。 より多くの開発者がAI Voice Technologyの進歩を共同で促進できることを願っています。