Oute AIは、Llamaアーキテクチャに基づいた単純化されたTTSモデルであるAutetts-0.1-350mと呼ばれる新しいテキストからスピーチ合成方法を開始しました。外部アダプターは必要ありません。Wavtokenizerを直接使用してオーディオタグを生成し、サンプルの音声クローン機能がゼロになり、数秒の参照オーディオで新しいサウンドをコピーできます。モデルのパラメーターは規模が比較的小さくなっていますが、より大きく複雑なシステムに匹敵するパフォーマンスを実現でき、llama.cppと互換性があり、リアルタイムアプリケーションに最適です。その効率と使いやすさにより、パーソナライズされたアシスタント、オーディオブック、コンテンツのローカリゼーションなどの分野で幅広いアプリケーションの見通しがあります。
最近、Oute AIは、Outetts-0.1-350mと呼ばれる新しいテキストからスピーチの合成方法をリリースしました。このアプローチは、外部アダプターや複雑なアーキテクチャなしで純粋な言語モデリングを利用して、簡略化されたTTSアプローチを提供します。 Outetts-0.1-350mは、Wavtokenizerを使用してオーディオタグを直接生成するため、プロセスをより効率的にします。
このモデルにはゼロサンプルの音声クローニングがあり、参照オーディオの数秒で新しいサウンドをコピーできます。 Outetts-0.1-350mはデバイスのパフォーマンス用に設計されており、llama.cppと互換性があり、リアルタイムアプリケーションに最適です。モデルのパラメーターサイズ(3億5,000万)は比較的小さなパラメーターサイズですが、そのパフォーマンスは、より大きく複雑なTTSシステムに匹敵します。
Outetts-0.1-350mのアクセシビリティと効率により、パーソナライズされたアシスタント、オーディオブック、コンテンツのローカリゼーションなど、幅広いアプリケーションに適しています。 CC-BYライセンスの下でリリースされたOute AIは、高度なTTSテクノロジーを民主化するために、さまざまなプロジェクトへのさらなる実験と統合を奨励しています。
Outetts-0.1-350mのリリースは、単純化されたアーキテクチャを利用して、最小限の計算要件を備えた高品質の音声合成を提供するテキストからスピーチテクノロジーの重要な前進を示しています。 Llamaアーキテクチャを統合し、Wavtokenizerを使用し、複雑なアダプターなしでゼロサンプル音声クローンを実行することができます。これは、従来のTTSモデルと区別します。
アドレス:https://www.outeai.com/blog/outetts-0.1-350m
Outetts-0.1-350mの効率的で簡素化されたアーキテクチャとゼロサンプルの音声クローン機能は、テキストツーチングテクノロジーに新しい可能性をもたらし、開発者により便利で使いやすいツールを提供します。 そのオープンソースの特性は、この分野でのアプリケーションの技術開発と普及を促進しています。