Nvidiaは、Fugattoと呼ばれる革新的なオーディオ生成および処理AIモデルを開始しました。これには、音楽と健全な創造の分野に前例のない柔軟性と創造性をもたらす25億パラメーターがあります。 Fugattoは、テキストプロンプトと高度なオーディオ合成テクノロジーを組み合わせ、テキストとオーディオ入力をサポートし、従来のオーディオ生成モデルの制限を破り、ユーザーがリアルタイムで作成および変更し、さまざまな新しいサウンドエフェクトを生成できるようにします。その革新的な「合成可能な」テクノロジーは、ユーザーが前例のない制御を提供し、音の正確な制御を実現します。
音楽と健全な創造の分野では、テクノロジーと創造性の組み合わせは常に多くの課題に直面しています。既存のAIモデルは、特定のタスクに優れていることが多く、広範な適応性が欠けているため、音楽制作におけるAIの補助的役割が制限されています。 AIが音楽とオーディオの制作を改善できるようにするために、さまざまな創造的なニーズに柔軟に対処することが緊急です。この目的のために、Nvidiaは25億パラメーターを持つオーディオ生成および処理モデルであるFugattoを立ち上げました。
Fugatto's Designは、テキストプロンプトと高度なオーディオ合成機能を組み合わせることにより、高柔軟なサウンド入力と創造的な実験スペースを提供することを目的としています。たとえば、ピアノのメロディーをボーカルの歌に変換したり、トランペットに予期せぬ音を立てることができます。
Fugattoはテキスト入力をサポートするだけでなく、オプションのオーディオ入力をサポートし、従来のオーディオ生成モデルの制限を破り、アーティストや開発者がリアルタイムで作成および変更し、新しいタイプのサウンドをスムーズに生成できるようにします。
テクノロジーの観点から、Fugattoは革新的なデータ生成方法を使用して、従来の監督と学習を上回ります。そのトレーニングは、通常のデータセットに依存するだけでなく、特別に生成されたデータセットを組み合わせて、さまざまなオーディオおよび変換タスクを作成します。さらに、Fugattoは大きな言語モデル(LLM)を使用して、指示を生成する機能を高め、オーディオとテキストのプロンプトの関係をよりよく理解します。
重要な革新は「合成可能」です。これは、推論中に使用されるテクノロジーであり、さまざまなオーディオ生成の指示を柔軟に組み合わせたり、補間したり、拒否したりできます。 ComposableArtを使用すると、ユーザーはオーディオ合成プロセス中により高い制御を行うことができます。これにより、Fugattoのサウンドのサウンドパネルを正確にナビゲートし、ユニークなサウンド現象を作成できます。
Fugattoのアーキテクチャは、拡張されたトランスモデルに基づいています。予備的なテストでは、Fugattoは、特に健全な合成と変換の観点から、一般的なベンチマークテストでうまく機能し、他の専門モデルと比較してより強力な能力を示しています。
Fugattoの発売は、オーディオ生成AIの重要な進歩を示し、従来の制限を突破し、創造的なオーディオ制作のための強力で柔軟なツールを提供します。音楽、ゲーム、エンターテイメント、教育などの多くの分野での潜在的なアプリケーションは、AIテクノロジーが人間の創造性を支援する上で重要な役割を果たし続けることを意味します。
公式ブログ:https://blogs.nvidia.com/blog/fugatto-gen-sound-model/
論文:https://d1qx31qr3h6wln.cloudfront.net/publications/fugatto.pdf
ポイント:
Fugattoは、NVIDIAによって発売されたオーディオAIモデルであり、25億パラメーターを備え、テキストとオーディオ入力をサポートし、音楽とサウンドの作成を支援します。
革新的なデータ生成方法とオーディオ表現の変換テクノロジーを組み合わせて、ユーザーはサウンドを柔軟に生成および変更できます。
予備的なテストでは、オーディオの合成と変換におけるFugattoのパフォーマンスは、さまざまなプロフェッショナルモデルよりも優れており、その強力な創造的可能性を示しています。
全体として、Fugattoは、その強力な機能と柔軟な特性を備えた音楽の作成とサウンドデザインに新しい可能性をもたらし、クリエイティブ業界でのAIの適用がより広範かつ深くなることを示しています。 将来、より多くの驚きをもたらすFugattoを楽しみにしています。