NVIDIA がリリースした最新の AI モデル Fugatto は、オーディオ処理技術を根本的に変革する魔法のような力を持っているようです。音楽、音声、サウンドの混合物を生成できるだけでなく、テキストやオーディオ ファイルを通じてユーザーが入力した指示を理解して実行することもできるため、さまざまな素晴らしい聴覚効果を生み出すことができます。 Downcodes の編集者は、この破壊的な AI モデルを深く理解し、それがどのように SF 映画のシーンを現実にもたらすことができるのかを説明します。
Fugatto の正式名称は「Foundational Generative Audio Transformer Opus1」で、ジェネレーティブ AI 技術に基づいたオーディオ処理モデルです。音楽を作成したり音声を変更したりすることしかできない他の AI モデルとは異なり、Fugatto は音楽、音声、サウンドのあらゆる混合物を生成または変換する強力な機能を備えており、ユーザーがテキスト ファイルや音声ファイルを通じて入力した指示を理解して実行することができます。
Fugatto の強力な機能は、音楽プロデューサー、広告代理店、語学学習ツール開発者、ゲーム開発者など、あらゆる分野のユーザーを驚かせてきました。 音楽プロデューサーはこれを使用して、さまざまな音楽スタイル、ボーカル、楽器をすばやく試したり、既存の曲にエフェクトを追加したり音質を改善したりすることもできます。 広告会社はこれを使用して、広告の吹き替えにさまざまなアクセントや感情を追加し、さまざまな地域やターゲット グループに広告を簡単に宣伝できます。 言語学習ツールの開発者は、Fugatto を使用して、コースのコンテンツを家族や友人などのユーザーが望む任意の音声に変換して、学習をよりパーソナライズすることができます。 ゲーム開発者は、Fugatto を使用して、ゲームの進行状況に基づいてゲーム内のサウンド素材をリアルタイムで変更したり、テキスト コマンドやオーディオ入力に基づいて新しいゲーム サウンド効果を作成したりできます。
Fugatto の魅力は、人間と同じように音を理解し、生成する能力です。 ユーザーの特定の指示を実行するだけでなく、これまでに聞いたことのない新しい音を生み出すこともできます。例えば、トランペットなら犬の鳴き声、サックスなら猫の鳴き声など、ユーザーが表現できればそれを作ることができます。
画像出典注:画像はAIによって生成され、画像はサービスプロバイダーMidjourneyによって許可されています
Fugatto のもう 1 つの画期的な機能は、トレーニング中に個別に学習した命令を組み合わせて、より複雑な効果を生み出す機能です。 たとえば、ユーザーは、悲しい感情を伴うフランス語なまりの音声を生成するように要求できます。 さらに驚くべきことに、「フガット」では、アクセントの太さや悲しみの強さなど、細かな指示の調整も可能で、アーティストのような創作が可能です。
Fugatto は、遠くから近づいてくる嵐や、徐々に遠くに消えていく前に激しさを増す雷など、時間の経過とともに変化するサウンドを生成することもできます。 ユーザーはサウンドの変化プロセスを正確に制御し、さまざまな鮮やかなサウンドエフェクトを作成できます。
Fugatto は、インド、ブラジル、中国、ヨルダン、韓国などの国のチームメンバーからなる世界中の研究者間の共同作業です。 彼らの多様な背景により、Fugatto はより優れた複数のアクセントと複数の言語の能力を得ることができます。
Fugatto の誕生は、音声モデリング、オーディオ コーディング、オーディオ理解の分野における NVIDIA の長年にわたる研究の集大成です。 これは 25 億のパラメーターを使用し、32 個の NVIDIA H100Tensor コア GPU を搭載した NVIDIA DGX システムのクラスターでトレーニングされます。
Fugatto の登場は、オーディオ処理テクノロジーの新時代を告げるものです。音楽、映画、ゲーム、教育など、さまざまな分野に無限の可能性をもたらします。さらなる素晴らしい聴覚の饗宴を楽しみにしていてください。
公式ブログ:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
Fugatto の登場は、オーディオ分野における人工知能の大きな可能性を告げるものであり、その強力な機能と便利な操作方法は、間違いなくあらゆる分野に前例のない革新をもたらすでしょう。 Fugatto が今後私たちの聴覚の世界をどのように形作っていくのか、楽しみに待ちましょう。