ByteDance は、新しい音楽作成ツール Seed-Music を発表しました。これは、テキストの説明、オーディオ参照、楽譜、さらには音声プロンプトに基づいて高品質の音楽を生成できる音楽魔術師のようなものです。 Seed-Music は、自己回帰言語モデルと拡散モデルを組み合わせて、歌詞と音楽、メロディーの適応、または歌声への音声の変換など、ユーザーが音楽作成を前例のない制御できるようにします。 Downcodes のエディターは、この驚くべき音楽生成モデルについて詳しく学習させます。
最近、ByteDance は Seed-Music と呼ばれる新しい音楽作成ツールをリリースしました。この魔法のような音楽生成モデルを使用すると、さまざまな入力方法 (テキストの説明、オーディオ参照、楽譜、さらには音声プロンプトなど) を通じて簡単に音楽を生成できます。まるで音楽の魔術師がいるようなものです。
Seed-Music は自己回帰言語モデルと拡散モデルを組み合わせて高品質の音楽作品を生成するだけでなく、音楽の細部を正確に制御することもできます。音楽に歌詞を添えたい場合でも、メロディーを適応させたい場合でも、ここでは問題ありません。短いボイスクリップをアップロードすることもでき、システムが自動的に完全な曲に変換してくれるので、便利で効率的です。
強力なSeed-Musicは、ボーカルやインストゥルメンタルの音楽生成をサポートするだけでなく、歌声合成、歌声変換、音楽編集などの一連の機能を備えており、さまざまなユーザーのニーズを満たすことができます。単純なテキストの説明を通じてポップを生成でき、オーディオ プロンプトを通じて音楽スタイルを調整することもできます。これは非常に新鮮です。
さらに興味深いのは、Seed-Music のアーキテクチャが 3 つのモジュールに分かれていることです。表現学習モジュール、生成モジュール、レンダリング モジュールです。これらのモジュールがバンドのように連携して、マルチモーダル入力から高品質の音楽を生成します。
表現学習モジュールは、元のオーディオ信号を、さまざまな音楽生成および編集タスクに適した 3 つの中間表現に圧縮します。生成モジュールは、自己回帰モデルと拡散モデルを通じてユーザー入力を音楽表現に変換します。最終レンダリング モジュールは、これらの中間表現を耳で楽しめる高品質のオーディオに変換する役割を果たします。
音楽の品質を保証するために、Seed-Music はさまざまなテクノロジーを使用しています。自己回帰言語モデルは徐々にオーディオ シンボルを生成し、拡散モデルはノイズ除去を通じて音楽をよりクリアにし、ボコーダーはこれらの音楽「コード」を可読性の高い忠実度に変換します。音が再生されました。
Seed-Music のトレーニング プロセスも非常に興味深いもので、トレーニング前、微調整、トレーニング後の 3 つの段階に分かれています。大規模な音楽データを通じてモデルは基本的な機能を獲得し、次に微調整を通じて特定のタスクのパフォーマンスを向上させ、最後に強化学習を通じて生成された結果を継続的に最適化します。
プロジェクトアドレス:https://team.doubao.com/en/special/seed-music
Seed-Musicの登場は、間違いなく音楽制作に新たな可能性をもたらし、その便利な操作性と強力な機能により、音楽制作の敷居が大きく下がり、より多くの人が音楽制作の楽しさを体験できるようになります。 Seed-Music が今後さらに驚きをもたらすことを楽しみにしています。