Ainur は、条件付きマルチモーダル音楽生成のための革新的な深層学習モデルです。歌詞、テキスト記述子、その他のオーディオなどのさまざまな入力を条件として、48 kHz で高品質のステレオ音楽サンプルを生成するように設計されています。 Ainur の階層的拡散アーキテクチャと CLASP エンベディングを組み合わせることで、幅広いジャンルやスタイルにわたる一貫性のある表現力豊かな音楽作品を生成できます。
条件付き生成: Ainur は、歌詞、テキスト記述子、またはその他のオーディオを条件とした音楽の生成を可能にし、音楽作曲への柔軟で創造的なアプローチを提供します。
高品質出力:このモデルは 48 kHz で 22 秒のステレオ音楽サンプルを生成でき、高い忠実度とリアリズムを保証します。
マルチモーダル学習: Ainur は、歌詞とオーディオのマルチモーダル表現である CLASP 埋め込みを採用し、テキストの歌詞と対応するオーディオ フラグメントの位置合わせを容易にします。
客観的な評価:生成された音楽の品質と一貫性を評価するために、Frechet Audio Distance (FAD) や CLASP Cycle Consistency (C3) などの包括的な評価指標を提供します。
Ainur を実行するには、次の依存関係がインストールされていることを確認してください。
Python 3.8+
PyTorch 1.13.1
PyTorch ライトニング 2.0.0
以下を実行して、必要な Python パッケージをインストールできます。
pip install -r 要件.txt
このリポジトリのクローンを作成します。
git clone https://github.com/ainur-music/ainur.gitcd ainur
(前述のように) 依存関係をインストールします。
必要な入力を指定して Ainur を実行します。音楽生成に Ainur を使用するためのガイダンスについては、 examples
フォルダー内のサンプル ノートブックを確認してください。 (近日公開)
アイヌールは音楽の生成をガイドし、テキスト情報と同期された歌詞を通じてボーカルの品質を向上させます。以下は、Ainur を使用して音楽をトレーニングおよび生成するための入力の例です。
«Red Hot Chili Peppers, Alternative Rock, 7 of 19»
«[00:45.18] I got your hey oh, now listen what I say oh [...]»
Ainur のパフォーマンスを、テキストから音楽を生成する他の最先端モデルと比較します。 FAD などの客観的な指標に基づいて評価を行い、参照用にさまざまな埋め込みモデル (VGGish、YAMNet、Trill) を使用しました。
モデル | レート[kHz] | 長さ [秒] | パラメータ[M] | 推論ステップ | 推論時間[秒] ↓ | FAD VGGish ↓ | FAD YAMNet ↓ | FADトリル ↓ |
---|---|---|---|---|---|---|---|---|
アイヌール | 48@2 | 22 | 910 | 50 | 14.5 | 8.38 | 20.70 | 0.66 |
アイヌール (CLASPなし) | 48@2 | 22 | 910 | 50 | 14.7 | 8.40 | 20.86 | 0.64 |
オーディオLDM | 16@1 | 22 | 181 | 200 | 2.20 | 15.5 | 784.2 | 0.52 |
オーディオLDM2 | 16@1 | 22 | 1100 | 100 | 20.8 | 8.67 | 23.92 | 0.52 |
ミュージックジェネ | 16@1 | 22 | 300 | 1500 | 81.3 | 14.4 | 53.04 | 0.66 |
ジュークボックス | 16@1 | 1 | 1000 | - | 538 | 20.4 | 178.1 | 1.59 |
音楽LM | 16@1 | 5 | 1890年 | 125 | 153 | 15.0 | 61.58 | 0.47 |
リフュージョン | 44.1@1 | 5 | 890 | 50 | 6.90 | 5.24 | 15.96 | 0.67 |
ここでアイヌールが生成した音楽を探索して聴いてください。
事前トレーニングされた Ainur および CLASP チェックポイントは次のドライブからダウンロードできます。
アイヌールのベストチェックポイント(トレーニング中の損失が最も少ないモデル)
アイヌールの最後のチェックポイント (トレーニング ステップ数が最も多いモデル)
クラスプチェックポイント
このプロジェクトは MIT ライセンスに基づいてライセンスされています。詳細については、LICENSE ファイルを参照してください。
© 2023 ジュゼッペ・コンシャルディ