Repositori resmi untuk Menggabungkan kontrol audio dan transfer gaya menggunakan difusi laten oleh Nils Demerlé, Philippe Esling, Guillaume Doras dan David Genova diterima di ISMIR 2024 (tautan kertas).
Melatih model memerlukan tiga langkah: memproses kumpulan data, melatih autoencoder, lalu melatih model difusi.
python dataset/split_to_lmdb.py --input_path /path/to/audio_dataset --output_path /path/to/audio_dataset/out_lmdb
Atau menggunakan slakh dengan pengolahan midi (setelah download Slakh2100 disini) :
python dataset/split_to_lmdb_midi.py --input_path /path/to/slakh --output_path /path/to/slakh/out_lmdb_midi --slakh True
python train_autoencoder.py --name my_autoencoder --db_path /path/to/lmdb --gpu #
Setelah autoencoder dilatih, autoencoder harus diekspor ke file .pt torchscript :
python export_autoencoder.py --name my_autoencoder --step # #
Dimungkinkan untuk melewati seluruh fase ini dan menggunakan autoencoder terlatih seperti Encodec, yang dibungkus dalam nn.module dengan metode encode dan decode.
Pelatihan model dikonfigurasi dengan file konfigurasi gin. Untuk melatih model audio ke audio :
python train_diffusion.py --db_path /data/nils/datasets/slakh/lmdb_midi/ --config midi --dataset_type midi --gpu #
Untuk melatih model midi-ke-audio :
python train_diffusion.py --db_path /path/to/lmdb --config main --dataset_type waveform --gpu #
TBA