제어 전달 확산
1.0.0
Nils Demerlé, Philippe Esling, Guillaume Doras 및 David Genova가 ISMIR 2024에서 승인한 잠재 확산을 사용한 오디오 제어 및 스타일 전송 결합에 대한 공식 저장소(문서 링크).
모델을 훈련하려면 데이터 세트 처리, 자동 인코더 훈련, 확산 모델 훈련의 세 단계가 필요합니다.
python dataset/split_to_lmdb.py --input_path /path/to/audio_dataset --output_path /path/to/audio_dataset/out_lmdb
또는 midi 처리와 함께 slakh를 사용하려면 (여기에서 Slakh2100을 다운로드한 후):
python dataset/split_to_lmdb_midi.py --input_path /path/to/slakh --output_path /path/to/slakh/out_lmdb_midi --slakh True
python train_autoencoder.py --name my_autoencoder --db_path /path/to/lmdb --gpu #
오토인코더가 훈련되면 torchscript .pt 파일로 내보내야 합니다.
python export_autoencoder.py --name my_autoencoder --step # #
이 전체 단계를 건너뛰고 encode 및 decode 메서드와 함께 nn.module에 래핑된 Encodec과 같은 사전 훈련된 자동 인코더를 사용할 수 있습니다.
모델 훈련은 gin 구성 파일로 구성됩니다. 오디오를 오디오 모델로 훈련하려면:
python train_diffusion.py --db_path /data/nils/datasets/slakh/lmdb_midi/ --config midi --dataset_type midi --gpu #
미디-오디오 모델을 훈련하려면:
python train_diffusion.py --db_path /path/to/lmdb --config main --dataset_type waveform --gpu #
추후 공지