Реализация MusicLM, новой модели SOTA от Google для создания музыки с использованием сетей внимания, в Pytorch.
В основном они используют AudioLM с текстовым условием, но, что удивительно, с встраиваниями из контрастной обучаемой модели текста и аудио под названием MuLan. MuLan — это то, что будет встроено в этот репозиторий, а AudioLM будет модифицирован из другого репозитория для поддержки потребностей создания музыки здесь.
Пожалуйста, присоединяйтесь, если вы заинтересованы в помощи в воспроизведении с сообществом LAION.
$ pip install musiclm-pytorch
сначала нужно обучить
import torch
from musiclm_pytorch import MuLaN , AudioSpectrogramTransformer , TextTransformer
audio_transformer = AudioSpectrogramTransformer (
dim = 512 ,
depth = 6 ,
heads = 8 ,
dim_head = 64 ,
spec_n_fft = 128 ,
spec_win_length = 24 ,
spec_aug_stretch_factor = 0.8
text_transformer = TextTransformer (
dim = 512 ,
depth = 6 ,
heads = 8 ,
dim_head = 64
mulan = MuLaN (
audio_transformer = audio_transformer ,
text_transformer = text_transformer
# get a ton of <sound, text> pairs and train
wavs = torch . randn ( 2 , 1024 )
texts = torch . randint ( 0 , 20000 , ( 2 , 256 ))
loss = mulan ( wavs , texts )
loss . backward ()
# after much training, you can embed sounds and text into a joint embedding space
# for conditioning the audio LM
embeds = mulan . get_audio_latents ( wavs ) # during training
embeds = mulan . get_text_latents ( texts ) # during inference
Чтобы получить встраивания условий для трех преобразователей, которые являются частью AudioLM
, вы должны использовать MuLaNEmbedQuantizer
следующим образом.
from musiclm_pytorch import MuLaNEmbedQuantizer
# setup the quantizer with the namespaced conditioning embeddings, unique per quantizer as well as namespace (per transformer)
quantizer = MuLaNEmbedQuantizer (
mulan = mulan , # pass in trained mulan from above
conditioning_dims = ( 1024 , 1024 , 1024 ), # say all three transformers have model dimensions of 1024
namespaces = ( 'semantic' , 'coarse' , 'fine' )
# now say you want the conditioning embeddings for semantic transformer
wavs = torch . randn ( 2 , 1024 )
conds = quantizer ( wavs = wavs , namespace = 'semantic' ) # (2, 8, 1024) - 8 is number of quantizers
Чтобы обучить (или точно настроить) три преобразователя, которые являются частью AudioLM
, вы просто следуете инструкциям в audiolm-pytorch
для обучения, но передаете экземпляр MulanEmbedQuantizer
обучающим классам под ключевым словом audio_conditioner
бывший. SemanticTransformerTrainer
import torch
from audiolm_pytorch import HubertWithKmeans , SemanticTransformer , SemanticTransformerTrainer
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert/hubert_base_ls960.pt' ,
kmeans_path = './hubert/hubert_base_ls960_L9_km500.bin'
semantic_transformer = SemanticTransformer (
num_semantic_tokens = wav2vec . codebook_size ,
dim = 1024 ,
depth = 6 ,
audio_text_condition = True # this must be set to True (same for CoarseTransformer and FineTransformers)
). cuda ()
trainer = SemanticTransformerTrainer (
transformer = semantic_transformer ,
wav2vec = wav2vec ,
audio_conditioner = quantizer , # pass in the MulanEmbedQuantizer instance above
folder = '/path/to/audio/files' ,
batch_size = 1 ,
data_max_length = 320 * 32 ,
num_train_steps = 1
trainer . train ()
После длительного обучения работе со всеми тремя преобразователями (семантическим, грубым и точным) вы передадите точно настроенные или обученные с нуля AudioLM
и MuLaN
завернутые в MuLaNEmbedQuantizer
, в MusicLM
# you need the trained AudioLM (audio_lm) from above
# with the MulanEmbedQuantizer (mulan_embed_quantizer)
from musiclm_pytorch import MusicLM
musiclm = MusicLM (
audio_lm = audio_lm , # `AudioLM` from https://github.com/lucidrains/audiolm-pytorch
mulan_embed_quantizer = quantizer # the `MuLaNEmbedQuantizer` from above
music = musiclm ( 'the crystalline sounds of the piano in a ballroom' , num_samples = 4 ) # sample 4 and pick the top match with mulan
Мулан, кажется, использует несвязанное контрастивное обучение, предложите это как вариант
оберните Мулан оберткой Мулана и квантовайте вывод, проецируйте в размеры аудиофильма
модифицируйте audiolm, чтобы он принимал встраивания условий, при необходимости позаботьтесь о разных измерениях через отдельную проекцию
audiolm и mulan заходят в musiclm и генерируют, фильтруют с помощью mulan
придать динамическое позиционное смещение вниманию к себе в AST
реализовать MusicLM, генерирующую несколько сэмплов и выбирающую лучшее совпадение с помощью MuLaN
поддержка звука переменной длины с маскированием в аудиотрансформаторе
добавить версию Мулан в открытый клип
установите все правильные гиперпараметры спектрограммы
