Google Research からのオーディオ生成に対する言語モデリング アプローチである AudioLM の Pytorch への実装
また、T5 による分類子なしのガイダンスによる調整作業も拡張されます。これにより、論文では提供されていないテキストからオーディオへの変換や TTS を行うことができます。はい、これは VALL-E がこのリポジトリからトレーニングできることを意味します。本質的には同じです。
このリポジトリには、SoundStream の MIT ライセンス版も含まれるようになりました。また、EnCodec とも互換性があり、この記事の執筆時点では MIT ライセンスを取得しています。
更新: AudioLM は基本的に、新しい MusicLM での音楽生成を「解決」するために使用されました
将来的には、このムービークリップは意味を成さなくなるでしょう。代わりに AI にプロンプトを表示するだけです。 は、最先端の人工知能研究をオープンソースで行うための寛大なスポンサーシップを提供しています
MetaAI for Fairseq とリベラルライセンス
@eonglints と Joseph、専門的なアドバイスや専門知識、プル リクエストを提供してくれました。
サウンドストリームのデバッグを手伝ってくれた @djqualia、@yigityu、@inspirit、および @BlackFox1197
コードをレビューし、バグ修正を提出してくれた Allen と LWprogramming!
Ilya さん、マルチスケール弁別器のダウンサンプリングに関する問題の発見とサウンドストリーム トレーナーの改善について感謝します
Andrey はサウンドストリームの損失を特定し、適切なメル スペクトログラムのハイパーパラメータを教えてくれました。
Alejandro と Ilya は、トレーニング サウンドストリームで結果を共有し、ローカル アテンションの位置埋め込みに関するいくつかの問題に取り組んでくれました。
エンコーデック互換性を追加するための LWプログラミング!
からサンプリングする際の EOS トークンの処理に関する問題を見つけるための LWprogramming !
@YoungloLee は、ストライドを考慮しないパディングに関連するサウンドストリームの 1D 因果畳み込みの大きなバグを特定してくれました。
Hayden 氏、Soundstream のマルチスケール弁別器のいくつかの矛盾を指摘してくれました
$ pip install audiolm-pytorch
ニューラル コーデックには 2 つのオプションがあります。事前トレーニングされた 24kHz エンコーデックを使用する場合は、次のように Encodec オブジェクトを作成するだけです。
from audiolm_pytorch import EncodecWrapper
encodec = EncodecWrapper ()
# Now you can use the encodec variable in the same way you'd use the soundstream variables below.
それ以外の場合は、元の論文により忠実に保つために、 SoundStream
使用できます。まず、 SoundStream
from audiolm_pytorch import SoundStream , SoundStreamTrainer
soundstream = SoundStream (
codebook_size = 4096 ,
rq_num_quantizers = 8 ,
rq_groups = 2 , # this paper proposes using multi-headed residual vector quantization -
use_lookup_free_quantizer = True , # whether to use residual lookup free quantization - there are now reports of successful usage of this unpublished technique
use_finite_scalar_quantizer = False , # whether to use residual finite scalar quantization
attn_window_size = 128 , # local attention receptive field at bottleneck
attn_depth = 2 # 2 local attention transformer blocks - the soundstream folks were not experts with attention, so i took the liberty to add some. encodec went with lstms, but attention should be better
trainer = SoundStreamTrainer (
soundstream ,
folder = '/path/to/audio/files' ,
batch_size = 4 ,
grad_accum_every = 8 , # effective batch size of 32
data_max_length_seconds = 2 , # train on 2 second audio
num_train_steps = 1_000_000
). cuda ()
trainer . train ()
# after a lot of training, you can test the autoencoding as so
soundstream . eval () # your soundstream must be in eval mode, to avoid having the residual dropout of the residual VQ necessary for training
audio = torch . randn ( 10080 ). cuda ()
recons = soundstream ( audio , return_recons_only = True ) # (1, 10080) - 1 channel
audio = torch . randn ( 1 , 512 * 320 )
codes = soundstream . tokenize ( audio )
# you can now train anything with the codebook ids
recon_audio_from_codes = soundstream . decode_from_codebook_indices ( codes )
# sanity check
assert torch . allclose (
recon_audio_from_codes ,
soundstream ( audio , return_recons_only = True )
それぞれインポートすることで、 AudioLM
from audiolm_pytorch import AudioLMSoundStream , MusicLMSoundStream
soundstream = AudioLMSoundStream (...) # say you want the hyperparameters as in Audio LM paper
# rest is the same as above
では、構成を覚えていなくても、 SoundStream
のクラス メソッドを呼び出してチェックポイント ファイルからロードできるようになりました。
from audiolm_pytorch import SoundStream
soundstream = SoundStream . init_and_load_from ( './path/to/' )
でuse_wandb_tracking = True
trainer = SoundStreamTrainer (
soundstream ,
use_wandb_tracking = True
# wrap .train() with contextmanager, specifying project and run name
with trainer . wandb_tracker ( project = 'soundstream' , run = 'baseline' ):
trainer . train ()
次に、3 つの個別のトランスフォーマー ( SemanticTransformer
、 CoarseTransformer
、 FineTransformer
) をトレーニングする必要があります。
元。 SemanticTransformer
import torch
from audiolm_pytorch import HubertWithKmeans , SemanticTransformer , SemanticTransformerTrainer
# hubert checkpoints can be downloaded at
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert/' ,
kmeans_path = './hubert/hubert_base_ls960_L9_km500.bin'
semantic_transformer = SemanticTransformer (
num_semantic_tokens = wav2vec . codebook_size ,
dim = 1024 ,
depth = 6 ,
flash_attn = True
). cuda ()
trainer = SemanticTransformerTrainer (
transformer = semantic_transformer ,
wav2vec = wav2vec ,
folder = '/path/to/audio/files' ,
batch_size = 1 ,
data_max_length = 320 * 32 ,
num_train_steps = 1
trainer . train ()
元。 CoarseTransformer
import torch
from audiolm_pytorch import HubertWithKmeans , SoundStream , CoarseTransformer , CoarseTransformerTrainer
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert/' ,
kmeans_path = './hubert/hubert_base_ls960_L9_km500.bin'
soundstream = SoundStream . init_and_load_from ( '/path/to/trained/' )
coarse_transformer = CoarseTransformer (
num_semantic_tokens = wav2vec . codebook_size ,
codebook_size = 1024 ,
num_coarse_quantizers = 3 ,
dim = 512 ,
depth = 6 ,
flash_attn = True
trainer = CoarseTransformerTrainer (
transformer = coarse_transformer ,
codec = soundstream ,
wav2vec = wav2vec ,
folder = '/path/to/audio/files' ,
batch_size = 1 ,
data_max_length = 320 * 32 ,
num_train_steps = 1_000_000
trainer . train ()
元。 FineTransformer
import torch
from audiolm_pytorch import SoundStream , FineTransformer , FineTransformerTrainer
soundstream = SoundStream . init_and_load_from ( '/path/to/trained/' )
fine_transformer = FineTransformer (
num_coarse_quantizers = 3 ,
num_fine_quantizers = 5 ,
codebook_size = 1024 ,
dim = 512 ,
depth = 6 ,
flash_attn = True
trainer = FineTransformerTrainer (
transformer = fine_transformer ,
codec = soundstream ,
folder = '/path/to/audio/files' ,
batch_size = 1 ,
data_max_length = 320 * 32 ,
num_train_steps = 1_000_000
trainer . train ()
from audiolm_pytorch import AudioLM
audiolm = AudioLM (
wav2vec = wav2vec ,
codec = soundstream ,
semantic_transformer = semantic_transformer ,
coarse_transformer = coarse_transformer ,
fine_transformer = fine_transformer
generated_wav = audiolm ( batch_size = 1 )
# or with priming
generated_wav_with_prime = audiolm ( prime_wave = torch . randn ( 1 , 320 * 8 ))
# or with text condition, if given
generated_wav_with_text_condition = audiolm ( text = [ 'chirping of birds and the distant echos of bells' ])
更新: 「VALL-E」を考慮すると、これは機能するようです
import torch
from audiolm_pytorch import HubertWithKmeans , SemanticTransformer , SemanticTransformerTrainer
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert/' ,
kmeans_path = './hubert/hubert_base_ls960_L9_km500.bin'
semantic_transformer = SemanticTransformer (
num_semantic_tokens = 500 ,
dim = 1024 ,
depth = 6 ,
has_condition = True , # this will have to be set to True
cond_as_self_attn_prefix = True # whether to condition as prefix to self attention, instead of cross attention, as was done in 'VALL-E' paper
). cuda ()
# mock text audio dataset (as an example)
# you will have to extend your own from `Dataset`, and return an audio tensor as well as a string (the audio description) in any order (the framework will autodetect and route it into the transformer)
from torch . utils . data import Dataset
class MockTextAudioDataset ( Dataset ):
def __init__ ( self , length = 100 , audio_length = 320 * 32 ):
super (). __init__ ()
self . audio_length = audio_length
self . len = length
def __len__ ( self ):
return self . len
def __getitem__ ( self , idx ):
mock_audio = torch . randn ( self . audio_length )
mock_caption = 'audio caption'
return mock_caption , mock_audio
dataset = MockTextAudioDataset ()
# instantiate semantic transformer trainer and train
trainer = SemanticTransformerTrainer (
transformer = semantic_transformer ,
wav2vec = wav2vec ,
dataset = dataset ,
batch_size = 4 ,
grad_accum_every = 8 ,
data_max_length = 320 * 32 ,
num_train_steps = 1_000_000
trainer . train ()
# after much training above
sample = trainer . generate ( text = [ 'sound of rain drops on the rooftops' ], batch_size = 1 , max_length = 2 ) # (1, < 128) - may terminate early if it detects [eos]
すべてのトレーナー クラスが ? を使用しているためです。アクセラレータでは、 accelerate
コマンドを使用してマルチ GPU トレーニングを簡単に実行できます。
$ accelerate config
$ accelerate launch train . py
埋め込みにはfairseq vq-wav2vecを使用します
eonglint が推奨する、Hubert 中間機能をセマンティック トークンとして使用する機能を組み込む
可変長オーディオに対応し、eos トークンを導入します
セマンティック トークンを生成するときに処理します。一意の連続処理を考慮すると、最後のログが必ずしもシーケンスの最後であるとは限りません。
Coarse Transformer と Fine Transformer の両方の完全なサンプリング コードですが、これは注意が必要です
サウンドストリーム用の完全なトレーニング コードを完成し、弁別トレーニングを処理します。
サウンド データセット -> トランスフォーマーからサンプル Hz を接続し、トレーニング中に適切なリサンプリングを行います。データセットにさまざまなサウンド ファイルを含めることを許可するか、同じサンプル Hz を強制するかを検討します。
3 つの変圧器すべての完全な変圧器トレーニング コード
リファクタリングして、セマンティック トランスフォーマーに一意の連続したものと wav を Hubert または vq-wav2vec に処理するラッパーを持たせる
プロンプト側で EOS トークンを処理しないだけです (粗いトランスフォーマーのセマンティック、細かいトランスフォーマーの粗いセマンティック)
Fairseq でのログ記録を抑制する方法を理解する
audiolm に渡される 3 つのトランスフォーマーすべてに互換性があることをアサートします。
HiFi コーデックから、サウンドストリームでグループ化された残差 vq を許可します (vector-quantize-pytorch ライブラリのGroupedResidualVQ
NoPE でフラッシュ アテンションを追加する
でプライム ウェーブをオーディオ ファイルへのパスとして受け入れ、セマンティックと音響の自動リサンプリングを行います。
仕様のデコードを調査し、最初に X-transformers でテストし、次に該当する場合は移植します
残りの vq にグループが存在する場合に位置埋め込みをやり直す
cli ツール、 audiolm generate <wav.file | text>
作成し、生成された wav ファイルをローカル ディレクトリに保存します
可変長オーディオの場合は wave のリストを返します。
