spear tts pytorch
在 Pytorch 中实现 Spear-TTS - 多说话者文本转语音注意网络
这里构建的文本到语义模块将用于 SoundStorm 进行调节。
Lucas Newman 完成了反向翻译部分以及波束搜索解码!
Lucas Newman 完成了最终文本到语义转换器的训练代码!
$ pip install spear-tts-pytorch
import torch
from audiolm_pytorch import HubertWithKmeans
from spear_tts_pytorch import (
TextToSemantic ,
SemanticToTextDatasetGenerator ,
GeneratedAudioTextDataset ,
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert_base_ls960.pt' ,
kmeans_path = './hubert_base_ls960_L9_km500.bin'
model = TextToSemantic (
wav2vec = wav2vec ,
dim = 512 ,
num_text_token_ids = 256 ,
heads = 8 ,
target_kv_heads = 2 , # grouped query attention, for memory efficient decoding
source_depth = 1 ,
target_depth = 1
ds = MockDataset ( 10 )
dataset_generator = SemanticToTextDatasetGenerator (
model = model ,
dataset = ds ,
folder = './output_folder'
dataset_generator ( max_length = 2 )
generated_dataset = GeneratedAudioTextDataset (
folder = './output_folder'
assert len ( generated_dataset ) == 10
添加 eos 逻辑 + 生成,并在 soundstorm 中连接端到端生成
添加第一个预训练语音到语音,重建 60% 已删除的标记
添加小语音训练步骤 -> 文本语料库并生成伪标记数据集 + 微调(感谢@lucasnewman)
添加对文本 -> 语音 + 伪标签数据集进行微调的最后一步
将推测性解码与一些即兴创作相结合 - 使用早期退出策略在同一模型中完成
为 starter + 单个/分组键值添加缓存的键/值,确保在 Flash Attention 2 进入 pytorch 核心之前 Flash Attention 可以支持专门的因果掩码
将真实的音频文本数据集与生成的数据集连接起来 -> 或者能够将真实的音频文本数据集转换为生成的数据集
