تنفيذ Spear-TTS - شبكة تحويل النص إلى كلام متعددة المتحدثين، في Pytorch
سيتم استخدام وحدة تحويل النص إلى الدلالات المبنية هنا في SoundStorm للتكييف.
الاستقرار لرعايتهم السخية للعمل على أبحاث الذكاء الاصطناعي المتطورة ومفتوحة المصدر
لوكاس نيومان لاستكمال جزء الترجمة العكسية، وكذلك فك تشفير بحث الشعاع!
لوكاس نيومان لاستكمال النص النهائي لكود التدريب على المحولات الدلالية!
$ pip install spear-tts-pytorch
import torch
from audiolm_pytorch import HubertWithKmeans
from spear_tts_pytorch import (
TextToSemantic ,
SemanticToTextDatasetGenerator ,
GeneratedAudioTextDataset ,
MockDataset
)
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert_base_ls960.pt' ,
kmeans_path = './hubert_base_ls960_L9_km500.bin'
)
model = TextToSemantic (
wav2vec = wav2vec ,
dim = 512 ,
num_text_token_ids = 256 ,
heads = 8 ,
target_kv_heads = 2 , # grouped query attention, for memory efficient decoding
source_depth = 1 ,
target_depth = 1
)
ds = MockDataset ( 10 )
dataset_generator = SemanticToTextDatasetGenerator (
model = model ,
dataset = ds ,
folder = './output_folder'
)
dataset_generator ( max_length = 2 )
generated_dataset = GeneratedAudioTextDataset (
folder = './output_folder'
)
assert len ( generated_dataset ) == 10
قم بإضافة منطق eos + إنشاء، وربط التوليد الشامل في عاصفة صوتية
أضف أول تدريب مسبق على تحويل الكلام إلى كلام مع إعادة بناء 60% من الرموز المميزة المحذوفة
إضافة المتسربين لهذا المشروع، باعتبارها منخفضة الموارد
إضافة المرونة الكاملة لطبقات التشفير/وحدة فك التشفير التي سيتم تجميدها أثناء التدريب
أضف خطوة للتدريب على الكلام الصغير -> مجموعة نصية وإنشاء مجموعة بيانات ذات علامات زائفة + ضبط دقيق (بفضل @lucasnewman)
أضف الخطوة الأخيرة لضبط النص -> الكلام + مجموعة البيانات ذات العلامات الزائفة
اكتشف أفضل طريقة لتخزين وإدارة مجموعة البيانات التي تم إنشاؤها ذات العلامات الزائفة
فك تشفير بحث الشعاع المجمع
السماح باستخدام الأوضاع الدوارة في وحدة فك التشفير + انتباه الفلاش، وإعطاء Tri اقتباسًا آخر
دمج فك التشفير التخميني مع بعض الارتجال - ويتم ذلك في نفس النموذج باستخدام استراتيجية الخروج المبكر
أضف مفتاحًا / قيمًا مخبأة للمبتدئين + قيم مفاتيح مفردة / مجمعة، وتأكد من أن انتباه الفلاش يمكن أن يدعم القناع السببي المتخصص قبل أن يكون انتباه الفلاش 2 في pytorch core
صقل سير عمل إنشاء النص الصوتي
ربط مجموعة بيانات النص الصوتي الحقيقية مع المجموعة التي تم إنشاؤها -> أو القدرة على تحويل مجموعة بيانات النص الصوتي الحقيقية إلى مجموعة بيانات تم إنشاؤها
@misc { kharitonov2023speak ,
title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
author = { Eugene Kharitonov and Damien Vincent and Zalán Borsos and Raphaël Marinier and Sertan Girgin and Olivier Pietquin and Matt Sharifi and Marco Tagliasacchi and Neil Zeghidour } ,
year = { 2023 } ,
eprint = { 2302.03540 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.SD }
}
@inproceedings { dao2022flashattention ,
title = { Flash{A}ttention: Fast and Memory-Efficient Exact Attention with {IO}-Awareness } ,
author = { Dao, Tri and Fu, Daniel Y. and Ermon, Stefano and Rudra, Atri and R{'e}, Christopher } ,
booktitle = { Advances in Neural Information Processing Systems } ,
year = { 2022 }
}
@misc { shi2023enhance ,
title = { Enhance audio generation controllability through representation similarity regularization } ,
author = { Yangyang Shi and Gael Le Lan and Varun Nagaraja and Zhaoheng Ni and Xinhao Mei and Ernie Chang and Forrest Iandola and Yang Liu and Vikas Chandra } ,
year = { 2023 } ,
eprint = { 2309.08773 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.SD }
}
@article { Ainslie2023GQATG ,
title = { GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints } ,
author = { Joshua Ainslie and James Lee-Thorp and Michiel de Jong and Yury Zemlyanskiy and Federico Lebr'on and Sumit K. Sanghai } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2305.13245 } ,
url = { https://api.semanticscholar.org/CorpusID:258833177 }
}
@inproceedings { Leviathan2022FastIF ,
title = { Fast Inference from Transformers via Speculative Decoding } ,
author = { Yaniv Leviathan and Matan Kalman and Y. Matias } ,
booktitle = { International Conference on Machine Learning } ,
year = { 2022 } ,
url = { https://api.semanticscholar.org/CorpusID:254096365 }
}