การใช้งาน Spear-TTS - เครือข่ายการอ่านออกเสียงข้อความแบบหลายลำโพงใน Pytorch
โมดูลข้อความเป็นความหมายที่สร้างขึ้นที่นี่จะถูกใช้สำหรับ SoundStorm สำหรับการปรับสภาพ
ความมั่นคงสำหรับการสนับสนุนอย่างเอื้อเฟื้อในการทำงานและการวิจัยปัญญาประดิษฐ์ที่ทันสมัยแบบโอเพ่นซอร์ส
Lucas Newman สำหรับการทำส่วน backtranslation ให้เสร็จสิ้น รวมถึงการถอดรหัสการค้นหาบีม!
Lucas Newman สำหรับการกรอกข้อความสุดท้ายในโค้ดการฝึกอบรม semantic Transformer!
$ pip install spear-tts-pytorch
import torch
from audiolm_pytorch import HubertWithKmeans
from spear_tts_pytorch import (
TextToSemantic ,
SemanticToTextDatasetGenerator ,
GeneratedAudioTextDataset ,
MockDataset
)
wav2vec = HubertWithKmeans (
checkpoint_path = './hubert_base_ls960.pt' ,
kmeans_path = './hubert_base_ls960_L9_km500.bin'
)
model = TextToSemantic (
wav2vec = wav2vec ,
dim = 512 ,
num_text_token_ids = 256 ,
heads = 8 ,
target_kv_heads = 2 , # grouped query attention, for memory efficient decoding
source_depth = 1 ,
target_depth = 1
)
ds = MockDataset ( 10 )
dataset_generator = SemanticToTextDatasetGenerator (
model = model ,
dataset = ds ,
folder = './output_folder'
)
dataset_generator ( max_length = 2 )
generated_dataset = GeneratedAudioTextDataset (
folder = './output_folder'
)
assert len ( generated_dataset ) == 10
เพิ่ม eos logic + create และเชื่อมต่อการสร้างแบบ end-to-end ใน soundstorm
เพิ่มการฝึกพูดเป็นคำพูดล่วงหน้าครั้งแรกด้วยการสร้างโทเค็นที่ถูกลบ 60% ใหม่
เพิ่มการออกกลางคันสำหรับโปรเจ็กต์นี้เนื่องจากทรัพยากรต่ำ
เพิ่มความยืดหยุ่นโดยรวมของชั้นของตัวเข้ารหัส / ตัวถอดรหัสที่จะหยุดระหว่างการฝึก
เพิ่มขั้นตอนสำหรับการฝึกอบรมเกี่ยวกับคำพูดขนาดเล็ก -> คลังข้อความและสร้างชุดข้อมูลที่มีป้ายกำกับหลอก + การปรับแต่งอย่างละเอียด (ขอบคุณ @lucasnewman)
เพิ่มขั้นตอนสุดท้ายของการปรับแต่งข้อความ -> ชุดข้อมูลคำพูด + ป้ายกำกับหลอก
ค้นหาวิธีที่ดีที่สุดในการจัดเก็บและจัดการชุดข้อมูลที่สร้างขึ้นโดยมีป้ายกำกับหลอก
การถอดรหัสการค้นหาลำแสงแบบแบตช์
อนุญาตให้ใช้ตำแหน่งแบบหมุนในตัวถอดรหัส + แฟลช โปรดให้ Tri อ้างอิงอีกครั้ง
รวมการถอดรหัสแบบเก็งกำไรเข้ากับการแสดงด้นสด - ทำในรูปแบบเดียวกันโดยใช้กลยุทธ์การออกก่อนกำหนด
เพิ่มคีย์ / ค่าแคชสำหรับสตาร์ทเตอร์ + ค่าคีย์เดี่ยว / จัดกลุ่ม ตรวจสอบให้แน่ใจว่าความสนใจของแฟลชสามารถรองรับมาสก์เชิงสาเหตุเฉพาะก่อนที่แฟลชความสนใจ 2 จะอยู่ในแกน pytorch
ขัดเกลาเวิร์กโฟลว์การสร้างข้อความเสียง
การเชื่อมต่อชุดข้อมูลข้อความเสียงจริงกับชุดข้อมูลที่สร้างขึ้น -> หรือสามารถแปลงชุดข้อมูลข้อความเสียงจริงเป็นที่สร้างขึ้น
@misc { kharitonov2023speak ,
title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
author = { Eugene Kharitonov and Damien Vincent and Zalán Borsos and Raphaël Marinier and Sertan Girgin and Olivier Pietquin and Matt Sharifi and Marco Tagliasacchi and Neil Zeghidour } ,
year = { 2023 } ,
eprint = { 2302.03540 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.SD }
}
@inproceedings { dao2022flashattention ,
title = { Flash{A}ttention: Fast and Memory-Efficient Exact Attention with {IO}-Awareness } ,
author = { Dao, Tri and Fu, Daniel Y. and Ermon, Stefano and Rudra, Atri and R{'e}, Christopher } ,
booktitle = { Advances in Neural Information Processing Systems } ,
year = { 2022 }
}
@misc { shi2023enhance ,
title = { Enhance audio generation controllability through representation similarity regularization } ,
author = { Yangyang Shi and Gael Le Lan and Varun Nagaraja and Zhaoheng Ni and Xinhao Mei and Ernie Chang and Forrest Iandola and Yang Liu and Vikas Chandra } ,
year = { 2023 } ,
eprint = { 2309.08773 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.SD }
}
@article { Ainslie2023GQATG ,
title = { GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints } ,
author = { Joshua Ainslie and James Lee-Thorp and Michiel de Jong and Yury Zemlyanskiy and Federico Lebr'on and Sumit K. Sanghai } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2305.13245 } ,
url = { https://api.semanticscholar.org/CorpusID:258833177 }
}
@inproceedings { Leviathan2022FastIF ,
title = { Fast Inference from Transformers via Speculative Decoding } ,
author = { Yaniv Leviathan and Matan Kalman and Y. Matias } ,
booktitle = { International Conference on Machine Learning } ,
year = { 2022 } ,
url = { https://api.semanticscholar.org/CorpusID:254096365 }
}