LiteFocus
1.0.0
LiteFocus: การอนุมานการแพร่กระจายแบบเร่งเพื่อการสังเคราะห์เสียงแบบยาว
เจิ้นซยง ตัน, ซินหยิน หม่า, กงฟาน ฟาง และซินฉาว หวาง
Learning and Vision Lab, มหาวิทยาลัยแห่งชาติสิงคโปร์
LiteFocus เป็นเครื่องมือที่ออกแบบมาเพื่อเร่งความเร็วโมเดล TTA ที่ใช้การแพร่กระจาย ซึ่งขณะนี้ใช้งานกับโมเดลพื้นฐาน AudioLDM2 มันเพิ่มความเร็วในการประมวลผลเป็นสองเท่าและปรับปรุงคุณภาพเสียง
conda create -n litefocus python=3.10
conda activate litefocus
pip3 install git+https://github.com/haoheliu/AudioLDM2.git
from audioldm2 import text_to_audio, build_model
import scipy
+ from litefocus import inject_lite_focus, disable_lite_focus
model = build_model(model_name='audioldm2-full')
+ inject_lite_focus(model)
waveform = text_to_audio(
latent_diffusion=model,
duration=40,
text='Musical constellations twinkling in the night sky, forming a cosmic melody.',
)
scipy.io.wavfile.write("out.wav", rate=16000, data=waveform)
disable_lite_focus ( model )
config = {
'same_frequency' : True ,
'cross_frequency' : True ,
'sparse_ratio' : 0.1
}
inject_lite_focus ( model , config )
พารามิเตอร์ | คำอธิบาย | ค่าเริ่มต้น |
---|---|---|
same_frequency | ช่วยให้สามารถให้ความสนใจกับโทเค็นที่ใช้ความถี่เดียวกันได้ | True |
cross_frequency | ช่วยให้ความสนใจกับโทเค็นในการชดเชยข้ามความถี่ | True |
sparse_ratio | ระบุอัตราส่วน Sparsity สำหรับ cross_frequency | 0.1 |
@article{
tan2024lite,
title={LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis},
author={Zhenxiong Tan, Xinyin Ma, Gongfan Fang, and Xinchao Wang},
journal={arXiv preprint arXiv:2407.10468},
year={2024}
}