LiteFocus
1.0.0
LiteFocus: استنتاج الانتشار المتسارع للتوليف الصوتي الطويل
زينشيونغ تان، شينيين ما، غونغفان فانغ، وشينتشاو وانغ
مختبر التعلم والرؤية، جامعة سنغافورة الوطنية
LiteFocus هي أداة مصممة لتسريع نموذج TTA القائم على الانتشار، ويتم تنفيذها الآن باستخدام النموذج الأساسي AudioLDM2. فهو يضاعف سرعة المعالجة ويعزز جودة الصوت.
conda create -n litefocus python=3.10
conda activate litefocus
pip3 install git+https://github.com/haoheliu/AudioLDM2.git
from audioldm2 import text_to_audio, build_model
import scipy
+ from litefocus import inject_lite_focus, disable_lite_focus
model = build_model(model_name='audioldm2-full')
+ inject_lite_focus(model)
waveform = text_to_audio(
latent_diffusion=model,
duration=40,
text='Musical constellations twinkling in the night sky, forming a cosmic melody.',
)
scipy.io.wavfile.write("out.wav", rate=16000, data=waveform)
disable_lite_focus ( model )
config = {
'same_frequency' : True ,
'cross_frequency' : True ,
'sparse_ratio' : 0.1
}
inject_lite_focus ( model , config )
المعلمة | وصف | القيمة الافتراضية |
---|---|---|
same_frequency | تمكن الانتباه إلى الرموز المميزة التي تتقاسم نفس التردد. | True |
cross_frequency | يتيح الانتباه إلى الرموز المميزة في تعويض الترددات المتقاطعة. | True |
sparse_ratio | يحدد نسبة التناثر للتردد cross_frequency . | 0.1 |
@article{
tan2024lite,
title={LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis},
author={Zhenxiong Tan, Xinyin Ma, Gongfan Fang, and Xinchao Wang},
journal={arXiv preprint arXiv:2407.10468},
year={2024}
}