LiteFocus
1.0.0
LiteFocus: Beschleunigte Diffusionsinferenz für die lange Audiosynthese
Zhenxiong Tan, Xinyin Ma, Gongfan Fang und Xinchao Wang
Learning and Vision Lab, National University of Singapore
LiteFocus ist ein Tool zur Beschleunigung des diffusionsbasierten TTA-Modells, das jetzt mit dem Basismodell AudioLDM2 implementiert ist. Es verdoppelt die Verarbeitungsgeschwindigkeit und verbessert die Audioqualität.
conda create -n litefocus python=3.10
conda activate litefocus
pip3 install git+https://github.com/haoheliu/AudioLDM2.git
from audioldm2 import text_to_audio, build_model
import scipy
+ from litefocus import inject_lite_focus, disable_lite_focus
model = build_model(model_name='audioldm2-full')
+ inject_lite_focus(model)
waveform = text_to_audio(
latent_diffusion=model,
duration=40,
text='Musical constellations twinkling in the night sky, forming a cosmic melody.',
)
scipy.io.wavfile.write("out.wav", rate=16000, data=waveform)
disable_lite_focus ( model )
config = {
'same_frequency' : True ,
'cross_frequency' : True ,
'sparse_ratio' : 0.1
}
inject_lite_focus ( model , config )
Parameter | Beschreibung | Standardwert |
---|---|---|
same_frequency | Ermöglicht Aufmerksamkeit für Token mit derselben Häufigkeit. | True |
cross_frequency | Ermöglicht die Aufmerksamkeit auf Token bei der Kreuzfrequenzkompensation. | True |
sparse_ratio | Gibt das Sparsity-Verhältnis für cross_frequency an. | 0,1 |
@article{
tan2024lite,
title={LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis},
author={Zhenxiong Tan, Xinyin Ma, Gongfan Fang, and Xinchao Wang},
journal={arXiv preprint arXiv:2407.10468},
year={2024}
}