LiteFocus
1.0.0
LiteFocus : Inférence de diffusion accélérée pour la synthèse audio longue
Zhenxiong Tan, Xinyin Ma, Gongfan Fang et Xinchao Wang
Laboratoire d'apprentissage et de vision, Université nationale de Singapour
LiteFocus est un outil conçu pour accélérer le modèle TTA basé sur la diffusion, désormais implémenté avec le modèle de base AudioLDM2. Il double la vitesse de traitement et améliore la qualité audio.
conda create -n litefocus python=3.10
conda activate litefocus
pip3 install git+https://github.com/haoheliu/AudioLDM2.git
from audioldm2 import text_to_audio, build_model
import scipy
+ from litefocus import inject_lite_focus, disable_lite_focus
model = build_model(model_name='audioldm2-full')
+ inject_lite_focus(model)
waveform = text_to_audio(
latent_diffusion=model,
duration=40,
text='Musical constellations twinkling in the night sky, forming a cosmic melody.',
)
scipy.io.wavfile.write("out.wav", rate=16000, data=waveform)
disable_lite_focus ( model )
config = {
'same_frequency' : True ,
'cross_frequency' : True ,
'sparse_ratio' : 0.1
}
inject_lite_focus ( model , config )
Paramètre | Description | Valeur par défaut |
---|---|---|
same_frequency | Permet d'attirer l'attention sur les jetons partageant la même fréquence. | True |
cross_frequency | Permet d'accorder une attention particulière aux jetons dans la compensation de fréquence croisée. | True |
sparse_ratio | Spécifie le rapport de parcimonie pour cross_frequency . | 0,1 |
@article{
tan2024lite,
title={LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis},
author={Zhenxiong Tan, Xinyin Ma, Gongfan Fang, and Xinchao Wang},
journal={arXiv preprint arXiv:2407.10468},
year={2024}
}