LiteFocus下载 - LiteFocus源码下载

LiteFocus

其他源码

1.0.0

下载

莱特焦点

LiteFocus：用于长音频合成的加速扩散推理
谭振雄、马欣银、方功凡、王新超
新加坡国立大学学习与视觉实验室

TL;DR（太长；没读）

LiteFocus 是一款旨在加速基于扩散的 TTA 模型的工具，现已通过基础模型 AudioLDM2 实现。它使处理速度加倍并提高音频质量。

设置

准备环境（可选）

conda create -n litefocus python=3.10
conda activate litefocus

安装基础模型

pip3 install git+https://github.com/haoheliu/AudioLDM2.git

用法

基本用法

from audioldm2 import text_to_audio, build_model
import scipy

+ from litefocus import inject_lite_focus, disable_lite_focus

model = build_model(model_name='audioldm2-full')

+ inject_lite_focus(model)

waveform = text_to_audio(
    latent_diffusion=model,
    duration=40,
    text='Musical constellations twinkling in the night sky, forming a cosmic melody.',
)

scipy.io.wavfile.write("out.wav", rate=16000, data=waveform)

禁用 LiteFocus

 disable_lite_focus ( model )

配置

 config = {
    'same_frequency' : True ,
    'cross_frequency' : True ,
    'sparse_ratio' : 0.1
}

inject_lite_focus ( model , config )

范围	描述	默认值
`same_frequency`	使人们能够关注共享相同频率的代币。	`True`
`cross_frequency`	能够关注跨频补偿中的令牌。	`True`
`sparse_ratio`	指定`cross_frequency`的稀疏率。	0.1

待办事项

音频LDM2集成
扩散器管道集成

引文

 @article{
  tan2024lite,
  title={LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis},
  author={Zhenxiong Tan, Xinyin Ma, Gongfan Fang, and Xinchao Wang},
  journal={arXiv preprint arXiv:2407.10468},
  year={2024}
}

展开

附加信息