Amphion (/æmˈfaɪən/) 是一个用于音频、音乐和语音生成的工具包。其目的是支持可重复的研究,并帮助初级研究人员和工程师开始音频、音乐和语音生成研究和开发领域。 Amphion 提供了一个独特的功能:经典模型或架构的可视化。我们相信这些可视化对于希望更好地理解模型的初级研究人员和工程师来说是有益的。
Amphion 的北极星目标是提供一个平台来研究任何输入到音频的转换。 Amphion 旨在支持单独的生成任务,包括但不限于:
TTS :文本转语音(支持)
SVS :歌声合成(开发中)
VC :语音转换(开发中)
SVC :歌声转换(支持)
TTA :文本转音频(支持)
TTM :文本到音乐(开发中)
更多的…
除了特定的生成任务之外,Amphion 还包括多个声码器和评估指标。声码器是产生高质量音频信号的重要模块,而评估指标对于确保生成任务中指标的一致性至关重要。此外,Amphion 致力于推进现实应用中的音频生成,例如构建用于语音合成的大规模数据集。
2024/10/19 :我们发布了MaskGCT ,这是一种完全非自回归的 TTS 模型,无需文本和语音监督之间的显式对齐信息。 MaskGCT 在 Emilia 数据集上进行训练,并实现了 SOTA 零样本 TTS 性能。
2024/09/01 : Amphion、Emilia 和 DSFF-SVC 被 IEEE SLT 2024 接收! ?
2024/08/28 : 欢迎加入 Amphion 的 Discord 频道,与我们的社区保持联系并互动!
2024/08/20 : SingVisio 已被 Computers & Graphics 接受,可在此处查看! ?
2024/08/27 : Emilia 数据集现已公开!立即在 或 发现最广泛、最多样化的语音生成数据集,其中包含 101,000 小时的野外语音数据! ???
2024/07/01 : Amphion 现已发布Emilia ,这是第一个用于语音生成的开源多语言数据集,拥有超过 101k 小时的语音数据,以及Emilia-Pipe ,这是第一个旨在转换的开源预处理管道将野外语音数据转化为带有语音生成注释的高质量训练数据!
2024/06/17 : Amphion 的VALL-E型号发布了新版本!它使用 Llama 作为底层架构,与我们的第一个版本相比,具有更好的模型性能、更快的训练速度和更可读的代码。
2024/03/12 :Amphion 现在支持NaturalSpeech3 FACodec并发布预训练检查点。
2024/02/22 : 第一个 Amphion 可视化工具SingVisio发布。
2023/12/18 :Amphion v0.1 发布。
2023 年 11 月 28 日:Amphion alpha 发布。
与文本转语音 (TTS) 系统上的现有开源存储库相比,Amphion 实现了最先进的性能。它支持以下模型或架构:
FastSpeech2:一种利用前馈 Transformer 块的非自回归 TTS 架构。
VITS:一种端到端 TTS 架构,利用条件变分自动编码器和对抗性学习
VALL-E:一种零样本 TTS 架构,使用具有离散代码的神经编解码器语言模型。
NaturalSpeech2:一种 TTS 架构,利用潜在扩散模型生成自然的声音。
Jets:一种端到端 TTS 模型,通过对齐模块联合训练 FastSpeech2 和 HiFi-GAN。
MaskGCT:一种完全非自回归的 TTS 架构,无需文本和语音监督之间的显式对齐信息。
Ampion 支持来自各种预训练模型的多种基于内容的功能,包括 WeNet、Whisper 和 ContentVec。我们的 SLT 2024 论文对它们在 SVC 中的具体作用进行了研究。
Amphion 实现了多种最先进的模型架构,包括扩散模型、变压器模型、VAE 模型和基于流的模型。基于扩散的架构使用双向扩张 CNN 作为后端,并支持多种采样算法,例如 DDPM、DDIM 和 PNDM。此外,它还支持基于一致性模型的单步推理。
Amphion 通过潜在扩散模型支持 TTA。它的设计类似于 AudioLDM、Make-an-Audio 和 AUDIT。它也是我们 NeurIPS 2023 论文中文本到音频生成部分的正式实现。
Amphion 支持各种广泛使用的神经声码器,包括:
基于 GAN 的声码器:MelGAN、HiFi-GAN、NSF-HiFiGAN、BigVGAN、APNet。
基于流的声码器:WaveGlow。
基于扩散的声码器:Diffwave。
基于自回归的声码器:WaveNet、WaveRNN。
Amphion 提供了多尺度恒定 Q 变换鉴别器的官方实现(我们的 ICASSP 2024 论文)。它可用于在训练过程中增强任何架构的基于 GAN 的声码器,并保持推理阶段(例如内存或速度)不变。
Amphion 对生成的音频提供全面客观的评估。评估指标包含:
F0 建模:F0 皮尔逊系数、F0 周期性均方根误差、F0 均方根误差、浊音/清音 F1 分数等。
能源建模:能源均方根误差、能源皮尔逊系数等。
可懂度:字符/单词错误率,可以根据 Whisper 等计算。
频谱图失真:弗雷切音频距离 (FAD)、梅尔倒谱失真 (MCD)、多分辨率 STFT 距离 (MSTFT)、语音质量感知评估 (PESQ)、短时客观清晰度 (STOI) 等。
说话者相似度:余弦相似度,可以基于RawNet3、Resemblyzer、WeSpeaker、WavLM等计算。
Amphion 统一了开源数据集的数据预处理,包括 AudioCaps、LibriTTS、LJSpeech、M4Singer、Opencpop、OpenSinger、SVCC、VCTK 等。可以在此处查看支持的数据集列表(正在更新)。
Amphion(独家)支持Emilia数据集及其用于野外语音数据的预处理管道Emilia-Pipe !
Amphion 提供可视化工具,以交互方式说明经典模型的内部处理机制。这为教育目的和促进可理解的研究提供了宝贵的资源。
目前,Amphion 支持 SingVisio,这是一种用于歌声转换的扩散模型的可视化工具。
Amphion 可以通过安装程序或 Docker 映像进行安装。
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# 安装Python环境conda create --name amphion python=3.9.15 conda activate amphion# 安装 Python 包依赖项 sh env.sh
安装 Docker、NVIDIA 驱动程序、NVIDIA 容器工具包和 CUDA。
运行以下命令:
git 克隆 https://github.com/open-mmlab/Amphion.gitcd Amphion docker pull realamphion/amphion docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
使用 Docker 时,需要通过参数-v
挂载数据集。更多详细信息请参阅在 Docker 容器中挂载数据集和 Docker 文档。
我们在以下食谱中详细介绍了不同任务的说明:
文本转语音 (TTS)
歌声转换(SVC)
文本转音频 (TTA)
声码器
评估
可视化
我们感谢所有为改进 Amphion 做出的贡献。请参阅 CONTRIBUTING.md 了解贡献指南。
ming024的FastSpeech2和jaywalnut310的VITS用于模型架构代码。
lifeiteng的VALL-E用于训练管道和模型架构设计。
用于语义蒸馏标记器设计的 SpeechTokenizer。
用于预训练模型和推理代码的 WeNet、Whisper、ContentVec 和 RawNet3。
HiFi-GAN用于基于GAN的Vocoder的架构设计和训练策略。
用于组织良好的 GAN 判别器架构和基本块的编码器。
用于模型架构设计的潜在扩散。
用于准备 MFA 工具的 TensorFlowTTS。
Amphion 已获得 MIT 许可。它对于研究和商业用例都是免费的。
@inproceedings{amphion,author={张、雪瑶和薛、刘萌和顾、宜城和王、远城和李、佳琪和何、浩锐和王、超仁和宋、汀和陈、奚和方、子浩和陈、浩鹏和张、俊安和唐、泽英和邹、乐晓和王、明轩和韩、军和陈、凯和李、海州和吴、志正},title={Amphion:开源音频、音乐和语音生成工具包},booktitle={{IEEE}口语技术研讨会,{SLT} 2024},year={2024}}