Amphion (/æmˈfaɪən/) 是一個用於音訊、音樂和語音生成的工具包。其目的是支持可重複的研究,並幫助初級研究人員和工程師開始音訊、音樂和語音生成研究和開發領域。 Amphion 提供了一個獨特的功能:經典模型或架構的視覺化。我們相信這些視覺化對於希望更好地理解模型的初級研究人員和工程師是有益的。
Amphion 的北極星目標是提供一個平台來研究任何輸入到音訊的轉換。 Amphion 旨在支援單獨的生成任務,包括但不限於:
TTS :文字轉語音(支援)
SVS :歌聲合成(開發中)
VC :語音轉換(開發中)
SVC :歌聲轉換(支援)
TTA :文字轉音訊(支援)
TTM :文字轉音樂(開發中)
更多的…
除了特定的生成任務之外,Amphion 還包括多個聲碼器和評估指標。聲碼器是產生高品質音訊訊號的重要模組,而評估指標對於確保生成任務中指標的一致性至關重要。此外,Amphion 致力於推進現實應用中的音訊生成,例如建立用於語音合成的大規模資料集。
2024/10/19 :我們發布了MaskGCT ,這是一個完全非自回歸的 TTS 模型,無需文字和語音監督之間的明確對齊資訊。 MaskGCT 在 Emilia 資料集上進行訓練,並實現了 SOTA 零樣本 TTS 效能。
2024/09/01 : Amphion、Emilia 和 DSFF-SVC 被 IEEE SLT 2024 接收! ?
2024/08/28 : 歡迎加入 Amphion 的 Discord 頻道,與我們的社群保持聯繫並互動!
2024/08/20 : SingVisio 已被 Computers & Graphics 接受,可在此處查看! ?
2024/08/27 : Emilia 資料集現已公開!立即在 或 發現最廣泛、最多樣化的語音生成資料集,其中包含 101,000 小時的野外語音資料! ???
2024/07/01 : Amphion 現已發布Emilia ,這是第一個用於語音生成的開源多語言數據集,擁有超過 101k 小時的語音數據,以及Emilia-Pipe ,這是第一個旨在轉換的開源預處理管道將野外語音資料轉化為帶有語音生成註釋的高品質訓練資料!
2024/06/17 : Amphion 的VALL-E型號發布了新版本!它使用 Llama 作為底層架構,與我們的第一個版本相比,具有更好的模型性能、更快的訓練速度和更可讀的程式碼。
2024/03/12 :Amphion 現在支援NaturalSpeech3 FACodec並發布預訓練檢查點。
2024/02/22 : 第一款 Amphion 視覺化工具SingVisio發布。
2023/12/18 :Amphion v0.1 發布。
2023 年 11 月 28 日:Amphion alpha 發布。
與文字轉語音 (TTS) 系統上的現有開源儲存庫相比,Amphion 實現了最先進的效能。它支援以下模型或架構:
FastSpeech2:利用前饋 Transformer 區塊的非自回歸 TTS 架構。
VITS:一種端對端 TTS 架構,利用條件變分自動編碼器與對抗性學習
VALL-E:一種零樣本 TTS 架構,使用具有離散程式碼的神經編解碼器語言模型。
NaturalSpeech2:一種 TTS 架構,利用潛在擴散模型產生自然的聲音。
Jets:一種端對端 TTS 模型,透過對齊模組聯合訓練 FastSpeech2 和 HiFi-GAN。
MaskGCT:完全非自迴歸的 TTS 架構,無需文字和語音監督之間的明確對齊資訊。
Ampion 支援來自各種預訓練模型的多種基於內容的功能,包括 WeNet、Whisper 和 ContentVec。我們的 SLT 2024 論文對它們在 SVC 中的具體作用進行了研究。
Amphion 實現了多種最先進的模型架構,包括擴散模型、變壓器模型、VAE 模型和基於流的模型。基於擴散的架構使用雙向擴張 CNN 作為後端,並支援多種採樣演算法,例如 DDPM、DDIM 和 PNDM。此外,它還支援基於一致性模型的單步推理。
Amphion 透過潛在擴散模型支持 TTA。它的設計類似 AudioLDM、Make-an-Audio 和 AUDIT。它也是我們 NeurIPS 2023 論文中文本到音訊生成部分的正式實現。
Amphion 支援各種廣泛使用的神經聲碼器,包括:
基於 GAN 的聲碼器:MelGAN、HiFi-GAN、NSF-HiFiGAN、BigVGAN、APNet。
基於串流的聲碼器:WaveGlow。
基於擴散的聲碼器:Diffwave。
基於自回歸的聲碼器:WaveNet、WaveRNN。
Amphion 提供了多尺度恆定 Q 變換鑑別器的官方實作(我們的 ICASSP 2024 論文)。它可用於在訓練過程中增強任何架構的基於 GAN 的聲碼器,並保持推理階段(例如記憶體或速度)不變。
Amphion 對產生的音訊提供全面客觀的評估。評估指標包含:
F0 建模:F0 皮爾森係數、F0 週期性均方根誤差、F0 均方根誤差、濁音/清音 F1 分數等。
能源建模:能源均方根誤差、能源皮爾森係數等。
可懂度:字元/單字錯誤率,可以根據 Whisper 等計算。
頻譜圖失真:弗雷切音頻距離 (FAD)、梅爾倒譜失真 (MCD)、多解析度 STFT 距離 (MSTFT)、語音品質感知評估 (PESQ)、短時間客觀清晰度 (STOI) 等。
說話者相似度:餘弦相似度,可基於RawNet3、Resemblyzer、WeSpeaker、WavLM等計算。
Amphion 統一了開源資料集的資料預處理,包括 AudioCaps、LibriTTS、LJSpeech、M4Singer、Opencpop、OpenSinger、SVCC、VCTK 等。可以在此處查看支援的資料集列表(正在更新)。
Amphion(獨家)支援Emilia資料集及其用於野外語音資料的預處理管道Emilia-Pipe !
Amphion 提供視覺化工具,以互動方式說明經典模型的內部處理機制。這為教育目的和促進可理解的研究提供了寶貴的資源。
目前,Amphion 支援 SingVisio,這是一種用於歌聲轉換的擴散模型的視覺化工具。
Amphion 可以透過安裝程式或 Docker 映像安裝。
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# 安裝Python環境conda create --name amphion python=3.9.15 conda activate amphion# 安裝 Python 套件依賴項 sh env.sh
安裝 Docker、NVIDIA 驅動程式、NVIDIA 容器工具包和 CUDA。
運行以下命令:
git 克隆 https://github.com/open-mmlab/Amphion.gitcd Amphion docker pull realamphion/amphion docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
使用 Docker 時,需要透過參數-v
掛載資料集。更多詳細資訊請參閱在 Docker 容器中掛載資料集和 Docker 文件。
我們在以下食譜中詳細介紹了不同任務的說明:
文字轉語音 (TTS)
歌聲轉換(SVC)
文字轉音訊 (TTA)
聲碼器
評估
視覺化
我們感謝所有為改進 Amphion 所做的貢獻。請參閱 CONTRIBUTING.md 以了解貢獻指南。
ming024的FastSpeech2和jaywalnut310的VITS用於模型架構程式碼。
lifeiteng的VALL-E用於訓練管道和模型架構設計。
用於語意蒸餾標記器設計的 SpeechTokenizer。
用於預訓練模型和推理程式碼的 WeNet、Whisper、ContentVec 和 RawNet3。
HiFi-GAN用於基於GAN的Vocoder的架構設計和訓練策略。
用於組織良好的 GAN 判別器架構和基本區塊的編碼器。
用於模型架構設計的潛在擴散。
用於準備 MFA 工具的 TensorFlowTTS。
Amphion 已獲得 MIT 許可。它對於研究和商業用例都是免費的。
@inproceedings{amphion,author={張、雪瑤和薛、劉萌和顧、宜城和王、遠城和李、佳琪和何、浩銳和王、超仁和宋、汀和陳、奚和方、子浩和陳、浩鵬和張、俊安和唐、澤英和鄒、樂曉和王、明軒和韓、軍和陳、凱和李、海州和吳、志正},title={Amphion:開源音訊、音樂和語音生成工具包},booktitle={{IEEE}口語技術研討會,{SLT} 2024},year={2024}}