Amphion(/æmˈfaən/)은 오디오, 음악 및 음성 생성을 위한 툴킷입니다. 그 목적은 재현 가능한 연구를 지원하고 후배 연구원과 엔지니어가 오디오, 음악, 음성 생성 연구 및 개발 분야에서 시작하도록 돕는 것입니다. Amphion은 클래식 모델이나 아키텍처의 시각화 라는 독특한 기능을 제공합니다. 우리는 이러한 시각화가 모델에 대한 더 나은 이해를 원하는 후배 연구원과 엔지니어에게 도움이 된다고 믿습니다.
Amphion의 North-Star 목표는 모든 입력을 오디오로 변환하는 방법을 연구하기 위한 플랫폼을 제공하는 것입니다. Amphion은 다음을 포함하되 이에 국한되지 않는 개별 생성 작업을 지원하도록 설계되었습니다.
TTS : 텍스트 음성 변환(지원)
SVS : 노래하는 목소리 합성 (개발 중)
VC : 음성변환(개발중)
SVC : 노래 목소리 변환(지원)
TTA : 텍스트를 오디오로(지원)
TTM : 텍스트를 음악으로(개발 중)
더…
특정 생성 작업 외에도 Amphion에는 여러 보코더 및 평가 지표가 포함되어 있습니다. 보코더는 고품질 오디오 신호를 생성하는 데 중요한 모듈인 반면, 평가 지표는 생성 작업에서 일관된 지표를 보장하는 데 중요합니다. 또한 Amphion은 음성 합성을 위한 대규모 데이터 세트 구축과 같은 실제 애플리케이션에서 오디오 생성을 발전시키는 데 전념하고 있습니다.
2024/10/19 : 텍스트와 음성 감독 간의 명시적인 정렬 정보가 필요하지 않은 완전 비자동 회귀 TTS 모델인 MaskGCT를 출시합니다. MaskGCT는 Emilia 데이터세트로 훈련되었으며 SOTA 제로샷 TTS 성능을 달성합니다.
2024/09/01 : Amphion, Emilia 및 DSFF-SVC가 IEEE SLT 2024에 승인되었습니다! ?
2024/08/28 : Amphion의 Discord 채널에 가입하여 커뮤니티와 지속적으로 소통하고 소통하는 데 오신 것을 환영합니다!
2024/08/20 : SingVisio가 Computers & Graphics에 합격했습니다. 여기에서 확인하실 수 있습니다! ?
2024/08/27 : 이제 Emilia 데이터 세트가 공개됩니다! 지금 또는 에서 101,000시간의 실제 음성 데이터가 포함된 가장 광범위하고 다양한 음성 생성 데이터 세트를 찾아보세요! ???
2024/07/01 : Amphion은 이제 101,000시간이 넘는 음성 데이터를 포함하는 음성 생성을 위한 최초의 오픈 소스 다국어 야생 데이터 세트인 Emilia 와 변환을 위해 설계된 최초의 오픈 소스 전처리 파이프라인 인 Emilia-Pipe를 출시합니다. 음성 생성을 위한 주석을 사용하여 실제 음성 데이터를 고품질 훈련 데이터로 변환합니다!
2024/06/17 : Amphion의 VALL-E 모델이 새로 출시되었습니다! Llama를 기본 아키텍처로 사용하며 첫 번째 버전에 비해 더 나은 모델 성능, 더 빠른 훈련 속도 및 더 읽기 쉬운 코드를 제공합니다.
2024/03/12 : Amphion은 이제 NaturalSpeech3 FACodec을 지원하고 사전 훈련된 체크포인트를 출시합니다.
2024/02/22 : 최초의 Amphion 시각화 도구인 SingVisio 출시.
2023/12/18 : Amphion v0.1 출시.
2023/11/28 : Amphion 알파 출시.
Amphion은 TTS(텍스트 음성 변환) 시스템의 기존 오픈 소스 리포지토리와 비교하여 최첨단 성능을 달성합니다. 다음 모델 또는 아키텍처를 지원합니다.
FastSpeech2: 피드포워드 변환기 블록을 활용하는 비자동회귀 TTS 아키텍처입니다.
VITS: 적대적 학습과 함께 조건부 변형 자동 인코더를 활용하는 엔드 투 엔드 TTS 아키텍처
VALL-E: 개별 코드가 포함된 신경 코덱 언어 모델을 사용하는 제로샷 TTS 아키텍처입니다.
NaturalSpeech2: 잠재 확산 모델을 활용하여 자연스러운 음성을 생성하는 TTS용 아키텍처입니다.
Jets: 정렬 모듈을 사용하여 FastSpeech2 및 HiFi-GAN을 공동으로 교육하는 엔드 투 엔드 TTS 모델입니다.
MaskGCT: 텍스트와 음성 감독 간에 명시적인 정렬 정보가 필요하지 않은 완전 비자동 회귀 TTS 아키텍처입니다.
Ampion은 WeNet, Whisper 및 ContentVec을 포함하여 사전 훈련된 다양한 모델의 여러 콘텐츠 기반 기능을 지원합니다. SVC에서의 구체적인 역할은 SLT 2024 문서에서 조사되었습니다.
Amphion은 확산, 변환기, VAE 및 흐름 기반 모델을 포함한 여러 가지 최첨단 모델 아키텍처를 구현합니다. 확산 기반 아키텍처는 양방향 확장 CNN을 백엔드로 사용하고 DDPM, DDIM 및 PNDM과 같은 여러 샘플링 알고리즘을 지원합니다. 또한 일관성 모델을 기반으로 한 단일 단계 추론을 지원합니다.
Amphion은 잠재 확산 모델로 TTA를 지원합니다. AudioLDM, Make-an-Audio 및 AUDIT와 같이 설계되었습니다. 이는 또한 NeurIPS 2023 논문의 텍스트-오디오 생성 부분을 공식적으로 구현한 것입니다.
Amphion은 다음을 포함하여 널리 사용되는 다양한 신경 보코더를 지원합니다.
GAN 기반 보코더: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
플로우 기반 보코더: WaveGlow.
확산 기반 보코더: Diffwave.
자동 회귀 기반 보코더: WaveNet, WaveRNN.
Amphion은 Multi-Scale Constant-Q Transform Discriminator(ICASSP 2024 논문)의 공식 구현을 제공합니다. 훈련 중에 모든 아키텍처 GAN 기반 보코더를 향상하고 추론 단계(예: 메모리 또는 속도)를 변경하지 않고 유지하는 데 사용할 수 있습니다.
Amphion은 생성된 오디오에 대한 포괄적이고 객관적인 평가를 제공합니다. 평가 지표에는 다음이 포함됩니다.
F0 모델링 : F0 피어슨 계수, F0 주기성 제곱 평균 오차, F0 제곱 평균 오차, 유성/무성 F1 점수 등
에너지 모델링 : 에너지 평균 제곱 오차, 에너지 피어슨 계수 등
Intelligibility : Whisper 등을 기반으로 계산할 수 있는 문자/단어 오류율입니다.
스펙트로그램 왜곡 : FAD(Frechet Audio Distance), MCD(Mel Cepstral Distortion), MSTFT(Multi-Resolution STFT Distance), PESQ(Perceptual Evaluation of Speech Quality), STOI(Short Time Objective Intelligibility) 등
스피커 유사성 : RawNet3, Resemblyzer, WeSpeaker, WavLM 등을 기반으로 계산할 수 있는 코사인 유사성입니다.
Amphion은 AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK 등을 포함한 오픈 소스 데이터 세트의 데이터 전처리를 통합합니다. 지원되는 데이터 세트 목록은 여기에서 볼 수 있습니다(업데이트 중).
Amphion은 (독점적으로) Emilia 데이터 세트와 실제 음성 데이터를 위한 전처리 파이프라인 Emilia-Pipe를 지원합니다!
Amphion은 클래식 모델의 내부 처리 메커니즘을 대화식으로 설명하는 시각화 도구를 제공합니다. 이는 교육 목적과 이해 가능한 연구 촉진을 위한 귀중한 리소스를 제공합니다.
현재 Amphion은 노래하는 목소리 변환을 위한 확산 모델의 시각화 도구인 SingVisio를 지원합니다.
Amphion은 Setup Installer 또는 Docker Image를 통해 설치할 수 있습니다.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Python 환경 설치conda create --name amphion python=3.9.15 conda activate amphion# Python 패키지 설치 종속성sh env.sh
Docker, NVIDIA 드라이버, NVIDIA 컨테이너 툴킷 및 CUDA를 설치합니다.
다음 명령을 실행하십시오.
자식 클론 https://github.com/open-mmlab/Amphion.gitcd Amphion 도커 풀 리얼암피온/암피온 docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Docker를 사용하는 경우 -v
인수로 데이터 세트를 마운트해야 합니다. 자세한 내용은 Docker 컨테이너에 데이터세트 탑재 및 Docker Docs를 참조하세요.
다음 레시피에서 다양한 작업에 대한 지침을 자세히 설명합니다.
텍스트 음성 변환(TTS)
노래 음성 변환(SVC)
텍스트를 오디오로(TTA)
보코더
평가
심상
Amphion 개선을 위한 모든 기여에 감사드립니다. 기여 지침은 CONTRIBUTING.md를 참조하세요.
모델 아키텍처 코드를 위한 ming024의 FastSpeech2 및 jaywalnut310의 VITS.
학습 파이프라인 및 모델 아키텍처 설계를 위한 lifeiteng의 VALL-E입니다.
의미 추출 토크나이저 설계를 위한 SpeechTokenizer.
사전 훈련된 모델 및 추론 코드를 위한 WeNet, Whisper, ContentVec 및 RawNet3.
GAN 기반 Vocoder의 아키텍처 설계 및 교육 전략을 위한 HiFi-GAN.
잘 구성된 GAN Discriminator의 아키텍처와 기본 블록을 위한 인코딩입니다.
모델 아키텍처 설계를 위한 잠재 확산.
MFA 도구 준비를 위한 TensorFlowTTS.
Amphion은 MIT 라이센스를 따릅니다. 연구 및 상업적 사용 사례 모두 무료입니다.
@inproceedings{amphion,author={Zhang, Xueyao 및 Xue, Liumeng 및 Gu, Yicheng 및 Wang, Yuancheng 및 Li, Jiaqi 및 He, Haorui 및 Wang, Chaoren 및 Song, Ting 및 Chen, Xi 및 Fang, Zihao 및 Chen, Haopeng 및 Zhang, Junan 및 Tang, Tze Ying 및 Zou, Lexiao 및 Wang, Mingxuan 및 Han, Jun 및 Chen, Kai 및 Li, Haizhou 및 Wu, Zhizheng},title={Amphion: 오픈 소스 오디오, 음악 및 음성 Generation Toolkit},booktitle={{IEEE} 음성 언어 기술 워크숍, {SLT} 2024},연도={2024}}