Amphion (/æmˈfaɪən/) adalah perangkat untuk Pembuatan Audio, Musik, dan Ucapan. Tujuannya adalah untuk mendukung penelitian yang dapat direproduksi dan membantu peneliti dan insinyur junior memulai di bidang penelitian dan pengembangan generasi audio, musik, dan ucapan. Amphion menawarkan fitur unik: visualisasi model atau arsitektur klasik. Kami percaya bahwa visualisasi ini bermanfaat bagi peneliti dan insinyur junior yang ingin mendapatkan pemahaman yang lebih baik tentang model tersebut.
Tujuan Bintang Utara Amphion adalah menawarkan platform untuk mempelajari konversi input apa pun menjadi audio. Amphion dirancang untuk mendukung tugas-tugas generasi individu, termasuk namun tidak terbatas pada,
TTS : Teks ke Ucapan (didukung)
SVS : Sintesis Suara Bernyanyi (berkembang)
VC : Konversi Suara (berkembang)
SVC : Konversi Suara Bernyanyi (didukung)
TTA : Teks ke Audio (didukung)
TTM : Teks ke Musik (berkembang)
lagi…
Selain tugas pembuatan tertentu, Amphion menyertakan beberapa vocoder dan metrik evaluasi . Vocoder adalah modul penting untuk menghasilkan sinyal audio berkualitas tinggi, sedangkan metrik evaluasi sangat penting untuk memastikan metrik yang konsisten dalam tugas pembangkitan. Selain itu, Amphion berdedikasi untuk memajukan generasi audio dalam aplikasi dunia nyata, seperti membangun kumpulan data berskala besar untuk sintesis ucapan.
2024/10/19 : Kami merilis MaskGCT , model TTS yang sepenuhnya non-autoregresif yang menghilangkan kebutuhan akan informasi penyelarasan eksplisit antara pengawasan teks dan ucapan. MaskGCT dilatih pada kumpulan data Emilia dan mencapai kinerja TTS zero-shot SOTA.
2024/09/01 : Amphion, Emilia dan DSFF-SVC diterima di IEEE SLT 2024! ?
28/08/2024 : Selamat bergabung dengan saluran Discord Amphion untuk tetap terhubung dan terlibat dengan komunitas kami!
2024/08/20 : SingVisio diterima oleh Computers & Graphics, tersedia di sini! ?
27/08/2024 : Kumpulan data Emilia kini tersedia untuk umum! Temukan kumpulan data pembuatan ucapan yang paling luas dan beragam dengan 101 ribu jam data ucapan di alam bebas sekarang di atau ! ???
01/07/2024 : Amphion kini merilis Emilia , kumpulan data multibahasa sumber terbuka pertama di alam bebas untuk menghasilkan ucapan dengan lebih dari 101 ribu jam data ucapan, dan Emilia-Pipe , pipeline prapemrosesan sumber terbuka pertama yang dirancang untuk mentransformasikannya data ucapan di alam liar menjadi data pelatihan berkualitas tinggi dengan anotasi untuk menghasilkan ucapan!
2024/06/17 : Amphion memiliki rilis baru untuk model VALL-E -nya! Ia menggunakan Llama sebagai arsitektur dasarnya dan memiliki kinerja model yang lebih baik, kecepatan pelatihan yang lebih cepat, dan kode yang lebih mudah dibaca dibandingkan dengan versi pertama kami.
2024/03/12 : Amphion sekarang mendukung NaturalSpeech3 FACodec dan merilis pos pemeriksaan yang telah dilatih sebelumnya.
22/02/2024 : Alat visualisasi Amphion pertama, SingVisio , dirilis.
2023/12/18 : Rilis Amphion v0.1.
28/11/2023 : Rilis alfa amphion.
Amphion mencapai kinerja tercanggih dibandingkan dengan repositori sumber terbuka yang ada pada sistem text-to-speech (TTS). Ini mendukung model atau arsitektur berikut:
FastSpeech2: Arsitektur TTS non-autoregresif yang menggunakan blok Transformer feed-forward.
VITS: Arsitektur TTS end-to-end yang memanfaatkan autoencoder variasional bersyarat dengan pembelajaran adversarial
VALL-E: Arsitektur TTS zero-shot yang menggunakan model bahasa codec saraf dengan kode diskrit.
NaturalSpeech2: Arsitektur TTS yang menggunakan model difusi laten untuk menghasilkan suara yang terdengar alami.
Jets: Model TTS ujung ke ujung yang bersama-sama melatih FastSpeech2 dan HiFi-GAN dengan modul penyelarasan.
MaskGCT: arsitektur TTS non-autoregresif yang menghilangkan kebutuhan akan informasi penyelarasan eksplisit antara pengawasan teks dan ucapan.
Ampion mendukung beberapa fitur berbasis konten dari berbagai model terlatih, termasuk WeNet, Whisper, dan ContentVec. Peran spesifik mereka dalam SVC telah diselidiki dalam makalah SLT 2024 kami.
Amphion mengimplementasikan beberapa arsitektur model canggih, termasuk model berbasis difusi, transformator, VAE, dan aliran. Arsitektur berbasis difusi menggunakan CNN dilatasi dua arah sebagai backend dan mendukung beberapa algoritma pengambilan sampel seperti DDPM, DDIM, dan PNDM. Selain itu, ini mendukung inferensi satu langkah berdasarkan Model Konsistensi.
Amphion mendukung TTA dengan model difusi laten. Ini dirancang seperti AudioLDM, Make-an-Audio, dan AUDIT. Ini juga merupakan implementasi resmi dari bagian pembuatan teks ke audio dari makalah NeurIPS 2023 kami.
Amphion mendukung berbagai vocoder saraf yang banyak digunakan, termasuk:
Vocoder berbasis GAN: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
Vocoder berbasis aliran: WaveGlow.
Vocoder berbasis difusi: Diffwave.
Vocoder berbasis regresi otomatis: WaveNet, WaveRNN.
Amphion menyediakan implementasi resmi Diskriminator Transformasi Konstan-Q Multi-Skala (makalah ICASSP 2024 kami). Ini dapat digunakan untuk meningkatkan arsitektur vocoder berbasis GAN apa pun selama pelatihan, dan menjaga tahap inferensi (seperti memori atau kecepatan) tidak berubah.
Amphion memberikan evaluasi objektif yang komprehensif terhadap audio yang dihasilkan. Metrik evaluasi berisi:
Pemodelan F0 : F0 Koefisien Pearson, F0 Periodisitas Root Mean Square Error, F0 Root Mean Square Error, Skor F1 Bersuara/Tidak Disuarakan, dll.
Pemodelan Energi : Kesalahan Energi Root Mean Square, Koefisien Energi Pearson, dll.
Kejelasan : Tingkat Kesalahan Karakter/Kata, yang dapat dihitung berdasarkan Bisikan dan lainnya.
Distorsi Spektogram : Frechet Audio Distance (FAD), Mel Cepstral Distortion (MCD), Multi-Resolution STFT Distance (MSTFT), Perceptual Evaluation of Speech Quality (PESQ), Short Time Objective Intelligibility (STOI), dll.
Kesamaan Pembicara : Kesamaan kosinus, yang dapat dihitung berdasarkan RawNet3, Resemblyzer, WeSpeaker, WavLM dan banyak lagi.
Amphion menyatukan praproses data dari kumpulan data sumber terbuka termasuk AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK, dan banyak lagi. Daftar dataset yang didukung dapat dilihat di sini (memperbarui).
Amphion (secara eksklusif) mendukung kumpulan data Emilia dan pipeline pra-pemrosesan Emilia-Pipe untuk data ucapan di alam bebas!
Amphion menyediakan alat visualisasi untuk mengilustrasikan secara interaktif mekanisme pemrosesan internal model klasik. Hal ini memberikan sumber daya yang sangat berharga untuk tujuan pendidikan dan untuk memfasilitasi penelitian yang dapat dipahami.
Saat ini, Amphion mendukung SingVisio, alat visualisasi model difusi untuk konversi suara nyanyian.
Amphion dapat diinstal melalui Setup Installer atau Docker Image.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Instal Python Environmentconda buat --nama amphion python=3.9.15 conda aktifkan amphion# Instal Paket Python Dependensish env.sh
Instal Docker, Driver NVIDIA, NVIDIA Container Toolkit, dan CUDA.
Jalankan perintah berikut:
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion buruh pelabuhan menarik realamphion/ampion menjalankan buruh pelabuhan --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Memasang kumpulan data dengan argumen -v
diperlukan saat menggunakan Docker. Silakan merujuk ke Memasang kumpulan data di kontainer Docker dan Docker Docs untuk detail selengkapnya.
Kami merinci instruksi untuk berbagai tugas dalam resep berikut:
Teks ke Ucapan (TTS)
Konversi Suara Bernyanyi (SVC)
Teks ke Audio (TTA)
Vocoder
Evaluasi
Visualisasi
Kami menghargai semua kontribusi untuk meningkatkan Amphion. Silakan merujuk ke CONTRIBUTING.md untuk pedoman berkontribusi.
FastSpeech2 ming024 dan VITS jaywalnut310 untuk kode arsitektur model.
VALL-E lifeiteng untuk pipa pelatihan dan desain arsitektur model.
SpeechTokenizer untuk desain tokenizer yang disaring secara semantik.
WeNet, Whisper, ContentVec, dan RawNet3 untuk model terlatih dan kode inferensi.
HiFi-GAN untuk desain arsitektur dan strategi pelatihan Vocoder berbasis GAN.
Encodec untuk arsitektur dan blok dasar Diskriminator GAN yang terorganisir dengan baik.
Difusi Laten untuk desain arsitektur model.
TensorFlowTTS untuk mempersiapkan alat MFA.
Amphion berada di bawah Lisensi MIT. Ini gratis untuk penelitian dan kasus penggunaan komersial.
@inproceedings{amphion,author={Zhang, Xueyao dan Xue, Liumeng dan Gu, Yicheng dan Wang, Yuancheng dan Li, Jiaqi dan He, Haorui dan Wang, Chaoren dan Song, Ting dan Chen, Xi dan Fang, Zihao dan Chen, Haopeng dan Zhang, Junan dan Tang, Tze Ying dan Zou, Lexiao dan Wang, Mingxuan dan Han, Jun dan Chen, Kai dan Li, Haizhou dan Wu, Zhizheng},title={Amphion: Audio, Musik dan Pidato Sumber Terbuka Generation Toolkit},booktitle={{IEEE} Lokakarya Teknologi Bahasa Lisan, {SLT} 2024},tahun={2024}}