Amphion (/æmˈfaɪən/) ist ein Toolkit für die Audio-, Musik- und Spracherzeugung. Sein Zweck besteht darin, reproduzierbare Forschung zu unterstützen und Nachwuchsforschern und Ingenieuren den Einstieg in die Forschung und Entwicklung im Bereich Audio-, Musik- und Spracherzeugung zu erleichtern. Amphion bietet ein einzigartiges Feature: Visualisierungen klassischer Modelle oder Architekturen. Wir glauben, dass diese Visualisierungen für Nachwuchsforscher und Ingenieure von Nutzen sind, die ein besseres Verständnis des Modells erlangen möchten.
Das North-Star-Ziel von Amphion besteht darin, eine Plattform für die Untersuchung der Umwandlung beliebiger Eingaben in Audio bereitzustellen. Amphion wurde entwickelt, um einzelne Erzeugungsaufgaben zu unterstützen, einschließlich, aber nicht beschränkt auf:
TTS : Text to Speech (unterstützt)
SVS : Singing Voice Synthesis (in Entwicklung)
VC : Sprachkonvertierung (in Entwicklung)
SVC : Gesangsstimmenkonvertierung (unterstützt)
TTA : Text zu Audio (unterstützt)
TTM : Text to Music (in Entwicklung)
mehr…
Zusätzlich zu den spezifischen Generierungsaufgaben umfasst Amphion mehrere Vocoder und Bewertungsmetriken . Ein Vocoder ist ein wichtiges Modul zur Erzeugung hochwertiger Audiosignale, während Bewertungsmetriken entscheidend sind, um konsistente Metriken bei Generierungsaufgaben sicherzustellen. Darüber hinaus widmet sich Amphion der Weiterentwicklung der Audioerzeugung in realen Anwendungen, beispielsweise der Erstellung umfangreicher Datensätze für die Sprachsynthese.
19.10.2024 : Wir veröffentlichen MaskGCT , ein vollständig nicht-autoregressives TTS-Modell, das die Notwendigkeit expliziter Ausrichtungsinformationen zwischen Text- und Sprachüberwachung überflüssig macht. MaskGCT wird auf dem Emilia-Datensatz trainiert und erreicht die SOTA-Zero-Shot-TTS-Leistung.
01.09.2024 : Amphion, Emilia und DSFF-SVC wurden von IEEE SLT 2024 akzeptiert! ?
28.08.2024 : Willkommen beim Discord-Kanal von Amphion, um in Verbindung zu bleiben und mit unserer Community in Kontakt zu bleiben!
20.08.2024 : SingVisio wurde von Computers & Graphics akzeptiert, hier verfügbar! ?
27.08.2024 : Der Emilia-Datensatz ist jetzt öffentlich verfügbar! Entdecken Sie jetzt den umfangreichsten und vielfältigsten Sprachgenerierungsdatensatz mit 101.000 Stunden Sprachdaten in freier Wildbahn bei oder! ???
01.07.2024 : Amphion veröffentlicht jetzt Emilia , den ersten mehrsprachigen Open-Source-In-the-Wild-Datensatz zur Sprachgenerierung mit über 101.000 Stunden Sprachdaten, und die Emilia-Pipe , die erste Open-Source-Vorverarbeitungspipeline zur Transformation In-the-Wild-Sprachdaten in hochwertige Trainingsdaten mit Anmerkungen zur Sprachgenerierung umwandeln!
17.06.2024 : Amphion hat eine neue Version für sein VALL-E -Modell! Es verwendet Llama als zugrunde liegende Architektur und bietet im Vergleich zu unserer ersten Version eine bessere Modellleistung, eine schnellere Trainingsgeschwindigkeit und besser lesbare Codes.
12.03.2024 : Amphion unterstützt jetzt NaturalSpeech3 FACodec und veröffentlicht vorab trainierte Prüfpunkte.
22.02.2024 : Das erste Amphion-Visualisierungstool, SingVisio , wird veröffentlicht.
18.12.2023 : Veröffentlichung von Amphion v0.1.
28.11.2023 : Alpha-Veröffentlichung von Amphion.
Amphion erreicht im Vergleich zu bestehenden Open-Source-Repositories auf Text-to-Speech-Systemen (TTS) eine Leistung auf dem neuesten Stand der Technik. Es unterstützt die folgenden Modelle oder Architekturen:
FastSpeech2: Eine nicht autoregressive TTS-Architektur, die Feed-Forward-Transformer-Blöcke nutzt.
VITS: Eine End-to-End-TTS-Architektur, die einen bedingten Variations-Autoencoder mit kontradiktorischem Lernen nutzt
VALL-E: Eine Zero-Shot-TTS-Architektur, die ein neuronales Codec-Sprachmodell mit diskreten Codes verwendet.
NaturalSpeech2: Eine Architektur für TTS, die ein latentes Diffusionsmodell nutzt, um natürlich klingende Stimmen zu erzeugen.
Jets: Ein End-to-End-TTS-Modell, das FastSpeech2 und HiFi-GAN gemeinsam mit einem Ausrichtungsmodul trainiert.
MaskGCT: eine vollständig nicht-autoregressive TTS-Architektur, die die Notwendigkeit expliziter Ausrichtungsinformationen zwischen Text- und Sprachüberwachung überflüssig macht.
Ampion unterstützt mehrere inhaltsbasierte Funktionen aus verschiedenen vorab trainierten Modellen, darunter WeNet, Whisper und ContentVec. Ihre spezifischen Rollen im SVC wurden in unserem SLT 2024-Papier untersucht.
Amphion implementiert mehrere hochmoderne Modellarchitekturen, darunter diffusions-, transformator-, VAE- und strömungsbasierte Modelle. Die diffusionsbasierte Architektur nutzt bidirektional erweitertes CNN als Backend und unterstützt mehrere Sampling-Algorithmen wie DDPM, DDIM und PNDM. Darüber hinaus unterstützt es einstufige Inferenz basierend auf dem Konsistenzmodell.
Amphion unterstützt die TTA mit einem latenten Diffusionsmodell. Es ist wie AudioLDM, Make-an-Audio und AUDIT konzipiert. Es ist auch die offizielle Implementierung des Text-zu-Audio-Generierungsteils unseres NeurIPS 2023-Papiers.
Amphion unterstützt verschiedene weit verbreitete neuronale Vocoder, darunter:
GAN-basierte Vocoder: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
Flow-basierte Vocoder: WaveGlow.
Diffusionsbasierte Vocoder: Diffwave.
Auf Autoregression basierende Vocoder: WaveNet, WaveRNN.
Amphion bietet die offizielle Implementierung des Multi-Scale Constant-Q Transform Discriminator (unser ICASSP 2024-Artikel). Es kann verwendet werden, um alle GAN-basierten Vocoder-Architekturen während des Trainings zu verbessern und die Inferenzstufe (z. B. Speicher oder Geschwindigkeit) unverändert zu lassen.
Amphion bietet eine umfassende objektive Bewertung des erzeugten Audios. Die Bewertungsmetriken umfassen:
F0-Modellierung : F0-Pearson-Koeffizienten, F0-Periodizitäts-Root-Mean-Square-Fehler, F0-Root-Mean-Square-Fehler, stimmhafter/stimmloser F1-Score usw.
Energiemodellierung : Energie-Root-Mean-Square-Fehler, Energie-Pearson-Koeffizienten usw.
Verständlichkeit : Zeichen-/Wortfehlerrate, die basierend auf Whisper und mehr berechnet werden kann.
Spektrogrammverzerrung : Frechet Audio Distance (FAD), Mel Cepstral Distortion (MCD), Multi-Resolution STFT Distance (MSTFT), Perceptual Evaluation of Speech Quality (PESQ), Short Time Objective Intelligibility (STOI) usw.
Sprecherähnlichkeit : Kosinusähnlichkeit, die basierend auf RawNet3, Resemblyzer, WeSpeaker, WavLM und mehr berechnet werden kann.
Amphion vereinheitlicht die Datenvorverarbeitung der Open-Source-Datensätze, einschließlich AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK und mehr. Die Liste der unterstützten Datensätze kann hier eingesehen werden (wird aktualisiert).
Amphion unterstützt (ausschließlich) den Emilia- Datensatz und seine Vorverarbeitungspipeline Emilia-Pipe für Sprachdaten in freier Wildbahn!
Amphion bietet Visualisierungstools zur interaktiven Veranschaulichung des internen Verarbeitungsmechanismus klassischer Modelle. Dies stellt eine unschätzbare Ressource für Bildungszwecke und zur Erleichterung verständlicher Forschung dar.
Derzeit unterstützt Amphion SingVisio, ein Visualisierungstool des Diffusionsmodells zur Konvertierung von Gesangsstimmen.
Amphion kann entweder über Setup Installer oder Docker Image installiert werden.
Git-Klon https://github.com/open-mmlab/Amphion.gitcd Amphion# Python-Umgebung installierenconda create --name amphion python=3.9.15 conda activate amphion# Install Python Packages Dependenciessh env.sh
Installieren Sie Docker, NVIDIA-Treiber, NVIDIA Container Toolkit und CUDA.
Führen Sie die folgenden Befehle aus:
Git-Klon https://github.com/open-mmlab/Amphion.gitcd Amphion Docker Pull Realamphion/Amphion docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Bei Verwendung von Docker ist das Mounten des Datensatzes mit dem Argument -v
erforderlich. Weitere Informationen finden Sie unter „Datensatz im Docker-Container bereitstellen“ und in den Docker-Dokumenten.
Wir beschreiben die Anweisungen für verschiedene Aufgaben in den folgenden Rezepten:
Text-to-Speech (TTS)
Gesangsstimmenkonvertierung (SVC)
Text zu Audio (TTA)
Vocoder
Auswertung
Visualisierung
Wir freuen uns über alle Beiträge zur Verbesserung von Amphion. Die Beitragsrichtlinie finden Sie unter CONTRIBUTING.md.
FastSpeech2 von ming024 und VITS von jaywalnut310 für Modellarchitekturcode.
Lifeitengs VALL-E für das Training von Pipeline- und Modellarchitekturdesign.
SpeechTokenizer für semantisch destilliertes Tokenizer-Design.
WeNet, Whisper, ContentVec und RawNet3 für vorab trainierte Modelle und Inferenzcode.
HiFi-GAN für GAN-basiertes Vocoder-Architekturdesign und Trainingsstrategie.
Encodec für eine gut organisierte Architektur und Grundblöcke des GAN-Diskriminators.
Latente Diffusion für Modellarchitekturdesign.
TensorFlowTTS zur Vorbereitung der MFA-Tools.
Amphion steht unter der MIT-Lizenz. Es ist sowohl für Forschungs- als auch für kommerzielle Anwendungsfälle kostenlos.
@inproceedings{amphion,author={Zhang, Xueyao und Xue, Liumeng und Gu, Yicheng und Wang, Yuancheng und Li, Jiaqi und He, Haorui und Wang, Chaoren und Song, Ting und Chen, Xi und Fang, Zihao und Chen, Haopeng und Zhang, Junan und Tang, Tze Ying und Zou, Lexiao und Wang, Mingxuan und Han, Jun und Chen, Kai und Li, Haizhou und Wu, Zhizheng},title={Amphion: Ein Open-Source-Audio, Musik und Sprache Generation Toolkit},booktitle={{IEEE} Spoken Language Technology Workshop, {SLT} 2024},year={2024}}