audio ai timeline -Download - audio ai timeline Quellcode herunterladen

audio ai timeline

AI-Quellcode

1.0.0

Herunterladen

Audio-KI-Timeline

Hier werden wir ab 2023 die neuesten KI-Modelle für die wellenformbasierte Audiogenerierung im Auge behalten!

2023

Datum	Veröffentlichung [Beispiele]	Papier	Code	Ausgebildetes Modell
14.11	Mustango: Auf dem Weg zur kontrollierbaren Text-zu-Musik-Generierung	arXiv	GitHub	Umarmendes Gesicht
13.11	Music ControlNet: Mehrere zeitlich veränderliche Steuerungen für die Musikerzeugung	arXiv	-	-
02.11	E3 TTS: Einfache End-to-End-Diffusion basierend auf Text-to-Speech	arXiv	-	-
01.10	UniAudio: Ein Audio-Grundlagenmodell für die universelle Audioerzeugung	arXiv	GitHub	-
24.09	VoiceLDM: Text-to-Speech mit Umgebungskontext	arXiv	GitHub	-
05.09	PromptTTS 2: Beschreiben und Erzeugen von Stimmen mit Textaufforderung	arXiv	-	-
14.08	SpeechX: Neuronales Codec-Sprachmodell als vielseitiger Sprachtransformator	arXiv	-	-
10.08	AudioLDM 2: Erlernen der ganzheitlichen Audioerzeugung mit selbstüberwachtem Vortraining	arXiv	GitHub	Umarmendes Gesicht
09.08	JEN-1: Textgesteuerte universelle Musikerzeugung mit omnidirektionalen Diffusionsmodellen	arXiv	-	-
03.08	MusicLDM: Verbesserung der Neuheit bei der Text-zu-Musik-Generierung durch Beat-synchrone Mixup-Strategien	arXiv	GitHub	-
14.07	Mega-TTS 2: Zero-Shot-Text-to-Speech mit Sprachansagen beliebiger Länge	arXiv	-	-
10.07	VampNet: Musikerzeugung durch maskierte akustische Token-Modellierung	arXiv	GitHub	-
22.06	AudioPaLM: Ein großes Sprachmodell, das sprechen und zuhören kann	arXiv	-	-
19.06	Voicebox: Textgesteuerte mehrsprachige universelle Sprachgenerierung im großen Maßstab	PDF	GitHub	-
08.06	MusicGen: Einfache und kontrollierbare Musikgenerierung	arXiv	GitHub	Umarmendes Gesicht Colab
06.06	Mega-TTS: Zero-Shot-Text-to-Speech im großen Maßstab mit intrinsischer induktiver Vorspannung	arXiv	-	-
01.06	Vocos: Schließen der Lücke zwischen Zeitbereichs- und Fourier-basierten neuronalen Vocodern für hochwertige Audiosynthese	arXiv	GitHub	-
29.05	Make-An-Audio 2: Zeitlich verbesserte Text-to-Audio-Generierung	arXiv	-	-
25.05	MeLoDy: Effiziente Erzeugung neuronaler Musik	arXiv	-	-
18.05	CLAPSpeech: Lernen von Prosodie aus dem Textkontext mit kontrastivem Sprach-Audio-Vortraining	arXiv	-	-
18.05	SpeechGPT: Stärkung großer Sprachmodelle mit intrinsischen modalübergreifenden Konversationsfähigkeiten	arXiv	GitHub	-
16.05	SoundStorm: Effiziente parallele Audioerzeugung	arXiv	GitHub (inoffiziell)	-
03.05	Vielfältige und lebendige Klangerzeugung aus Textbeschreibungen	arXiv	-	-
02.05	Langfristiger rhythmischer Video-Soundtracker	arXiv	GitHub	-
24.04	TANGO: Text-to-Audio-Generierung mit anweisungsoptimiertem LLM und Latent Diffusion Model	PDF	GitHub	Umarmendes Gesicht
18.04	NaturalSpeech 2: Latent-Diffusion-Modelle sind natürliche und Zero-Shot-Synthesizer für Sprache und Gesang	arXiv	GitHub (inoffiziell)	-
10.04	Bark: Textgesteuertes generatives Audiomodell	-	GitHub	Umarmendes Gesicht Colab
03.04	AUDIT: Audiobearbeitung durch Befolgen von Anweisungen mit latenten Diffusionsmodellen	arXiv	-	-
08.03	VALL-E X: Sprechen Sie Fremdsprachen mit Ihrer eigenen Stimme: Sprachübergreifende neuronale Codec-Sprachmodellierung	arXiv	-	-
27.02	Ich höre Ihr wahres Gesicht: Bildgesteuerte Audioerzeugung	arXiv	GitHub	-
08.02	Noise2Music: Textkonditionierte Musikerzeugung mit Diffusionsmodellen	arXiv	-	-
04.02	Multi-Source-Diffusionsmodelle für die gleichzeitige Musikerzeugung und -trennung	arXiv	GitHub	-
30.01	SingSong: Musikalische Begleitungen aus Gesang generieren	arXiv	-	-
30.01	AudioLDM: Text-to-Audio-Generierung mit latenten Diffusionsmodellen	arXiv	GitHub	Umarmendes Gesicht
30.01	Moûsai: Text-zu-Musik-Generierung mit latenter Langkontextdiffusion	arXiv	GitHub	-
29.01	Make-An-Audio: Text-to-Audio-Generierung mit Prompt-Enhanced-Diffusion-Modellen	PDF	-	-
28.01	Noise2Music	-	-	-
27.01	RAVE2 [Beispiele RAVE1]	arXiv	GitHub	-
26.01	MusicLM: Musik aus Text generieren	arXiv	GitHub (inoffiziell)	-
18.01	Msanii: High-Fidelity-Musiksynthese mit kleinem Budget	arXiv	GitHub	Umarmendes Gesicht Colab
16.01	ArchiSound: Audioerzeugung mit Diffusion	arXiv	GitHub	-
05.01	VALL-E: Neuronale Codec-Sprachmodelle sind Zero-Shot-Text-zu-Sprache-Synthesizer	arXiv	GitHub (inoffiziell) (Demo)	-