audio ai timeline
1.0.0
Hier werden wir ab 2023 die neuesten KI-Modelle für die wellenformbasierte Audiogenerierung im Auge behalten!
Datum | Veröffentlichung [Beispiele] | Papier | Code | Ausgebildetes Modell |
---|---|---|---|---|
14.11 | Mustango: Auf dem Weg zur kontrollierbaren Text-zu-Musik-Generierung | arXiv | GitHub | Umarmendes Gesicht |
13.11 | Music ControlNet: Mehrere zeitlich veränderliche Steuerungen für die Musikerzeugung | arXiv | - | - |
02.11 | E3 TTS: Einfache End-to-End-Diffusion basierend auf Text-to-Speech | arXiv | - | - |
01.10 | UniAudio: Ein Audio-Grundlagenmodell für die universelle Audioerzeugung | arXiv | GitHub | - |
24.09 | VoiceLDM: Text-to-Speech mit Umgebungskontext | arXiv | GitHub | - |
05.09 | PromptTTS 2: Beschreiben und Erzeugen von Stimmen mit Textaufforderung | arXiv | - | - |
14.08 | SpeechX: Neuronales Codec-Sprachmodell als vielseitiger Sprachtransformator | arXiv | - | - |
10.08 | AudioLDM 2: Erlernen der ganzheitlichen Audioerzeugung mit selbstüberwachtem Vortraining | arXiv | GitHub | Umarmendes Gesicht |
09.08 | JEN-1: Textgesteuerte universelle Musikerzeugung mit omnidirektionalen Diffusionsmodellen | arXiv | - | - |
03.08 | MusicLDM: Verbesserung der Neuheit bei der Text-zu-Musik-Generierung durch Beat-synchrone Mixup-Strategien | arXiv | GitHub | - |
14.07 | Mega-TTS 2: Zero-Shot-Text-to-Speech mit Sprachansagen beliebiger Länge | arXiv | - | - |
10.07 | VampNet: Musikerzeugung durch maskierte akustische Token-Modellierung | arXiv | GitHub | - |
22.06 | AudioPaLM: Ein großes Sprachmodell, das sprechen und zuhören kann | arXiv | - | - |
19.06 | Voicebox: Textgesteuerte mehrsprachige universelle Sprachgenerierung im großen Maßstab | GitHub | - | |
08.06 | MusicGen: Einfache und kontrollierbare Musikgenerierung | arXiv | GitHub | Umarmendes Gesicht Colab |
06.06 | Mega-TTS: Zero-Shot-Text-to-Speech im großen Maßstab mit intrinsischer induktiver Vorspannung | arXiv | - | - |
01.06 | Vocos: Schließen der Lücke zwischen Zeitbereichs- und Fourier-basierten neuronalen Vocodern für hochwertige Audiosynthese | arXiv | GitHub | - |
29.05 | Make-An-Audio 2: Zeitlich verbesserte Text-to-Audio-Generierung | arXiv | - | - |
25.05 | MeLoDy: Effiziente Erzeugung neuronaler Musik | arXiv | - | - |
18.05 | CLAPSpeech: Lernen von Prosodie aus dem Textkontext mit kontrastivem Sprach-Audio-Vortraining | arXiv | - | - |
18.05 | SpeechGPT: Stärkung großer Sprachmodelle mit intrinsischen modalübergreifenden Konversationsfähigkeiten | arXiv | GitHub | - |
16.05 | SoundStorm: Effiziente parallele Audioerzeugung | arXiv | GitHub (inoffiziell) | - |
03.05 | Vielfältige und lebendige Klangerzeugung aus Textbeschreibungen | arXiv | - | - |
02.05 | Langfristiger rhythmischer Video-Soundtracker | arXiv | GitHub | - |
24.04 | TANGO: Text-to-Audio-Generierung mit anweisungsoptimiertem LLM und Latent Diffusion Model | GitHub | Umarmendes Gesicht | |
18.04 | NaturalSpeech 2: Latent-Diffusion-Modelle sind natürliche und Zero-Shot-Synthesizer für Sprache und Gesang | arXiv | GitHub (inoffiziell) | - |
10.04 | Bark: Textgesteuertes generatives Audiomodell | - | GitHub | Umarmendes Gesicht Colab |
03.04 | AUDIT: Audiobearbeitung durch Befolgen von Anweisungen mit latenten Diffusionsmodellen | arXiv | - | - |
08.03 | VALL-E X: Sprechen Sie Fremdsprachen mit Ihrer eigenen Stimme: Sprachübergreifende neuronale Codec-Sprachmodellierung | arXiv | - | - |
27.02 | Ich höre Ihr wahres Gesicht: Bildgesteuerte Audioerzeugung | arXiv | GitHub | - |
08.02 | Noise2Music: Textkonditionierte Musikerzeugung mit Diffusionsmodellen | arXiv | - | - |
04.02 | Multi-Source-Diffusionsmodelle für die gleichzeitige Musikerzeugung und -trennung | arXiv | GitHub | - |
30.01 | SingSong: Musikalische Begleitungen aus Gesang generieren | arXiv | - | - |
30.01 | AudioLDM: Text-to-Audio-Generierung mit latenten Diffusionsmodellen | arXiv | GitHub | Umarmendes Gesicht |
30.01 | Moûsai: Text-zu-Musik-Generierung mit latenter Langkontextdiffusion | arXiv | GitHub | - |
29.01 | Make-An-Audio: Text-to-Audio-Generierung mit Prompt-Enhanced-Diffusion-Modellen | - | - | |
28.01 | Noise2Music | - | - | - |
27.01 | RAVE2 [Beispiele RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM: Musik aus Text generieren | arXiv | GitHub (inoffiziell) | - |
18.01 | Msanii: High-Fidelity-Musiksynthese mit kleinem Budget | arXiv | GitHub | Umarmendes Gesicht Colab |
16.01 | ArchiSound: Audioerzeugung mit Diffusion | arXiv | GitHub | - |
05.01 | VALL-E: Neuronale Codec-Sprachmodelle sind Zero-Shot-Text-zu-Sprache-Synthesizer | arXiv | GitHub (inoffiziell) (Demo) | - |