audio ai timeline
1.0.0
Ici, nous garderons une trace des derniers modèles d'IA pour la génération audio basée sur la forme d'onde, à partir de 2023 !
Date | Libérer [Échantillons] | Papier | Code | Modèle formé |
---|---|---|---|---|
14.11 | Mustango : vers une génération de texte en musique contrôlable | arXiv | GitHub | Visage câlin |
13.11 | Music ControlNet : plusieurs commandes variables dans le temps pour la génération de musique | arXiv | - | - |
02.11 | E3 TTS : synthèse vocale facile basée sur la diffusion de bout en bout | arXiv | - | - |
01.10 | UniAudio : un modèle de base audio vers la génération audio universelle | arXiv | GitHub | - |
24.09 | VoiceLDM : synthèse vocale avec contexte environnemental | arXiv | GitHub | - |
05.09 | PromptTTS 2 : décrire et générer des voix avec une invite de texte | arXiv | - | - |
14.08 | SpeechX : modèle de langage de codec neuronal comme transformateur de parole polyvalent | arXiv | - | - |
10.08 | AudioLDM 2 : Apprentissage de la génération audio holistique avec une pré-formation auto-supervisée | arXiv | GitHub | Visage câlin |
09.08 | JEN-1 : Génération de musique universelle guidée par texte avec modèles de diffusion omnidirectionnelle | arXiv | - | - |
03.08 | MusicLDM : améliorer la nouveauté dans la génération de texte en musique à l'aide de stratégies de mixage synchrone | arXiv | GitHub | - |
14.07 | Mega-TTS 2 : synthèse vocale Zero-Shot avec invites vocales de longueur arbitraire | arXiv | - | - |
10.07 | VampNet : génération de musique via la modélisation de jetons acoustiques masqués | arXiv | GitHub | - |
22.06 | AudioPaLM : un grand modèle de langage capable de parler et d'écouter | arXiv | - | - |
19.06 | Voicebox : génération vocale universelle multilingue guidée par texte à grande échelle | GitHub | - | |
08.06 | MusicGen : génération de musique simple et contrôlable | arXiv | GitHub | Colab visage câlin |
06.06 | Mega-TTS : synthèse vocale Zero-Shot à grande échelle avec biais inductif intrinsèque | arXiv | - | - |
01.06 | Vocos : combler l'écart entre les vocodeurs neuronaux dans le domaine temporel et basés sur Fourier pour une synthèse audio de haute qualité | arXiv | GitHub | - |
29.05 | Make-An-Audio 2 : génération de texte en audio améliorée au niveau temporel | arXiv | - | - |
25.05 | MeLoDy : génération efficace de musique neuronale | arXiv | - | - |
18.05 | CLAPSpeech : apprendre la prosodie à partir du contexte textuel avec une pré-formation contrastée langage-audio | arXiv | - | - |
18.05 | SpeechGPT : doter de grands modèles linguistiques de capacités conversationnelles multimodales intrinsèques | arXiv | GitHub | - |
16h05 | SoundStorm : génération audio parallèle efficace | arXiv | GitHub (non officiel) | - |
03.05 | Génération de sons diversifiés et vifs à partir de descriptions textuelles | arXiv | - | - |
02.05 | Bande-son vidéo rythmique à long terme | arXiv | GitHub | - |
24.04 | TANGO : génération de texte en audio à l'aide d'un LLM adapté aux instructions et d'un modèle de diffusion latente | GitHub | Visage câlin | |
18.04 | NaturalSpeech 2 : les modèles de diffusion latente sont des synthétiseurs de parole et de chant naturels et Zero-Shot | arXiv | GitHub (non officiel) | - |
10.04 | Bark : modèle audio génératif à invite de texte | - | GitHub | Colab visage câlin |
03.04 | AUDIT : Édition audio en suivant les instructions avec des modèles de diffusion latente | arXiv | - | - |
08.03 | VALL-E X : Parlez des langues étrangères avec votre propre voix : modélisation linguistique de codecs neuronaux multilingues | arXiv | - | - |
27.02 | J'entends vos vraies couleurs : génération audio guidée par l'image | arXiv | GitHub | - |
08.02 | Noise2Music : génération de musique conditionnée par texte avec des modèles de diffusion | arXiv | - | - |
04.02 | Modèles de diffusion multi-sources pour la génération et la séparation simultanées de musique | arXiv | GitHub | - |
30.01 | SingSong : Générer des accompagnements musicaux à partir du chant | arXiv | - | - |
30.01 | AudioLDM : génération de texte en audio avec des modèles de diffusion latente | arXiv | GitHub | Visage câlin |
30.01 | Moûsai : génération de texte en musique avec diffusion latente à contexte long | arXiv | GitHub | - |
29.01 | Make-An-Audio : génération de texte en audio avec des modèles de diffusion améliorés par invite | - | - | |
28.01 | Bruit2Musique | - | - | - |
27.01 | RAVE2 [Échantillons RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM : générer de la musique à partir de texte | arXiv | GitHub (non officiel) | - |
18.01 | Msanii : synthèse musicale haute fidélité avec un budget restreint | arXiv | GitHub | Colab visage câlin |
16.01 | ArchiSound : génération audio avec diffusion | arXiv | GitHub | - |
05.01 | VALL-E : les modèles de langage de codec neuronal sont des synthétiseurs de synthèse vocale Zero-Shot | arXiv | GitHub (non officiel) (démo) | - |