audio ai timeline
1.0.0
Aqui acompanharemos os modelos de IA mais recentes para geração de áudio baseada em formas de onda, a partir de 2023!
Data | Lançamento [amostras] | Papel | Código | Modelo treinado |
---|---|---|---|---|
14.11 | Mustango: rumo à geração controlável de texto para música | arXiv | GitHub | Abraçando o rosto |
13.11 | Music ControlNet: Vários controles que variam no tempo para geração de música | arXiv | - | - |
02.11 | E3 TTS: Texto para fala baseado em difusão fácil de ponta a ponta | arXiv | - | - |
01.10 | UniAudio: um modelo de base de áudio para geração de áudio universal | arXiv | GitHub | - |
24.09 | VoiceLDM: conversão de texto em fala com contexto ambiental | arXiv | GitHub | - |
05.09 | PromptTTS 2: descrevendo e gerando vozes com prompt de texto | arXiv | - | - |
14.08 | SpeechX: modelo de linguagem Neural Codec como um transformador de fala versátil | arXiv | - | - |
10.08 | AudioLDM 2: Aprendendo a geração holística de áudio com pré-treinamento autosupervisionado | arXiv | GitHub | Abraçando o rosto |
09.08 | JEN-1: Geração de música universal guiada por texto com modelos de difusão omnidirecional | arXiv | - | - |
03.08 | MusicLDM: Aprimorando a novidade na geração de texto para música usando estratégias de mixagem síncrona de batida | arXiv | GitHub | - |
14.07 | Mega-TTS 2: conversão de texto em fala zero-shot com prompts de fala de comprimento arbitrário | arXiv | - | - |
10.07 | VampNet: geração de música por meio de modelagem de token acústico mascarado | arXiv | GitHub | - |
22.06 | AudioPaLM: um grande modelo de linguagem que pode falar e ouvir | arXiv | - | - |
19.06 | Voicebox: geração de fala universal multilíngue guiada por texto em escala | GitHub | - | |
08.06 | MusicGen: geração de música simples e controlável | arXiv | GitHub | Abraçando o rosto Colab |
06.06 | Mega-TTS: conversão de texto em fala em escala zero com polarização indutiva intrínseca | arXiv | - | - |
01.06 | Vocos: Fechando a lacuna entre vocoders neurais no domínio do tempo e baseados em Fourier para síntese de áudio de alta qualidade | arXiv | GitHub | - |
29.05 | Make-An-Audio 2: geração de texto para áudio com aprimoramento temporal | arXiv | - | - |
25.05 | MeLoDy: geração eficiente de música neural | arXiv | - | - |
18.05 | CLAPSpeech: Aprendendo Prosódia a partir do Contexto de Texto com Pré-treinamento de Linguagem-Áudio Contrastivo | arXiv | - | - |
18.05 | SpeechGPT: capacitando grandes modelos de linguagem com habilidades de conversação intermodais intrínsecas | arXiv | GitHub | - |
16.05 | SoundStorm: geração eficiente de áudio paralelo | arXiv | GitHub (não oficial) | - |
03.05 | Geração de som diverso e vívido a partir de descrições de texto | arXiv | - | - |
02.05 | Trilha sonora de vídeo rítmico de longo prazo | arXiv | GitHub | - |
24.04 | TANGO: Geração de texto para áudio usando LLM ajustado por instrução e modelo de difusão latente | GitHub | Abraçando o rosto | |
18.04 | NaturalSpeech 2: Modelos de difusão latente são sintetizadores de fala e canto naturais e de disparo zero | arXiv | GitHub (não oficial) | - |
10.04 | Bark: modelo de áudio generativo solicitado por texto | - | GitHub | Abraçando o rosto Colab |
03.04 | AUDITORIA: Edição de áudio seguindo instruções com modelos de difusão latente | arXiv | - | - |
08.03 | VALL-E X: Fale línguas estrangeiras com sua própria voz: modelagem de linguagem de codec neural interlíngue | arXiv | - | - |
27.02 | Eu ouço suas verdadeiras cores: geração de áudio guiada por imagem | arXiv | GitHub | - |
08.02 | Noise2Music: geração de música condicionada por texto com modelos de difusão | arXiv | - | - |
04.02 | Modelos de difusão multifonte para geração e separação simultânea de música | arXiv | GitHub | - |
30.01 | SingSong: Gerando acompanhamentos musicais a partir do canto | arXiv | - | - |
30.01 | AudioLDM: geração de texto para áudio com modelos de difusão latente | arXiv | GitHub | Abraçando o rosto |
30.01 | Moûsai: geração de texto para música com difusão latente de longo contexto | arXiv | GitHub | - |
29.01 | Make-An-Audio: geração de texto para áudio com modelos de difusão aprimorados por prompt | - | - | |
28.01 | Noise2Music | - | - | - |
27.01 | RAVE2 [Amostras RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM: Gerando música a partir de texto | arXiv | GitHub (não oficial) | - |
18.01 | Msanii: síntese musical de alta fidelidade com um orçamento apertado | arXiv | GitHub | Abraçando o rosto Colab |
16.01 | ArchiSound: geração de áudio com difusão | arXiv | GitHub | - |
05.01 | VALL-E: Modelos de linguagem de codec neural são sintetizadores de texto para fala Zero-Shot | arXiv | GitHub (não oficial) (demonstração) | - |