audio ai timeline
1.0.0
Aquí realizaremos un seguimiento de los últimos modelos de IA para la generación de audio basada en formas de onda, ¡a partir de 2023!
Fecha | Lanzamiento [Muestras] | Papel | Código | Modelo entrenado |
---|---|---|---|---|
14.11 | Mustango: hacia una generación controlable de texto a música | arXiv | GitHub | abrazando la cara |
13.11 | Music ControlNet: múltiples controles variables en el tiempo para la generación de música | arXiv | - | - |
02.11 | E3 TTS: Texto a voz basado en difusión fácil de extremo a extremo | arXiv | - | - |
01.10 | UniAudio: un modelo básico de audio hacia la generación de audio universal | arXiv | GitHub | - |
24.09 | VoiceLDM: Texto a voz con contexto ambiental | arXiv | GitHub | - |
05.09 | PromptTTS 2: Describir y generar voces con mensajes de texto | arXiv | - | - |
14.08 | SpeechX: modelo de lenguaje de códec neuronal como transformador de voz versátil | arXiv | - | - |
10.08 | AudioLDM 2: Aprendizaje de generación de audio holística con preentrenamiento autosupervisado | arXiv | GitHub | abrazando la cara |
09.08 | JEN-1: Generación de música universal guiada por texto con modelos de difusión omnidireccional | arXiv | - | - |
03.08 | MusicLDM: mejora de la novedad en la generación de texto a música mediante estrategias de mezcla sincrónica de ritmo | arXiv | GitHub | - |
14.07 | Mega-TTS 2: conversión de texto a voz de disparo cero con indicaciones de voz de longitud arbitraria | arXiv | - | - |
10.07 | VampNet: generación de música mediante modelado de tokens acústicos enmascarados | arXiv | GitHub | - |
22.06 | AudioPaLM: un modelo de lenguaje grande que puede hablar y escuchar | arXiv | - | - |
19.06 | Voicebox: generación de voz universal multilingüe guiada por texto a escala | GitHub | - | |
08.06 | MusicGen: Generación de música simple y controlable | arXiv | GitHub | Colab de cara abrazada |
06.06 | Mega-TTS: conversión de texto a voz de disparo cero a escala con sesgo inductivo intrínseco | arXiv | - | - |
01.06 | Vocos: cerrando la brecha entre los vocoders neuronales basados en Fourier y en el dominio del tiempo para una síntesis de audio de alta calidad | arXiv | GitHub | - |
29.05 | Make-An-Audio 2: Generación de texto a audio mejorada temporalmente | arXiv | - | - |
25.05 | MeLoDy: Generación eficiente de música neuronal | arXiv | - | - |
18.05 | CLAPSpeech: aprendizaje de prosodia a partir del contexto del texto con entrenamiento previo en lenguaje contrastivo y audio | arXiv | - | - |
18.05 | SpeechGPT: potenciar modelos de lenguaje grandes con habilidades conversacionales intermodales intrínsecas | arXiv | GitHub | - |
16.05 | SoundStorm: generación eficiente de audio paralelo | arXiv | GitHub (no oficial) | - |
03.05 | Generación de sonido diversa y vívida a partir de descripciones de texto | arXiv | - | - |
02.05 | Banda sonora de vídeo rítmico a largo plazo | arXiv | GitHub | - |
24.04 | TANGO: generación de texto a audio utilizando LLM ajustado por instrucciones y modelo de difusión latente | GitHub | abrazando la cara | |
18.04 | NaturalSpeech 2: Los modelos de difusión latente son sintetizadores de voz y canto naturales y de disparo cero | arXiv | GitHub (no oficial) | - |
10.04 | Bark: modelo de audio generativo impulsado por texto | - | GitHub | Colab de cara abrazada |
03.04 | AUDITORÍA: Edición de audio siguiendo instrucciones con modelos de difusión latente | arXiv | - | - |
08.03 | VALL-E X: Habla idiomas extranjeros con tu propia voz: modelado de lenguaje de códec neuronal multilingüe | arXiv | - | - |
27.02 | Escucho tus verdaderos colores: generación de audio guiada por imágenes | arXiv | GitHub | - |
08.02 | Noise2Music: Generación de música condicionada por texto con modelos de difusión | arXiv | - | - |
04.02 | Modelos de difusión de fuentes múltiples para generación y separación simultánea de música | arXiv | GitHub | - |
30.01 | SingSong: Generando acompañamientos musicales a partir del canto | arXiv | - | - |
30.01 | AudioLDM: Generación de texto a audio con modelos de difusión latente | arXiv | GitHub | abrazando la cara |
30.01 | Moûsai: generación de texto a música con difusión latente de contexto largo | arXiv | GitHub | - |
29.01 | Make-An-Audio: generación de texto a audio con modelos de difusión mejorados rápidamente | - | - | |
28.01 | Ruido2Música | - | - | - |
27.01 | RAVE2 [Muestras RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM: Generando música a partir de texto | arXiv | GitHub (no oficial) | - |
18.01 | Msanii: síntesis musical de alta fidelidad con un presupuesto reducido | arXiv | GitHub | Colab de cara abrazada |
16.01 | ArchiSound: Generación de Audio con Difusión | arXiv | GitHub | - |
05.01 | VALL-E: Los modelos de lenguaje de códec neuronal son sintetizadores de texto a voz de disparo cero | arXiv | GitHub (no oficial) (demostración) | - |