Download audio ai timeline - download do código-fonte da audio ai timeline

audio ai timeline

Código-Fonte de IA

1.0.0

Baixar

Linha do tempo de IA de áudio

Aqui acompanharemos os modelos de IA mais recentes para geração de áudio baseada em formas de onda, a partir de 2023!

2023

Data	Lançamento [amostras]	Papel	Código	Modelo treinado
14.11	Mustango: rumo à geração controlável de texto para música	arXiv	GitHub	Abraçando o rosto
13.11	Music ControlNet: Vários controles que variam no tempo para geração de música	arXiv	-	-
02.11	E3 TTS: Texto para fala baseado em difusão fácil de ponta a ponta	arXiv	-	-
01.10	UniAudio: um modelo de base de áudio para geração de áudio universal	arXiv	GitHub	-
24.09	VoiceLDM: conversão de texto em fala com contexto ambiental	arXiv	GitHub	-
05.09	PromptTTS 2: descrevendo e gerando vozes com prompt de texto	arXiv	-	-
14.08	SpeechX: modelo de linguagem Neural Codec como um transformador de fala versátil	arXiv	-	-
10.08	AudioLDM 2: Aprendendo a geração holística de áudio com pré-treinamento autosupervisionado	arXiv	GitHub	Abraçando o rosto
09.08	JEN-1: Geração de música universal guiada por texto com modelos de difusão omnidirecional	arXiv	-	-
03.08	MusicLDM: Aprimorando a novidade na geração de texto para música usando estratégias de mixagem síncrona de batida	arXiv	GitHub	-
14.07	Mega-TTS 2: conversão de texto em fala zero-shot com prompts de fala de comprimento arbitrário	arXiv	-	-
10.07	VampNet: geração de música por meio de modelagem de token acústico mascarado	arXiv	GitHub	-
22.06	AudioPaLM: um grande modelo de linguagem que pode falar e ouvir	arXiv	-	-
19.06	Voicebox: geração de fala universal multilíngue guiada por texto em escala	PDF	GitHub	-
08.06	MusicGen: geração de música simples e controlável	arXiv	GitHub	Abraçando o rosto Colab
06.06	Mega-TTS: conversão de texto em fala em escala zero com polarização indutiva intrínseca	arXiv	-	-
01.06	Vocos: Fechando a lacuna entre vocoders neurais no domínio do tempo e baseados em Fourier para síntese de áudio de alta qualidade	arXiv	GitHub	-
29.05	Make-An-Audio 2: geração de texto para áudio com aprimoramento temporal	arXiv	-	-
25.05	MeLoDy: geração eficiente de música neural	arXiv	-	-
18.05	CLAPSpeech: Aprendendo Prosódia a partir do Contexto de Texto com Pré-treinamento de Linguagem-Áudio Contrastivo	arXiv	-	-
18.05	SpeechGPT: capacitando grandes modelos de linguagem com habilidades de conversação intermodais intrínsecas	arXiv	GitHub	-
16.05	SoundStorm: geração eficiente de áudio paralelo	arXiv	GitHub (não oficial)	-
03.05	Geração de som diverso e vívido a partir de descrições de texto	arXiv	-	-
02.05	Trilha sonora de vídeo rítmico de longo prazo	arXiv	GitHub	-
24.04	TANGO: Geração de texto para áudio usando LLM ajustado por instrução e modelo de difusão latente	PDF	GitHub	Abraçando o rosto
18.04	NaturalSpeech 2: Modelos de difusão latente são sintetizadores de fala e canto naturais e de disparo zero	arXiv	GitHub (não oficial)	-
10.04	Bark: modelo de áudio generativo solicitado por texto	-	GitHub	Abraçando o rosto Colab
03.04	AUDITORIA: Edição de áudio seguindo instruções com modelos de difusão latente	arXiv	-	-
08.03	VALL-E X: Fale línguas estrangeiras com sua própria voz: modelagem de linguagem de codec neural interlíngue	arXiv	-	-
27.02	Eu ouço suas verdadeiras cores: geração de áudio guiada por imagem	arXiv	GitHub	-
08.02	Noise2Music: geração de música condicionada por texto com modelos de difusão	arXiv	-	-
04.02	Modelos de difusão multifonte para geração e separação simultânea de música	arXiv	GitHub	-
30.01	SingSong: Gerando acompanhamentos musicais a partir do canto	arXiv	-	-
30.01	AudioLDM: geração de texto para áudio com modelos de difusão latente	arXiv	GitHub	Abraçando o rosto
30.01	Moûsai: geração de texto para música com difusão latente de longo contexto	arXiv	GitHub	-
29.01	Make-An-Audio: geração de texto para áudio com modelos de difusão aprimorados por prompt	PDF	-	-
28.01	Noise2Music	-	-	-
27.01	RAVE2 [Amostras RAVE1]	arXiv	GitHub	-
26.01	MusicLM: Gerando música a partir de texto	arXiv	GitHub (não oficial)	-
18.01	Msanii: síntese musical de alta fidelidade com um orçamento apertado	arXiv	GitHub	Abraçando o rosto Colab
16.01	ArchiSound: geração de áudio com difusão	arXiv	GitHub	-
05.01	VALL-E: Modelos de linguagem de codec neural são sintetizadores de texto para fala Zero-Shot	arXiv	GitHub (não oficial) (demonstração)	-

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-01-28
tamanho 3.95KB
Vindo de Github

Aplicativos Relacionados

audio share

2024-11-02
Aplicativo de áudio Heylink

2023-07-28
Mac de áudio

2023-07-18
Linha do tempo entre

2022-08-10
Áudio Realtek Realtek ALC HD

2009-05-30
Áudio Realtek Realtek ALC HD

2009-05-30

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos