audio ai timeline下载 - audio ai timeline源代码下载

audio ai timeline

Ai源码

1.0.0

下载

音频人工智能时间轴

在这里，我们将从 2023 年开始跟踪基于波形的音频生成的最新 AI 模型！

2023年

日期	发布[样本]	纸	代码	训练模型
14.11	Mustango：迈向可控的文本到音乐生成	arXiv	GitHub	抱脸
13.11	Music ControlNet：用于音乐生成的多个时变控件	arXiv	-	-
02.11	E3 TTS：基于端到端扩散的简单文本转语音	arXiv	-	-
01.10	UniAudio：面向通用音频生成的音频基础模型	arXiv	GitHub	-
24.09	VoiceLDM：具有环境背景的文本到语音转换	arXiv	GitHub	-
05.09	PromptTTS 2：用文本提示描述和生成声音	arXiv	-	-
14.08	SpeechX：神经编解码器语言模型作为多功能语音转换器	arXiv	-	-
10.08	AudioLDM 2：通过自监督预训练学习整体音频生成	arXiv	GitHub	抱脸
09.08	JEN-1：具有全向扩散模型的文本引导通用音乐生成	arXiv	-	-
03.08	MusicLDM：使用节拍同步混合策略增强文本到音乐生成的新颖性	arXiv	GitHub	-
14.07	Mega-TTS 2：具有任意长度语音提示的零样本文本转语音	arXiv	-	-
10.07	VampNet：通过屏蔽声学令牌模型生成音乐	arXiv	GitHub	-
22.06	AudioPaLM：能说能听的大型语言模型	arXiv	-	-
19.06	Voicebox：大规模文本引导多语言通用语音生成	PDF	GitHub	-
08.06	MusicGen：简单可控的音乐生成	arXiv	GitHub	抱脸合作实验室
06.06	Mega-TTS：具有内在归纳偏差的大规模零样本文本转语音	arXiv	-	-
01.06	Vocos：缩小时域和基于傅里叶的神经声码器之间的差距，实现高质量音频合成	arXiv	GitHub	-
29.05	Make-An-Audio 2：时间增强的文本到音频生成	arXiv	-	-
25.05	MeloDy：高效的神经音乐生成	arXiv	-	-
18.05	CLAPSpeech：通过对比语言音频预训练从文本上下文中学习韵律	arXiv	-	-
18.05	SpeechGPT：赋予大型语言模型内在的跨模式对话能力	arXiv	GitHub	-
16.05	SoundStorm：高效的并行音频生成	arXiv	GitHub（非官方）	-
03.05	从文本描述中生成多样而生动的声音	arXiv	-	-
02.05	长期节奏视频配乐	arXiv	GitHub	-
24.04	TANGO：使用指令调整的 LLM 和潜在扩散模型生成文本到音频	PDF	GitHub	抱脸
18.04	NaturalSpeech 2：潜在扩散模型是自然且零样本的语音和歌唱合成器	arXiv	GitHub（非官方）	-
10.04	Bark：文本提示的生成音频模型	-	GitHub	抱脸合作实验室
03.04	审核：按照潜在扩散模型的说明进行音频编辑	arXiv	-	-
08.03	VALL-E X：用自己的声音说外语：跨语言神经编解码器语言建模	arXiv	-	-
27.02	我听到你的真面目：图像引导音频生成	arXiv	GitHub	-
08.02	Noise2Music：具有扩散模型的文本调节音乐生成	arXiv	-	-
04.02	用于同时生成和分离音乐的多源扩散模型	arXiv	GitHub	-
30.01	SingSong：通过唱歌生成音乐伴奏	arXiv	-	-
30.01	AudioLDM：使用潜在扩散模型生成文本到音频	arXiv	GitHub	抱脸
30.01	Moûsai：具有长上下文潜在扩散的文本到音乐生成	arXiv	GitHub	-
29.01	制作音频：使用提示增强扩散模型生成文本到音频	PDF	-	-
28.01	噪音音乐	-	-	-
27.01	RAVE2 [样品 RAVE1]	arXiv	GitHub	-
26.01	MusicLM：从文本生成音乐	arXiv	GitHub（非官方）	-
18.01	Msanii：预算有限的高保真音乐合成	arXiv	GitHub	抱脸合作实验室
16.01	ArchiSound：通过扩散生成音频	arXiv	GitHub	-
05.01	VALL-E：神经编解码器语言模型是零样本文本到语音合成器	arXiv	GitHub（非官方）（演示）	-