audio ai timeline
1.0.0
在这里,我们将从 2023 年开始跟踪基于波形的音频生成的最新 AI 模型!
日期 | 发布[样本] | 纸 | 代码 | 训练模型 |
---|---|---|---|---|
14.11 | Mustango:迈向可控的文本到音乐生成 | arXiv | GitHub | 抱脸 |
13.11 | Music ControlNet:用于音乐生成的多个时变控件 | arXiv | - | - |
02.11 | E3 TTS:基于端到端扩散的简单文本转语音 | arXiv | - | - |
01.10 | UniAudio:面向通用音频生成的音频基础模型 | arXiv | GitHub | - |
24.09 | VoiceLDM:具有环境背景的文本到语音转换 | arXiv | GitHub | - |
05.09 | PromptTTS 2:用文本提示描述和生成声音 | arXiv | - | - |
14.08 | SpeechX:神经编解码器语言模型作为多功能语音转换器 | arXiv | - | - |
10.08 | AudioLDM 2:通过自监督预训练学习整体音频生成 | arXiv | GitHub | 抱脸 |
09.08 | JEN-1:具有全向扩散模型的文本引导通用音乐生成 | arXiv | - | - |
03.08 | MusicLDM:使用节拍同步混合策略增强文本到音乐生成的新颖性 | arXiv | GitHub | - |
14.07 | Mega-TTS 2:具有任意长度语音提示的零样本文本转语音 | arXiv | - | - |
10.07 | VampNet:通过屏蔽声学令牌模型生成音乐 | arXiv | GitHub | - |
22.06 | AudioPaLM:能说能听的大型语言模型 | arXiv | - | - |
19.06 | Voicebox:大规模文本引导多语言通用语音生成 | GitHub | - | |
08.06 | MusicGen:简单可控的音乐生成 | arXiv | GitHub | 抱脸合作实验室 |
06.06 | Mega-TTS:具有内在归纳偏差的大规模零样本文本转语音 | arXiv | - | - |
01.06 | Vocos:缩小时域和基于傅里叶的神经声码器之间的差距,实现高质量音频合成 | arXiv | GitHub | - |
29.05 | Make-An-Audio 2:时间增强的文本到音频生成 | arXiv | - | - |
25.05 | MeloDy:高效的神经音乐生成 | arXiv | - | - |
18.05 | CLAPSpeech:通过对比语言音频预训练从文本上下文中学习韵律 | arXiv | - | - |
18.05 | SpeechGPT:赋予大型语言模型内在的跨模式对话能力 | arXiv | GitHub | - |
16.05 | SoundStorm:高效的并行音频生成 | arXiv | GitHub(非官方) | - |
03.05 | 从文本描述中生成多样而生动的声音 | arXiv | - | - |
02.05 | 长期节奏视频配乐 | arXiv | GitHub | - |
24.04 | TANGO:使用指令调整的 LLM 和潜在扩散模型生成文本到音频 | GitHub | 抱脸 | |
18.04 | NaturalSpeech 2:潜在扩散模型是自然且零样本的语音和歌唱合成器 | arXiv | GitHub(非官方) | - |
10.04 | Bark:文本提示的生成音频模型 | - | GitHub | 抱脸合作实验室 |
03.04 | 审核:按照潜在扩散模型的说明进行音频编辑 | arXiv | - | - |
08.03 | VALL-E X:用自己的声音说外语:跨语言神经编解码器语言建模 | arXiv | - | - |
27.02 | 我听到你的真面目:图像引导音频生成 | arXiv | GitHub | - |
08.02 | Noise2Music:具有扩散模型的文本调节音乐生成 | arXiv | - | - |
04.02 | 用于同时生成和分离音乐的多源扩散模型 | arXiv | GitHub | - |
30.01 | SingSong:通过唱歌生成音乐伴奏 | arXiv | - | - |
30.01 | AudioLDM:使用潜在扩散模型生成文本到音频 | arXiv | GitHub | 抱脸 |
30.01 | Moûsai:具有长上下文潜在扩散的文本到音乐生成 | arXiv | GitHub | - |
29.01 | 制作音频:使用提示增强扩散模型生成文本到音频 | - | - | |
28.01 | 噪音音乐 | - | - | - |
27.01 | RAVE2 [样品 RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM:从文本生成音乐 | arXiv | GitHub(非官方) | - |
18.01 | Msanii:预算有限的高保真音乐合成 | arXiv | GitHub | 抱脸合作实验室 |
16.01 | ArchiSound:通过扩散生成音频 | arXiv | GitHub | - |
05.01 | VALL-E:神经编解码器语言模型是零样本文本到语音合成器 | arXiv | GitHub(非官方)(演示) | - |