audio ai timeline
1.0.0
在這裡,我們將從 2023 年開始追蹤基於波形的音訊生成的最新 AI 模型!
日期 | 發布[樣本] | 紙 | 程式碼 | 訓練模型 |
---|---|---|---|---|
14.11 | Mustango:邁向可控的文字到音樂生成 | arXiv | GitHub | 抱臉 |
13.11 | Music ControlNet:用於音樂產生的多個時變控件 | arXiv | - | - |
02.11 | E3 TTS:基於端對端擴散的簡單文字轉語音 | arXiv | - | - |
01.10 | UniAudio:以通用音訊產生為導向的音訊基礎模型 | arXiv | GitHub | - |
24.09 | VoiceLDM:具有環境背景的文字轉語音轉換 | arXiv | GitHub | - |
05.09 | PromptTTS 2:用文字提示描述和產生聲音 | arXiv | - | - |
14.08 | SpeechX:神經編解碼器語言模型作為多功能語音轉換器 | arXiv | - | - |
10.08 | AudioLDM 2:透過自我監督預訓練學習整體音訊生成 | arXiv | GitHub | 抱臉 |
09.08 | JEN-1:具有全向擴散模型的文本引導通用音樂生成 | arXiv | - | - |
03.08 | MusicLDM:使用節拍同步混合策略來增強文字到音樂生成的新穎性 | arXiv | GitHub | - |
14.07 | Mega-TTS 2:具有任意長度語音提示的零樣本文字轉語音 | arXiv | - | - |
10.07 | VampNet:透過屏蔽聲學令牌模型生成音樂 | arXiv | GitHub | - |
22.06 | AudioPaLM:能說能聽的大型語言模型 | arXiv | - | - |
19.06 | Voicebox:大規模文字引導多語言通用語音生成 | GitHub | - | |
08.06 | MusicGen:簡單可控的音樂生成 | arXiv | GitHub | 抱臉合作實驗室 |
06.06 | Mega-TTS:具有內在歸納偏差的大規模零樣本文字轉語音 | arXiv | - | - |
01.06 | Vocos:縮小時域和基於傅立葉的神經聲碼器之間的差距,實現高品質音訊合成 | arXiv | GitHub | - |
29.05 | Make-An-Audio 2:時間增強的文字到音訊生成 | arXiv | - | - |
25.05 | MeloDy:高效的神經音樂生成 | arXiv | - | - |
18.05 | CLAPSpeech:透過對比語言音訊預訓練從文字上下文中學習韻律 | arXiv | - | - |
18.05 | SpeechGPT:賦予大型語言模型內在的跨模式對話能力 | arXiv | GitHub | - |
16.05 | SoundStorm:高效的平行音訊生成 | arXiv | GitHub(非官方) | - |
03.05 | 從文字描述中產生多樣而生動的聲音 | arXiv | - | - |
02.05 | 長期節奏影片配樂 | arXiv | GitHub | - |
24.04 | TANGO:使用指令調整的 LLM 和潛在擴散模型產生文字到音訊 | GitHub | 抱臉 | |
18.04 | NaturalSpeech 2:潛在擴散模型是自然且零樣本的語音和歌唱合成器 | arXiv | GitHub(非官方) | - |
10.04 | Bark:文字提示的生成音訊模型 | - | GitHub | 抱臉合作實驗室 |
03.04 | 審核:依照潛在擴散模型的說明進行音訊編輯 | arXiv | - | - |
08.03 | VALL-E X:用自己的聲音說外語:跨語言神經編解碼器語言建模 | arXiv | - | - |
27.02 | 我聽到你的真面目:圖像引導音訊生成 | arXiv | GitHub | - |
08.02 | Noise2Music:具有擴散模型的文本調節音樂生成 | arXiv | - | - |
04.02 | 用於同時產生和分離音樂的多源擴散模型 | arXiv | GitHub | - |
30.01 | SingSong:透過唱歌生成音樂伴奏 | arXiv | - | - |
30.01 | AudioLDM:使用潛在擴散模型產生文字到音頻 | arXiv | GitHub | 抱臉 |
30.01 | Moûsai:具有長上下文潛在擴散的文本到音樂生成 | arXiv | GitHub | - |
29.01 | 製作音頻:使用提示增強擴散模型生成文字到音頻 | - | - | |
28.01 | 噪音音樂 | - | - | - |
27.01 | RAVE2 [樣品 RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM:從文字生成音樂 | arXiv | GitHub(非官方) | - |
18.01 | Msanii:預算有限的高保真音樂合成 | arXiv | GitHub | 抱臉合作實驗室 |
16.01 | ArchiSound:透過擴散產生音頻 | arXiv | GitHub | - |
05.01 | VALL-E:神經編解碼器語言模型是零樣本文字到語音合成器 | arXiv | GitHub(非官方)(演示) | - |