audio ai timelineラインダウンロード - audio ai timelineソースコードのダウンロード

audio ai timeline

AI ソースコード

1.0.0

ダウンロード

オーディオ AI タイムライン

ここでは、2023 年から始まる波形ベースのオーディオ生成のための最新の AI モデルを追跡していきます。

2023年

日付	[サンプル]をリリース	紙	コード	訓練されたモデル
14.11	Mustango: 制御可能なテキストから音楽への生成を目指して	arXiv	GitHub	ハグフェイス
13.11	Music ControlNet: 音楽生成のための複数の時変コントロール	arXiv	-	-
02.11	E3 TTS: 簡単なエンドツーエンドの拡散ベースのテキスト読み上げ	arXiv	-	-
01.10	UniAudio: ユニバーサルオーディオ生成に向けたオーディオ基盤モデル	arXiv	GitHub	-
9月24日	VoiceLDM: 環境コンテキストを使用したテキスト読み上げ	arXiv	GitHub	-
05.09	PromptTTS 2: テキストプロンプトを使用した音声の説明と生成	arXiv	-	-
14.08	SpeechX: 多用途の音声変換器としてのニューラルコーデック言語モデル	arXiv	-	-
10.08	AudioLDM 2: 自己教師付き事前トレーニングによる総合的なオーディオ生成の学習	arXiv	GitHub	ハグフェイス
09.08	JEN-1: 全方向拡散モデルによるテキストガイドによるユニバーサルミュージック生成	arXiv	-	-
03.08	MusicLDM: ビート同期ミックスアップ戦略を使用してテキストから音楽への生成における斬新性を強化	arXiv	GitHub	-
7月14日	Mega-TTS 2: 任意の長さの音声プロンプトを備えたゼロショットテキスト読み上げ	arXiv	-	-
10.07	VampNet: マスクされた音響トークンモデリングによる音楽生成	arXiv	GitHub	-
6月22日	AudioPaLM: 話したり聞いたりできる大規模な言語モデル	arXiv	-	-
19.06	Voicebox: テキストガイドによる多言語ユニバーサル音声の大規模生成	PDF	GitHub	-
08.06	MusicGen: シンプルで制御可能な音楽生成	arXiv	GitHub	ハグフェイスコラボ
06.06	Mega-TTS: 固有誘導バイアスを使用した大規模なゼロショットテキスト読み上げ	arXiv	-	-
01.06	Vocos: 高品質オーディオ合成のためのタイムドメインとフーリエベースのニューラルボコーダー間のギャップを埋める	arXiv	GitHub	-
5月29日	Make-An-Audio 2: 時間的に強化されたテキストからオーディオへの生成	arXiv	-	-
5月25日	MeloDy: 効率的なニューラル音楽生成	arXiv	-	-
18.05	CLAPSpeech: 対照的な言語音声の事前トレーニングを使用してテキストのコンテキストから韻律を学習する	arXiv	-	-
18.05	SpeechGPT: 本質的なクロスモーダル会話能力を備えた大規模言語モデルの強化	arXiv	GitHub	-
16.05	SoundStorm: 効率的な並列オーディオ生成	arXiv	GitHub (非公式)	-
03.05	文字説明から多彩で鮮やかな音を生成	arXiv	-	-
02.05	長期リズミカルビデオサウンドトラッカー	arXiv	GitHub	-
4月24日	TANGO: 命令調整された LLM と潜在拡散モデルを使用した Text-to-Audio 生成	PDF	GitHub	ハグフェイス
4月18日	NaturalSpeech 2: 潜在拡散モデルは自然でゼロショットのスピーチと歌のシンセサイザーです	arXiv	GitHub (非公式)	-
10.04	Bark: テキストプロンプトによる生成オーディオモデル	-	GitHub	ハグフェイスコラボ
03.04	AUDIT: 潜在拡散モデルを使用した指示に従うオーディオ編集	arXiv	-	-
08.03	VALL-E X: 自分の声で外国語を話す: クロスリンガルニューラルコーデック言語モデリング	arXiv	-	-
27.02	あなたの本当の色が聞こえます: 画像ガイド付きオーディオ生成	arXiv	GitHub	-
08.02	Noise2Music: 拡散モデルを使用したテキスト条件付き音楽生成	arXiv	-	-
04.02	音楽の生成と分離を同時に行うためのマルチソース拡散モデル	arXiv	GitHub	-
1月30日	SingSong: 歌から伴奏を生成する	arXiv	-	-
1月30日	AudioLDM: 潜在拡散モデルを使用したテキストからオーディオへの生成	arXiv	GitHub	ハグフェイス
1月30日	Moûsai: ロングコンテキストの潜在拡散によるテキストから音楽への生成	arXiv	GitHub	-
1月29日	Make-An-Audio: プロンプト拡張拡散モデルによるテキストからオーディオへの生成	PDF	-	-
1月28日	ノイズ2ミュージック	-	-	-
1月27日	RAVE2 [サンプル RAVE1]	arXiv	GitHub	-
1月26日	MusicLM: テキストから音楽を生成	arXiv	GitHub (非公式)	-
18.01	Msanii: 限られた予算で高忠実度の音楽合成を実現	arXiv	GitHub	ハグフェイスコラボ
16.01	ArchiSound: 拡散によるオーディオ生成	arXiv	GitHub	-
05.01	VALL-E: ニューラルコーデック言語モデルはゼロショットの Text to Speech シンセサイザーです	arXiv	GitHub (非公式) (デモ)	-