audio ai timeline
1.0.0
ここでは、2023 年から始まる波形ベースのオーディオ生成のための最新の AI モデルを追跡していきます。
日付 | [サンプル]をリリース | 紙 | コード | 訓練されたモデル |
---|---|---|---|---|
14.11 | Mustango: 制御可能なテキストから音楽への生成を目指して | arXiv | GitHub | ハグフェイス |
13.11 | Music ControlNet: 音楽生成のための複数の時変コントロール | arXiv | - | - |
02.11 | E3 TTS: 簡単なエンドツーエンドの拡散ベースのテキスト読み上げ | arXiv | - | - |
01.10 | UniAudio: ユニバーサルオーディオ生成に向けたオーディオ基盤モデル | arXiv | GitHub | - |
9月24日 | VoiceLDM: 環境コンテキストを使用したテキスト読み上げ | arXiv | GitHub | - |
05.09 | PromptTTS 2: テキスト プロンプトを使用した音声の説明と生成 | arXiv | - | - |
14.08 | SpeechX: 多用途の音声変換器としてのニューラル コーデック言語モデル | arXiv | - | - |
10.08 | AudioLDM 2: 自己教師付き事前トレーニングによる総合的なオーディオ生成の学習 | arXiv | GitHub | ハグフェイス |
09.08 | JEN-1: 全方向拡散モデルによるテキストガイドによるユニバーサル ミュージック生成 | arXiv | - | - |
03.08 | MusicLDM: ビート同期ミックスアップ戦略を使用してテキストから音楽への生成における斬新性を強化 | arXiv | GitHub | - |
7月14日 | Mega-TTS 2: 任意の長さの音声プロンプトを備えたゼロショット テキスト読み上げ | arXiv | - | - |
10.07 | VampNet: マスクされた音響トークン モデリングによる音楽生成 | arXiv | GitHub | - |
6月22日 | AudioPaLM: 話したり聞いたりできる大規模な言語モデル | arXiv | - | - |
19.06 | Voicebox: テキストガイドによる多言語ユニバーサル音声の大規模生成 | GitHub | - | |
08.06 | MusicGen: シンプルで制御可能な音楽生成 | arXiv | GitHub | ハグフェイスコラボ |
06.06 | Mega-TTS: 固有誘導バイアスを使用した大規模なゼロショット テキスト読み上げ | arXiv | - | - |
01.06 | Vocos: 高品質オーディオ合成のためのタイムドメインとフーリエベースのニューラルボコーダー間のギャップを埋める | arXiv | GitHub | - |
5月29日 | Make-An-Audio 2: 時間的に強化されたテキストからオーディオへの生成 | arXiv | - | - |
5月25日 | MeloDy: 効率的なニューラル音楽生成 | arXiv | - | - |
18.05 | CLAPSpeech: 対照的な言語音声の事前トレーニングを使用してテキストのコンテキストから韻律を学習する | arXiv | - | - |
18.05 | SpeechGPT: 本質的なクロスモーダル会話能力を備えた大規模言語モデルの強化 | arXiv | GitHub | - |
16.05 | SoundStorm: 効率的な並列オーディオ生成 | arXiv | GitHub (非公式) | - |
03.05 | 文字説明から多彩で鮮やかな音を生成 | arXiv | - | - |
02.05 | 長期リズミカルビデオサウンドトラッカー | arXiv | GitHub | - |
4月24日 | TANGO: 命令調整された LLM と潜在拡散モデルを使用した Text-to-Audio 生成 | GitHub | ハグフェイス | |
4月18日 | NaturalSpeech 2: 潜在拡散モデルは自然でゼロショットのスピーチと歌のシンセサイザーです | arXiv | GitHub (非公式) | - |
10.04 | Bark: テキストプロンプトによる生成オーディオ モデル | - | GitHub | ハグフェイスコラボ |
03.04 | AUDIT: 潜在拡散モデルを使用した指示に従うオーディオ編集 | arXiv | - | - |
08.03 | VALL-E X: 自分の声で外国語を話す: クロスリンガル ニューラル コーデック言語モデリング | arXiv | - | - |
27.02 | あなたの本当の色が聞こえます: 画像ガイド付きオーディオ生成 | arXiv | GitHub | - |
08.02 | Noise2Music: 拡散モデルを使用したテキスト条件付き音楽生成 | arXiv | - | - |
04.02 | 音楽の生成と分離を同時に行うためのマルチソース拡散モデル | arXiv | GitHub | - |
1月30日 | SingSong: 歌から伴奏を生成する | arXiv | - | - |
1月30日 | AudioLDM: 潜在拡散モデルを使用したテキストからオーディオへの生成 | arXiv | GitHub | ハグフェイス |
1月30日 | Moûsai: ロングコンテキストの潜在拡散によるテキストから音楽への生成 | arXiv | GitHub | - |
1月29日 | Make-An-Audio: プロンプト拡張拡散モデルによるテキストからオーディオへの生成 | - | - | |
1月28日 | ノイズ2ミュージック | - | - | - |
1月27日 | RAVE2 [サンプル RAVE1] | arXiv | GitHub | - |
1月26日 | MusicLM: テキストから音楽を生成 | arXiv | GitHub (非公式) | - |
18.01 | Msanii: 限られた予算で高忠実度の音楽合成を実現 | arXiv | GitHub | ハグフェイスコラボ |
16.01 | ArchiSound: 拡散によるオーディオ生成 | arXiv | GitHub | - |
05.01 | VALL-E: ニューラル コーデック言語モデルはゼロショットの Text to Speech シンセサイザーです | arXiv | GitHub (非公式) (デモ) | - |