audio ai timeline
1.0.0
Di sini kami akan terus memantau model AI terbaru untuk pembuatan audio berbasis gelombang, mulai tahun 2023!
Tanggal | Rilis [Sampel] | Kertas | Kode | Model Terlatih |
---|---|---|---|---|
14.11 | Mustango: Menuju Generasi Teks-ke-Musik yang Terkendali | arXiv | GitHub | Memeluk Wajah |
13.11 | Music ControlNet: Kontrol Bervariasi Banyak Waktu untuk Pembuatan Musik | arXiv | - | - |
02.11 | E3 TTS: Text to Speech berbasis Difusi End-to-End yang Mudah | arXiv | - | - |
01.10 | UniAudio: Model Landasan Audio Menuju Generasi Audio Universal | arXiv | GitHub | - |
24.09 | VoiceLDM: Text-to-Speech dengan Konteks Lingkungan | arXiv | GitHub | - |
05.09 | PromptTTS 2: Mendeskripsikan dan Menghasilkan Suara dengan Text Prompt | arXiv | - | - |
14.08 | SpeechX: Model Bahasa Neural Codec sebagai Transformator Ucapan Serbaguna | arXiv | - | - |
10.08 | AudioLDM 2: Mempelajari Pembuatan Audio Holistik dengan Pra-pelatihan yang Diawasi Sendiri | arXiv | GitHub | Memeluk Wajah |
09.08 | JEN-1: Generasi Musik Universal Berpanduan Teks dengan Model Difusi Segala Arah | arXiv | - | - |
03.08 | MusicLDM: Meningkatkan Kebaruan dalam Pembuatan Text-to-Music Menggunakan Strategi Mixup Beat-Synchronous | arXiv | GitHub | - |
14.07 | Mega-TTS 2: Zero-Shot Text-to-Speech dengan Perintah Ucapan Panjang Sewenang-wenang | arXiv | - | - |
10.07 | VampNet: Pembuatan Musik melalui Pemodelan Token Akustik Bertopeng | arXiv | GitHub | - |
22.06 | AudioPaLM: Model Bahasa Besar yang Dapat Berbicara dan Mendengarkan | arXiv | - | - |
19.06 | Kotak Suara: Pembuatan Pidato Universal Multibahasa yang Dipandu Teks dalam Skala Besar | GitHub | - | |
08.06 | MusicGen: Generasi Musik Sederhana dan Terkendali | arXiv | GitHub | Colab Memeluk Wajah |
06.06 | Mega-TTS: Zero-Shot Text-to-Speech dalam Skala Besar dengan Bias Induktif Intrinsik | arXiv | - | - |
01.06 | Vocos: Menutup kesenjangan antara domain waktu dan vocoder saraf berbasis Fourier untuk sintesis audio berkualitas tinggi | arXiv | GitHub | - |
29.05 | Make-An-Audio 2: Pembuatan Teks-ke-Audio yang Disempurnakan Secara Temporal | arXiv | - | - |
25.05 | MeLoDy: Generasi Musik Neural yang Efisien | arXiv | - | - |
18.05 | CLAPSpeech: Mempelajari Prosodi dari Konteks Teks dengan Pra-pelatihan Audio-Bahasa Kontrasif | arXiv | - | - |
18.05 | SpeechGPT: Memberdayakan Model Bahasa Besar dengan Kemampuan Percakapan Lintas Modal Intrinsik | arXiv | GitHub | - |
16.05 | SoundStorm: Generasi Audio Paralel yang Efisien | arXiv | GitHub (tidak resmi) | - |
03.05 | Generasi Suara yang Beragam dan Jelas dari Deskripsi Teks | arXiv | - | - |
02.05 | Soundtracker Video Berirama Jangka Panjang | arXiv | GitHub | - |
24.04 | TANGO: Pembuatan Teks-ke-Audio menggunakan LLM yang disetel instruksi dan Model Difusi Laten | GitHub | Memeluk Wajah | |
18.04 | NaturalSpeech 2: Model Difusi Laten adalah Synthesizer Ucapan dan Nyanyian yang Alami dan Zero-Shot | arXiv | GitHub (tidak resmi) | - |
10.04 | Bark: Model Audio Generatif yang Diminta Teks | - | GitHub | Colab Memeluk Wajah |
03.04 | AUDIT: Pengeditan Audio dengan Mengikuti Instruksi dengan Model Difusi Laten | arXiv | - | - |
08.03 | VALL-E X: Berbicara Bahasa Asing dengan Suara Anda Sendiri: Pemodelan Bahasa Codec Neural Lintas Bahasa | arXiv | - | - |
27.02 | Saya Mendengar Warna Asli Anda: Pembuatan Audio yang Dipandu Gambar | arXiv | GitHub | - |
08.02 | Noise2Music: Generasi Musik Berkondisi Teks dengan Model Difusi | arXiv | - | - |
04.02 | Model Difusi Multi-Sumber untuk Pembuatan dan Pemisahan Musik Secara Simultan | arXiv | GitHub | - |
30.01 | SingSong: Menghasilkan musik pengiring dari nyanyian | arXiv | - | - |
30.01 | AudioLDM: Pembuatan Teks-ke-Audio dengan Model Difusi Laten | arXiv | GitHub | Memeluk Wajah |
30.01 | Moûsai: Generasi Teks-ke-Musik dengan Difusi Laten Konteks Panjang | arXiv | GitHub | - |
29.01 | Make-An-Audio: Pembuatan Teks-Ke-Audio dengan Model Difusi yang Ditingkatkan dengan Cepat | - | - | |
28.01 | Kebisingan2Musik | - | - | - |
27.01 | RAVE2 [Sampel RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM: Menghasilkan Musik Dari Teks | arXiv | GitHub (tidak resmi) | - |
18.01 | Msanii: Sintesis Musik Fidelitas Tinggi dengan Anggaran Sedikit | arXiv | GitHub | Colab Memeluk Wajah |
16.01 | ArchiSound: Pembuatan Audio dengan Difusi | arXiv | GitHub | - |
05.01 | VALL-E: Model Bahasa Neural Codec adalah Synthesizer Teks ke Ucapan Zero-Shot | arXiv | GitHub (tidak resmi) (demo) | - |