audio ai timeline
1.0.0
سنتابع هنا أحدث نماذج الذكاء الاصطناعي لتوليد الصوت المعتمد على الشكل الموجي، بدءًا من عام 2023!
تاريخ | الافراج عن [عينات] | ورق | شفرة | النموذج المتدرب |
---|---|---|---|---|
14.11 | موستانجو: نحو توليد نص إلى موسيقى يمكن التحكم فيه | arXiv | جيثب | تعانق الوجه |
13.11 | Music ControlNet: عناصر تحكم متعددة متغيرة الوقت لتوليد الموسيقى | arXiv | - | - |
02.11.02.11 | E3 TTS: تحويل النص إلى كلام سهل يعتمد على النشر من طرف إلى طرف | arXiv | - | - |
01.10 | UniAudio: نموذج مؤسسة صوتية نحو إنشاء الصوت العالمي | arXiv | جيثب | - |
24.09 | VoiceLDM: تحويل النص إلى كلام مع السياق البيئي | arXiv | جيثب | - |
05.09 | PromptTTS 2: وصف وتوليد الأصوات باستخدام موجه النص | arXiv | - | - |
14.08 | SpeechX: نموذج لغة الترميز العصبي كمحول كلام متعدد الاستخدامات | arXiv | - | - |
10.08 | AudioLDM 2: تعلم إنشاء الصوت الشامل من خلال التدريب المسبق الخاضع للإشراف الذاتي | arXiv | جيثب | تعانق الوجه |
09.08 | JEN-1: جيل الموسيقى العالمي الموجه بالنص مع نماذج الانتشار متعددة الاتجاهات | arXiv | - | - |
03.08 | MusicLDM: تعزيز الحداثة في إنشاء تحويل النص إلى موسيقى باستخدام استراتيجيات المزج المتزامن مع الإيقاع | arXiv | جيثب | - |
14.07 | Mega-TTS 2: تحويل النص إلى كلام بدون لقطة مع مطالبات كلامية ذات طول تعسفي | arXiv | - | - |
10.07 | VampNet: إنشاء الموسيقى عبر نمذجة الرموز الصوتية المقنعة | arXiv | جيثب | - |
22.06 | AudioPaLM: نموذج لغة كبير يمكنه التحدث والاستماع | arXiv | - | - |
19.06 | Voicebox: إنشاء خطاب عالمي متعدد اللغات موجه بالنص على نطاق واسع | قوات الدفاع الشعبي | جيثب | - |
08.06 | MusicGen: إنشاء موسيقى بسيطة ويمكن التحكم فيها | arXiv | جيثب | معانقة الوجه كولاب |
06.06 | Mega-TTS: تحويل النص إلى كلام بدون لقطة على نطاق واسع مع التحيز الاستقرائي الجوهري | arXiv | - | - |
01.06 | Vocos: سد الفجوة بين المجال الزمني ومشفرات الصوت العصبية القائمة على فورييه من أجل تركيب صوتي عالي الجودة | arXiv | جيثب | - |
29.05 | Make-An-Audio 2: إنشاء تحويل النص إلى الصوت المحسّن مؤقتًا | arXiv | - | - |
25.05 | MeLoDy: توليد الموسيقى العصبية بكفاءة | arXiv | - | - |
18.05 | كلام التصفيق: تعلم علم العروض من سياق النص مع التدريب المسبق على اللغة والصوت المتباين | arXiv | - | - |
18.05 | SpeechGPT: تمكين نماذج اللغات الكبيرة من خلال قدرات المحادثة الجوهرية متعددة الوسائط | arXiv | جيثب | - |
16.05 | SoundStorm: توليد الصوت الموازي الفعال | arXiv | جيثب (غير رسمي) | - |
03.05 | إنشاء صوت متنوع وحيوي من أوصاف النص | arXiv | - | - |
02.05 | مقطع صوتي إيقاعي طويل المدى | arXiv | جيثب | - |
24.04 | TANGO: توليد النص إلى الصوت باستخدام تعليمات ضبط LLM ونموذج الانتشار الكامن | قوات الدفاع الشعبي | جيثب | تعانق الوجه |
18.04 | NaturalSpeech 2: نماذج الانتشار الكامن عبارة عن مُركِّبات كلام وغناء طبيعية وبدون طلقة | arXiv | جيثب (غير رسمي) | - |
10.04 | النباح: نموذج الصوت التوليدي الذي يطالب بالنص | - | جيثب | معانقة الوجه كولاب |
03.04 | التدقيق: تحرير الصوت باتباع التعليمات مع نماذج الانتشار الكامن | arXiv | - | - |
08.03 | VALL-E X: تحدث اللغات الأجنبية بصوتك: نمذجة لغة الترميز العصبي متعدد اللغات | arXiv | - | - |
27.02 | أسمع ألوانك الحقيقية: إنشاء الصوت الموجه بالصور | arXiv | جيثب | - |
08.02 | Noise2Music: توليد موسيقى مكيفة بالنص مع نماذج الانتشار | arXiv | - | - |
04.02 | نماذج نشر متعددة المصادر لتوليد الموسيقى وفصلها في وقت واحد | arXiv | جيثب | - |
30.01 | SingSong: توليد المرافقات الموسيقية من الغناء | arXiv | - | - |
30.01 | AudioLDM: إنشاء تحويل النص إلى صوت باستخدام نماذج الانتشار الكامنة | arXiv | جيثب | تعانق الوجه |
30.01 | Moûsai: توليد النص إلى الموسيقى مع الانتشار الكامن للسياق الطويل | arXiv | جيثب | - |
29.01 | إنشاء صوت: إنشاء تحويل النص إلى صوت باستخدام نماذج الانتشار المحسّنة السريعة | قوات الدفاع الشعبي | - | - |
28.01 | Noise2Music | - | - | - |
27.01 | RAVE2 [عينات RAVE1] | arXiv | جيثب | - |
26.01 | MusicLM: توليد الموسيقى من النص | arXiv | جيثب (غير رسمي) | - |
18.01 | مساني: توليفة موسيقية عالية الدقة بميزانية محدودة | arXiv | جيثب | معانقة الوجه كولاب |
16.01 | ArchiSound: توليد الصوت مع الانتشار | arXiv | جيثب | - |
05.01 | VALL-E: نماذج لغة الترميز العصبي عبارة عن مُركِّبات نصية بدون لقطة | arXiv | جيثب (غير رسمي) (تجريبي) | - |