audio ai timeline
1.0.0
ที่นี่เราจะติดตามโมเดล AI ล่าสุดสำหรับการสร้างเสียงตามรูปคลื่น เริ่มในปี 2023!
วันที่ | ปล่อย [ตัวอย่าง] | กระดาษ | รหัส | โมเดลที่ผ่านการฝึกอบรม |
---|---|---|---|---|
14.11 | Mustango: สู่การสร้างข้อความเป็นเพลงที่ควบคุมได้ | อาร์เอ็กซ์ | GitHub | กอดหน้า |
13.11 | Music ControlNet: การควบคุมที่แปรผันตามเวลาสำหรับการสร้างเพลง | อาร์เอ็กซ์ | - | - |
02.11 | E3 TTS: การแปลงข้อความเป็นคำพูดจากต้นทางถึงปลายทางอย่างง่ายดาย | อาร์เอ็กซ์ | - | - |
01.10 | UniAudio: โมเดลพื้นฐานด้านเสียงสู่การสร้างเสียงสากล | อาร์เอ็กซ์ | GitHub | - |
24.09 | VoiceLDM: การอ่านออกเสียงข้อความพร้อมบริบทด้านสิ่งแวดล้อม | อาร์เอ็กซ์ | GitHub | - |
05.09 | PromptTTS 2: อธิบายและสร้างเสียงพร้อมข้อความ | อาร์เอ็กซ์ | - | - |
14.08 | SpeechX: โมเดลภาษาตัวแปลงสัญญาณประสาทเป็นตัวแปลงคำพูดอเนกประสงค์ | อาร์เอ็กซ์ | - | - |
10.08 | AudioLDM 2: การเรียนรู้การสร้างเสียงแบบองค์รวมด้วยการฝึกล่วงหน้าด้วยตนเอง | อาร์เอ็กซ์ | GitHub | กอดหน้า |
09.08 | JEN-1: การสร้างดนตรีสากลแบบใช้ข้อความพร้อมโมเดลการแพร่กระจายแบบรอบทิศทาง | อาร์เอ็กซ์ | - | - |
03.08 | MusicLDM: การเพิ่มความแปลกใหม่ในการสร้างข้อความเป็นเพลงโดยใช้กลยุทธ์การผสมผสานบีทซิงโครนัส | อาร์เอ็กซ์ | GitHub | - |
14.07 | Mega-TTS 2: การอ่านออกเสียงข้อความแบบ Zero-Shot พร้อมคำพูดที่มีความยาวตามอำเภอใจ | อาร์เอ็กซ์ | - | - |
10.07 | VampNet: การสร้างเพลงผ่านการสร้างแบบจำลองโทเค็นอะคูสติกแบบสวมหน้ากาก | อาร์เอ็กซ์ | GitHub | - |
22.06 | AudioPaLM: โมเดลภาษาขนาดใหญ่ที่สามารถพูดและฟังได้ | อาร์เอ็กซ์ | - | - |
19.06 | กล่องเสียง: การสร้างคำพูดสากลหลายภาษาพร้อมข้อความนำทางตามขนาด | GitHub | - | |
08.06 | MusicGen: การสร้างเพลงที่ง่ายและควบคุมได้ | อาร์เอ็กซ์ | GitHub | กอดใบหน้า Colab |
06.06 | Mega-TTS: การอ่านออกเสียงข้อความแบบ Zero-Shot ในระดับที่มีอคติเชิงอุปนัยภายใน | อาร์เอ็กซ์ | - | - |
01.06 | Vocos: ปิดช่องว่างระหว่างโดเมนเวลาและโวโคเดอร์ประสาทที่ใช้ฟูริเยร์เพื่อการสังเคราะห์เสียงคุณภาพสูง | อาร์เอ็กซ์ | GitHub | - |
29.05 | Make-An-Audio 2: การสร้างข้อความเป็นเสียงที่ปรับปรุงชั่วคราว | อาร์เอ็กซ์ | - | - |
25.05 | MeLoDy: การสร้างดนตรีประสาทที่มีประสิทธิภาพ | อาร์เอ็กซ์ | - | - |
18.05 | CLAPSpeech: การเรียนรู้ฉันทลักษณ์จากบริบทข้อความพร้อมการฝึกอบรมล่วงหน้าภาษาและเสียงที่ตัดกัน | อาร์เอ็กซ์ | - | - |
18.05 | SpeechGPT: เสริมศักยภาพให้กับโมเดลภาษาขนาดใหญ่ด้วยความสามารถในการสนทนาข้ามโมดัลภายใน | อาร์เอ็กซ์ | GitHub | - |
16.05 | SoundStorm: การสร้างเสียงแบบขนานที่มีประสิทธิภาพ | อาร์เอ็กซ์ | GitHub (ไม่เป็นทางการ) | - |
03.05 | การสร้างเสียงที่หลากหลายและสดใสจากคำอธิบายข้อความ | อาร์เอ็กซ์ | - | - |
02.05 | เพลงประกอบวิดีโอจังหวะระยะยาว | อาร์เอ็กซ์ | GitHub | - |
24.04 | TANGO: การสร้างข้อความเป็นเสียงโดยใช้คำแนะนำที่ปรับ LLM และ Latent Diffusion Model | GitHub | กอดหน้า | |
18.04 | NaturalSpeech 2: โมเดลการแพร่กระจายแฝงเป็นเครื่องสังเคราะห์เสียงพูดและการร้องเพลงที่เป็นธรรมชาติและแบบ Zero-Shot | อาร์เอ็กซ์ | GitHub (ไม่เป็นทางการ) | - |
10.04 | เปลือกไม้: โมเดลเสียงที่สร้างพร้อมข้อความแจ้ง | - | GitHub | กอดใบหน้า Colab |
03.04 | การตรวจสอบ: การแก้ไขเสียงโดยปฏิบัติตามคำแนะนำด้วยโมเดลการแพร่กระจายแฝง | อาร์เอ็กซ์ | - | - |
08.03 | VALL-E X: พูดภาษาต่างประเทศด้วยเสียงของคุณเอง: การสร้างแบบจำลองภาษาตัวแปลงสัญญาณประสาทข้ามภาษา | อาร์เอ็กซ์ | - | - |
27.02 | ฉันได้ยินสีที่แท้จริงของคุณ: การสร้างเสียงตามภาพ | อาร์เอ็กซ์ | GitHub | - |
08.02 | Noise2Music: การสร้างเพลงที่มีเงื่อนไขเป็นข้อความพร้อมโมเดลการแพร่กระจาย | อาร์เอ็กซ์ | - | - |
04.02 | แบบจำลองการแพร่กระจายหลายแหล่งสำหรับการสร้างและแยกเพลงพร้อมกัน | อาร์เอ็กซ์ | GitHub | - |
30.01 | SingSong: การสร้างดนตรีประกอบจากการร้องเพลง | อาร์เอ็กซ์ | - | - |
30.01 | AudioLDM: การสร้างข้อความเป็นเสียงด้วยโมเดลการแพร่กระจายแฝง | อาร์เอ็กซ์ | GitHub | กอดหน้า |
30.01 | Moûsai: การสร้างข้อความเป็นเพลงพร้อมการแพร่กระจายแฝงในบริบทแบบยาว | อาร์เอ็กซ์ | GitHub | - |
29.01 | Make-An-Audio: การสร้างข้อความเป็นเสียงด้วยโมเดลการแพร่กระจายที่ปรับปรุงอย่างรวดเร็ว | - | - | |
28.01 | Noise2Music | - | - | - |
27.01 | RAVE2 [ตัวอย่าง RAVE1] | อาร์เอ็กซ์ | GitHub | - |
26.01 | MusicLM: การสร้างเพลงจากข้อความ | อาร์เอ็กซ์ | GitHub (ไม่เป็นทางการ) | - |
18.01 | Msanii: การสังเคราะห์เพลงที่มีความเที่ยงตรงสูงด้วยงบประมาณที่จำกัด | อาร์เอ็กซ์ | GitHub | กอดใบหน้า Colab |
16.01 | ArchiSound: การสร้างเสียงพร้อมการแพร่กระจาย | อาร์เอ็กซ์ | GitHub | - |
05.01 | VALL-E: โมเดลภาษา Neural Codec เป็นตัวสังเคราะห์ข้อความเป็นคำพูดแบบ Zero-Shot | อาร์เอ็กซ์ | GitHub (ไม่เป็นทางการ) (สาธิต) | - |