AudioGPT
1.0.0
เราจัดเตรียมการนำไปใช้งานและโมเดลที่ได้รับการฝึกอบรมไว้ล่วงหน้าเป็นโอเพ่นซอร์สในพื้นที่เก็บข้อมูลนี้
โปรดดูที่ run.md
ที่นี่เราจะแสดงรายการความสามารถของ AudioGPT ในขณะนี้ โมเดลและงานที่รองรับเพิ่มเติมจะมาในเร็วๆ นี้ สำหรับตัวอย่างที่ชัดเจน โปรดดูที่เนื้อหา
ปัจจุบันไม่ใช่ทุกรุ่นที่มีพื้นที่เก็บข้อมูล
งาน | แบบจำลองมูลนิธิที่รองรับ | สถานะ |
---|---|---|
ข้อความเป็นคำพูด | FastSpeech, SyntaSpeech, VITS | ใช่ (ระหว่างดำเนินการ) |
การถ่ายโอนสไตล์ | GenerSpeech | ใช่ |
การรู้จำเสียง | กระซิบ Conformer | ใช่ |
การเพิ่มประสิทธิภาพคำพูด | ConvTasNet | ใช่ (ระหว่างดำเนินการ) |
การแยกคำพูด | TF-GridNet | ใช่ (ระหว่างดำเนินการ) |
การแปลคำพูด | มัลติถอดรหัส | วีไอพี |
Mono-to-Binaural | NeuralWarp | ใช่ |
งาน | แบบจำลองมูลนิธิที่รองรับ | สถานะ |
---|---|---|
ข้อความเป็นร้องเพลง | ดิฟซิงเกอร์, วิสซิงเกอร์ | ใช่ (ระหว่างดำเนินการ) |
งาน | แบบจำลองมูลนิธิที่รองรับ | สถานะ |
---|---|---|
ข้อความเป็นเสียง | สร้างเสียง | ใช่ |
การวาดภาพด้วยเสียง | สร้างเสียง | ใช่ |
ภาพเป็นเสียง | สร้างเสียง | ใช่ |
การตรวจจับเสียง | หม้อแปลงเสียง | ใช่ |
การตรวจจับเสียงเป้าหมาย | ทีเอสดีเน็ต | ใช่ |
การสกัดเสียง | ลาสเน็ต | ใช่ |
งาน | แบบจำลองมูลนิธิที่รองรับ | สถานะ |
---|---|---|
การสังเคราะห์หัวพูด | ยีนเฟซ | ใช่ (ระหว่างดำเนินการ) |
เราขอขอบคุณโอเพ่นซอร์สของโครงการต่อไปนี้:
ESPNet NATSpeech Visual ChatGPT กอดใบหน้า LangChain การแพร่กระจายที่เสถียร