CosyVoice โมเดลการสร้างคำพูดของ Alibaba Tongyi Laboratory ได้รับการอัปเกรดเป็นเวอร์ชัน 2.0 แล้ว

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-19 08:32:01

ทีมสุนทรพจน์ของ Alibaba Tongyi Lab ได้เปิดตัว CosyVoice 2.0 โมเดลการสร้างคำพูดแบบโอเพ่นซอร์สขนาดใหญ่นี้ได้สร้างความก้าวหน้าครั้งสำคัญในเทคโนโลยีการสังเคราะห์เสียงพูด เมื่อเปรียบเทียบกับรุ่นก่อนหน้า CosyVoice 2.0 ได้ปรับปรุงความแม่นยำ ความเสถียร และความเป็นธรรมชาติให้ดีขึ้นอย่างมาก เกิดการสังเคราะห์เสียงพูดแบบสตรีมมิ่งแบบสองทาง และลดความล่าช้าในการสังเคราะห์ลงอย่างมาก การอัปเกรดนี้ไม่เพียงแต่สะท้อนให้เห็นในระดับเทคนิคเท่านั้น แต่ยังนำมาซึ่งประสบการณ์การใช้งานเชิงคุณภาพแบบก้าวกระโดด โดยให้บริการสังเคราะห์เสียงพูดที่สมบูรณ์และสะดวกยิ่งขึ้นแก่ผู้ใช้

ทีมสุนทรพจน์ของ Alibaba Tongyi Lab ประกาศว่า CosyVoice โมเดลการสร้างคำพูดแบบโอเพ่นซอร์สขนาดใหญ่ได้รับการอัปเกรดเป็นเวอร์ชัน 2.0 แล้ว การอัปเกรดนี้ถือเป็นการปรับปรุงที่สำคัญในด้านความแม่นยำ ความเสถียร และประสบการณ์ที่เป็นธรรมชาติของเทคโนโลยีการสร้างคำพูด CosyVoice2.0 ใช้เทคโนโลยีโมเดลเสียงพูดขนาดใหญ่ที่ผสานรวมการสร้างแบบจำลองออฟไลน์และการสตรีมเข้าด้วยกัน เพื่อให้ได้การสังเคราะห์เสียงพูดแบบสตรีมมิ่งแบบสองทาง ความล่าช้าในการสังเคราะห์แพ็กเก็ตครั้งแรกอาจสูงถึง 150 มิลลิวินาที ซึ่งช่วยเพิ่มความเร็วการตอบสนองของการสังเคราะห์เสียงได้อย่างมาก

微信截图_20241216105354.png

ในแง่ของความแม่นยำในการออกเสียง CosyVoice2.0 มีอัตราข้อผิดพลาดลดลง 30% ถึง 50% เมื่อเทียบกับเวอร์ชันก่อนหน้า มีอัตราข้อผิดพลาดของคำต่ำที่สุดในชุดทดสอบยากของชุดทดสอบ Seed-TTS โดยเฉพาะในภาษาสังเคราะห์ twisters ประสิทธิภาพที่ยอดเยี่ยมในตัวละครโพลีโฟนิกและตัวละครที่หายาก นอกจากนี้ เวอร์ชัน 2.0 ยังรักษาความสอดคล้องของเสียงในการสร้างคำพูดแบบไม่มีตัวอย่างและการสังเคราะห์คำพูดข้ามภาษา โดยเฉพาะอย่างยิ่ง ความสามารถในการสังเคราะห์คำพูดข้ามภาษาได้รับการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับเวอร์ชัน 1.0

CosyVoice2.0 ยังปรับปรุงจังหวะ คุณภาพเสียง และการจับคู่อารมณ์ของเสียงสังเคราะห์อีกด้วย คะแนนการประเมิน MOS เพิ่มขึ้นจาก 5.4 เป็น 5.53 ซึ่งใกล้เคียงกับคะแนนของแบบจำลองการสังเคราะห์เสียงพูดเชิงพาณิชย์ขนาดใหญ่ ในเวลาเดียวกัน เวอร์ชัน 2.0 รองรับการควบคุมอารมณ์และการควบคุมสำเนียงภาษาถิ่นที่ละเอียดยิ่งขึ้น ทำให้ผู้ใช้มีตัวเลือกภาษาที่หลากหลายยิ่งขึ้น รวมถึงภาษาถิ่นหลักๆ เช่น ภาษากวางตุ้ง ภาษาเสฉวน ภาษาถิ่นเจิ้งโจว ภาษาเทียนจิน และภาษาฉางซา ตลอดจนบทบาท- ฟังก์ชั่นการเล่น เช่น เลียนแบบหุ่นยนต์ คำพูดสไตล์ Peppa Pig เป็นต้น

การอัพเกรด CosyVoice2.0 ไม่เพียงแต่ปรับปรุงเทคโนโลยีและประสบการณ์การสังเคราะห์เสียงพูดเท่านั้น แต่ยังส่งเสริมการพัฒนาชุมชนโอเพ่นซอร์สอีกด้วย และสนับสนุนให้นักพัฒนาจำนวนมากขึ้นมีส่วนร่วมในนวัตกรรมและการประยุกต์ใช้เทคโนโลยีการประมวลผลเสียงพูด

พื้นที่เก็บข้อมูล GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) ตรวจสอบ CosyVoice2 ที่อัปเดตล่าสุด

สัมผัสประสบการณ์ DEMO ออนไลน์: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

เปิดซอร์สโค้ด: https://github.com/FunAudioLLM/CosyVoice

รุ่นโอเพ่นซอร์ส: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

โอเพ่นซอร์สของ CosyVoice 2.0 จะช่วยส่งเสริมความนิยมและการพัฒนาเทคโนโลยีการสังเคราะห์เสียงพูด ให้นักพัฒนาและนักวิจัยมีเครื่องมือและทรัพยากรอันทรงพลัง และตั้งตารอที่จะมีแอปพลิเคชั่นที่เป็นนวัตกรรมมากขึ้น ยินดีต้อนรับเข้าสู่ลิงค์ที่ให้ไว้เพื่อสัมผัสและดาวน์โหลด