Alibaba Damo Academy Tongyi Laboratory ได้พัฒนาเทคโนโลยีการประมวลผลคำพูดแบบโอเพ่นซอร์สที่เรียกว่า ClearerVoice-Studio ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงคุณภาพคำพูดและความชัดเจนของคำพูด และแก้ปัญหาด้านความชัดเจนของคำพูดที่เกิดจากเสียงรบกวนจากสิ่งแวดล้อม เสียงก้อง และการดึงอุปกรณ์ เทคโนโลยีนี้รวมฟังก์ชันต่างๆ เช่น การเพิ่มประสิทธิภาพคำพูด การแยกคำพูด และการแยกเสียงจากลำโพงและวิดีโอ และใช้อัลกอริธึมการเรียนรู้เชิงลึกโดเมนขั้นสูงที่ซับซ้อนเพื่อปรับปรุงประสิทธิภาพการลดและการแยกเสียงรบกวนของคำพูดอย่างมีนัยสำคัญ รักษาความชัดเจนของคำพูดในระดับสูงสุด และที่ ในเวลาเดียวกันความผิดเพี้ยนของเสียงก็ลดลง โมเดลหลัก ได้แก่ โมเดล FRCRN ที่คว้าอันดับสองโดยรวมในการแข่งขัน IEEE/INTER Speech DNS Challenge ปี 2022 และโมเดลซีรีส์ MossFormer ที่ทำงานได้ดีในงานแยกคำพูด ช่วยให้นักพัฒนาและนักวิจัยมีเครื่องมือประมวลผลคำพูดอันทรงพลัง
Tongyi Laboratory ของ Alibaba Damo Academy ได้ประกาศเมื่อเร็ว ๆ นี้ว่าจะเปิดซอร์สเทคโนโลยีการประมวลผลคำพูดที่เรียกว่า ClearerVoice-Studio ซึ่งมีเป้าหมายเพื่อปรับปรุงคุณภาพคำพูดและความชัดเจน ด้วยการประยุกต์ใช้เทคโนโลยีเสียงอย่างกว้างขวาง คุณภาพเสียงจึงดึงดูดความสนใจมากขึ้นเรื่อยๆ โดยเฉพาะอย่างยิ่งเมื่อมีเสียงรบกวนจากสิ่งแวดล้อม เสียงก้องกังวาน และอุปกรณ์รับ ความต้องการเทคโนโลยีการประมวลผลเสียงจึงกลายเป็นเรื่องเร่งด่วนมากขึ้น
ClearerVoice-Studio ผสานรวมฟังก์ชันต่าง ๆ เช่น การเพิ่มประสิทธิภาพคำพูด การแยกคำพูด และการแยกลำโพงเสียงและวิดีโอ เทคโนโลยีนี้กำจัดเสียงรบกวนจากพื้นหลังในระดับสูงสุด โดยรักษาความชัดเจนของคำพูด ในขณะเดียวกันก็รักษาความผิดเพี้ยนของคำพูดให้น้อยที่สุด
โมเดลหลักและอัลกอริธึมของ ClearerVoice-Studio ประกอบด้วยโมเดล FRCRN ที่คว้าอันดับสองโดยรวมในการแข่งขัน IEEE/INTER Speech DNS Challenge ปี 2022 และโมเดลซีรีส์ MossFormer ที่ทำงานได้ดีในงานแยกคำพูด โมเดลการเพิ่มประสิทธิภาพเสียงพูด 48kHz ที่ใช้ MossFormer2 ช่วยลดความผิดเพี้ยนของเสียงพูดได้อย่างมาก ขณะเดียวกันก็ลดเสียงรบกวนได้อย่างมีประสิทธิภาพ
Alibaba Tongyi Lab หวังที่จะมอบเครื่องมือประมวลผลเสียงอันทรงพลังแก่นักพัฒนา นักวิจัย และองค์กรต่างๆ ผ่านทางแพลตฟอร์ม ClearerVoice-Studio เพื่อช่วยนำแอปพลิเคชันที่เป็นนวัตกรรมไปใช้ ผู้ใช้สามารถสัมผัสประสบการณ์การสาธิตออนไลน์ เตรียมไฟล์คำพูดที่มีเสียงรบกวน อัปโหลดไปยังหน้าที่กำหนด ประมวลผลได้ด้วยคลิกเดียวและฟังออนไลน์ หรือดาวน์โหลดผลการประมวลผล และรับคุณภาพเสียงที่ชัดเจนและเอฟเฟกต์การลดเสียงรบกวนที่ยอดเยี่ยมได้ทันที
พื้นที่เก็บข้อมูล GitHub: https://github.com/modelscope/ClearerVoice-Studio
สาธิตประสบการณ์ออนไลน์: https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio มอบประสบการณ์ออนไลน์ที่สะดวกสบายและคลังสินค้า GitHub เพื่ออำนวยความสะดวกให้ผู้ใช้เริ่มต้นได้อย่างรวดเร็ว โอเพ่นซอร์สของเทคโนโลยีนี้จะส่งเสริมความก้าวหน้าและการประยุกต์เทคโนโลยีการประมวลผลคำพูด และนำนวัตกรรมมาสู่สาขาที่เกี่ยวข้องกับคำพูดมากขึ้น เราหวังว่าจะมีสถานการณ์การใช้งานที่กว้างขึ้นในอนาคต