ลบเสียงรบกวนพื้นหลังโดยใช้เทคโนโลยีการประมวลผลเสียงโอเพ่นซอร์สของ Alibaba Tongyi Lab ClearerVoice-Studio

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-18 13:32:01

Alibaba Damo Academy Tongyi Laboratory ได้พัฒนาเทคโนโลยีการประมวลผลคำพูดแบบโอเพ่นซอร์สที่เรียกว่า ClearerVoice-Studio ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงคุณภาพคำพูดและความชัดเจนของคำพูด และแก้ปัญหาด้านความชัดเจนของคำพูดที่เกิดจากเสียงรบกวนจากสิ่งแวดล้อม เสียงก้อง และการดึงอุปกรณ์ เทคโนโลยีนี้รวมฟังก์ชันต่างๆ เช่น การเพิ่มประสิทธิภาพคำพูด การแยกคำพูด และการแยกเสียงจากลำโพงและวิดีโอ และใช้อัลกอริธึมการเรียนรู้เชิงลึกโดเมนขั้นสูงที่ซับซ้อนเพื่อปรับปรุงประสิทธิภาพการลดและการแยกเสียงรบกวนของคำพูดอย่างมีนัยสำคัญ รักษาความชัดเจนของคำพูดในระดับสูงสุด และที่ ในเวลาเดียวกันความผิดเพี้ยนของเสียงก็ลดลง โมเดลหลัก ได้แก่ โมเดล FRCRN ที่คว้าอันดับสองโดยรวมในการแข่งขัน IEEE/INTER Speech DNS Challenge ปี 2022 และโมเดลซีรีส์ MossFormer ที่ทำงานได้ดีในงานแยกคำพูด ช่วยให้นักพัฒนาและนักวิจัยมีเครื่องมือประมวลผลคำพูดอันทรงพลัง

Tongyi Laboratory ของ Alibaba Damo Academy ได้ประกาศเมื่อเร็ว ๆ นี้ว่าจะเปิดซอร์สเทคโนโลยีการประมวลผลคำพูดที่เรียกว่า ClearerVoice-Studio ซึ่งมีเป้าหมายเพื่อปรับปรุงคุณภาพคำพูดและความชัดเจน ด้วยการประยุกต์ใช้เทคโนโลยีเสียงอย่างกว้างขวาง คุณภาพเสียงจึงดึงดูดความสนใจมากขึ้นเรื่อยๆ โดยเฉพาะอย่างยิ่งเมื่อมีเสียงรบกวนจากสิ่งแวดล้อม เสียงก้องกังวาน และอุปกรณ์รับ ความต้องการเทคโนโลยีการประมวลผลเสียงจึงกลายเป็นเรื่องเร่งด่วนมากขึ้น

ClearerVoice-Studio ผสานรวมฟังก์ชันต่าง ๆ เช่น การเพิ่มประสิทธิภาพคำพูด การแยกคำพูด และการแยกลำโพงเสียงและวิดีโอ เทคโนโลยีนี้กำจัดเสียงรบกวนจากพื้นหลังในระดับสูงสุด โดยรักษาความชัดเจนของคำพูด ในขณะเดียวกันก็รักษาความผิดเพี้ยนของคำพูดให้น้อยที่สุด

阿里云、通义千问

โมเดลหลักและอัลกอริธึมของ ClearerVoice-Studio ประกอบด้วยโมเดล FRCRN ที่คว้าอันดับสองโดยรวมในการแข่งขัน IEEE/INTER Speech DNS Challenge ปี 2022 และโมเดลซีรีส์ MossFormer ที่ทำงานได้ดีในงานแยกคำพูด โมเดลการเพิ่มประสิทธิภาพเสียงพูด 48kHz ที่ใช้ MossFormer2 ช่วยลดความผิดเพี้ยนของเสียงพูดได้อย่างมาก ขณะเดียวกันก็ลดเสียงรบกวนได้อย่างมีประสิทธิภาพ

Alibaba Tongyi Lab หวังที่จะมอบเครื่องมือประมวลผลเสียงอันทรงพลังแก่นักพัฒนา นักวิจัย และองค์กรต่างๆ ผ่านทางแพลตฟอร์ม ClearerVoice-Studio เพื่อช่วยนำแอปพลิเคชันที่เป็นนวัตกรรมไปใช้ ผู้ใช้สามารถสัมผัสประสบการณ์การสาธิตออนไลน์ เตรียมไฟล์คำพูดที่มีเสียงรบกวน อัปโหลดไปยังหน้าที่กำหนด ประมวลผลได้ด้วยคลิกเดียวและฟังออนไลน์ หรือดาวน์โหลดผลการประมวลผล และรับคุณภาพเสียงที่ชัดเจนและเอฟเฟกต์การลดเสียงรบกวนที่ยอดเยี่ยมได้ทันที

พื้นที่เก็บข้อมูล GitHub: https://github.com/modelscope/ClearerVoice-Studio

สาธิตประสบการณ์ออนไลน์: https://huggingface.co/spaces/alibabasglab/ClearVoice

ClearerVoice-Studio มอบประสบการณ์ออนไลน์ที่สะดวกสบายและคลังสินค้า GitHub เพื่ออำนวยความสะดวกให้ผู้ใช้เริ่มต้นได้อย่างรวดเร็ว โอเพ่นซอร์สของเทคโนโลยีนี้จะส่งเสริมความก้าวหน้าและการประยุกต์เทคโนโลยีการประมวลผลคำพูด และนำนวัตกรรมมาสู่สาขาที่เกี่ยวข้องกับคำพูดมากขึ้น เราหวังว่าจะมีสถานการณ์การใช้งานที่กว้างขึ้นในอนาคต