ในการสื่อสารด้วยเสียงแบบเรียลไทม์ การเปลี่ยนเสียงของผู้พูดโดยไม่กระทบต่อความหมายและเสียงฉันทลักษณ์ถือเป็นปัญหาทางเทคนิคมาโดยตลอด บรรณาธิการของ Downcodes จะแนะนำเทคโนโลยีที่ก้าวล้ำในวันนี้ - StreamVC ซึ่งสามารถเปลี่ยนเสียงของผู้พูดแบบเรียลไทม์โดยยังคงรักษาเนื้อหาเสียงและจังหวะเอาไว้ เหมาะสำหรับแพลตฟอร์มมือถือและให้การสื่อสารแบบเรียลไทม์และความเป็นไปได้ใหม่ ๆ เวลาแฝงต่ำ การสังเคราะห์เสียงพูดคุณภาพสูง และความเสถียรของระดับเสียงของ StreamVC ทำให้มีข้อได้เปรียบที่สำคัญในด้านการสื่อสารแบบเรียลไทม์
ในโลกแห่งการสื่อสารแบบเรียลไทม์ ไม่ว่าจะเป็นโทรศัพท์หรือการประชุมทางวิดีโอ เสียงเป็นเครื่องมือสำคัญสำหรับเราในการแสดงออก แต่คุณเคยคิดบ้างไหมว่าจะเกิดอะไรขึ้นถ้าเราสามารถเปลี่ยนเสียงของผู้พูดได้แบบเรียลไทม์โดยไม่ส่งผลกระทบต่อเนื้อหาและจังหวะของภาษา การเกิดขึ้นของเทคโนโลยี StreamVC ช่วยให้เราทำสิ่งนี้ได้
StreamVC เป็นโซลูชันการแปลงเสียงที่เป็นนวัตกรรมใหม่ที่จับคู่เสียงต่ำของเสียงเป้าหมายในขณะที่ยังคงรักษาเนื้อหาและเสียงของฉันเองของเสียงต้นทาง แตกต่างจากวิธีการทั่วไป StreamVC สร้างรูปคลื่นผลลัพธ์ที่มีความหน่วงต่ำบนสัญญาณอินพุต แม้แต่บนแพลตฟอร์มมือถือ ทำให้เหมาะสำหรับสถานการณ์การสื่อสารแบบเรียลไทม์ เช่น การโทรและการประชุมทางวิดีโอ ตลอดจนการปิดบังการระบุตัวตนด้วยเสียงในสถานการณ์เหล่านี้
จุดเด่นทางเทคนิค:
เรียลไทม์: StreamVC สามารถอนุมานเวลาแฝงต่ำได้ 70.8 มิลลิวินาทีบนอุปกรณ์มือถือ
การสังเคราะห์เสียงพูดคุณภาพสูง: ใช้สถาปัตยกรรมและกลยุทธ์การฝึกอบรมของตัวแปลงสัญญาณเสียงประสาท SoundStream เพื่อให้ได้การสังเคราะห์เสียงพูดคุณภาพสูงที่มีน้ำหนักเบา
ความเสถียรของระดับเสียง: ด้วยการแนะนำข้อมูลความถี่พื้นฐาน (f0) ที่ถูกทำให้ขาวขึ้น ความสม่ำเสมอของระดับเสียงจะดีขึ้นโดยไม่ทำให้ข้อมูลเสียงของผู้พูดต้นทางรั่วไหล
การออกแบบของ StreamVC ได้รับแรงบันดาลใจจาก Soft-VC และ SoundStream ใช้หน่วยเสียงพูดแยกที่แยกออกมาโดยโมเดล HuBERT เป็นเป้าหมายการทำนายสำหรับเครือข่ายตัวเข้ารหัสเนื้อหา สถาปัตยกรรมตัวเข้ารหัสและตัวถอดรหัสเนื้อหาและกลยุทธ์การฝึกอบรมได้รับการออกแบบจากตัวแปลงสัญญาณเสียงแบบนิวรัลของ SoundStream เพื่อให้ได้การสังเคราะห์เสียงเชิงสาเหตุคุณภาพสูง
StreamVC ถูกนำมาเปรียบเทียบกับเทคโนโลยีที่มีอยู่ในเกณฑ์มาตรฐานต่างๆ รวมถึงความเป็นธรรมชาติ ความสามารถในการเข้าใจ ความคล้ายคลึงกันของลำโพง และความสม่ำเสมอของระดับเสียง ผลการทดลองแสดงให้เห็นว่า StreamVC ทำงานได้ดีในการรักษาระดับเสียงของภาษาต้นฉบับ และเทียบได้กับโมเดลที่ได้รับการปรับแต่งอย่างละเอียดในแง่ของความคล้ายคลึงกันของผู้พูด
StreamVC พิสูจน์ให้เห็นว่าการแปลงเสียงที่มีประสิทธิภาพโดยมีความหน่วงต่ำบนอุปกรณ์มือถือนั้นเป็นไปได้โดยสิ้นเชิง หน่วยเสียงพูดที่ได้รับจาก HuBERT สามารถเรียนรู้ได้ผ่านสถาปัตยกรรมโครงข่ายประสาทเทียมเชิงสาเหตุแบบสตรีมได้ และการฉีดข้อมูล f0 ที่ถูกทำให้ขาวลงในตัวถอดรหัสถือเป็นสิ่งสำคัญอย่างยิ่งในการให้เอาต์พุตคุณภาพสูง
ที่อยู่กระดาษ: https://arxiv.org/pdf/2401.03078
การเกิดขึ้นของเทคโนโลยี StreamVC ได้นำมาซึ่งความเป็นไปได้ใหม่ๆ สำหรับการสื่อสารด้วยเสียงแบบเรียลไทม์ ความสามารถในการแปลงเสียงคุณภาพสูงและมีความหน่วงต่ำจะช่วยส่งเสริมการประยุกต์ใช้เทคโนโลยีเสียงในสาขาต่างๆ มากขึ้น ฉันเชื่อว่าในอนาคต StreamVC จะมีบทบาทมากขึ้นในการไม่เปิดเผยตัวตนด้วยเสียง เอฟเฟกต์เสียงพิเศษ ฯลฯ รอคอยที่จะแอพพลิเคชั่นที่เป็นนวัตกรรมใหม่ ๆ ที่ใช้ StreamVC!