ซอฟต์แวร์แปลงข้อความเป็นคำพูดเป็นศูนย์ตัวอย่าง (TTS) รุ่น VALLE-2 ที่เพิ่งเปิดตัวโดย Microsoft ได้สร้างความก้าวหน้าครั้งยิ่งใหญ่ในด้านการสังเคราะห์เสียงพูด คุณภาพของคำพูดที่สังเคราะห์ขึ้นนั้นอยู่ในระดับเดียวกับมนุษย์ ซึ่งดึงดูดความสนใจอย่างกว้างขวาง . บรรณาธิการของ Downcodes จะทำการวิเคราะห์เชิงลึกเกี่ยวกับประเด็นสำคัญทางเทคนิค ข้อพิจารณาด้านจริยธรรม และแนวโน้มในอนาคตของ VALLE-2
เมื่อเร็วๆ นี้ โมเดลการอ่านออกเสียงข้อความเป็นคำพูด (TTS) แบบศูนย์ตัวอย่าง VALLE-2 ที่ออกโดย Microsoft ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมชนเทคโนโลยี ความสำเร็จที่ก้าวล้ำนี้ทำให้สามารถสังเคราะห์เสียงพูดได้ในระดับเดียวกับมนุษย์เป็นครั้งแรก และถือเป็นก้าวสำคัญในด้าน TTS
ไฮไลท์ทางเทคนิคและนวัตกรรม:
การเรียนรู้แบบไม่มีตัวอย่าง: VALLE-2 ต้องการเพียงตัวอย่างเสียงสั้นๆ ที่ไม่คุ้นเคยเพื่อเลียนแบบเสียงเดียวกันและพูดเนื้อหาข้อความใดๆ ซึ่งแสดงให้เห็นถึงความสามารถในการเลียนแบบแบบเรียลไทม์ที่น่าทึ่ง
การสุ่มตัวอย่างการตรวจจับซ้ำ: วิธีการสุ่มตัวอย่างได้รับการปรับปรุง ซึ่งช่วยลดปัญหาวงวนไม่สิ้นสุดและปรับปรุงเสถียรภาพในการถอดรหัสได้อย่างมีประสิทธิภาพ
การสร้างแบบจำลองรหัสแบบกลุ่ม: โดยการจัดกลุ่มรหัสตัวแปลงสัญญาณ ความยาวลำดับจะลดลง ช่วยเร่งกระบวนการอนุมานในขณะที่ปรับปรุงประสิทธิภาพ
ข้อกำหนดข้อมูลการฝึกอบรมที่ง่ายขึ้น: VALLE-2 ต้องการเพียงข้อมูลข้อความที่ถอดเสียงคำพูดอย่างง่ายสำหรับการฝึกอบรม ซึ่งช่วยให้กระบวนการรวบรวมและประมวลผลข้อมูลง่ายขึ้นอย่างมาก
การประเมินประสิทธิภาพ: ในแง่ของคะแนนอัตนัย (SMOS และ CMOS) และตัวบ่งชี้วัตถุประสงค์ (SIM, WER และ DNSMOS) VALLE-2 ไม่เพียงแต่เหนือกว่ารุ่นก่อนหน้า VALLE เท่านั้น แต่ยังดีกว่าคำพูดของมนุษย์จริงๆ ในบางแง่มุมอีกด้วย
ข้อพิจารณาด้านจริยธรรมและปฏิกิริยาของตลาด:
ความเสี่ยงที่อาจเกิดขึ้น: ความสามารถในการเลียนแบบเสียงอันทรงพลังของ VALLE-2 ทำให้เกิดความกังวลเกี่ยวกับการใช้เทคโนโลยี Deepfake ในทางที่ผิด
Microsoft ระมัดระวังเกี่ยวกับเรื่องนี้ และในปัจจุบันมีเพียง VALLE-2 เท่านั้นที่เป็นโครงการวิจัยที่ไม่มีแผนการผลิต คำแถลงด้านจริยธรรมรวมอยู่ในหน้าโครงการและในรายงาน โดยเน้นถึงความจำเป็นในการตรวจจับคำพูดสังเคราะห์และการอนุญาตกลไก
ผู้ใช้บางรายแสดงความผิดหวังที่ Microsoft ไม่ได้เปิดตัวผลิตภัณฑ์รุ่นทดลองใช้ คนในวงการคาดเดาว่า Microsoft อาจหลีกเลี่ยงความเสี่ยงที่อาจเกิดขึ้นและความคิดเห็นสาธารณะเชิงลบ เมื่อเทคโนโลยีเติบโตเต็มที่และการแข่งขันในตลาดรุนแรงขึ้น การใช้งานเชิงพาณิชย์ของ VALLE-2 หรือเทคโนโลยีที่คล้ายคลึงกันอาจเป็นเรื่องของเวลาเท่านั้น
ข้อจำกัดทางเทคนิคและช่องทางสำหรับการปรับปรุง:
ข้อจำกัดในการสาธิต: ขณะนี้ ตัวอย่างการสาธิตสาธารณะมีจำนวนจำกัด ทำให้ยากต่อการประเมินประสิทธิภาพของโมเดลอย่างเต็มที่
ความสามารถในการปรับสำเนียง: จำเป็นต้องปรับปรุงประสิทธิภาพของโมเดลในการจัดการกับสำเนียงที่ไม่ใช่ภาษาอังกฤษและอเมริกัน
ประสิทธิภาพการคำนวณ: แม้จะมีการปรับปรุง แต่ก็ยังมีพื้นที่สำหรับการปรับให้เหมาะสมในแง่ของความเร็วในการอนุมาน
การเกิดขึ้นของ VALLE-2 ถือเป็นยุคใหม่ของเทคโนโลยี TTS แบบไม่มีตัวอย่าง ไม่เพียงแต่แสดงให้เห็นถึงศักยภาพมหาศาลของ AI ในด้านการสังเคราะห์เสียงพูดเท่านั้น แต่ยังกระตุ้นให้เกิดความคิดเชิงลึกเกี่ยวกับจริยธรรมและการใช้เทคโนโลยีอย่างมีความรับผิดชอบ ในขณะที่เทคโนโลยีพัฒนาและปรับปรุงเพิ่มเติม เราก็คาดหวังว่าจะได้เห็นการใช้งานที่เป็นนวัตกรรมมากขึ้น และจะต้องอาศัยภาคอุตสาหกรรม หน่วยงานกำกับดูแล และสาธารณชนในการทำงานร่วมกันเพื่อให้แน่ใจว่าการใช้เทคโนโลยีอันทรงพลังนี้อย่างมีความรับผิดชอบ ในอนาคต VALLE-2 และเทคโนโลยีที่คล้ายกันมีแนวโน้มที่จะนำมาซึ่งการเปลี่ยนแปลงที่ปฏิวัติวงการในด้านผู้ช่วยเสียง การสร้างเนื้อหา การศึกษาและการฝึกอบรม ฯลฯ และยังจะส่งเสริมความก้าวหน้าของเทคโนโลยีการรู้จำเสียงและการตรวจจับการสังเคราะห์เพื่อจัดการกับศักยภาพ ความเสี่ยงจากการถูกละเมิด
ที่อยู่โครงการ: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/
โดยรวมแล้ว การเกิดขึ้นของ VALLE-2 ถือเป็นความก้าวหน้าอย่างมากในด้านปัญญาประดิษฐ์ แต่ยังเตือนเราด้วยว่าเราจำเป็นต้องปฏิบัติต่อเทคโนโลยีนี้ด้วยความระมัดระวัง ในขณะที่เพลิดเพลินกับความสะดวกสบาย เราต้องใส่ใจกับความเสี่ยงที่อาจเกิดขึ้นด้วย และร่วมกันสำรวจวิธีการสมัครที่มีความรับผิดชอบ คาดว่า VALLE-2 และเทคโนโลยีที่เกี่ยวข้องจะสามารถสร้างประโยชน์ให้กับมนุษยชาติได้มากขึ้นในอนาคต