ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีการสร้างข้อความเป็นเสียงได้พัฒนาอย่างรวดเร็ว โดยอัดฉีดพลังใหม่ให้กับสาขาปัญญาประดิษฐ์ บทความนี้จะเน้นไปที่โมเดลใหม่ที่เรียกว่า TANGOFLUX ซึ่งแสดงให้เห็นถึงข้อได้เปรียบที่น่าประทับใจในด้านความเร็วและประสิทธิภาพ และนำความก้าวหน้าใหม่ๆ มาสู่การวิจัยและการประยุกต์ใช้เทคโนโลยีการสร้างเสียงแบบข้อความ โมเดล TANGOFLUX ไม่เพียงแต่สร้างได้เร็วเท่านั้น แต่ยังทำงานได้ดีในแง่ของคุณภาพเสียงและความหลากหลายของเอฟเฟกต์เสียงอีกด้วย
ในด้านปัญญาประดิษฐ์ เทคโนโลยีการสร้างเสียงแบบข้อความกำลังค่อยๆ กลายเป็นจุดสำคัญในการวิจัย ล่าสุดนักวิจัยได้เปิดตัวโมเดลใหม่ที่เรียกว่า TANGOFLUX ซึ่งมีประสิทธิภาพและประสิทธิผลที่ยอดเยี่ยม
TANGOFLUX เป็นรุ่นสร้างข้อความเป็นเสียงที่มีประสิทธิภาพด้วยพารามิเตอร์ 515 ล้านตัวที่สามารถสร้างเสียง 44.1kHz ได้สูงสุด 30 วินาทีในเวลาเพียง 3.7 วินาที ความเร็วนี้ทำให้ประสิทธิภาพบน A40 GPU ตัวเดียวโดดเด่นมาก
คุณสมบัติหลักของ TANGOFLUX คือสามารถสร้างเอฟเฟกต์เสียงได้หลากหลาย เช่น เสียงนกร้อง เสียงนกหวีด การระเบิด ฯลฯ นอกจากนี้ยังรองรับการสร้างเสียงเพลงด้วย แต่เอฟเฟกต์นั้นไม่เหมาะนัก
ความท้าทายที่สำคัญในโมเดลการสร้างข้อความเป็นเสียงคือวิธีสร้างคู่ที่ต้องการ ต่างจากโมเดลภาษาขนาดใหญ่ (LLM) โมเดลการสร้างข้อความเป็นเสียงขาดกลไกการให้รางวัลที่ตรวจสอบได้หรือคำตอบมาตรฐานทองคำ เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอกรอบการทำงานใหม่ที่เรียกว่า CLAP-Ranked Preference Optimization (CRPO) กรอบงานปรับปรุงประสิทธิภาพการจัดตำแหน่งของโมเดลการสร้างข้อความเป็นเสียงโดยการสร้างและเพิ่มประสิทธิภาพข้อมูลการตั้งค่าซ้ำๆ การวิจัยแสดงให้เห็นว่าข้อมูลการตั้งค่าเสียงที่สร้างโดยใช้ CRPO มีประสิทธิภาพเหนือกว่าทางเลือกอื่นที่มีอยู่
ด้วยกรอบการทำงานนี้ TANGOFLUX บรรลุผลการดำเนินงานชั้นนำตามวัตถุประสงค์ที่หลากหลายและเกณฑ์มาตรฐานเชิงอัตนัย นอกจากนี้ ทีมวิจัยยังตัดสินใจเปิดซอร์สโค้ดและโมเดลทั้งหมดเพื่อสนับสนุนการวิจัยของผู้คนมากขึ้นเกี่ยวกับการสร้างเสียงข้อความ สำหรับสถานการณ์การใช้งานที่ต้องใช้การสร้างเสียง TANGOFLUX ถือเป็นความก้าวหน้าทางเทคโนโลยีที่สำคัญอย่างไม่ต้องสงสัย
ในแง่ของเอฟเฟกต์ในทางปฏิบัติ TANGOFLUX มีประสิทธิภาพเหนือกว่ารุ่นอื่นๆ ในด้านคุณภาพการสร้างเสียง แสดงเสียงเหตุการณ์ที่ชัดเจนยิ่งขึ้น การสร้างลำดับเหตุการณ์ที่ดีขึ้น และคุณภาพเสียงที่สูงขึ้น ด้วยการเปรียบเทียบหลายตัวอย่าง ผู้ใช้จะสัมผัสถึงข้อดีของ TANGOFLUX ในการสร้างเสียงได้อย่างสังหรณ์ใจ
คำพร้อมท์: เสียงนกหวีดของมนุษย์อันไพเราะและเสียงนกร้องตามธรรมชาติอยู่ร่วมกันอย่างกลมกลืนและผลลัพธ์ที่ได้จะเป็นดังนี้:
ด้วยการถือกำเนิดของเทคโนโลยีใหม่นี้ แนวโน้มการใช้งานของการสร้างข้อความเป็นเสียงจึงมีวงกว้างมากขึ้นเรื่อยๆ และอาจมีบทบาทสำคัญในการผลิตภาพยนตร์และโทรทัศน์ เอฟเฟกต์เสียงในเกม และสาขาอื่นๆ ในอนาคต
ทางเข้าโครงการ: https://tangoflux.github.io/
ไฮไลท์:
TANGOFLUX เป็นรูปแบบการสร้างเสียงข้อความที่มีประสิทธิภาพซึ่งสามารถสร้างเสียงคุณภาพสูง 30 วินาทีใน 3.7 วินาที
กรอบงานการเพิ่มประสิทธิภาพการกำหนดลักษณะอันดับ CLAP (CRPO) ได้รับการเสนอเพื่อเพิ่มประสิทธิภาพการทำงานของโมเดลและข้อมูลการตั้งค่าเสียง
รหัสและแบบจำลองทั้งหมดเป็นแบบโอเพ่นซอร์ส โดยมีวัตถุประสงค์เพื่อส่งเสริมการวิจัยและการประยุกต์ใช้การสร้างเสียงแบบข้อความ
โดยรวมแล้ว การเกิดขึ้นของโมเดล TANGOFLUX ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการสร้างข้อความเป็นเสียง ประสิทธิภาพ คุณภาพสูง และฟีเจอร์โอเพ่นซอร์สจะส่งเสริมการพัฒนาเพิ่มเติมในสาขานี้ และนำแอปพลิเคชันที่เป็นนวัตกรรมใหม่มาสู่อุตสาหกรรมต่างๆ เราหวังว่าจะมีการใช้งานที่กว้างขึ้นและการเพิ่มประสิทธิภาพและการอัพเกรด TANGOFLUX อย่างต่อเนื่องในอนาคต