การสร้างเอฟเฟกต์เสียงที่รวดเร็วเป็นพิเศษ TangoFlux: ใช้เวลาเพียง 3 วินาทีในการสร้างเสียง 30 วินาที

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-19 12:48:02

ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีการสร้างข้อความเป็นเสียงได้พัฒนาอย่างรวดเร็ว โดยอัดฉีดพลังใหม่ให้กับสาขาปัญญาประดิษฐ์ บทความนี้จะเน้นไปที่โมเดลใหม่ที่เรียกว่า TANGOFLUX ซึ่งแสดงให้เห็นถึงข้อได้เปรียบที่น่าประทับใจในด้านความเร็วและประสิทธิภาพ และนำความก้าวหน้าใหม่ๆ มาสู่การวิจัยและการประยุกต์ใช้เทคโนโลยีการสร้างเสียงแบบข้อความ โมเดล TANGOFLUX ไม่เพียงแต่สร้างได้เร็วเท่านั้น แต่ยังทำงานได้ดีในแง่ของคุณภาพเสียงและความหลากหลายของเอฟเฟกต์เสียงอีกด้วย

ในด้านปัญญาประดิษฐ์ เทคโนโลยีการสร้างเสียงแบบข้อความกำลังค่อยๆ กลายเป็นจุดสำคัญในการวิจัย ล่าสุดนักวิจัยได้เปิดตัวโมเดลใหม่ที่เรียกว่า TANGOFLUX ซึ่งมีประสิทธิภาพและประสิทธิผลที่ยอดเยี่ยม

TANGOFLUX เป็นรุ่นสร้างข้อความเป็นเสียงที่มีประสิทธิภาพด้วยพารามิเตอร์ 515 ล้านตัวที่สามารถสร้างเสียง 44.1kHz ได้สูงสุด 30 วินาทีในเวลาเพียง 3.7 วินาที ความเร็วนี้ทำให้ประสิทธิภาพบน A40 GPU ตัวเดียวโดดเด่นมาก

คุณสมบัติหลักของ TANGOFLUX คือสามารถสร้างเอฟเฟกต์เสียงได้หลากหลาย เช่น เสียงนกร้อง เสียงนกหวีด การระเบิด ฯลฯ นอกจากนี้ยังรองรับการสร้างเสียงเพลงด้วย แต่เอฟเฟกต์นั้นไม่เหมาะนัก

ความท้าทายที่สำคัญในโมเดลการสร้างข้อความเป็นเสียงคือวิธีสร้างคู่ที่ต้องการ ต่างจากโมเดลภาษาขนาดใหญ่ (LLM) โมเดลการสร้างข้อความเป็นเสียงขาดกลไกการให้รางวัลที่ตรวจสอบได้หรือคำตอบมาตรฐานทองคำ เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอกรอบการทำงานใหม่ที่เรียกว่า CLAP-Ranked Preference Optimization (CRPO) กรอบงานปรับปรุงประสิทธิภาพการจัดตำแหน่งของโมเดลการสร้างข้อความเป็นเสียงโดยการสร้างและเพิ่มประสิทธิภาพข้อมูลการตั้งค่าซ้ำๆ การวิจัยแสดงให้เห็นว่าข้อมูลการตั้งค่าเสียงที่สร้างโดยใช้ CRPO มีประสิทธิภาพเหนือกว่าทางเลือกอื่นที่มีอยู่

ด้วยกรอบการทำงานนี้ TANGOFLUX บรรลุผลการดำเนินงานชั้นนำตามวัตถุประสงค์ที่หลากหลายและเกณฑ์มาตรฐานเชิงอัตนัย นอกจากนี้ ทีมวิจัยยังตัดสินใจเปิดซอร์สโค้ดและโมเดลทั้งหมดเพื่อสนับสนุนการวิจัยของผู้คนมากขึ้นเกี่ยวกับการสร้างเสียงข้อความ สำหรับสถานการณ์การใช้งานที่ต้องใช้การสร้างเสียง TANGOFLUX ถือเป็นความก้าวหน้าทางเทคโนโลยีที่สำคัญอย่างไม่ต้องสงสัย

ในแง่ของเอฟเฟกต์ในทางปฏิบัติ TANGOFLUX มีประสิทธิภาพเหนือกว่ารุ่นอื่นๆ ในด้านคุณภาพการสร้างเสียง แสดงเสียงเหตุการณ์ที่ชัดเจนยิ่งขึ้น การสร้างลำดับเหตุการณ์ที่ดีขึ้น และคุณภาพเสียงที่สูงขึ้น ด้วยการเปรียบเทียบหลายตัวอย่าง ผู้ใช้จะสัมผัสถึงข้อดีของ TANGOFLUX ในการสร้างเสียงได้อย่างสังหรณ์ใจ

คำพร้อมท์: เสียงนกหวีดของมนุษย์อันไพเราะและเสียงนกร้องตามธรรมชาติอยู่ร่วมกันอย่างกลมกลืนและผลลัพธ์ที่ได้จะเป็นดังนี้:

ด้วยการถือกำเนิดของเทคโนโลยีใหม่นี้ แนวโน้มการใช้งานของการสร้างข้อความเป็นเสียงจึงมีวงกว้างมากขึ้นเรื่อยๆ และอาจมีบทบาทสำคัญในการผลิตภาพยนตร์และโทรทัศน์ เอฟเฟกต์เสียงในเกม และสาขาอื่นๆ ในอนาคต

ทางเข้าโครงการ: https://tangoflux.github.io/

ไฮไลท์:

TANGOFLUX เป็นรูปแบบการสร้างเสียงข้อความที่มีประสิทธิภาพซึ่งสามารถสร้างเสียงคุณภาพสูง 30 วินาทีใน 3.7 วินาที

กรอบงานการเพิ่มประสิทธิภาพการกำหนดลักษณะอันดับ CLAP (CRPO) ได้รับการเสนอเพื่อเพิ่มประสิทธิภาพการทำงานของโมเดลและข้อมูลการตั้งค่าเสียง

รหัสและแบบจำลองทั้งหมดเป็นแบบโอเพ่นซอร์ส โดยมีวัตถุประสงค์เพื่อส่งเสริมการวิจัยและการประยุกต์ใช้การสร้างเสียงแบบข้อความ

โดยรวมแล้ว การเกิดขึ้นของโมเดล TANGOFLUX ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการสร้างข้อความเป็นเสียง ประสิทธิภาพ คุณภาพสูง และฟีเจอร์โอเพ่นซอร์สจะส่งเสริมการพัฒนาเพิ่มเติมในสาขานี้ และนำแอปพลิเคชันที่เป็นนวัตกรรมใหม่มาสู่อุตสาหกรรมต่างๆ เราหวังว่าจะมีการใช้งานที่กว้างขึ้นและการเพิ่มประสิทธิภาพและการอัพเกรด TANGOFLUX อย่างต่อเนื่องในอนาคต