ผลิตโดยเทนเซ็นต์! โมเดลเสียง AI EzAudio AI เปลี่ยนข้อความให้เป็นเสียงที่สมจริงภายในไม่กี่วินาที

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-02 14:48:01

รายงานของบรรณาธิการ Downcodes: Johns Hopkins University และ Tencent AI Lab ร่วมกันพัฒนารูปแบบการสร้างข้อความเป็นเสียงที่ล้ำสมัยที่เรียกว่า EzAudio ความสามารถในการแปลงเสียงที่มีประสิทธิภาพและมีคุณภาพสูงถือเป็นความก้าวหน้าครั้งใหญ่ EzAudio ใช้เทคโนโลยีอวกาศแฝงรูปคลื่นเสียงที่เป็นนวัตกรรม รวมกับเทคโนโลยีขั้นสูง เช่น AdaLN-SOLA เพื่อให้เหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่ในการประเมินทั้งตามวัตถุประสงค์และเชิงอัตนัย โค้ดโอเพ่นซอร์ส ชุดข้อมูล และจุดตรวจสอบโมเดลได้รับการเปิดเผยต่อสาธารณะเพื่อสนับสนุนการวิจัยและการประยุกต์ใช้เพิ่มเติม

EzAudio ทำงานโดยใช้ประโยชน์จากพื้นที่แฝงของรูปคลื่นเสียงมากกว่าสเปกโตรแกรมแบบดั้งเดิม ซึ่งเป็นนวัตกรรมที่ช่วยให้ทำงานที่ความละเอียดสูงโดยไม่จำเป็นต้องใช้ตัวแปลงเสียงประสาทเพิ่มเติม

สถาปัตยกรรมของ EzAudio เรียกว่า EzAudio-DiT (Diffusion Transformer) ใช้นวัตกรรมทางเทคโนโลยีหลายอย่างเพื่อปรับปรุงประสิทธิภาพและประสิทธิผล ซึ่งรวมถึงเทคโนโลยีการปรับเลเยอร์มาตรฐานแบบใหม่ AdaLN-SOLA การเชื่อมต่อแบบลองฮอป และเทคโนโลยีการเข้ารหัสตำแหน่งขั้นสูง เช่น RoPE (การฝังตำแหน่งแบบหมุน)

นักวิจัยกล่าวว่าตัวอย่างเสียงที่สร้างโดย EzAudio มีความสมจริงมากจนการประเมินทั้งแบบเป็นกลางและแบบอัตนัยมีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่

ปัจจุบันตลาดการสร้างเสียง AI มีการเติบโตอย่างรวดเร็ว บริษัทชื่อดังอย่าง ElevenLabs เพิ่งเปิดตัวแอป iOS สำหรับการแปลงข้อความเป็นคำพูด ซึ่งแสดงให้เห็นว่าผู้บริโภคสนใจเครื่องมือเสียง AI เป็นอย่างมาก ในเวลาเดียวกัน ยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Microsoft และ Google ต่างก็เพิ่มการลงทุนในเทคโนโลยีการจำลองเสียง AI เช่นกัน

ตามการคาดการณ์ของ Gartner ภายในปี 2570 โซลูชัน AI เจนเนอเรชั่น 40% จะเป็นแบบหลายรูปแบบ โดยผสมผสานความสามารถของข้อความ รูปภาพ และเสียง ซึ่งหมายความว่าโมเดลการสร้างเสียงคุณภาพสูง เช่น EzAudio มีแนวโน้มที่จะพัฒนาต่อไป บทบาทในด้าน AI

ทีม EzAudio ได้เผยแพร่โค้ด ชุดข้อมูล และจุดตรวจสอบโมเดลของตนต่อสาธารณะ โดยเน้นความโปร่งใสและสนับสนุนให้มีการวิจัยเพิ่มเติมในด้านนี้

นักวิจัยเชื่อว่า EzAudio อาจมีแอปพลิเคชั่นนอกเหนือจากการสร้างเอฟเฟกต์เสียง ซึ่งเกี่ยวข้องกับด้านต่างๆ เช่น การผลิตเสียงพูดและดนตรี เนื่องจากเทคโนโลยีก้าวหน้าอย่างต่อเนื่อง จึงคาดว่าจะมีการใช้อย่างแพร่หลายในอุตสาหกรรมต่างๆ เช่น ความบันเทิง สื่อ บริการเสริม และผู้ช่วยเสมือน

สาธิต:https://huggingface.co/spaces/OpenSound/EzAudio

ทางเข้าโครงการ: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

ไฮไลท์:

EzAudio เป็นรูปแบบการสร้างข้อความเป็นเสียงใหม่ที่เปิดตัวโดย Johns Hopkins University โดยความร่วมมือกับ Tencent ซึ่งถือเป็นความก้าวหน้าครั้งสำคัญในด้านเทคโนโลยีเสียง

ด้วยสถาปัตยกรรมและเทคโนโลยีที่เป็นนวัตกรรมใหม่ ตัวอย่างเสียงที่สร้างโดยรุ่นนี้จึงมีคุณภาพเหนือกว่ารุ่นโอเพ่นซอร์สที่มีอยู่ และมีศักยภาพในการประยุกต์ใช้ในวงกว้าง

ในขณะที่เทคโนโลยีพัฒนาไป ปัญหาการใช้งานอย่างมีจริยธรรมและความรับผิดชอบจะค่อยๆ ปรากฏให้เห็น และหลักการวิจัยสาธารณะของ EzAudio ยังมอบโอกาสอย่างกว้างขวางสำหรับการตรวจสอบความเสี่ยงและผลประโยชน์ในอนาคต

โอเพ่นซอร์สและประสิทธิภาพสูงของ EzAudio ทำให้มีข้อได้เปรียบที่สำคัญในด้านการสร้างเสียงด้วย AI และแนวโน้มการใช้งานในอนาคตนั้นกว้างไกล แต่ก็จำเป็นต้องให้ความสนใจกับผลกระทบด้านจริยธรรมและสังคมด้วย บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับความก้าวหน้าและการประยุกต์ใช้เทคโนโลยีนี้ต่อไป