รายงานของบรรณาธิการ Downcodes: Johns Hopkins University และ Tencent AI Lab ร่วมกันพัฒนารูปแบบการสร้างข้อความเป็นเสียงที่ล้ำสมัยที่เรียกว่า EzAudio ความสามารถในการแปลงเสียงที่มีประสิทธิภาพและมีคุณภาพสูงถือเป็นความก้าวหน้าครั้งใหญ่ EzAudio ใช้เทคโนโลยีอวกาศแฝงรูปคลื่นเสียงที่เป็นนวัตกรรม รวมกับเทคโนโลยีขั้นสูง เช่น AdaLN-SOLA เพื่อให้เหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่ในการประเมินทั้งตามวัตถุประสงค์และเชิงอัตนัย โค้ดโอเพ่นซอร์ส ชุดข้อมูล และจุดตรวจสอบโมเดลได้รับการเปิดเผยต่อสาธารณะเพื่อสนับสนุนการวิจัยและการประยุกต์ใช้เพิ่มเติม
EzAudio ทำงานโดยใช้ประโยชน์จากพื้นที่แฝงของรูปคลื่นเสียงมากกว่าสเปกโตรแกรมแบบดั้งเดิม ซึ่งเป็นนวัตกรรมที่ช่วยให้ทำงานที่ความละเอียดสูงโดยไม่จำเป็นต้องใช้ตัวแปลงเสียงประสาทเพิ่มเติม
สถาปัตยกรรมของ EzAudio เรียกว่า EzAudio-DiT (Diffusion Transformer) ใช้นวัตกรรมทางเทคโนโลยีหลายอย่างเพื่อปรับปรุงประสิทธิภาพและประสิทธิผล ซึ่งรวมถึงเทคโนโลยีการปรับเลเยอร์มาตรฐานแบบใหม่ AdaLN-SOLA การเชื่อมต่อแบบลองฮอป และเทคโนโลยีการเข้ารหัสตำแหน่งขั้นสูง เช่น RoPE (การฝังตำแหน่งแบบหมุน)
นักวิจัยกล่าวว่าตัวอย่างเสียงที่สร้างโดย EzAudio มีความสมจริงมากจนการประเมินทั้งแบบเป็นกลางและแบบอัตนัยมีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่
ปัจจุบันตลาดการสร้างเสียง AI มีการเติบโตอย่างรวดเร็ว บริษัทชื่อดังอย่าง ElevenLabs เพิ่งเปิดตัวแอป iOS สำหรับการแปลงข้อความเป็นคำพูด ซึ่งแสดงให้เห็นว่าผู้บริโภคสนใจเครื่องมือเสียง AI เป็นอย่างมาก ในเวลาเดียวกัน ยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Microsoft และ Google ต่างก็เพิ่มการลงทุนในเทคโนโลยีการจำลองเสียง AI เช่นกัน
ตามการคาดการณ์ของ Gartner ภายในปี 2570 โซลูชัน AI เจนเนอเรชั่น 40% จะเป็นแบบหลายรูปแบบ โดยผสมผสานความสามารถของข้อความ รูปภาพ และเสียง ซึ่งหมายความว่าโมเดลการสร้างเสียงคุณภาพสูง เช่น EzAudio มีแนวโน้มที่จะพัฒนาต่อไป บทบาทในด้าน AI
ทีม EzAudio ได้เผยแพร่โค้ด ชุดข้อมูล และจุดตรวจสอบโมเดลของตนต่อสาธารณะ โดยเน้นความโปร่งใสและสนับสนุนให้มีการวิจัยเพิ่มเติมในด้านนี้
นักวิจัยเชื่อว่า EzAudio อาจมีแอปพลิเคชั่นนอกเหนือจากการสร้างเอฟเฟกต์เสียง ซึ่งเกี่ยวข้องกับด้านต่างๆ เช่น การผลิตเสียงพูดและดนตรี เนื่องจากเทคโนโลยีก้าวหน้าอย่างต่อเนื่อง จึงคาดว่าจะมีการใช้อย่างแพร่หลายในอุตสาหกรรมต่างๆ เช่น ความบันเทิง สื่อ บริการเสริม และผู้ช่วยเสมือน
สาธิต:https://huggingface.co/spaces/OpenSound/EzAudio
ทางเข้าโครงการ: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
ไฮไลท์:
EzAudio เป็นรูปแบบการสร้างข้อความเป็นเสียงใหม่ที่เปิดตัวโดย Johns Hopkins University โดยความร่วมมือกับ Tencent ซึ่งถือเป็นความก้าวหน้าครั้งสำคัญในด้านเทคโนโลยีเสียง
ด้วยสถาปัตยกรรมและเทคโนโลยีที่เป็นนวัตกรรมใหม่ ตัวอย่างเสียงที่สร้างโดยรุ่นนี้จึงมีคุณภาพเหนือกว่ารุ่นโอเพ่นซอร์สที่มีอยู่ และมีศักยภาพในการประยุกต์ใช้ในวงกว้าง
ในขณะที่เทคโนโลยีพัฒนาไป ปัญหาการใช้งานอย่างมีจริยธรรมและความรับผิดชอบจะค่อยๆ ปรากฏให้เห็น และหลักการวิจัยสาธารณะของ EzAudio ยังมอบโอกาสอย่างกว้างขวางสำหรับการตรวจสอบความเสี่ยงและผลประโยชน์ในอนาคต
โอเพ่นซอร์สและประสิทธิภาพสูงของ EzAudio ทำให้มีข้อได้เปรียบที่สำคัญในด้านการสร้างเสียงด้วย AI และแนวโน้มการใช้งานในอนาคตนั้นกว้างไกล แต่ก็จำเป็นต้องให้ความสนใจกับผลกระทบด้านจริยธรรมและสังคมด้วย บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับความก้าวหน้าและการประยุกต์ใช้เทคโนโลยีนี้ต่อไป