NVIDIA ได้เปิดตัวโมเดล AI การประมวลผลและการสร้างเสียงที่ปฏิวัติวงการที่เรียกว่า Fugatto ซึ่งมีพารามิเตอร์ 2.5 พันล้านพารามิเตอร์ และได้รับการออกแบบมาเพื่อนำความยืดหยุ่นและความคิดสร้างสรรค์อย่างที่ไม่เคยมีมาก่อนมาสู่วงการดนตรีและการสร้างเสียง Fugatto ผสมผสานข้อความแจ้งและเทคโนโลยีการสังเคราะห์เสียงขั้นสูง รองรับอินพุตข้อความและเสียง ทลายข้อจำกัดของโมเดลการสร้างเสียงแบบดั้งเดิม ช่วยให้ผู้ใช้สามารถสร้างและแก้ไขแบบเรียลไทม์ และสร้างเอฟเฟกต์เสียงแปลกใหม่ที่หลากหลาย เทคโนโลยี "Composable Audio Representation Transformation" (ComposableART) ที่เป็นนวัตกรรมใหม่ช่วยให้ผู้ใช้สามารถควบคุมและควบคุมเสียงได้อย่างแม่นยำ
ในด้านดนตรีและการสร้างสรรค์เสียง การผสมผสานระหว่างเทคโนโลยีและความคิดสร้างสรรค์ต้องเผชิญกับความท้าทายมากมายมาโดยตลอด โมเดล AI ที่มีอยู่มักใช้งานได้ดีเฉพาะงานเฉพาะเจาะจงเท่านั้น และขาดความสามารถในการปรับตัวในวงกว้าง ซึ่งจำกัดบทบาทเสริมของ AI ในการผลิตเพลง เพื่อให้ AI สามารถรองรับการผลิตเพลงและเสียงได้ดีขึ้น จึงจำเป็นต้องมีโมเดลสากลที่สามารถตอบสนองความต้องการสร้างสรรค์ที่หลากหลายได้อย่างยืดหยุ่นอย่างเร่งด่วน ด้วยเหตุนี้ NVIDIA จึงได้เปิดตัว Fugatto ซึ่งเป็นโมเดลการสร้างและประมวลผลเสียงที่มีพารามิเตอร์ 2.5 พันล้านพารามิเตอร์
Fugatto ได้รับการออกแบบมาเพื่อมอบพื้นที่ที่มีความยืดหยุ่นสูงสำหรับการป้อนข้อมูลด้วยเสียงและการทดลองเชิงสร้างสรรค์ โดยรวมข้อความแจ้งเข้ากับความสามารถในการสังเคราะห์เสียงขั้นสูง ตัวอย่างเช่น สามารถเปลี่ยนทำนองเปียโนให้เป็นเสียงร้อง หรือทำให้ทรัมเป็ตมีเสียงที่ไม่คาดคิด
Fugatto ไม่เพียงแต่รองรับการป้อนข้อความเท่านั้น แต่ยังรองรับอินพุตเสียงเสริม ซึ่งทำลายข้อจำกัดของโมเดลการสร้างเสียงแบบดั้งเดิม ช่วยให้ศิลปินและนักพัฒนาสามารถสร้างและแก้ไขแบบเรียลไทม์ และสร้างเสียงประเภทใหม่ได้อย่างราบรื่น
ในด้านเทคนิค Fugatto ใช้วิธีการที่เป็นนวัตกรรมใหม่ในการสร้างข้อมูลที่นอกเหนือไปจากการเรียนรู้ภายใต้การดูแลแบบดั้งเดิม การฝึกอบรมไม่เพียงอาศัยชุดข้อมูลปกติเท่านั้น แต่ยังอาศัยชุดข้อมูลที่สร้างขึ้นเป็นพิเศษด้วย ซึ่งสร้างงานด้านเสียงและการแปลงที่หลากหลาย นอกจากนี้ Fugatto ยังใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อเพิ่มความสามารถในการสร้างคำสั่ง และเข้าใจความสัมพันธ์ระหว่างเสียงและข้อความแจ้งได้ดียิ่งขึ้น
นวัตกรรมที่สำคัญคือ Composable Audio Representation Transform (ComposableART) ซึ่งเป็นเทคนิคที่ใช้ในเวลาอนุมานเพื่อรวม สอดแทรก หรือลบล้างคำสั่งการสร้างเสียงต่างๆ ได้อย่างยืดหยุ่น ComposableART ช่วยให้ผู้ใช้ควบคุมกระบวนการสังเคราะห์เสียงได้ดียิ่งขึ้น ช่วยให้ผู้ใช้สามารถนำทางชุดเสียงของ Fugatto ได้อย่างแม่นยำเพื่อสร้างปรากฏการณ์เสียงที่เป็นเอกลักษณ์
สถาปัตยกรรมของ Fugatto อิงตามโมเดล Transformer ที่ได้รับการปรับปรุง และใช้การปรับเปลี่ยนเฉพาะ เช่น การปรับเลเยอร์มาตรฐานแบบปรับได้ เพื่อรักษาความสอดคล้องภายใต้สภาวะอินพุตหลายเงื่อนไข และรองรับคำสั่งผสมที่ซับซ้อน การทดสอบเบื้องต้นแสดงให้เห็นว่า Fugatto ทำงานได้ดีกับเกณฑ์มาตรฐานทั่วไป โดยเฉพาะอย่างยิ่งในการสังเคราะห์และการแปลงเสียง ซึ่งแสดงความสามารถที่มากกว่ารุ่นมืออาชีพอื่นๆ
การเปิดตัว Fugatto ถือเป็นความก้าวหน้าครั้งสำคัญในการสร้างเสียงด้วย AI ซึ่งทำลายข้อจำกัดเดิมๆ และมอบเครื่องมือที่ทรงพลังและยืดหยุ่นสำหรับการผลิตเสียงที่สร้างสรรค์ การใช้งานที่มีศักยภาพในหลายสาขา เช่น ดนตรี เกม ความบันเทิง และการศึกษา หมายความว่าเทคโนโลยี AI จะยังคงมีบทบาทสำคัญในการช่วยเหลือความคิดสร้างสรรค์ของมนุษย์
บล็อกอย่างเป็นทางการ: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
บทความ: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf
ไฮไลท์:
Fugatto เป็นโมเดล AI เสียงที่เปิดตัวโดย NVIDIA มีพารามิเตอร์ 2.5 พันล้านตัว รองรับอินพุตข้อความและเสียง และช่วยเหลือในการสร้างเพลงและเสียง
ด้วยการใช้วิธีการสร้างข้อมูลที่เป็นนวัตกรรมและเทคโนโลยีการแปลงการแสดงเสียงแบบผสมผสาน ผู้ใช้จึงสามารถสร้างและปรับแต่งเสียงได้อย่างยืดหยุ่น
การทดสอบเบื้องต้นแสดงให้เห็นว่า Fugatto มีประสิทธิภาพเหนือกว่าโมเดลมืออาชีพหลายตัวในการสังเคราะห์และการแปลงเสียง ซึ่งแสดงให้เห็นถึงศักยภาพในการสร้างสรรค์ที่แข็งแกร่ง
โดยรวมแล้ว Fugatto ซึ่งมีฟังก์ชันอันทรงพลังและฟีเจอร์ที่ยืดหยุ่น ได้นำความเป็นไปได้ใหม่ๆ มาสู่การสร้างสรรค์ดนตรีและการออกแบบเสียง ซึ่งบ่งชี้ว่าการประยุกต์ใช้ AI ในอุตสาหกรรมสร้างสรรค์จะกว้างขวางและเจาะลึกมากขึ้น เราหวังว่าจะ Fugatto นำเสนอความประหลาดใจให้กับเรามากขึ้นในอนาคต