Fugatto ซึ่งเป็นโมเดล AI ล่าสุดที่ออกโดย NVIDIA ดูเหมือนว่าจะมีพลังเวทย์มนตร์และปฏิวัติเทคโนโลยีการประมวลผลเสียงโดยสิ้นเชิง ไม่เพียงแต่สามารถสร้างส่วนผสมของเพลง เสียง และเสียงเท่านั้น แต่ยังเข้าใจและดำเนินการตามคำสั่งที่ผู้ใช้ป้อนผ่านไฟล์ข้อความและไฟล์เสียง ทำให้สามารถสร้างเอฟเฟกต์การได้ยินที่ยอดเยี่ยมได้หลากหลาย บรรณาธิการของ Downcodes จะพาคุณไปทำความเข้าใจเชิงลึกเกี่ยวกับโมเดล AI ที่พลิกโฉมนี้ และดูว่าโมเดลนี้จะนำฉากต่างๆ จากภาพยนตร์นิยายวิทยาศาสตร์มาสู่ความเป็นจริงได้อย่างไร
Fugatto ซึ่งมีชื่อเต็มว่า "Foundational Generative Audio Transformer Opus1" เป็นโมเดลการประมวลผลเสียงที่ใช้เทคโนโลยี generative AI แตกต่างจากโมเดล AI อื่นๆ ที่สามารถสร้างได้เฉพาะเพลงหรือแก้ไขคำพูด Fugatto มีความสามารถที่ทรงพลังกว่าในการสร้างหรือแปลงส่วนผสมของเพลง คำพูด และเสียง และสามารถเข้าใจและดำเนินการตามคำสั่งที่ผู้ใช้ป้อนผ่านไฟล์ข้อความและไฟล์เสียง
คุณสมบัติอันทรงพลังของ Fugatto ทำให้ผู้ใช้จากทุกสาขาอาชีพประหลาดใจ รวมถึงผู้ผลิตเพลง เอเจนซี่โฆษณา ผู้พัฒนาเครื่องมือการเรียนรู้ภาษา และผู้พัฒนาเกม โปรดิวเซอร์เพลงสามารถใช้เพื่อทดลองสไตล์ดนตรี เสียงร้อง และเครื่องดนตรีต่างๆ ได้อย่างรวดเร็ว และยังเพิ่มเอฟเฟ็กต์หรือปรับปรุงคุณภาพเสียงให้กับเพลงที่มีอยู่ได้อีกด้วย บริษัทโฆษณาสามารถใช้เพื่อเพิ่มสำเนียงและอารมณ์ต่างๆ ให้กับการพากย์โฆษณา และโปรโมตโฆษณาไปยังภูมิภาคและกลุ่มเป้าหมายต่างๆ ได้อย่างง่ายดาย นักพัฒนาเครื่องมือการเรียนรู้ภาษาสามารถใช้ Fugatto เพื่อแปลงเนื้อหาของหลักสูตรให้เป็นเสียงใดๆ ที่ผู้ใช้ต้องการ เช่น เสียงของสมาชิกในครอบครัวหรือเพื่อน เพื่อทำให้การเรียนรู้เป็นส่วนตัวมากขึ้น นักพัฒนาเกมสามารถใช้ Fugatto เพื่อปรับเปลี่ยนเนื้อหาเสียงในเกมแบบเรียลไทม์ตามความคืบหน้าของเกม หรือสร้างเอฟเฟกต์เสียงเกมใหม่ตามคำสั่งข้อความและอินพุตเสียง
ความมหัศจรรย์ของ Fugatto คือความสามารถในการเข้าใจและสร้างเสียงได้เหมือนกับมนุษย์ ไม่เพียงแต่สามารถปฏิบัติตามคำแนะนำเฉพาะที่ผู้ใช้กำหนดเท่านั้น แต่ยังสามารถสร้างเสียงใหม่ๆ ที่ไม่เคยได้ยินมาก่อนอีกด้วย ตัวอย่างเช่น สามารถทำให้แตรมีเสียงสุนัข และแซ็กโซโฟนทำให้มีเสียงแมวได้ ตราบใดที่ผู้ใช้สามารถอธิบายได้ Fugatto ก็สามารถสร้างมันขึ้นมาได้
หมายเหตุแหล่งที่มาของรูปภาพ: รูปภาพนี้สร้างขึ้นโดย AI และรูปภาพนั้นได้รับอนุญาตจากผู้ให้บริการ Midjourney
ความสามารถที่ก้าวล้ำอีกประการหนึ่งของ Fugatto คือความสามารถในการรวมคำสั่งที่เรียนรู้แยกกันระหว่างการฝึกเพื่อสร้างเอฟเฟกต์ที่ซับซ้อนมากขึ้น ตัวอย่างเช่น ผู้ใช้สามารถขอให้สร้างเสียงสำเนียงฝรั่งเศสพร้อมอารมณ์เศร้าได้ สิ่งที่น่าทึ่งยิ่งกว่านั้นคือ Fugatto ยังให้ผู้ใช้สามารถปรับเปลี่ยนคำสั่งอย่างละเอียด เช่น การควบคุมความหนาของสำเนียงหรือความรุนแรงของความโศกเศร้า ทำให้ผู้ใช้สามารถสร้างสรรค์ผลงานได้เหมือนศิลปิน
นอกจากนี้ Fugatto ยังสามารถสร้างเสียงที่เปลี่ยนแปลงไปตามกาลเวลา เช่น พายุที่เข้ามาใกล้จากระยะไกล และการสร้างเสียงฟ้าร้องที่รุนแรงก่อนที่จะค่อยๆ หายไปในระยะไกล ผู้ใช้สามารถควบคุมกระบวนการเปลี่ยนเสียงได้อย่างแม่นยำและสร้างเอฟเฟกต์เสียงที่สดใสหลากหลาย
Fugatto เป็นความพยายามร่วมกันระหว่างนักวิจัยจากทั่วโลก โดยมีสมาชิกในทีมจากประเทศต่างๆ เช่น อินเดีย บราซิล จีน จอร์แดน และเกาหลีใต้ ภูมิหลังที่หลากหลายทำให้ Fugatto สามารถพูดได้หลายภาษาและมีความสามารถหลายภาษามากขึ้น
การกำเนิดของ Fugatto ถือเป็นจุดสุดยอดของการวิจัยหลายปีของ NVIDIA ในสาขาการสร้างแบบจำลองคำพูด การเข้ารหัสเสียง และความเข้าใจเกี่ยวกับเสียง ใช้พารามิเตอร์ 2.5 พันล้านพารามิเตอร์และได้รับการฝึกบนคลัสเตอร์ของระบบ NVIDIA DGX ที่มาพร้อมกับ NVIDIA H100Tensor Core GPU 32 ตัว
การเกิดขึ้นของ Fugatto ถือเป็นยุคใหม่ของเทคโนโลยีการประมวลผลเสียง โดยจะนำความเป็นไปได้ไม่จำกัดมาสู่สาขาต่างๆ เช่น ดนตรี ภาพยนตร์ เกม การศึกษา ฯลฯ ให้เราตั้งตารอที่จะสร้างประสบการณ์การฟังที่น่าทึ่งยิ่งขึ้น!
บล็อกอย่างเป็นทางการ: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
การเกิดขึ้นของ Fugatto ถือเป็นการประกาศถึงศักยภาพอันยิ่งใหญ่ของปัญญาประดิษฐ์ในด้านเสียง มาดูกันว่า Fugatto จะยังคงกำหนดรูปแบบโลกแห่งการได้ยินของเราต่อไปในอนาคตอย่างไร!