ลองจินตนาการถึงความสามารถในการสร้างเพลงหรือเอฟเฟกต์เสียงคุณภาพสูงด้วยเสียงฮัมหรือจังหวะเพียงไม่กี่ครั้ง นี่ไม่ใช่ความฝันที่ห่างไกลอีกต่อไป Sketch2Sound ซึ่งเป็นผลลัพธ์จากการวิจัย AI ที่ก้าวล้ำ สามารถสร้างเสียงคุณภาพสูงโดยการรวมการเลียนแบบเสียงและข้อความแจ้งเตือน โดยจะใช้สัญญาณควบคุมหลักสามสัญญาณอย่างชาญฉลาด ได้แก่ ความดัง ความสว่าง และระดับเสียงที่แยกจากการเลียนแบบเสียง และรวมสัญญาณเหล่านั้นเข้ากับรูปแบบการแพร่กระจายข้อความเป็นเสียงที่เป็นไปได้ ดังนั้นจึงนำทาง AI เพื่อสร้างเสียงที่ตรงตามข้อกำหนดเฉพาะ และนำคุณประโยชน์อันยิ่งใหญ่มาสู่สาขา การสร้างเสียงที่ปฏิวัติวงการ
เทคโนโลยีหลักของ Sketch2Sound คือความสามารถในการแยกสัญญาณควบคุมหลักที่ต่างกันตามเวลา 3 สัญญาณจากการเลียนแบบเสียงใดๆ (เช่น การเลียนแบบเสียงร้องหรือเสียงอ้างอิง): ความดัง ความสว่าง (จุดศูนย์กลางสเปกตรัม) และระดับเสียงสูงต่ำ เมื่อสัญญาณควบคุมเหล่านี้ถูกเข้ารหัสแล้ว สัญญาณเหล่านั้นจะถูกเพิ่มลงในโมเดลการแพร่กระจายพื้นฐานที่ใช้สำหรับการสร้างข้อความเป็นเสียง ดังนั้นจึงแนะนำ AI เพื่อสร้างเสียงที่ตรงตามข้อกำหนดเฉพาะ
สิ่งที่น่าประทับใจที่สุดเกี่ยวกับเทคโนโลยีนี้คือน้ำหนักเบาและมีประสิทธิภาพ Sketch2Sound สร้างขึ้นจากโมเดลการแพร่กระจายแฝงของข้อความเป็นเสียงที่มีอยู่ โดยต้องการการปรับแต่งอย่างละเอียดเพียง 40,000 ขั้นตอน และต้องการเลเยอร์เชิงเส้นเพียงชั้นเดียวสำหรับสัญญาณควบคุมแต่ละสัญญาณ ทำให้กระชับและมีประสิทธิภาพมากกว่าวิธีอื่นๆ (เช่น ControlNet) เพื่อให้แบบจำลองสามารถสังเคราะห์จากการเลียนแบบเสียงแบบ "ภาพร่าง" ได้ นักวิจัยยังได้ใช้ตัวกรองค่ามัธยฐานสุ่มกับสัญญาณควบคุมระหว่างการฝึก ทำให้สามารถปรับให้เข้ากับสัญญาณควบคุมที่มีลักษณะทางเวลาที่ยืดหยุ่นได้ ผลการทดลองแสดงให้เห็นว่า Sketch2Sound ไม่เพียงแต่สามารถสังเคราะห์เสียงที่สอดคล้องกับสัญญาณควบคุมอินพุตเท่านั้น แต่ยังรักษาความสอดคล้องกับข้อความแจ้งและให้คุณภาพเสียงที่เทียบเคียงได้กับบรรทัดฐานของข้อความธรรมดา
Sketch2Sound มอบวิธีการใหม่ในการสร้างให้กับศิลปินเสียง พวกเขาสามารถใช้ประโยชน์จากความยืดหยุ่นทางความหมายของข้อความพร้อมท์ รวมกับการแสดงออกและความแม่นยำของท่าทางหรือการเลียนแบบเสียงร้อง เพื่อสร้างองค์ประกอบเสียงที่ไม่เคยมีมาก่อน ซึ่งคล้ายกับศิลปิน Foley แบบดั้งเดิมที่สร้างเอฟเฟกต์เสียงโดยจัดการกับวัตถุ ในขณะที่ Sketch2Sound นำทางการสร้างเสียงผ่านการเลียนแบบเสียง นำสัมผัสที่ "มีมนุษยธรรม" มาสู่การสร้างเสียงและปรับปรุงคุณค่าทางศิลปะของงานเสียง
Sketch2Sound สามารถเอาชนะข้อจำกัดของมันได้เมื่อเปรียบเทียบกับวิธีการโต้ตอบระหว่างข้อความเป็นเสียงแบบดั้งเดิม ในอดีต นักออกแบบเสียงต้องใช้เวลามากในการปรับคุณลักษณะชั่วคราวของเสียงที่สร้างขึ้นเพื่อซิงโครไนซ์กับเอฟเฟ็กต์ภาพ Sketch2Sound สามารถบรรลุการซิงโครไนซ์นี้ได้อย่างเป็นธรรมชาติผ่านการเลียนแบบเสียง และไม่จำกัดเพียงการเลียนแบบเสียงของมนุษย์ เสียงทุกประเภท การเลียนแบบสามารถใช้เพื่อขับเคลื่อนโมเดลกำเนิดนี้ได้
นักวิจัยยังได้พัฒนาเทคนิคในการปรับรายละเอียดชั่วคราวของสัญญาณควบคุมโดยการใช้ตัวกรองค่ามัธยฐานของขนาดหน้าต่างต่างๆ ในระหว่างการฝึก ช่วยให้ศิลปินเสียงสามารถควบคุมได้ว่าโมเดลกำเนิดจะยึดตามความแม่นยำของจังหวะเวลาของสัญญาณควบคุมได้ดีเพียงใด ดังนั้นจึงปรับปรุงคุณภาพของเสียงที่ยากต่อการเลียนแบบได้อย่างสมบูรณ์แบบ ในการใช้งานจริง ผู้ใช้สามารถค้นหาสมดุลระหว่างการปฏิบัติตามการเลียนแบบเสียงอย่างเคร่งครัดและการรับประกันคุณภาพเสียงโดยการปรับขนาดของตัวกรองค่ามัธยฐาน
หลักการทำงานของ Sketch2Sound คือการแยกสัญญาณควบคุมสามสัญญาณ ได้แก่ ความดัง สเปกตรัมเซนทรอยด์ และระดับเสียงจากสัญญาณเสียงอินพุต สัญญาณควบคุมเหล่านี้จะถูกปรับให้สอดคล้องกับสัญญาณแฝงในโมเดลข้อความเป็นเสียง และโมเดลการแพร่กระจายแฝงจะถูกปรับผ่านเลเยอร์การฉายภาพเชิงเส้นอย่างง่าย เพื่อสร้างเสียงที่ต้องการในท้ายที่สุด ผลการทดลองแสดงให้เห็นว่าการปรับโมเดลด้วยการควบคุมสัญญาณที่แปรผันตามเวลาสามารถปรับปรุงการปฏิบัติตามสัญญาณนี้ได้อย่างมาก ในขณะที่มีผลกระทบน้อยที่สุดต่อคุณภาพเสียงและการปฏิบัติตามข้อความ
นักวิจัยยังพบว่าสัญญาณควบคุมสามารถจัดการความหมายของสัญญาณที่สร้างขึ้นได้ ตัวอย่างเช่น เมื่อใช้ข้อความแจ้ง "บรรยากาศป่า" หากมีการเพิ่มการระเบิดของเสียงดังแบบสุ่มในการเลียนแบบเสียง แบบจำลองสามารถสังเคราะห์เสียงเรียกของนกในการส่งเสียงดังเหล่านี้โดยไม่ต้องแจ้ง "นก" เพิ่มเติม ซึ่งบ่งชี้ว่าแบบจำลองได้เรียนรู้ความสัมพันธ์ระหว่าง เสียงระเบิดดังและการปรากฏตัวของนก
แน่นอนว่า มีข้อจำกัดบางประการสำหรับ Sketch2Sound เช่น ความจริงที่ว่าศูนย์กลางของการควบคุมมวลอาจรวมโทนเสียงห้องที่สร้างแบบจำลองโดยเสียงอินพุตเข้าไปในเสียงที่สร้างขึ้น อาจเป็นเพราะโทนเสียงของห้องถูกเข้ารหัสโดยศูนย์กลางของมวลเมื่อมี ไม่มีเหตุการณ์เสียงในเสียงอินพุต
โดยรวมแล้ว Sketch2Sound เป็นโมเดลเสียงที่สร้างพลังอันทรงพลังที่สามารถสร้างเสียงผ่านการแจ้งข้อความและการควบคุมที่แปรผันตามเวลา (ความดัง ความสว่าง ระดับเสียง) สามารถสร้างเสียงผ่านการเลียนแบบเสียงและเส้นโค้งควบคุม "ภาพร่าง" และมีน้ำหนักเบาและมีประสิทธิภาพ ช่วยให้ศิลปินด้านเสียงมีเครื่องมือที่ควบคุมได้ ตามท่าทาง และแสดงออกซึ่งสามารถสร้างเสียงที่มีจังหวะเวลาที่ยืดหยุ่นได้ แนวโน้มการประยุกต์ใช้ในด้านการสร้างสรรค์เพลงและการออกแบบเสียงเกมในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2412.08550
การเกิดขึ้นของ Sketch2Sound ถือเป็นการเปิดศักราชใหม่ในด้านการสร้างสรรค์เสียง ช่วยให้ศิลปินมีอิสระในการสร้างสรรค์และความเป็นไปได้อย่างที่ไม่เคยมีมาก่อน และยังนำพื้นที่แห่งจินตนาการอันไร้ขีดจำกัดมาสู่ดนตรี เกม ภาพยนตร์ และสาขาอื่นๆ ฉันเชื่อว่าในอนาคตอันใกล้เทคโนโลยีนี้จะถูกใช้กันอย่างแพร่หลายมากขึ้นและนำโลกแห่งเสียงที่มีสีสันมากขึ้นมาให้เรา