บรรณาธิการของ Downcodes ได้เรียนรู้ว่านักวิจัยจาก School of Data Science แห่งมหาวิทยาลัย Musashino ได้สร้างความก้าวหน้าครั้งใหญ่และพัฒนาอัลกอริทึมใหม่ที่เรียกว่า AMT-APC ซึ่งสามารถสร้างเพลงเปียโนได้แม่นยำยิ่งขึ้นโดยอัตโนมัติ เทคโนโลยีนี้ใช้โมเดลการถอดเสียงเพลงอัตโนมัติ (AMT) ด้วยการปรับแต่งแบบละเอียดอันชาญฉลาด ช่วยปรับปรุงระดับคุณภาพเสียงและความหมายของเพลงเปียโนที่สร้างขึ้นได้อย่างมาก เอาชนะความเที่ยงตรงของคุณภาพเสียงและปัญหาด้านประสิทธิภาพของเพลงเปียโนอัตโนมัติรุ่นก่อนๆ ปัญหาคอขวดเช่นพลังงานไม่เพียงพอ นวัตกรรมของอัลกอริธึมนี้อยู่ในกลยุทธ์สองขั้นตอนที่เป็นเอกลักษณ์: ขั้นแรก ใช้โมเดล AMT ที่ได้รับการฝึกล่วงหน้าเพื่อจับรายละเอียดเสียงต่างๆ ในเพลง จากนั้นจึงปรับแต่งอย่างละเอียดผ่านชุดข้อมูลที่จับคู่ซึ่งประกอบด้วยเสียงเพลงต้นฉบับและเปียโน ไฟล์ประสิทธิภาพ MIDI ผลลัพธ์ที่ได้คือเวอร์ชันการแสดงเปียโนที่ใกล้เคียงกับสไตล์ของเพลงต้นฉบับมากขึ้น นอกจากนี้ นักวิจัยยังได้แนะนำแนวคิดของ "เวกเตอร์สไตล์" เพื่อปรับปรุงความหมายของเพลงเปียโนที่สร้างขึ้นให้ดียิ่งขึ้น
เป็นเวลานานแล้วที่เทคโนโลยีสำหรับการสร้างเพลงเปียโนโดยอัตโนมัติต้องเผชิญกับความท้าทายในเรื่องคุณภาพเสียงที่ไม่เพียงพอและการแสดงออก โมเดลที่มีอยู่มักจะสร้างได้เฉพาะท่วงทำนองและจังหวะง่ายๆ เท่านั้น และไม่สามารถบันทึกรายละเอียดและอารมณ์ที่หลากหลายในเพลงต้นฉบับได้
อัลกอริธึม AMT-APC ใช้แนวทางที่แตกต่างออกไป ขั้นแรกจะใช้โมเดล AMT ที่ผ่านการฝึกอบรมมาแล้วเพื่อ "บันทึก" เสียงต่างๆ ในเพลงอย่างแม่นยำ จากนั้นนำไปใช้กับงานการแสดงเปียโนอัตโนมัติ (APC) ผ่านการปรับแต่งแบบละเอียด
แกนหลักของอัลกอริทึม AMT-APC อยู่ที่กลยุทธ์สองขั้นตอน:
ขั้นตอนที่หนึ่ง: การฝึกอบรมล่วงหน้า นักวิจัยเลือกโมเดล AMT ประสิทธิภาพสูงที่เรียกว่า hFT-Transformer เป็นพื้นฐาน และฝึกเพิ่มเติมโดยใช้ชุดข้อมูล MAESTRO ทำให้สามารถประมวลผลคลิปเพลงที่ยาวขึ้นได้
ขั้นตอนที่ 2: การปรับแต่งอย่างละเอียด นักวิจัยได้สร้างชุดข้อมูลที่จับคู่ซึ่งประกอบด้วยไฟล์เสียงเพลงต้นฉบับและไฟล์ MIDI ของการแสดงเปียโน และใช้ชุดข้อมูลนี้เพื่อปรับแต่งโมเดล AMT เพื่อให้สามารถสร้างเวอร์ชันการแสดงเปียโนที่สอดคล้องกับสไตล์ของเพลงต้นฉบับมากขึ้น .
เพื่อทำให้เพลงเปียโนที่สร้างขึ้นแสดงออกได้มากขึ้น นักวิจัยยังได้แนะนำแนวคิดที่เรียกว่า "เวกเตอร์สไตล์" เวกเตอร์สไตล์คือชุดคุณสมบัติที่แยกมาจากการแสดงเปียโนแต่ละเวอร์ชัน รวมถึงการกระจายอัตราการเริ่มโน้ต การกระจายความเร็ว และการกระจายระดับเสียง ด้วยการป้อนเวกเตอร์สไตล์ลงในโมเดลพร้อมกับเสียงเพลงต้นฉบับ อัลกอริธึม AMT-APC จึงสามารถเรียนรู้สไตล์การเล่นที่แตกต่างกันและสะท้อนให้เห็นในเพลงเปียโนที่สร้างขึ้น
ผลการทดลองแสดงให้เห็นว่าเมื่อเปรียบเทียบกับโมเดลการเล่นเปียโนอัตโนมัติที่มีอยู่ เพลงเปียโนที่สร้างโดยอัลกอริทึม AMT-APC มีการปรับปรุงคุณภาพเสียงและการแสดงออกอย่างชัดเจน ด้วยการใช้หน่วยวัดที่เรียกว่า Qmax เพื่อประเมินความคล้ายคลึงกันระหว่างเพลงต้นฉบับและเสียงที่สร้างขึ้น โมเดล AMT-APC บรรลุค่า Qmax ต่ำสุด ซึ่งหมายความว่าสามารถคืนค่าคุณลักษณะของเพลงต้นฉบับได้ดีขึ้น
การศึกษานี้แสดงให้เห็นว่า AMT และ APC เป็นงานที่เกี่ยวข้องกันอย่างมาก และการใช้ผลการวิจัยของ AMT ที่มีอยู่สามารถช่วยเราพัฒนาแบบจำลอง APC ขั้นสูงเพิ่มเติมได้ ในอนาคต นักวิจัยวางแผนที่จะสำรวจโมเดล AMT ที่เหมาะกับการใช้งานของ APC เพิ่มเติม เพื่อให้การเล่นเปียโนอัตโนมัติสมจริงและแสดงออกมากขึ้น
ที่อยู่โครงการ: https://misya11p.github.io/amt-apc/
ที่อยู่กระดาษ: https://arxiv.org/pdf/2409.14086
ความสำเร็จของอัลกอริธึม AMT-APC ได้นำความเป็นไปได้ใหม่ๆ มาสู่วงการการสร้างเพลงอัตโนมัติ และยังบ่งชี้ว่าเทคโนโลยีการสร้างเพลงอัตโนมัติที่สมจริงและแสดงออกมากขึ้นกำลังจะมาในอนาคต เราหวังว่านักวิจัยในอนาคตจะสำรวจบนพื้นฐานนี้ต่อไปและทำให้เราประหลาดใจมากขึ้น!