DisPose: ป้อนวิดีโอแอคชั่นและตัวละครอ้างอิงเพื่อให้ตัวละครเต้นท่าเดียวกัน

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-28 08:00:02

ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยี AI ได้พัฒนาอย่างรวดเร็ว โดยเฉพาะอย่างยิ่งในด้านการผลิตแอนิเมชั่น การสร้างวิดีโอแบบไดนามิกโดยใช้ภาพนิ่งได้กลายเป็นจุดสนใจในการวิจัย วิธีการผลิตแอนิเมชั่นแบบดั้งเดิมมักจะอาศัยข้อมูลท่าทางโครงกระดูกที่กระจัดกระจาย ส่งผลให้เกิดเอฟเฟกต์แอนิเมชั่นที่ไม่แม่นยำเพียงพอ เพื่อที่จะแก้ไขปัญหานี้ เทคโนโลยีใหม่ ๆ จึงเกิดขึ้นอย่างต่อเนื่อง โดยมุ่งมั่นที่จะสร้างภาพเคลื่อนไหวของตัวละครที่แม่นยำและควบคุมได้มากขึ้น

ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์และเทคโนโลยีคอมพิวเตอร์วิทัศน์ ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์จึงมีความชัดเจนและแสดงออกมากขึ้นเรื่อยๆ โดยเฉพาะอย่างยิ่งในด้านการผลิตแอนิเมชั่น วิธีสร้างวิดีโอแบบไดนามิกโดยใช้ภาพนิ่งเป็นหัวข้อวิจัยที่ได้รับความนิยมมาโดยตลอด

เมื่อเร็วๆ นี้ เทคโนโลยีใหม่ที่เรียกว่า "DisPose" ได้ถือกำเนิดขึ้น ซึ่งทำให้ได้เอฟเฟกต์ภาพเคลื่อนไหวของตัวละครที่ควบคุมได้มากขึ้นผ่านการนำทางท่าทางที่แยกออกจากกัน พูดง่ายๆ ก็คือ DisPose ช่วยให้สามารถป้อนข้อมูลวิดีโอแอ็กชันและอักขระอ้างอิงได้ ทำให้อักขระอ้างอิงสามารถรับรู้ถึงแอ็กชันในวิดีโอได้

แกนหลักของเทคโนโลยี DisPose อยู่ที่การสร้างใหม่และการใช้ข้อมูลท่าโพสแบบกระจัดกระจายแบบดั้งเดิม วิธีการแบบดั้งเดิมส่วนใหญ่อาศัยคำแนะนำในท่าโครงกระดูกกระจัดกระจาย ซึ่งมักไม่สามารถให้สัญญาณควบคุมที่เพียงพอเมื่อสร้างวิดีโอแบบไดนามิก ส่งผลให้เอฟเฟ็กต์แอนิเมชันมีรายละเอียดไม่เพียงพอ เพื่อชดเชยข้อบกพร่องนี้ DisPose เสนอวิธีการใหม่ล่าสุดเพื่อสร้างการเคลื่อนไหวที่มีรายละเอียดมากขึ้นโดยการแปลงข้อมูลท่าทางกระจัดกระจายเป็นคำแนะนำสนามกีฬาและการโต้ตอบในประเด็นสำคัญ

โดยเฉพาะอย่างยิ่ง ขั้นแรก DisPose จะคำนวณสนามการเคลื่อนไหวแบบกระจายสำหรับท่าทางโครงกระดูก และแนะนำวิธีสร้างสนามการเคลื่อนไหวแบบหนาแน่นตามภาพอ้างอิง วิธีการนี้ไม่เพียงแต่ให้สัญญาณการเคลื่อนไหวระดับภูมิภาคเท่านั้น แต่ยังรักษาความเป็นสากลของการควบคุมทัศนคติแบบกระจัดกระจายอีกด้วย ในเวลาเดียวกัน DisPose ยังแยกคุณสมบัติการแพร่กระจายที่เกี่ยวข้องกับการวางจุดสำคัญจากรูปภาพอ้างอิง จากนั้นจึงถ่ายโอนคุณสมบัติเหล่านี้ไปยังท่าทางเป้าหมายโดยการคำนวณความสอดคล้องของจุดหลายระดับเพื่อปรับปรุงความสอดคล้องของรูปลักษณ์

เพื่อให้เทคโนโลยีที่เป็นนวัตกรรมนี้สามารถบูรณาการเข้ากับโมเดลที่มีอยู่ได้อย่างราบรื่น นักวิจัยยังได้เสนอสถาปัตยกรรม ControlNet แบบปลั๊กอินไฮบริด สถาปัตยกรรมนี้ปรับปรุงคุณภาพและความสม่ำเสมอของวิดีโอที่สร้างขึ้นโดยไม่ต้องเปลี่ยนพารามิเตอร์โมเดลที่มีอยู่ ด้วยการทดลองเชิงคุณภาพและเชิงปริมาณอย่างกว้างขวาง DisPose แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญเหนือเทคโนโลยีปัจจุบัน และประกาศทิศทางในอนาคตของเทคโนโลยีการผลิตแอนิเมชั่น

DisPose ปรับปรุงความหมายและการควบคุมของแอนิเมชั่นแนวตั้งโดยปรับการใช้ข้อมูลท่าทางให้เหมาะสม ความก้าวหน้านี้ไม่เพียงแต่มีความสำคัญอย่างยิ่งในการวิจัยเชิงวิชาการเท่านั้น แต่ยังนำความเป็นไปได้ใหม่ๆ มาสู่อุตสาหกรรมแอนิเมชั่นในอนาคตอีกด้วย

ทางเข้าโครงการ: https://lihxxx.github.io/DisPose/

ไฮไลท์:

DisPose เป็นเทคโนโลยีแอนิเมชั่นแนวตั้งใหม่ที่ช่วยให้สร้างไดนามิกได้แม่นยำยิ่งขึ้นผ่านคำแนะนำท่าทางที่แยกออกจากกัน

เทคโนโลยีนี้จะแปลงข้อมูลท่าทางกระจัดกระจายไปเป็นการนำทางสนามการเคลื่อนไหวและการโต้ตอบจุดสำคัญ โดยให้สัญญาณการเคลื่อนไหวโดยละเอียด

สถาปัตยกรรม ControlNet แบบไฮบริดที่เสนอโดยนักวิจัยสามารถปรับปรุงคุณภาพและความสม่ำเสมอของวิดีโอที่สร้างขึ้นได้อย่างมีประสิทธิภาพ

การเกิดขึ้นของเทคโนโลยี DisPose ถือเป็นก้าวใหม่ของเทคโนโลยีการผลิตแอนิเมชั่น วิธีการประมวลผลข้อมูลท่าทางที่มีประสิทธิภาพและสถาปัตยกรรม ControlNet ไฮบริดที่เป็นนวัตกรรมใหม่ ให้การสนับสนุนด้านเทคนิคที่มีประสิทธิภาพสำหรับการผลิตแอนิเมชั่นแนวตั้งที่สมจริงและมีรายละเอียดมากขึ้นในอนาคต และยังนำความเป็นไปได้ที่ไม่จำกัดมาสู่อุตสาหกรรมแอนิเมชั่นอีกด้วย เราหวังเป็นอย่างยิ่งว่า DisPose จะมีบทบาทมากขึ้นในการผลิตแอนิเมชันในอนาคต