เทคโนโลยีการสร้างวิดีโอใบหน้าที่ขับเคลื่อนด้วยเสียง JoyVASA รองรับตัวละครสัตว์เล็ก - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-29 08:32:02

เทคโนโลยีแอนิเมชั่นภาพที่ขับเคลื่อนด้วยเสียงมีความก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่ปัญหาความซับซ้อนและประสิทธิภาพของรุ่นที่มีอยู่จำกัดการใช้งาน เพื่อแก้ไขปัญหาเหล่านี้ นักวิจัยได้พัฒนาเทคโนโลยีใหม่ที่เรียกว่า JoyVASA ซึ่งปรับปรุงคุณภาพ ประสิทธิภาพ และขอบเขตการใช้งานของภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียงได้อย่างมาก ผ่านการออกแบบสองขั้นตอนที่เป็นนวัตกรรมใหม่ JoyVASA ไม่เพียงแต่สามารถสร้างวิดีโอแอนิเมชั่นขนาดยาวเท่านั้น แต่ยังทำให้ภาพบุคคลและใบหน้าสัตว์เคลื่อนไหวได้ และรองรับหลายภาษาอีกด้วย

เมื่อเร็วๆ นี้ นักวิจัยได้เสนอเทคโนโลยีใหม่ที่เรียกว่า JoyVASA ซึ่งมีเป้าหมายเพื่อปรับปรุงเอฟเฟ็กต์ภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียง ด้วยการพัฒนาอย่างต่อเนื่องของโมเดลการเรียนรู้เชิงลึกและการแพร่กระจาย แอนิเมชั่นแนวตั้งที่ขับเคลื่อนด้วยเสียงได้พัฒนาความก้าวหน้าอย่างมากในด้านคุณภาพวิดีโอและความแม่นยำในการซิงโครไนซ์ริมฝีปาก อย่างไรก็ตาม ความซับซ้อนของโมเดลที่มีอยู่จะช่วยเพิ่มประสิทธิภาพในการฝึกอบรมและการอนุมาน ในขณะเดียวกันก็จำกัดระยะเวลาและความต่อเนื่องระหว่างเฟรมของวิดีโอด้วย

JoyVASA ใช้การออกแบบสองขั้นตอน ขั้นตอนแรกแนะนำกรอบการแสดงใบหน้าแบบแยกส่วนเพื่อแยกการแสดงออกทางสีหน้าแบบไดนามิกออกจากการแสดงใบหน้าสามมิติแบบคงที่

การแยกนี้ทำให้ระบบสามารถรวมโมเดลใบหน้า 3 มิติแบบคงที่เข้ากับลำดับการเคลื่อนไหวแบบไดนามิกเพื่อสร้างวิดีโอภาพเคลื่อนไหวที่ยาวขึ้น ในขั้นที่สอง ทีมวิจัยได้ฝึกอบรมหม้อแปลงไฟฟ้าแบบกระจายที่สามารถสร้างลำดับการกระทำได้โดยตรงจากสัญญาณเสียง ซึ่งเป็นกระบวนการที่ไม่ขึ้นอยู่กับเอกลักษณ์ของตัวละคร สุดท้าย เครื่องกำเนิดที่ใช้การฝึกอบรมขั้นแรกจะใช้การแสดงใบหน้า 3 มิติและลำดับการกระทำที่สร้างขึ้นเป็นอินพุตเพื่อสร้างเอฟเฟ็กต์แอนิเมชันคุณภาพสูง

โดยเฉพาะอย่างยิ่ง JoyVASA ไม่ได้จำกัดอยู่เพียงแอนิเมชันภาพบุคคลเท่านั้น แต่ยังสามารถทำให้ใบหน้าสัตว์เคลื่อนไหวได้อย่างราบรื่นอีกด้วย โมเดลนี้ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลแบบผสม ซึ่งรวมข้อมูลภาษาจีนส่วนตัวและข้อมูลภาษาอังกฤษสาธารณะเข้าด้วยกัน ซึ่งแสดงความสามารถในการรองรับหลายภาษาที่ดี ผลการทดลองพิสูจน์ประสิทธิภาพของวิธีนี้ การวิจัยในอนาคตจะมุ่งเน้นไปที่การปรับปรุงประสิทธิภาพแบบเรียลไทม์และการปรับปรุงการควบคุมการแสดงออกเพื่อขยายการประยุกต์ใช้กรอบงานนี้ในแอนิเมชั่นภาพเพิ่มเติม

การเกิดขึ้นของ JoyVASA ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียง โดยส่งเสริมความเป็นไปได้ใหม่ๆ ในด้านแอนิเมชัน

ทางเข้าโครงการ: https://jdh-algo.github.io/JoyVASA/

ไฮไลท์:

เทคโนโลยี JoyVASA ช่วยให้สามารถสร้างวิดีโอแอนิเมชั่นได้นานขึ้นโดยแยกการแสดงออกทางสีหน้าออกจากโมเดล 3 มิติ

เทคโนโลยีนี้สามารถสร้างลำดับการกระทำตามสัญญาณเสียง และมีความสามารถคู่ระหว่างตัวละครและภาพเคลื่อนไหวของสัตว์

JoyVASA ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลภาษาจีนและอังกฤษ มีการสนับสนุนหลายภาษา และให้บริการแก่ผู้ใช้ทั่วโลก

นวัตกรรมของเทคโนโลยี JoyVASA อยู่ที่การออกแบบที่แยกส่วนและการใช้สัญญาณเสียงอย่างมีประสิทธิภาพ ซึ่งเป็นแนวทางใหม่สำหรับการพัฒนาเทคโนโลยีภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียงในอนาคต การรองรับหลายภาษาและความสามารถในการสร้างภาพเคลื่อนไหวที่มีประสิทธิภาพยังทำให้แอปพลิเคชันนี้ใช้กันอย่างแพร่หลาย กลุ่มเป้าหมาย เป็นที่คาดหวังว่า JoyVASA จะสามารถปรับปรุงประสิทธิภาพแบบเรียลไทม์ให้ดียิ่งขึ้น และบรรลุการควบคุมการแสดงออกที่ซับซ้อนยิ่งขึ้นได้ในอนาคต