เทคโนโลยีการสร้างวิดีโอใบหน้าที่ขับเคลื่อนด้วยเสียง JoyVASA รองรับตัวละครสัตว์เล็ก

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-11-28 19:36:01

รายงานตัวแก้ไข Downcodes: ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีแอนิเมชั่นที่ขับเคลื่อนด้วยเสียงมีการพัฒนาอย่างรวดเร็ว แต่โมเดลที่มีอยู่ยังคงประสบปัญหาคอขวดในแง่ของประสิทธิภาพและระยะเวลา เพื่อแก้ปัญหานี้ นักวิจัยได้พัฒนาเทคโนโลยีใหม่ที่เรียกว่า JoyVASA ซึ่งปรับปรุงคุณภาพและประสิทธิภาพของภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียงอย่างมีนัยสำคัญผ่านการออกแบบสองขั้นตอนอันชาญฉลาด JoyVASA ไม่เพียงแต่สามารถสร้างวิดีโอแอนิเมชั่นที่ยาวขึ้นเท่านั้น แต่ยังรองรับแอนิเมชั่นใบหน้าของสัตว์และแสดงความเข้ากันได้ดีในหลายภาษา ซึ่งนำความเป็นไปได้ใหม่ๆ มาสู่ด้านการผลิตแอนิเมชั่น

เมื่อเร็วๆ นี้ นักวิจัยได้เสนอเทคโนโลยีใหม่ที่เรียกว่า JoyVASA ซึ่งมีเป้าหมายเพื่อปรับปรุงเอฟเฟ็กต์ภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียง ด้วยการพัฒนาอย่างต่อเนื่องของโมเดลการเรียนรู้เชิงลึกและการแพร่กระจาย แอนิเมชั่นแนวตั้งที่ขับเคลื่อนด้วยเสียงได้พัฒนาความก้าวหน้าอย่างมากในด้านคุณภาพวิดีโอและความแม่นยำในการซิงโครไนซ์ริมฝีปาก อย่างไรก็ตาม ความซับซ้อนของโมเดลที่มีอยู่จะช่วยเพิ่มประสิทธิภาพในการฝึกอบรมและการอนุมาน ในขณะเดียวกันก็จำกัดระยะเวลาและความต่อเนื่องระหว่างเฟรมของวิดีโอด้วย

JoyVASA ใช้การออกแบบสองขั้นตอน ขั้นตอนแรกแนะนำกรอบการแสดงใบหน้าแบบแยกส่วนเพื่อแยกการแสดงออกทางสีหน้าแบบไดนามิกออกจากการแสดงใบหน้าสามมิติแบบคงที่

การแยกนี้ทำให้ระบบสามารถรวมโมเดลใบหน้า 3 มิติแบบคงที่เข้ากับลำดับการเคลื่อนไหวแบบไดนามิกเพื่อสร้างวิดีโอภาพเคลื่อนไหวที่ยาวขึ้น ในระยะที่สอง ทีมวิจัยได้ฝึกอบรมหม้อแปลงไฟฟ้าแบบกระจายที่สามารถสร้างลำดับการกระทำได้โดยตรงจากสัญญาณเสียง ซึ่งเป็นกระบวนการที่ไม่ขึ้นอยู่กับเอกลักษณ์ของตัวละคร สุดท้าย เครื่องกำเนิดที่ใช้การฝึกอบรมขั้นแรกจะใช้การแสดงใบหน้า 3 มิติและลำดับการกระทำที่สร้างขึ้นเป็นอินพุตเพื่อสร้างเอฟเฟ็กต์แอนิเมชันคุณภาพสูง

โดยเฉพาะอย่างยิ่ง JoyVASA ไม่ได้จำกัดอยู่เพียงแอนิเมชันภาพบุคคลเท่านั้น แต่ยังสามารถทำให้ใบหน้าสัตว์เคลื่อนไหวได้อย่างราบรื่นอีกด้วย โมเดลนี้ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลแบบผสม ซึ่งรวมข้อมูลภาษาจีนส่วนตัวและข้อมูลภาษาอังกฤษสาธารณะเข้าด้วยกัน ซึ่งแสดงความสามารถในการรองรับหลายภาษาที่ดี ผลการทดลองพิสูจน์ประสิทธิภาพของวิธีนี้ การวิจัยในอนาคตจะมุ่งเน้นไปที่การปรับปรุงประสิทธิภาพแบบเรียลไทม์และการปรับปรุงการควบคุมการแสดงออกเพื่อขยายการประยุกต์ใช้กรอบงานนี้ในแอนิเมชั่นภาพเพิ่มเติม

การเกิดขึ้นของ JoyVASA ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียง โดยส่งเสริมความเป็นไปได้ใหม่ๆ ในด้านแอนิเมชัน

ทางเข้าโครงการ: https://jdh-algo.github.io/JoyVASA/

นวัตกรรมของเทคโนโลยี JoyVASA อยู่ที่การออกแบบสองขั้นตอนที่มีประสิทธิภาพและความสามารถในการรองรับหลายภาษาที่ทรงพลัง ซึ่งมอบโซลูชันที่สะดวกและมีประสิทธิภาพมากขึ้นสำหรับการผลิตแอนิเมชั่น ในอนาคต ด้วยการปรับปรุงเทคโนโลยีเพิ่มเติม JoyVASA คาดว่าจะถูกนำไปใช้อย่างแพร่หลายในสาขาต่างๆ มากขึ้น ทำให้เราได้ผลงานแอนิเมชั่นที่สมจริงและน่าตื่นเต้นมากขึ้น รอคอยที่จะมีความก้าวหน้าทางเทคโนโลยีมากขึ้นและเป็นผู้นำบทใหม่ในการพัฒนาอุตสาหกรรมแอนิเมชั่น!