في السنوات الأخيرة، تطورت تكنولوجيا الذكاء الاصطناعي بشكل سريع، خاصة في مجال إنتاج الرسوم المتحركة، وأصبح إنشاء مقاطع فيديو ديناميكية تعتمد على الصور الثابتة نقطة اهتمام بحثية. غالبًا ما تعتمد طرق إنتاج الرسوم المتحركة التقليدية على معلومات متفرقة حول وضعية الهيكل العظمي، مما يؤدي إلى تأثيرات رسوم متحركة ليست دقيقة بدرجة كافية. من أجل حل هذه المشكلة، تظهر تقنيات جديدة باستمرار، وتسعى جاهدة لتحقيق رسوم متحركة أكثر دقة وإمكانية التحكم في صور الشخصيات.
في السنوات الأخيرة، مع التطور السريع للذكاء الاصطناعي وتكنولوجيا رؤية الكمبيوتر، أصبح التفاعل بين البشر وأجهزة الكمبيوتر أكثر حيوية وتعبيرًا. خاصة في مجال إنتاج الرسوم المتحركة، كانت كيفية إنشاء مقاطع فيديو ديناميكية استنادًا إلى الصور الثابتة موضوعًا بحثيًا ساخنًا دائمًا.
في الآونة الأخيرة، ظهرت تقنية جديدة تسمى "DisPose"، والتي تحقق تأثيرات الرسوم المتحركة لصور الشخصيات التي يمكن التحكم فيها بشكل أكبر من خلال توجيه الوضع المنفصل. ببساطة، يتيح DisPose إدخال مقاطع فيديو الحركة والأحرف المرجعية، مما يسمح للأحرف المرجعية بإدراك الإجراءات في الفيديو.
يكمن جوهر تقنية DisPose في إعادة بناء واستخدام المعلومات التقليدية المتفرقة. تعتمد الأساليب التقليدية في الغالب على إرشادات الوضعيات الهيكلية المتفرقة، والتي لا يمكنها غالبًا توفير إشارات تحكم كافية عند إنشاء مقاطع فيديو ديناميكيًا، مما يؤدي إلى تأثيرات رسوم متحركة مفصلة بشكل غير كافٍ. للتعويض عن هذا القصور، يقترح DisPose طريقة جديدة تمامًا لتحقيق توليد حركة أكثر تفصيلاً عن طريق تحويل معلومات الوضعية المتفرقة إلى توجيهات ميدانية رياضية ومراسلات النقاط الرئيسية.
على وجه التحديد، يقوم DisPose أولاً بحساب مجالات الحركة المتفرقة لأوضاع الهيكل العظمي ويقدم طريقة إنشاء مجال الحركة الكثيفة بناءً على الصور المرجعية. لا يوفر هذا النهج إشارات حركة على المستوى الإقليمي فحسب، بل يحافظ أيضًا على عالمية التحكم في المواقف المتناثرة. في الوقت نفسه، يقوم DisPose أيضًا باستخراج ميزات الانتشار المقابلة للنقاط الرئيسية من الصورة المرجعية، ثم ينقل هذه الميزات إلى الوضع المستهدف عن طريق حساب مراسلات النقاط متعددة المقاييس لتعزيز اتساق المظهر.
من أجل تمكين هذه التكنولوجيا المبتكرة من الاندماج بسلاسة في النماذج الحالية، اقترح الباحثون أيضًا بنية ControlNet الهجينة. تعمل هذه البنية على تحسين جودة واتساق مقاطع الفيديو التي تم إنشاؤها دون تغيير معلمات النموذج الحالية. ومن خلال التجارب النوعية والكمية المكثفة، يُظهر DisPose مزايا كبيرة مقارنة بالتقنيات الحالية ويبشر بالاتجاه المستقبلي لتكنولوجيا إنتاج الرسوم المتحركة.
يعمل DisPose على تحسين التعبير وإمكانية التحكم في الرسوم المتحركة للصورة من خلال تحسين استخدام معلومات الموقف. هذا التقدم ليس له أهمية كبيرة في البحث الأكاديمي فحسب، بل يجلب أيضًا إمكانيات جديدة لصناعة الرسوم المتحركة في المستقبل.
مدخل المشروع: https://lihxxx.github.io/DisPose/
أبرز النقاط:
DisPose هي تقنية جديدة للرسوم المتحركة العمودية تتيح إنشاء ديناميكي أكثر دقة من خلال توجيه الوضع المنفصل.
تقوم هذه التقنية بتحويل معلومات الوضع المتفرقة إلى توجيه مجال الحركة ومراسلات النقاط الرئيسية، مما يوفر إشارات حركة مفصلة.
يمكن لبنية ControlNet الهجينة التي اقترحها الباحثون تحسين جودة واتساق مقاطع الفيديو التي تم إنشاؤها بشكل فعال.
يمثل ظهور تقنية DisPose علامة فارقة جديدة في تكنولوجيا إنتاج الرسوم المتحركة. توفر طريقة معالجة المعلومات بالإيماءات الفعالة وبنية ControlNet الهجينة المبتكرة دعمًا فنيًا قويًا لإنتاج رسوم متحركة أكثر واقعية وتفصيلاً في المستقبل، كما أنها توفر إمكانيات غير محدودة لصناعة الرسوم المتحركة. ونحن نتطلع إلى أن يلعب DisPose دورًا أكبر في إنتاج الرسوم المتحركة في المستقبل.