Byte Beating إطلاق نظام AI جديد Omnihuman ، والذي يمكن أن يولد مقاطع الفيديو الكاملة واقعية على أساس صور واحدة لإظهار خطابات الشخصيات والغناء والإجراءات الطبيعية. تدمج هذه التكنولوجيا مجموعة متنوعة من المدخلات مثل النصوص والصوت والبشر ، وتبني طريقة التدريب "الحالة الكاملة" للتعلم من نموذج AI. يشير ظهور Omnihuman إلى أن مجال الترفيه والاتصالات الرقمية سيؤدي إلى تغييرات جديدة ، مما يجلب إمكانيات غير محدودة لإنشاء الفيديو وإنتاج المحتوى التعليمي والاتصالات الرقمية.
Omnihuman قادر على إنشاء مقاطع فيديو كاملة للجسم لإظهار الإيماءات والديناميات للشخصيات عند التحدث ، متجاوزة نماذج الذكاء الاصطناعى التي يمكنها محاكاة الوجه أو الجزء العلوي من الجسم فقط. جوهر هذه التكنولوجيا هو أنه يجمع بين مجموعة متنوعة من المدخلات مثل النص والصوت والحركات البشرية.
أشار فريق البحث إلى أن Omnihuman أظهر تقدمًا كبيرًا بعد أكثر من 18700 ساعة من تدريب بيانات الفيديو البشري. من خلال إدخال إشارات مشروطة مختلفة (مثل النص والصوت والموقف) ، فإن هذه التقنية لا تحسن فقط من جودة توليد الفيديو ، ولكنها تقلل أيضًا من نفايات البيانات بشكل فعال.
ذكر الباحثون في ورقة نشرت في Arxiv أنه على الرغم من أن التكنولوجيا النهائية للرسوم المتحركة البشرية قد أحرزت تقدمًا كبيرًا في السنوات الأخيرة ، إلا أن الأساليب الحالية لا تزال لديها قيود في توسيع نطاق التطبيق.
لدى Omnihuman مجموعة واسعة من إمكانات التطبيق ويمكن استخدامها لصنع مقاطع فيديو للكلام ، وإظهار العروض الآلية ، إلخ. بعد الاختبار ، تكون هذه التكنولوجيا أفضل من النظام الحالي في معايير الجودة المتعددة ، مما يدل على أدائها الممتاز. ظهر هذا التطور في سياق زيادة المنافسة بين تقنية توليد الفيديو الذكاء ، وشركات مثل Google و Meta و Microsoft تطارد أيضًا تقنيات مماثلة.
ومع ذلك ، على الرغم من أن Omnihuman يجلب إمكانية إجراء تغييرات على إنتاج الترفيه ، وإنشاء المحتوى التعليمي ، والاتصالات الرقمية ، إلا أنها أثارت مخاوف بشأن سوء الاستخدام المحتمل للوسائط الاصطناعية. سيقدم فريق البحث نتائج بحثه في مؤتمر قادم من رؤية الكمبيوتر ، على الرغم من أنه لم يتم الإعلان عن الوقت والاجتماع المحددان بعد.
أطروحة: https://arxiv.org/pdf/2502.01061
نقاط:
Omnihuman هو نوع جديد من الذكاء الاصطناعى يمكنه تحويل الصور الفردية إلى مقاطع فيديو واقعية للكاملة.
بعد 18،700 ساعة من تدريب بيانات الفيديو البشري ، تجمع هذه التقنية بين مجموعة متنوعة من إشارات الإدخال لتحسين تأثير التوليد.
على الرغم من إمكانات التطبيق الواسعة ، فقد أثارت أيضًا مخاوف بشأن إمكانية وسائل الإعلام الاصطناعية.
وضعت اختراق تكنولوجيا Omnihuman معايير جديدة لتوليد فيديو الذكاء الاصطناعي ، ولكن في الوقت نفسه ، يحتاج أيضًا إلى الانتباه إلى مخاطرها الأخلاقية المحتملة. تستخدم بشكل معقول وتجنب الآثار السلبية. نتطلع إلى المزيد من التطبيقات ونتائج البحث حول Omnihuman في المستقبل.