أصدر فريق Li Feifei مؤخرًا نتيجة بحثية مذهلة: نموذج جديد متعدد الوسائط يمكنه فهم وتوليد الأفعال البشرية، ويجمع بذكاء نماذج اللغة لتحقيق معالجة موحدة للغة اللفظية وغير اللفظية. وهذا الابتكار لا يمكّن الآلات من فهم التعليمات البشرية فحسب، بل يمكّنها أيضاً من تفسير المشاعر الكامنة وراء الأفعال، وبالتالي تحقيق تفاعل أكثر طبيعية وأكثر سلاسة بين الإنسان والحاسوب. يكمن جوهر النموذج في إطار نموذج اللغة متعدد الوسائط، والذي يمكنه دمج مدخلات متعددة مثل الصوت والحركة والنص، وإخراج البيانات الوسائطية المقابلة. إنه يؤدي أداءً جيدًا في مهام مثل إنشاء إيماءات الكلام التعاونية، ويقلل بشكل كبير من كمية البيانات المطلوبة للتدريب النموذجي، ويوسع سيناريوهات التطبيق الجديدة مثل إنشاء الإيماءات القابلة للتحرير والتنبؤ بالعواطف من خلال الإجراءات.
أطلق فريق Li Feifei نموذجًا جديدًا متعدد الوسائط يمكنه فهم وتوليد الأفعال البشرية، ومن خلال الجمع بين نماذج اللغة، فإنه يحقق معالجة موحدة للغة اللفظية وغير اللفظية. يتيح هذا البحث المتقدم للآلات ليس فقط فهم التعليمات البشرية، ولكن أيضًا قراءة المشاعر الواردة في الأفعال، مما يسمح بتفاعل أكثر طبيعية بين الإنسان والحاسوب.
يكمن جوهر النموذج في إطار نموذج اللغة متعدد الوسائط، والذي يمكنه تلقي أشكال متعددة من الإدخال مثل الصوت والحركة والنص، وإخراج البيانات الوسائطية المطلوبة. بالاشتراك مع استراتيجية ما قبل التدريب التوليدية، يُظهر النموذج أداءً ممتازًا في مهام متعددة. على سبيل المثال، في توليد إيماءات الكلام التعاونية، لا يتجاوز النموذج أحدث التقنيات فحسب، بل يقلل أيضًا بشكل كبير من كمية البيانات المطلوبة للتدريب. بالإضافة إلى ذلك، يفتح النموذج أيضًا سيناريوهات تطبيق جديدة، مثل إنشاء الإيماءات القابلة للتحرير والتنبؤ بالعواطف من خلال الإجراءات.
التواصل البشري متعدد الوسائط بطبيعته ويتضمن إشارات لفظية وغير لفظية مثل الكلام وتعبيرات الوجه ووضعية الجسم. تعد قدرة هذا النموذج على فهم هذه السلوكيات متعددة الوسائط أمرًا بالغ الأهمية لإنشاء شخصيات افتراضية تتواصل بشكل طبيعي في تطبيقات مثل الألعاب والأفلام والواقع الافتراضي. ومع ذلك، غالبًا ما تقتصر نماذج توليد العمل الحالية على طرائق إدخال محددة (الكلام أو النص أو بيانات العمل) وتفشل في استغلال تنوع البيانات المتاحة بشكل كامل.
يستخدم هذا النموذج النماذج اللغوية لتوحيد اللغة اللفظية وغير اللفظية لثلاثة أسباب رئيسية:
تربط النماذج اللغوية بشكل طبيعي بين الطرائق المختلفة.
يعتبر الكلام ذو دلالات عالية، وتتطلب المهام مثل نمذجة الاستجابات للنكات قدرات تفكير دلالية قوية.
يكتسب نموذج اللغة قدرات فهم دلالية قوية من خلال التدريب المسبق المكثف.
ولتحقيق ذلك، قام فريق البحث أولاً بتقسيم الجسم إلى أجزاء مختلفة (الوجه واليدين والجزء العلوي من الجسم والجزء السفلي من الجسم) وقاموا بتسمية كل جزء على حدة للحركة. من خلال الجمع بين الرموز المميزة للنص والكلام، يمكن تمثيل الإدخال بأي طريقة كسلسلة من الرموز المميزة للاستخدام بواسطة نماذج اللغة. يعتمد النموذج عملية تدريب مكونة من مرحلتين: التدريب المسبق الأول لتحقيق المواءمة بين الطرائق المختلفة وحركات الجسم المدمجة، بالإضافة إلى محاذاة الصوت والنص. بعد ذلك، يتم تحويل المهام النهائية إلى تعليمات ويتم تدريب النموذج على هذه التعليمات حتى يتمكن من اتباع تعليمات المهام المختلفة.
كان أداء النموذج جيدًا في معيار BEATv2 لتوليد إيماءات الكلام التعاونية، متجاوزًا النماذج الحالية بكثير. كما تم التحقق من تأثير استراتيجية ما قبل التدريب، خاصة عندما تكون البيانات نادرة، مما يدل على قدرة تعميمية قوية. ومن خلال التدريب اللاحق على مهام الكلام والعمل النصي، لا يستطيع النموذج اتباع المطالبات الصوتية والنصية فحسب، بل يمكنه أيضًا تحقيق وظائف جديدة مثل التنبؤ بالعواطف من بيانات العمل.
في التفاصيل الفنية، يستخدم النموذج أدوات رمزية خاصة بطريقة محددة للتعامل مع طرق الإدخال المختلفة. على وجه التحديد، يقوم النموذج بتدريب حركة الجسم المدمجة VQ-VAE التي تحول حركات الوجه واليد والجزء العلوي من الجسم والجزء السفلي من الجسم إلى علامات منفصلة. يتم دمج هذه المفردات الخاصة بالطريقة (الصوت والنص) في مفردات موحدة متعددة الوسائط. أثناء التدريب، يتم استخدام الرموز المميزة المختلطة لطرائق مختلفة كمدخلات ويتم إنشاء المخرجات بواسطة نموذج لغة التشفير وفك التشفير.
يستخدم النموذج أيضًا مفردات متعددة الوسائط لتحويل بيانات الوسائط المختلفة إلى تنسيق موحد للمعالجة. في مرحلة ما قبل التدريب، يتعلم النموذج المراسلات بين الطرائق المختلفة عن طريق أداء مهام التحويل بين الطرائق. على سبيل المثال، يمكن للنموذج أن يتعلم ترجمة حركات الجزء العلوي من الجسم إلى حركات الجزء السفلي من الجسم، أو تحويل الصوت إلى نص. بالإضافة إلى ذلك، يتعلم النموذج التطور الزمني للإجراءات عن طريق إخفاء إطارات عمل معينة بشكل عشوائي.
في مرحلة ما بعد التدريب، يتم ضبط النموذج بدقة باستخدام البيانات المقترنة لأداء المهام النهائية مثل إنشاء إيماءات الكلام التعاونية أو إنشاء تحويل النص إلى إجراء. لتمكين النموذج من اتباع التعليمات البشرية الطبيعية، قام الباحثون ببناء تعليمات متعددة المهام تتبع القالب الذي يحول المهام مثل الصوت إلى إجراء، والنص إلى إجراء، والعاطفة إلى إجراء إلى تعليمات. يتمتع النموذج أيضًا بالقدرة على تحرير الإيماءات لإنشاء حركات منسقة لكامل الجسم بناءً على الإشارات النصية والصوتية.
وأخيرًا، يفتح النموذج أيضًا إمكانات جديدة للتنبؤ بالعواطف من خلال الأفعال. وهذا له آثار مهمة في مجالات مثل الصحة العقلية أو الطب النفسي. هذا النموذج قادر على التنبؤ بشكل أكثر دقة بالمشاعر المعبر عنها في الأفعال مقارنة بالنماذج الأخرى، مما يظهر قدرات قوية في فهم لغة الجسد.
ويظهر البحث أن توحيد اللغة اللفظية وغير اللفظية للأفعال البشرية أمر بالغ الأهمية للتطبيقات العملية، وتوفر نماذج اللغة إطارا قويا لذلك.
عنوان الورقة: https://arxiv.org/pdf/2412.10523v1
بشكل عام، حقق هذا البحث تقدمًا كبيرًا في مجال الذكاء الاصطناعي متعدد الوسائط، حيث تعد إمكانات تطبيقه في التفاعل بين الإنسان والحاسوب، وإنشاء الشخصيات الافتراضية، والتعرف على المشاعر، هائلة وتستحق المزيد من الاهتمام والبحث. وفي المستقبل، من المتوقع أن يلعب هذا النموذج دورًا في المزيد من المجالات ويعزز تطوير تكنولوجيا الذكاء الاصطناعي.