قامت فرق البحث من جامعة هونغ كونغ للعلوم والتكنولوجيا وجامعة العلوم والتكنولوجيا في الصين بتطوير نموذج GameGen-X ، وهو نموذج محول الانتشار الذي يمكنه توليد مقاطع فيديو للعبة المفتوحة والتحكم فيها بشكل تفاعلي. لا يمكن لـ GameGen-X إنشاء مقاطع فيديو للألعاب تتضمن أحرفًا مبتكرة وبيئات ديناميكية وإجراءات معقدة ، ولكن أيضًا ضبط محتوى اللعبة في الوقت الفعلي وفقًا لتعليمات المستخدم متعددة الوسائط (مثل عمليات النص ولوحة المفاتيح) ، مما يسمح للمستخدمين بتجربة متعة التصميم ألعاب نفسها. هذه النتيجة البحثية تمثل طفرة كبيرة في الذكاء الاصطناعي في مجال تطوير اللعبة وتوفر إمكانيات جديدة لإنشاء محتوى اللعبة.
يمكن لـ GameGen-X إنشاء مقاطع فيديو للعبة المفتوحة في حد ذاتها ، والتي يمكنها محاكاة وظائف محرك اللعبة المختلفة ، بما في ذلك توليد شخصيات مبتكرة ، وبيئات ديناميكية ، والإجراءات المعقدة والأحداث المتنوعة ، ويمكن أن تتفاعل معك أيضًا ، مما يتيح لك تجربة المتعة تخطيط اللعبة.
واحدة من أبرز الأحداث في GameGen-X هي قابلية التحكم في التفاعل. يمكن أن يتنبأ وتغيير المحتوى المستقبلي بناءً على مقاطع اللعبة الحالية ، وبالتالي تمكين محاكاة اللعب.
يمكن للمستخدمين التأثير على المحتوى الذي تم إنشاؤه من خلال إشارات التحكم متعددة الوسائط ، مثل تعليمات النص المهيكلة والتحكم في لوحة المفاتيح ، وبالتالي تحقيق التحكم في تفاعل الأحرف ومحتوى المشهد.
لتدريب Gamegen-X ، قام الباحثون أيضًا ببناء أول مجموعة بيانات فيديو كبيرة مفتوحة للعبة ، Ogamedata. تحتوي مجموعة البيانات هذه على أكثر من مليون مقاطع فيديو من لعبة مختلفة من أكثر من 150 لعبة ، وتستخدم GPT-4O لإنشاء أوصاف نصية مفيدة لها.
تنقسم عملية تدريب GameGen-X إلى مرحلتين: النموذج الأساسي قبل التدريب وضبط التعليمات. في المرحلة الأولى ، يتم تدريب النموذج مسبقًا من خلال مهام توليد النص والفيديو ، مما يتيح له إنشاء مقاطع فيديو عالية الجودة وطويلة التسلسل.
في المرحلة الثانية ، من أجل تحقيق إمكانية التحكم التفاعلية ، صمم الباحثون وحدة EnderctNet ، التي تدمج خبراء إشارة التحكم متعددة الوسائط المتعلقة باللعبة.
يتيح InstructNet النماذج لضبط التمثيلات المحتملة بناءً على إدخال المستخدم ، وبالتالي توحيد تفاعل الأحرف والتحكم في محتوى المشهد في توليد الفيديو لأول مرة. أثناء ضبط التعليمات الدقيقة ، يتم تحديث فقط AddructNet ، في حين يتم تجميد النموذج الأساسي الذي تم تدريبه مسبقًا ، مما يسمح للنموذج بدمج إمكانية التحكم التفاعلية دون فقدان التنوع وجودة محتوى الفيديو الذي تم إنشاؤه.
تُظهر النتائج التجريبية أن GameGen-X تعمل بشكل جيد في توليد محتوى اللعبة عالي الجودة وتوفر تحكمًا ممتازًا في البيئة والشخصيات ، متفوقة على نماذج المصادر المفتوحة الأخرى.
بالطبع ، لا يزال هذا الذكاء الاصطناعي في مهدها ولا يزال هناك طريق طويل قبل استبدال تخطيط اللعبة حقًا. لكن ظهورها لا شك في أن إمكانيات جديدة لتطوير اللعبة. إنه يوفر نهجًا جديدًا لتصميم محتوى اللعبة وتطويره ، مما يدل على إمكانات النماذج التوليدية كأداة مساعدة لتكنولوجيا التقديم التقليدية ، ودمج الجيل الإبداعي ووظائف التفاعلية بشكل فعال ، مما يجلب أشياء جديدة إلى إمكانيات تطوير اللعبة في المستقبل.
عنوان المشروع: https://gamegen-x.github.io/
على الرغم من أن GameGen-X لا تزال في مراحلها المبكرة من التطوير ، إلا أن أدائها المتميز في توليد الفيديو والتفاعل بين اللعبة يشير إلى احتمال واسع لتطبيق تكنولوجيا الذكاء الاصطناعى في صناعة الألعاب. في المستقبل ، من المتوقع أن تصبح Gamegen-X مساعدًا جيدًا لمطوري الألعاب وتشجع على التطوير المبتكر لصناعة الألعاب.