قام فريق وو جياجون من جامعة ستانفورد بتطوير تقنية متقدمة - "لغة المشهد"، والتي يمكنها إنشاء نماذج ثلاثية الأبعاد نابضة بالحياة تلقائيًا باستخدام جملة أو صورة فقط. تجمع هذه التقنية بين ثلاثة أنواع من المعلومات: البرنامج والنص والمتجه المضمن، وتحول وصف اللغة الطبيعية إلى مشهد مرئي، مما يوفر للمصممين ومطوري الألعاب راحة غير مسبوقة. سيأخذك محرر Downcodes إلى فهم متعمق لهذه التكنولوجيا المذهلة، واستكشاف مبادئها الأساسية وآفاق التطبيق واتجاهات التطوير المستقبلية، ويكشف كيف تحول المشاهد الرائعة في أفلام الخيال العلمي إلى واقع.
هل مازلت تتذكر تلك المشاهد الرائعة ثلاثية الأبعاد في أفلام الخيال العلمي؟ الأكوان الشاسعة والقلاع الخيالية ومدن المستقبل... الآن، يمكنك بسهولة إنشاء مثل هذه المشاهد أحدث **"لغة المشهد"* التي أطلقها فريق وو جياجون بجامعة ستانفورد * تسمح لك التكنولوجيا بإنشاء نموذج ثلاثي الأبعاد نابض بالحياة تلقائيًا بمجرد وصف المشهد في جملة واحدة، وهو خبر رائع للمصممين ومطوري الألعاب!
ما هي لغة المشهد بالضبط؟
تخيل أنك تحاول وصف كتلة Ahu Akiwi الغامضة في جزيرة الفصح. قد تقول: "يوجد صف من سبعة تماثيل مواي هناك، تواجه نفس الاتجاه." لكن إذا كان الشخص الآخر لا يعرف ما هي تماثيل مواي، عليك أن تشرح: "تماثيل مواي هي شخصيات بشرية حجرية بدون الساقين، ولكن كل واحد يبدو مختلفا قليلا.
يخبرنا هذا المثال أنه لوصف مشهد ما بشكل كامل، هناك حاجة إلى ثلاثة أنواع من المعلومات على الأقل:
المعلومات الهيكلية: على سبيل المثال، يمكن وصف "صف من سبعة تماثيل حجرية" بواسطة برنامج مشابه للغة البرمجة؛
دلالات الفئة: على سبيل المثال، يمكن تلخيص "تمثال موي" بالكلمات؛
تفاصيل المثيل: على سبيل المثال، يصعب وصف الشكل واللون والملمس المحدد لكل تمثال حجري بالكلمات، ولكن يمكن التعرف عليها من خلال الصور.
لغة المشهد هي الاندماج المثالي لهذه الأنواع الثلاثة من المعلومات، فهي تحتوي على ثلاثة عناصر أساسية:
البرنامج: استخدم بناء الجملة المشابه للغة البرمجة لتحديد العلاقة الهرمية والتخطيط المكاني للكائنات في المشهد، مثل ترتيب تماثيل Moai؛
النص: استخدم اللغة الطبيعية لوصف دلالات الفئة لكل كائن، مثل "Moai"؛
دمج المتجهات: تُستخدم المتجهات التي تم إنشاؤها بواسطة شبكة عصبية لالتقاط الخصائص المرئية لكل كائن، مثل المظهر الفريد لكل تمثال حجري.
الأمر الأكثر إثارة للدهشة هو أنه يمكن إنشاء لغة المشهد تلقائيًا من خلال نماذج اللغة المدربة مسبقًا، ما عليك سوى إدخال وصف نصي أو صورة، ويمكن للنموذج تلقائيًا استنتاج البرنامج والنص ومتجهات التضمين، ثم استخدام عارضين مختلفين! لإنشاء مشاهد ثلاثية الأبعاد عالية الجودة.
ما هي مميزات لغة المشهد؟
بالمقارنة مع تمثيل الرسم البياني للمشهد التقليدي، فإن لغات المشهد قادرة على إنشاء مشاهد أكثر تعقيدًا وواقعية، ويمكن التحكم في بنية المشهد وتحريرها بدقة. على سبيل المثال، يمكنك تعديل خصائص كائن ما في المشهد، أو إضافة كائن جديد، أو حتى تغيير نمط المشهد بأكمله بجملة واحدة من التعليمات.
ما هي تطبيقات لغة السيناريو؟
تتمتع لغة المشهد بآفاق تطبيقية واسعة في مجال إنشاء وتحرير المشهد ثلاثي الأبعاد، مثل:
إنشاء مشاهد ثلاثية الأبعاد من النص: أدخل وصفًا نصيًا وسيتم إنشاء المشهد ثلاثي الأبعاد المقابل تلقائيًا، مثل "قلعة على قمة جبل، محاطة بغابات كثيفة"؛
إنشاء مشاهد ثلاثية الأبعاد من الصور: قم بإدخال صورة ويمكنك إعادة بناء المشهد ثلاثي الأبعاد في الصورة، على سبيل المثال، إنشاء نموذج ثلاثي الأبعاد لغرفة المعيشة استنادًا إلى صورة غرفة المعيشة؛
إنشاء مشاهد رباعية الأبعاد: يمكن إنشاء مشاهد رباعية الأبعاد تحتوي على معلومات البعد الزمني، مثل محاكاة دوران توربينات الرياح؛
تحرير المشهد: من خلال تعديل برامج لغة المشهد أو النص أو المتجهات المضمنة، يمكن إجراء تحرير دقيق للمشهد، مثل تغيير لون الكائنات أو موضعها أو حجمها.
اتجاه التطوير المستقبلي للغة المشهد؟
لغة السيناريو لا تزال في المراحل الأولى من التطوير، ولا يزال هناك مجال كبير للتطوير في المستقبل، مثل:
قدرات توليد أكثر قوة: يمكنها إنشاء مشاهد أكثر تعقيدًا وواقعية، مثل احتواء المزيد من التفاصيل وعناصر تفاعلية أكثر ثراءً؛
طريقة تحرير أكثر ملاءمة: يمكنك استخدام لغة أكثر طبيعية وبديهية لتحرير المشاهد، مثل استخدام التحكم الصوتي أو الإيماءات؛
مجالات تطبيقية أوسع: يمكن استخدامها في الواقع الافتراضي والواقع المعزز وتطوير الألعاب وإنتاج الأفلام وغيرها من المجالات.
الصفحة الرئيسية للمشروع: https://ai.stanford.edu/~yzzhang/projects/scene-language/
عنوان الورقة: https://arxiv.org/abs/2410.16770
بشكل عام، أحدثت تقنية "لغة المشهد" تغييرات ثورية في مجال إنشاء المشهد ثلاثي الأبعاد وتحريره، مما يجعلها تتمتع بإمكانيات غير محدودة في المستقبل. أعتقد أنه مع التطور المستمر للتكنولوجيا، ستلعب "لغة المشهد" دورًا مهمًا في المزيد من المجالات وستخلق لنا عالمًا افتراضيًا أكثر حيوية وواقعية.