قام فريق وو جياجون بجامعة ستانفورد بتطوير تقنية اختراق - "لغة المشهد" ، والتي يمكنها تلقائيًا إنشاء نماذج ثلاثية الأبعاد واقعية في جملة واحدة أو صورة. تدمج هذه التكنولوجيا بذكاء ثلاث معلومات: البرنامج والنصوص والمتجهات المدمجة ، وتستخدم نماذج اللغة التي تم تدريبها مسبقًا لاستنتاج عناصر المشهد تلقائيًا ، وإنشاء مشاهد ثلاثية الأبعاد عالية الجودة من خلال العارض. لا يولد فقط مشاهد ثلاثية الأبعاد معقدة ، ولكن أيضًا يتحكم بدقة في هيكل المشهد ، مما يوفر راحة غير مسبقة للمصممين ومطوري الألعاب. دعونا نلقي نظرة أعمق على هذه التكنولوجيا المذهلة وآفاق تطبيقها الواسعة.
هل ما زلت تتذكر المشاهد ثلاثية الأبعاد في أفلام الخيال العلمي؟ تتيح لك جامعة ستانفورد *توليد نماذج ثلاثية الأبعاد تلقائيًا مع جملة واحدة فقط لوصف المشهد.
ما هي لغة المشهد؟
تخيل أنك سوف تصف التمثال الغامض لأهوو أكيفي الحجري في جزيرة إيستر. ستقول: "هناك صف من سبعة تماثيل Moai ، التي تواجه نفس الاتجاه." لكن كل واحد يبدو مختلفًا قليلاً ".
يخبرنا هذا المثال أنه لوصف سيناريو بالكامل ، هناك حاجة إلى ثلاثة أنواع على الأقل من المعلومات:
المعلومات الهيكلية: على سبيل المثال ، يمكن وصف "صف من سبعة تماثيل حجرية" بواسطة برامج مماثلة لغات البرمجة ؛
فئة دلالات: على سبيل المثال ، يمكن تلخيص "Moai Stone تمثال" ، بالكلمات ؛
مثال على التفاصيل: على سبيل المثال ، يصعب وصف الشكل المحدد واللون والملمس لكل تمثال حجر بالكلمات ، ولكن يمكن التعرف عليها من خلال الصور.
لغة السيناريو تدمج بشكل مثالي هذه الأنواع الثلاثة من المعلومات!
البرنامج: استخدم بناء جملة مماثل لغوية البرمجة لتحديد العلاقة الهرمية والتخطيط المكاني للأشياء في المشهد ، مثل ترتيب تماثيل Moai Stone ؛
النص: صف دلالات الفئة لكل كائن باللغة الطبيعية ، مثل "تمثال Moai Stone" ؛
المتجهات المدمجة: استخدم المتجهات الناتجة عن الشبكات العصبية لالتقاط الميزات المرئية لكل كائن ، مثل المظهر الفريد لكل تمثال حجر.
الشيء المدهش هو أن لغة المشهد يمكن إنشاءها تلقائيًا من خلال نماذج اللغة التي تم تدريبها مسبقًا! توليد مشاهد ثلاثية الأبعاد عالية الجودة.
ما هي مزايا لغة المشهد؟
بالمقارنة مع تمثيلات الرسم البياني للمشهد التقليدي ، يمكن أن تولد لغات المشهد مشاهد أكثر تعقيدًا وواقعية ، ويمكن أن تتحكم بدقة في هياكل المشهد وتحريرها. على سبيل المثال ، يمكنك استخدام جملة لتعديل خصائص كائن في المشهد ، أو إضافة كائنات جديدة ، أو حتى تغيير نمط المشهد بأكمله.
ما هي تطبيقات لغات السيناريو؟
تحتوي لغة المشهد على آفاق تطبيقات واسعة في مجالات توليد وتحرير المشهد ثلاثي الأبعاد ، مثل:
المشهد ثلاثي الأبعاد لتوليد النص: أدخل وصفًا للنص ويمكن إنشاء المشهد ثلاثي الأبعاد المقابل تلقائيًا ، مثل "قلعة في الجزء العلوي من جبل محاط بالغابات الكثيفة" ؛
جيل الصور ثلاثي الأبعاد المشهد: أدخل صورة لإعادة بناء المشهد ثلاثي الأبعاد في الصورة ، مثل إنشاء نموذج غرفة المعيشة ثلاثية الأبعاد يعتمد على صورة غرفة المعيشة ؛
توليد مشهد 4D: يمكن إنشاء مشاهد 4D التي تحتوي على معلومات البعد الزمني ، مثل محاكاة دوران توربينات الرياح ؛
تحرير المشهد: عن طريق تعديل برنامج لغة المشهد أو النص أو المتجه المدمج ، يمكنك تحرير المشهد بدقة ، مثل تغيير اللون أو الموضع أو حجم كائن.
ما هو اتجاه التنمية المستقبلي للغة المشهد؟
لا تزال لغة السيناريو في مراحلها المبكرة من التطوير ، ولا يزال هناك مجال كبير للتنمية في المستقبل ، مثل:
قدرة جيل أكثر قوة: يمكن أن تولد مشاهد أكثر تعقيدًا واقعية ، مثل احتواء المزيد من التفاصيل والعناصر التفاعلية الأكثر ثراءً ؛
طرق التحرير الأكثر ملاءمة: يمكنك تحرير المشاهد بلغة طبيعية وبديهية ، مثل التحكم في الصوت أو الإيماءات ؛
مجموعة واسعة من التطبيقات: يمكن تطبيقها على الواقع الافتراضي والواقع المعزز وتطوير اللعبة وإنتاج الأفلام وغيرها من الحقول.
الصفحة الرئيسية للمشروع: https://ai.stanford.edu/~yzzhang/projects/scene-language/
عنوان الورق: https://arxiv.org/abs/2410.16770
باختصار ، جلبت تقنية "لغة السيناريو" تغييرات ثورية في مجال النمذجة ثلاثية الأبعاد. نحن نتطلع إلى هذه التكنولوجيا التي تجلب لنا المزيد من المفاجآت في المستقبل.