لغة المشهد: تمثيل المشاهد بالبرامج والكلمات والتضمينات
أرخايف | صفحة المشروع
الرموز الهابطة
يطبق هذا المستودع لغة المشهد المقدمة في ورقة "لغة المشهد: تمثيل المشاهد بالبرامج والكلمات والتضمينات". يسمح بإنشاء مشهد ثلاثي الأبعاد مكيف بالنص ومكيف بالصورة.
تثبيت
بيئة
``باش
conda create --name sclg python=3.11
كوندا تفعيل sclg
نقطة تثبيت ميتسوبا
إذا واجهت خطأ في التجزئة، فقد تحتاج إلى إصدارات محددة من mitsuba
على سبيل المثال، تثبيت النقطة --force-reinstall mitsuba==3.5.1 على نظام MacOS
نقطة تثبيت unidecode وسادة الأنثروبي Transforms3d أستور ipdb scipy jaxtyping imageio
مطلوب لعارض ماين كرافت
نقطة تثبيت سباسي
python -m spacy تنزيل encoreweb_md
تثبيت النقطة --force-reinstall numpy==1.26.4 # ليكون متوافقًا مع Transforms3d
استنساخ بوابة https://github.com/zzyunzhi/scene-language.git
لغة المشهد القرص المضغوط
تثبيت النقطة -e .
`
واجهة برمجة تطبيقات نموذج اللغة
1. احصل على مفتاح API الخاص بك: احصل على مفتاح Anthropic API الخاص بك باتباع الوثائق الرسمية.
2. أضف مفتاحًا إلى المحرك/key.py:
`بيثون
ANTHROPICAPIKEY = 'YOURANTHROPICAPI_KEY'
OPENAIAPIKEY = 'YOUROPENAIAPIKEY' # اختياري، مطلوب لـ LLMPROVIDER='gpt'
`
3. تبديل نماذج اللغة (اختياري): يمكنك التبديل إلى نماذج لغات مختلفة عن طريق تعديل إعداد LLM_PROVIDER في المحرك/constants.py. الافتراضي هو كلود 3.5 السوناتة.
الجيل ثلاثي الأبعاد المكيف بالنص
المقدم: ميتسوبا
``باش
python scripts/run.py --tasks "رقعة شطرنج بها مجموعة كاملة من قطع الشطرنج"
`
سيتم حفظ العروض في ${PROJROOT}/scripts/outputs/run${timestep}${uuid}/${scenename}${uuid}/${sampleindex}/renderings/*.gif.
نتائج المثال: المخرجات الأولية
العارض: ماين كرافت
``باش
ENGINE_MODE=minecraft python scripts/run.py --tasks "برج أسطواني مفصل من العصور الوسطى"
`
يتم حفظ المشاهد التي تم إنشاؤها كملفات JSON في ${PROJROOT}/scripts/outputs/run${timestep}${uuid}/${scenename}${uuid}/${sampleindex}/renderings/*.json.
التصور:
1. قم بتشغيل الأمر التالي:
``باش
مشاهدو بايثون/minecraft/run.py
`
2. افتح http://127.0.0.1:5001 في متصفحك.
3. اسحب ملفات JSON التي تم إنشاؤها إلى صفحة الويب.
نتائج المثال: المخرجات الأولية
جيل ثلاثي الأبعاد مكيف بالصورة
``باش
مخطوطات بايثون/run.py --tasks ./resources/examples/* --cond image --درجة الحرارة 0.8
`
تفاصيل قاعدة التعليمات البرمجية
يسرد الجدول التالي الوظائف المساعدة المحددة في هذا المستودع، والتي تتماشى مع التعبيرات المحددة في اللغة الخاصة بالمجال (DSL) (الجدولان 2 و5 من الورقة):
| الوظيفة | تعبير DSL |
|-----------------|----------------|
| ... | ... |
| ... | ... |
تحسينات قاعدة التعليمات البرمجية
توفر قاعدة التعليمات البرمجية الحالية الميزات التالية:
1. إنشاء نص مشروط: قم بإنشاء مشاهد ثلاثية الأبعاد بناءً على الأوصاف النصية.
2. إنشاء صور مكيفة: قم بإنشاء مشاهد ثلاثية الأبعاد بناءً على الصور المدخلة.
التحديثات المستقبلية:
سيتم إضافة دعم للمهام والعارضين الإضافيين في التحديثات المستقبلية.
المساهمات
لا تتردد في إرسال طلب سحب أو الاتصال بنا عبر البريد الإلكتروني إذا كان لديك أي طلبات ميزات أو اقتراحات أو ترغب في مشاركة نتائجك.
الاقتباس
`
@المقال{zhang2024scenelanguage،
title={لغة المشهد: تمثيل المشاهد بالبرامج والكلمات والمضامين},
المؤلف={Yunzhi Zhang وZizhang Li وMat Zhou وShangzhe Wu وJiajun Wu}،
العام={2024},
مجلة = {arXiv طبعة أولية arXiv:2410.16770}،
}
`
الترخيص: أباتشي-2.0