صفحة المشروع • ورقة Arxiv • العرض التوضيحي • الأسئلة الشائعة • الاقتباس
ShapeGPT هو نموذج لغة موحد وسهل الاستخدام ومتعدد الوسائط يتمحور حول الشكل لإنشاء مجموعة متعددة الوسائط وتطوير نماذج لغة مدركة للشكل في مهام متعددة الأشكال .
إن ظهور نماذج اللغة الكبيرة، التي تتيح المرونة من خلال الأساليب المعتمدة على التعليمات، قد أحدث ثورة في العديد من المهام التوليدية التقليدية، ولكن النماذج الكبيرة للبيانات ثلاثية الأبعاد، وخاصة في التعامل بشكل شامل مع الأشكال ثلاثية الأبعاد مع طرائق أخرى، لا تزال غير مستكشفة. من خلال تحقيق أجيال الأشكال القائمة على التعليمات، يمكن لنماذج الأشكال التوليدية متعددة الوسائط أن تفيد بشكل كبير العديد من المجالات مثل البناء الافتراضي ثلاثي الأبعاد والتصميم بمساعدة الشبكة. في هذا العمل، نقدم ShapeGPT، وهو إطار عمل متعدد الوسائط متضمن الشكل للاستفادة من نماذج اللغة القوية المدربة مسبقًا لمعالجة المهام المتعددة ذات الصلة بالشكل. على وجه التحديد، يستخدم ShapeGPT إطار فقرة جملة وجملة لتقسيم الأشكال المستمرة إلى كلمات شكلية، وتجميع هذه الكلمات بشكل أكبر لجمل الشكل، بالإضافة إلى دمج الشكل مع النص التعليمي للفقرات متعددة الوسائط. لتعلم نموذج لغة الشكل هذا، نستخدم نظامًا تدريبيًا من ثلاث مراحل، بما في ذلك تمثيل الشكل، والمحاذاة متعددة الوسائط، والتوليد القائم على التعليمات، لمواءمة كتب رموز لغة الشكل وتعلم الارتباطات المعقدة بين هذه الطرائق. توضح التجارب الموسعة أن ShapeGPT يحقق أداءً مشابهًا عبر المهام ذات الصلة بالشكل، بما في ذلك تحويل النص إلى شكل، والشكل إلى نص، وإكمال الشكل، وتحرير الشكل.
إذا وجدت أن الكود أو الورق الخاص بنا يساعدك، فيرجى التفكير في الاستشهاد بما يلي:
@misc { yin2023shapegpt ,
title = { ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model } ,
author = { Fukun Yin and Xin Chen and Chi Zhang and Biao Jiang and Zibo Zhao and Jiayuan Fan and Gang Yu and Taihao Li and Tao Chen } ,
year = { 2023 } ,
eprint = { 2311.17618 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
بفضل طراز T5، وMotion-GPT، وPerceiver-IO، وSDFusion، يتم استعارة الكود الخاص بنا جزئيًا منهم. نهجنا مستوحى من Unified-IO، وMichelangelo، وShapeCrafter، وPix2Vox، و3DShape2VecSet.
يتم توزيع هذا الرمز بموجب ترخيص MIT.
لاحظ أن الكود الخاص بنا يعتمد على مكتبات أخرى، بما في ذلك PyTorch3D وPyTorch Lightning، ويستخدم مجموعات بيانات لكل منها تراخيص خاصة بها والتي يجب اتباعها أيضًا.