علم محرر Downcodes أن فرق البحث من معهد إلينوي للتكنولوجيا وجامعات أخرى أصدرت بشكل مشترك Robin3D، وهو نموذج لغة كبير جديد للمشهد ثلاثي الأبعاد. تم تدريب النموذج على مجموعة بيانات ضخمة تحتوي على ملايين التعليمات وحقق أداءً متطورًا في خمسة معايير تعليمية ثلاثية الأبعاد متعددة الوسائط شائعة الاستخدام. يكمن ابتكار Robin3D في محرك البيانات RIG الخاص به، والذي يمكنه إنشاء بيانات تعليمات عدائية ومتنوعة، وبالتالي تحسين قدرات التمييز والفهم والتعميم للنموذج، والتغلب على قدرات التعميم غير الكافية لنموذج اللغة الكبيرة ثلاثي الأبعاد الحالي ومشاكل الإفراط في الملاءمة. كما أنه يدمج تقنيات مثل Relationship Augmentation Projector (RAP) وID Features Binding (IFB) لتعزيز فهم النموذج للمشاهد والأشياء.
تم تدريب النموذج على مجموعة بيانات واسعة النطاق تحتوي على مليون تعليمات يجب اتباعها، وحقق أداءً متطورًا في خمسة معايير تعليمية ثلاثية الأبعاد متعددة الوسائط شائعة الاستخدام، مما يمثل خطوة مهمة في بناء نموذج عالمي ثلاثي الأبعاد. في اتجاه العملاء الأذكياء.
يعود نجاح Robin3D إلى محرك البيانات المبتكر RIG (توليد التعليمات القوية). تم تصميم محرك RIG لإنشاء نوعين رئيسيين من بيانات الأوامر: بيانات الامتثال لأوامر الخصم وبيانات الامتثال للأوامر المتنوعة.
تعمل بيانات المتابعة العدائية على تعزيز الفهم التمييزي للنموذج من خلال مزج العينات الإيجابية والسلبية، في حين تحتوي بيانات المتابعة المتنوعة على أنماط تعليمات مختلفة لتعزيز قدرة تعميم النموذج.
وأشار الباحثون إلى أن نماذج اللغات الكبيرة ثلاثية الأبعاد الحالية تعتمد بشكل أساسي على الاقتران اللغوي المرئي ثلاثي الأبعاد الأمامي والتعليمات القائمة على القالب للتدريب، مما يؤدي إلى عدم كفاية قدرات التعميم وخطر التجاوز. يتغلب Robin3D بشكل فعال على هذه القيود من خلال تقديم بيانات تعليمات متعارضة ومتنوعة.
يدمج نموذج Robin3D أيضًا إمكانات الرجوع وتحديد المواقع الخاصة بمعرف جهاز العرض المعزز (RAP) (IFB). تعمل وحدة RAP على تحسين الميزات التي تركز على الكائن من خلال المعلومات السياقية والموقعية الغنية على مستوى المشهد، بينما تعمل وحدة IFB على تقوية الاتصالات بين كل معرف من خلال ربطها بالميزات المقابلة لها.
تظهر النتائج التجريبية أن Robin3D يتفوق على أفضل الأساليب السابقة في خمسة معايير بما في ذلك ScanRefer وMulti3DRefer وScan2Cap وScanQA وSQA3D دون الحاجة إلى الضبط الدقيق لمهام محددة.
خاصة في تقييم Multi3DRefer بما في ذلك حالة الهدف الصفري، حقق Robin3D تحسينات كبيرة بنسبة 7.8% و7.3% في مؤشرات [email protected] و[email protected] على التوالي.
يمثل إصدار Robin3D تقدمًا كبيرًا في الذكاء المكاني لنماذج اللغات الكبيرة ثلاثية الأبعاد، مما يضع أساسًا متينًا لبناء عوامل ثلاثية الأبعاد أكثر تنوعًا وقوة في المستقبل.
عنوان الورقة: https://arxiv.org/pdf/2410.00255
لقد أدى ظهور Robin3D بلا شك إلى تحقيق اختراقات جديدة في مجالات الرؤية ثلاثية الأبعاد والذكاء الاصطناعي، كما أن أدائها القوي وآفاق تطبيقها الواسعة تستحق التطلع إليها. أعتقد أن Robin3D سيلعب دورًا في المستقبل في المزيد من المجالات وسيعزز التطور السريع للذكاء ثلاثي الأبعاد. سيستمر محرر Downcodes في الاهتمام بآخر التطورات في هذا المجال.