تعاون مختبر NExT++ في جامعة سنغافورة الوطنية وفريق Liu Zhiyuan في جامعة Tsinghua لتطوير نموذج كبير قوي متعدد الوسائط يدمج وحدة الكشف والتجزئة، مما يبسط عملية الصقل بشكل كبير. يحتاج المستخدمون فقط إلى استخدام اللغة الطبيعية لوصف الكائن المستهدف، ويمكن للنموذج تصنيفه بسرعة ودقة وتقديم تفسيرات نصية مقابلة. لقد أظهرت هذه التقنية المتقدمة أداءً ممتازًا في مجموعات بيانات متعددة، خاصة في تجزئة المرجع ومهام REC.
يدمج النموذج الكبير متعدد الوسائط الذي أنشأه مختبر NExT++ التابع لجامعة سنغافورة الوطنية وفريق Liu Zhiyuan في جامعة Tsinghua، وحدة الكشف والتجزئة، مما يجعل قطع الصورة أسهل. من خلال وصف المتطلبات باللغة الطبيعية، يمكن للنموذج وضع علامة بسرعة على الكائنات التي يبحث عنها وتقديم تفسيرات نصية. يتمتع هذا النموذج بأداء تجريبي ممتاز في مجموعات بيانات المهام المتعددة ولديه قدرة جيدة على الإشارة إلى مهام التجزئة والتسجيل. بالإضافة إلى ذلك، يقدم هذا النموذج أيضًا طريقة لنمذجة الموضع تعتمد على التضمين، والتي تتمتع بقدرات أفضل لنمذجة الموضع. من خلال تحسين عملية التدريب، يمكن للنموذج أيضًا تحقيق أداء جيد في مهام التجزئة ذات التعليقات التوضيحية النادرة.
يعتمد هذا النموذج على طريقة نمذجة الموضع المضمنة وعملية التدريب المحسنة، مما يمكّنه من تحقيق نتائج مرضية في مهام التجزئة مع شروح البيانات النادرة، مما يدل على قدرته القوية على التكيف وقابلية التطبيق العملي، ووضع الأساس لنماذج مستقبلية متعددة الوسائط يوفر النموذج اتجاهات وأفكارًا جديدة. ومن المتوقع أن يكون لنتيجة هذا البحث تأثير واسع في المجالات المتعلقة بمعالجة الصور والذكاء الاصطناعي.