أطلق فريق بحث من جامعة هواتشونغ للعلوم والتكنولوجيا وByteDance وجامعة جونز هوبكنز نموذجًا أساسيًا عالميًا على مستوى الكائن يسمى GLEE. تتغلب نتيجة البحث المتقدمة هذه على القيود المفروضة على النماذج القائمة على الرؤية الحالية وتجلب إمكانيات جديدة في مجال تحليل الصور والفيديو. يؤدي نموذج GLEE أداءً جيدًا في العديد من المهام، مما يُظهر مرونة قوية وقدرات تعميمية، خاصة في سيناريوهات التعلم بالنقل الصفري. فهو يدمج مصادر بيانات متعددة، بما في ذلك كميات كبيرة من البيانات المشروحة تلقائيًا، لتوفير معلومات دقيقة وعالمية على مستوى الكائن.
يؤدي GLEE أداءً جيدًا في العديد من المهام، مما يُظهر المرونة وقدرات التعميم، خاصة في سيناريوهات الإرسال بدون طلقة. يوفر النموذج معلومات دقيقة وعامة على مستوى الكائن من خلال دمج مصادر البيانات المختلفة، بما في ذلك كميات كبيرة من البيانات التي تم تصنيفها تلقائيًا. تتضمن اتجاهات البحث المستقبلية توسيع القدرات في معالجة السيناريوهات المعقدة ومجموعات البيانات الموزعة طويلة الذيل لتحسين القدرة على التكيف.
يمثل ظهور نموذج GLEE تقدمًا كبيرًا في مجال النماذج الأساسية المرئية، ويستحق أدائه الممتاز وآفاق التطبيق الواسعة التطلع إليه. في المستقبل، سيعمل فريق البحث على تحسين قدرة نموذج GLEE على التكيف في المشاهد المعقدة والبيانات الطويلة، وتوسيع نطاق تطبيقه بشكل أكبر، وإحداث تأثير أوسع على تقنية تحليل الصور والفيديو.