Une équipe de recherche de l’Université des sciences et technologies de Huazhong, de ByteDance et de l’Université Johns Hopkins a lancé conjointement un modèle de base universel au niveau objet appelé GLEE. Ce résultat de recherche révolutionnaire surmonte les limites des modèles basés sur la vision existants et apporte de nouvelles possibilités dans le domaine de l’analyse d’images et de vidéos. Le modèle GLEE fonctionne bien dans diverses tâches, démontrant de fortes capacités de flexibilité et de généralisation, en particulier dans les scénarios d'apprentissage par transfert zéro. Il intègre plusieurs sources de données, y compris de grandes quantités de données automatiquement annotées, pour fournir des informations précises et universelles au niveau des objets.
GLEE fonctionne bien dans diverses tâches, faisant preuve de flexibilité et de capacités de généralisation, en particulier dans les scénarios de transmission sans tir. Le modèle fournit des informations précises et générales au niveau de l'objet en intégrant diverses sources de données, y compris de grandes quantités de données automatiquement étiquetées. Les orientations de recherche futures incluent l’extension des capacités de traitement de scénarios complexes et d’ensembles de données distribués à longue traîne pour améliorer l’adaptabilité.
L'émergence du modèle GLEE marque un progrès significatif dans le domaine des modèles visuels de base, et ses excellentes performances et ses larges perspectives d'application méritent d'être attendues. À l’avenir, l’équipe de recherche s’efforcera d’améliorer l’adaptabilité du modèle GLEE dans les scènes complexes et les données à longue traîne, d’élargir encore son champ d’application et d’apporter un impact plus large à la technologie d’analyse d’images et de vidéos.