Le laboratoire NExT++ de l'Université nationale de Singapour et l'équipe de Liu Zhiyuan de l'Université Tsinghua ont collaboré pour développer un grand modèle multimodal puissant qui intègre un module de détection et de segmentation, simplifiant considérablement le processus de matage. Les utilisateurs n'ont besoin que d'utiliser un langage naturel pour décrire l'objet cible, et le modèle peut l'étiqueter rapidement et avec précision et fournir les explications textuelles correspondantes. Cette technologie révolutionnaire a démontré d’excellentes performances sur plusieurs ensembles de données, en particulier sur les tâches de segmentation référente et REC.
Le grand modèle multimodal créé par le laboratoire NExT++ de l'Université nationale de Singapour et l'équipe de Liu Zhiyuan de l'Université Tsinghua intègre un module de détection et de segmentation, facilitant le maillage d'image. En décrivant les exigences en langage naturel, le modèle peut rapidement marquer les objets qu'il recherche et fournir des explications textuelles. Ce modèle a d'excellentes performances expérimentales sur plusieurs ensembles de données de tâches et a une bonne capacité à faire référence aux tâches de segmentation et REC. De plus, ce modèle introduit également une méthode de modélisation de position basée sur l'intégration, qui offre de meilleures capacités de modélisation de position. Grâce à l'optimisation du processus de formation, le modèle peut également obtenir de bonnes performances sur les tâches de segmentation avec peu d'annotations.
La méthode de modélisation de position basée sur l'intégration et le processus de formation optimisé du modèle lui permettent d'obtenir des résultats satisfaisants dans les tâches de segmentation avec de rares annotations de données, démontrant sa forte adaptabilité et sa praticabilité, et jetant les bases de futures modalités multimodales. de nouvelles orientations et idées. Ce résultat de recherche devrait avoir un large impact dans les domaines liés au traitement d’images et à l’intelligence artificielle.