Das NExT++-Labor an der National University of Singapore und das Team von Liu Zhiyuan an der Tsinghua-Universität arbeiteten zusammen, um ein leistungsstarkes multimodales großes Modell zu entwickeln, das ein Erkennungs- und Segmentierungsmodul integriert und so den Mattierungsprozess erheblich vereinfacht. Benutzer müssen nur natürliche Sprache verwenden, um das Zielobjekt zu beschreiben, und das Modell kann es schnell und genau beschriften und entsprechende Texterklärungen bereitstellen. Diese bahnbrechende Technologie hat bei mehreren Datensätzen eine hervorragende Leistung gezeigt, insbesondere bei Referenzsegmentierungs- und REC-Aufgaben.
Das große multimodale Modell, das vom NExT++-Labor der National University of Singapore und dem Team von Liu Zhiyuan an der Tsinghua-Universität erstellt wurde, integriert ein Erkennungs- und Segmentierungsmodul und erleichtert so die Bildmattierung. Durch die Beschreibung von Anforderungen in natürlicher Sprache kann das Modell die gesuchten Objekte schnell markieren und Texterklärungen bereitstellen. Dieses Modell weist eine hervorragende experimentelle Leistung bei mehreren Aufgabendatensätzen auf und verfügt über eine gute Fähigkeit, sich auf Segmentierungs- und REC-Aufgaben zu beziehen. Darüber hinaus führt dieses Modell auch eine auf Einbettung basierende Positionsmodellierungsmethode ein, die über bessere Positionsmodellierungsfunktionen verfügt. Durch die Optimierung des Trainingsprozesses kann das Modell auch bei Segmentierungsaufgaben mit wenigen Anmerkungen eine gute Leistung erzielen.
Die einbettungsbasierte Positionsmodellierungsmethode und der optimierte Trainingsprozess ermöglichen es dem Modell, bei Segmentierungsaufgaben mit knappen Datenanmerkungen zufriedenstellende Ergebnisse zu erzielen, was seine starke Anpassungsfähigkeit und Praktikabilität unter Beweis stellt und den Grundstein für zukünftige multimodale Modalitäten legt neue Wege und Ideen. Es wird erwartet, dass dieses Forschungsergebnis weitreichende Auswirkungen auf die Bereiche Bildverarbeitung und künstliche Intelligenz haben wird.