Laboratorium NExT++ di National University of Singapore dan tim Liu Zhiyuan di Tsinghua University berkolaborasi untuk mengembangkan model besar multimodal yang kuat yang mengintegrasikan modul deteksi dan segmentasi, sehingga menyederhanakan proses matting secara signifikan. Pengguna hanya perlu menggunakan bahasa alami untuk mendeskripsikan objek target, dan model dapat memberi label dengan cepat dan akurat serta memberikan penjelasan teks yang sesuai. Teknologi terobosan ini telah menunjukkan kinerja luar biasa pada beberapa kumpulan data, terutama pada segmentasi referensi dan tugas REC.
Model multi-modal besar yang dibuat oleh laboratorium NExT++ di National University of Singapore dan tim Liu Zhiyuan di Tsinghua University mengintegrasikan modul deteksi dan segmentasi, sehingga mempermudah pembuatan gambar. Dengan mendeskripsikan persyaratan dalam bahasa alami, model dapat dengan cepat menandai objek yang dicarinya dan memberikan penjelasan teks. Model ini memiliki performa eksperimental yang sangat baik pada kumpulan data beberapa tugas dan memiliki kemampuan yang baik untuk merujuk pada tugas segmentasi dan REC. Selain itu, model ini juga memperkenalkan metode pemodelan posisi berbasis embedding yang memiliki kemampuan pemodelan posisi lebih baik. Melalui optimalisasi proses pelatihan, model juga dapat mencapai performa yang baik pada tugas segmentasi dengan anotasi yang langka.
Metode pemodelan posisi berbasis penyematan model dan proses pelatihan yang dioptimalkan memungkinkannya mencapai hasil yang memuaskan dalam tugas segmentasi dengan anotasi data yang langka, menunjukkan kemampuan beradaptasi dan kepraktisan yang kuat, dan meletakkan dasar untuk modalitas multi-modal di masa depan arah dan ide baru. Hasil penelitian ini diharapkan dapat memberikan dampak yang luas dalam bidang terkait pengolahan citra dan kecerdasan buatan.