El laboratorio NExT++ de la Universidad Nacional de Singapur y el equipo de Liu Zhiyuan de la Universidad de Tsinghua colaboraron para desarrollar un potente modelo multimodal de gran tamaño que integra un módulo de detección y segmentación, simplificando significativamente el proceso de enmarañado. Los usuarios solo necesitan usar lenguaje natural para describir el objeto de destino, y el modelo puede etiquetarlo de manera rápida y precisa y proporcionar las explicaciones de texto correspondientes. Esta innovadora tecnología ha demostrado un rendimiento excelente en múltiples conjuntos de datos, especialmente en segmentación de referencias y tareas REC.
El gran modelo multimodal creado por el laboratorio NExT++ de la Universidad Nacional de Singapur y el equipo de Liu Zhiyuan en la Universidad de Tsinghua integra un módulo de detección y segmentación, lo que facilita el enmarañamiento de imágenes. Al describir los requisitos en lenguaje natural, el modelo puede marcar rápidamente los objetos que busca y proporcionar explicaciones en texto. Este modelo tiene un excelente rendimiento experimental en múltiples conjuntos de datos de tareas y tiene buena capacidad para hacer referencia a tareas de segmentación y REC. Además, este modelo también introduce un método de modelado de posición basado en incrustación, que tiene mejores capacidades de modelado de posición. Mediante la optimización del proceso de capacitación, el modelo también puede lograr un buen desempeño en tareas de segmentación con escasas anotaciones.
El método de modelado de posición basado en incrustación del modelo y el proceso de capacitación optimizado le permiten lograr resultados satisfactorios en tareas de segmentación con escasas anotaciones de datos, lo que demuestra su gran adaptabilidad y practicabilidad, y sienta las bases para futuras modalidades multimodales. nuevas direcciones e ideas. Se espera que el resultado de esta investigación tenga un amplio impacto en los campos relacionados con el procesamiento de imágenes y la inteligencia artificial.