O laboratório NExT++ da Universidade Nacional de Cingapura e a equipe de Liu Zhiyuan da Universidade de Tsinghua colaboraram para desenvolver um poderoso modelo multimodal de grande porte que integra um módulo de detecção e segmentação, simplificando significativamente o processo de fosqueamento. Os usuários só precisam usar linguagem natural para descrever o objeto alvo, e o modelo pode rotulá-lo com rapidez e precisão e fornecer explicações de texto correspondentes. Esta tecnologia inovadora demonstrou excelente desempenho em vários conjuntos de dados, especialmente em segmentação de referência e tarefas REC.
O grande modelo multimodal criado pelo laboratório NExT++ da Universidade Nacional de Cingapura e pela equipe de Liu Zhiyuan da Universidade de Tsinghua integra um módulo de detecção e segmentação, facilitando o fosqueamento de imagens. Ao descrever requisitos em linguagem natural, o modelo pode marcar rapidamente os objetos que procura e fornecer explicações em texto. Este modelo tem excelente desempenho experimental em conjuntos de dados de múltiplas tarefas e tem boa capacidade de se referir a segmentação e tarefas REC. Além disso, este modelo também introduz um método de modelagem de posição baseado em incorporação, que possui melhores capacidades de modelagem de posição. Através da otimização do processo de treinamento, o modelo também pode obter bom desempenho em tarefas de segmentação com anotações escassas.
O método de modelagem de posição baseado em incorporação do modelo e o processo de treinamento otimizado permitem alcançar resultados satisfatórios em tarefas de segmentação com anotações de dados escassas, demonstrando sua forte adaptabilidade e praticidade e estabelecendo as bases para futuras modalidades multimodais. novos rumos e ideias. Espera-se que o resultado desta pesquisa tenha um amplo impacto nas áreas relacionadas ao processamento de imagens e à inteligência artificial.