Este artigo apresenta o mais recente modelo de IA de alta resolução Griffon v2. O modelo combina dicas textuais e visuais, permite referência flexível de objetos e melhora a percepção multimodal por meio de projetores de redução de resolução. Em tarefas como geração de expressões de referência, posicionamento de frases e compreensão de expressões de referência, o Griffon v2 supera os modelos especialistas, mostrando especialmente vantagens significativas na estrutura de correferência visual-linguística, detecção de alvos e contagem de objetos. O seu surgimento marca um progresso importante na compreensão e aplicação multimodal de modelos de IA.
O mais recente modelo de IA de alta resolução, Griffon v2, combina dicas textuais e visuais para fornecer referência flexível de objetos. A equipe usou projetores de redução de resolução para aprimorar as capacidades de percepção multimodal. O modelo tem um bom desempenho em tarefas de geração de expressões de cotação, localização de frases e compreensão de expressões de cotação, superando os modelos especialistas. Possui estrutura de correferência visual-linguística e mostra superioridade na detecção de alvos e contagem de objetos.
O avanço do modelo Griffon v2 na compreensão multimodal oferece possibilidades mais amplas para futuras aplicações de IA. Seu desempenho superior na detecção de alvos e contagem de objetos também indica seu enorme potencial em aplicações práticas. Acredita-se que no futuro surgirão aplicações mais inovadoras baseadas neste modelo.