MathVerse, uma nova referência para avaliar modelos multimodais de linguagem grande (MLLMs) na resolução de problemas matemáticos visuais, foi relatado pelo Webmaster Home. Este benchmark testou o desempenho de vários MLLMs no processamento de problemas matemáticos contendo informações visuais. Os resultados mostraram que a maioria dos modelos dependia fortemente de entrada visual, enquanto o GPT-4V teve um bom desempenho tanto em entrada de texto quanto em entrada visual. Esta pesquisa fornece uma referência valiosa para o desenvolvimento de futuros MLLMs e também incentiva os desenvolvedores a prestarem mais atenção à capacidade do modelo de processar diferentes informações modais.
O artigo concentra-se nos resultados do benchmark MathVerse, destacando o excelente desempenho do GPT-4V e a dependência da maioria dos modelos de entrada visual. Esta pesquisa é de grande importância na promoção do desenvolvimento de modelos de linguagem multimodais em grande escala. No futuro, surgirão modelos cada vez mais poderosos para lidar melhor com tarefas complexas contendo informações visuais.