MathVerse, une nouvelle référence pour évaluer les grands modèles de langage multimodaux (MLLM) dans la résolution de problèmes mathématiques visuels, a été rapporté par Webmaster Home. Ce benchmark a testé les performances de plusieurs MLLM dans le traitement de problèmes mathématiques contenant des informations visuelles. Les résultats ont montré que la plupart des modèles reposaient fortement sur la saisie visuelle, tandis que GPT-4V fonctionnait bien sur la saisie textuelle et visuelle. Cette recherche fournit une référence précieuse pour le développement de futurs MLLM et incite également les développeurs à prêter davantage attention à la capacité du modèle à traiter différentes informations modales.
L'article se concentre sur les résultats du benchmark MathVerse, soulignant les excellentes performances de GPT-4V et la dépendance de la plupart des modèles à l'égard de l'entrée visuelle. Cette recherche revêt une grande importance pour promouvoir le développement de modèles de langage multimodaux à grande échelle. À l'avenir, des modèles de plus en plus puissants émergeront pour mieux gérer des tâches complexes contenant des informations visuelles.