Webmaster Home сообщил о MathVerse, новом эталоне для оценки мультимодальных моделей большого языка (MLLM) при визуальном решении математических задач. В этом тесте проверялась производительность нескольких MLLM при обработке математических задач, содержащих визуальную информацию. Результаты показали, что большинство моделей в значительной степени полагаются на визуальный ввод, в то время как GPT-4V хорошо справляется как с текстовым, так и с визуальным вводом. Это исследование предоставляет ценную информацию для разработки будущих MLLM, а также побуждает разработчиков и дальше обращать внимание на способность модели обрабатывать различную модальную информацию.
В статье основное внимание уделяется результатам теста MathVerse, подчеркивающим отличную производительность GPT-4V и зависимость большинства моделей от визуального ввода. Это исследование имеет большое значение для содействия разработке мультимодальных крупномасштабных языковых моделей. В будущем будут появляться все более мощные модели, позволяющие лучше справляться со сложными задачами, содержащими визуальную информацию.