MathVerse, tolok ukur baru untuk mengevaluasi model bahasa besar multimodal (MLLM) dalam pemecahan masalah matematika visual, dilaporkan oleh Webmaster Home. Tolok ukur ini menguji performa beberapa MLLM dalam memproses soal matematika yang berisi informasi visual. Hasilnya menunjukkan bahwa sebagian besar model sangat bergantung pada masukan visual, sedangkan GPT-4V memiliki performa yang baik pada masukan teks dan visual. Penelitian ini memberikan referensi berharga untuk pengembangan MLLM di masa depan, dan juga mendorong pengembang untuk lebih memperhatikan kemampuan model dalam memproses informasi modal yang berbeda.
Artikel ini berfokus pada hasil benchmark MathVerse, menyoroti performa luar biasa GPT-4V dan ketergantungan sebagian besar model pada input visual. Penelitian ini sangat penting dalam mendorong pengembangan model bahasa multi-modal berskala besar. Di masa depan, model yang lebih kuat akan muncul untuk menangani tugas-tugas kompleks yang berisi informasi visual dengan lebih baik.