Baru-baru ini, Universitas Sains dan Teknologi Huazhong dan institusi lainnya bersama-sama merilis tolok ukur baru untuk model besar multimodal. Tolok ukur tersebut mencakup lima tugas utama dan 27 kumpulan data, sehingga memberikan standar yang lebih komprehensif untuk evaluasi model besar multimodal. Peluncuran benchmark ini bertujuan untuk mendorong pengembangan teknologi model besar multimodal dan mempromosikan penerapannya di berbagai bidang. Hasil evaluasi pada tolok ukur baru menunjukkan bahwa model yang ada memiliki kinerja yang baik pada beberapa tugas namun masih memiliki kekurangan pada tugas lainnya, sehingga memberikan referensi penting untuk arah penelitian di masa depan.
Universitas Sains dan Teknologi Huazhong dan institusi lainnya merilis tolok ukur baru untuk model besar multimodal, yang mencakup lima tugas utama dan 27 kumpulan data. Hasil evaluasi menunjukkan kinerja yang sangat baik pada tugas-tugas seperti pengenalan teks dan menjawab pertanyaan dokumen, namun terdapat tantangan dalam ketergantungan semantik, teks tulisan tangan, dan teks multibahasa. Tim peneliti membangun OCRBench untuk mengevaluasi kemampuan OCR secara lebih akurat dan memberikan panduan untuk pengembangan model multimodal besar. Pengenalan OCRBench memberi para peneliti alat yang komprehensif untuk mempromosikan evaluasi yang akurat dan peningkatan model besar multi-modal di bidang OCR.
Hasil penelitian ini tidak hanya memberikan pengalaman berharga bagi pengembangan model multi-modal besar, namun juga memberikan landasan yang kokoh untuk mendorong penerapan teknologi kecerdasan buatan di berbagai bidang yang lebih luas. Di masa depan, kami berharap lebih banyak penelitian serupa dapat membantu kita lebih memahami dan menerapkan model multi-modal besar, sehingga mencapai kemajuan terobosan dalam teknologi kecerdasan buatan.