Alibaba merilis model inferensi multi-modal QVQ-72B! Kemampuan visual dan bahasa meningkat, dan masalah kompleks dapat diselesaikan dengan mudah.

Penulis：Eve Cole Waktu Pembaruan：2024-12-27 16:16:01

Model penalaran multi-modal QVQ-72B yang baru dirilis dari Alibaba dibuat berdasarkan Qwen2-VL-72B dan menunjukkan kinerja luar biasa dalam penalaran visual, matematika, dan masalah ilmiah. Hal ini dapat menggabungkan bahasa dan informasi visual, melakukan penalaran multi-langkah, dan memecahkan masalah yang kompleks. Hal ini terutama menonjol dalam penurunan hubungan sebab akibat dalam masalah fisik dan penalaran matematika yang kompleks, secara signifikan mengurangi tingkat kesalahan dan memberikan langkah-langkah pemecahan masalah yang jelas. QVQ-72B juga menunjukkan kemampuan yang efisien dan akurat untuk mengekstrak informasi penting dalam memproses laporan teknis dan analisis grafik yang kompleks, serta memiliki kemampuan pengenalan detail gambar yang akurat. Hal ini dapat diterapkan pada bidang-bidang seperti pemantauan cerdas dan mengemudi otonom.

QVQ-72B telah membuat terobosan besar di bidang AI multi-modal. Kemampuan penalarannya yang kuat memberikan ide dan alat baru untuk memecahkan masalah yang kompleks, memberikan dorongan baru ke dalam peningkatan kecerdasan di berbagai industri. Tautan uji coba online dan pengenalan mendetail adalah: https://huggingface.co/spaces/Qwen/QVQ-72B-preview dan https://qwenlm.github.io/blog/qvq-72b-preview/. Kemunculan QVQ-72B diyakini akan mendorong penerapan dan pengembangan teknologi kecerdasan buatan di lebih banyak bidang.