Alibaba Damo Academy merilis pembaruan besar pada model bahasa multi-modal berskala besar Qwen2-VL pada tanggal 30 Agustus 2024. Pembaruan ini membuat kemajuan signifikan dalam pemahaman gambar, pemrosesan video, dan dukungan multi-bahasa serta menetapkan tolok ukur kinerja baru. Model Qwen2-VL tidak hanya meningkatkan pemahaman informasi visual, namun juga memiliki kemampuan pemahaman video tingkat lanjut dan fungsi agen visualisasi terintegrasi, memungkinkannya melakukan penalaran dan pengambilan keputusan yang lebih kompleks. Selain itu, dukungan multi-bahasa yang diperluas membuatnya lebih mudah digunakan secara global.
Model Qwen2-VL telah mencapai peningkatan signifikan dalam pemahaman gambar, pemrosesan video, dan dukungan multi-bahasa, sehingga menetapkan tolok ukur baru untuk indikator kinerja utama. Fitur-fitur baru dari model Qwen2-VL mencakup peningkatan kemampuan pemahaman gambar yang memungkinkan pemahaman dan interpretasi informasi visual yang lebih akurat; kemampuan pemahaman video tingkat lanjut yang memungkinkan model menganalisis konten video dinamis secara real-time; dan kemampuan agen visualisasi terintegrasi yang mengubah model menjadi agen yang kuat untuk penalaran dan pengambilan keputusan yang kompleks; dan memperluas dukungan multi-bahasa, menjadikannya lebih mudah diakses dan efektif dalam lingkungan bahasa yang berbeda.
Dalam hal arsitektur teknis, Qwen2-VL mengimplementasikan dukungan resolusi dinamis dan dapat memproses gambar dengan resolusi apa pun tanpa membaginya menjadi beberapa blok, sehingga memastikan konsistensi antara masukan model dan informasi yang melekat pada gambar. Selain itu, inovasi Multimodal Rotary Position Embedding (M-ROPE) memungkinkan model untuk secara bersamaan menangkap dan mengintegrasikan teks 1D, visi 2D, dan informasi posisi video 3D.
Model Qwen2-VL-7B berhasil mempertahankan dukungan untuk input gambar, multi-gambar, dan video pada skala 7B, dan berfungsi dengan baik dalam tugas pemahaman dokumen dan pemahaman teks multibahasa berbasis gambar.
Pada saat yang sama, tim juga meluncurkan model 2B yang dioptimalkan untuk penerapan seluler. Meskipun jumlah parameternya hanya 2B, model ini berkinerja baik dalam pemahaman gambar, video, dan multi-bahasa.
Tautan model:
Qwen2-VL-2B-Instruct: https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct: https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct
Pembaruan model Qwen2-VL menandai terobosan baru dalam teknologi model bahasa multi-modal berskala besar. Kemampuannya yang kuat dalam pemrosesan gambar, video, dan multi-bahasa memberikan prospek luas untuk penerapan di masa depan. Peluncuran dua versi, 7B dan 2B, juga memberikan opsi yang lebih fleksibel untuk skenario aplikasi berbeda.