Alibaba mengumumkan bahwa mereka akan membuat model bahasa visual generasi kedua Qwen2-VL menjadi open source dan menyediakan antarmuka API dan kode sumber terbuka untuk memfasilitasi penggunaan pengembang. Model ini telah mencapai kemajuan signifikan dalam pemahaman gambar dan video, mendukung berbagai bahasa, dan memiliki kemampuan agen visual yang kuat, mampu mengoperasikan ponsel dan robot secara mandiri. Qwen2-VL menyediakan model dalam tiga ukuran: 2B, 7B dan 72B untuk memenuhi kebutuhan skenario aplikasi yang berbeda. Model 72B memiliki kinerja terbaik pada sebagian besar indikator, sedangkan model 2B cocok untuk aplikasi seluler.
Pada tanggal 2 September, Tongyi Qianwen mengumumkan open source model bahasa visual generasi kedua Qwen2-VL, dan meluncurkan API untuk ukuran 2B dan 7B serta model versi terukurnya di platform Alibaba Cloud Bailian agar pengguna dapat langsung menelepon.
Model Qwen2-VL mencapai peningkatan kinerja komprehensif dalam berbagai aspek. Ia dapat memahami gambar dengan resolusi dan rasio aspek berbeda, dan telah mencapai kinerja terdepan di dunia dalam pengujian benchmark seperti DocVQA, RealWorldQA, dan MTVQA. Selain itu, model ini juga dapat memahami video berdurasi lebih dari 20 menit dan mendukung aplikasi tanya jawab, dialog, dan pembuatan konten berbasis video. Qwen2-VL juga memiliki kemampuan kecerdasan visual yang kuat dan dapat mengoperasikan ponsel dan robot secara mandiri untuk melakukan penalaran dan pengambilan keputusan yang kompleks.
Model ini mampu memahami teks multibahasa dalam gambar dan video, termasuk bahasa Mandarin, Inggris, sebagian besar bahasa Eropa, Jepang, Korea, Arab, Vietnam, dan banyak lagi. Tim Tongyi Qianwen mengevaluasi kemampuan model dari enam aspek, termasuk soal kuliah komprehensif, kemampuan matematika, pemahaman dokumen, tabel, teks dan gambar multi-bahasa, tanya jawab adegan umum, pemahaman video, dan kemampuan agen.
Sebagai model andalan, Qwen2-VL-72B telah mencapai level optimal di sebagian besar indikator. Qwen2-VL-7B mencapai kinerja yang sangat kompetitif dengan skala parameter ekonomisnya, sementara Qwen2-VL-2B mendukung aplikasi seluler yang kaya dan memiliki kemampuan pemahaman multi-bahasa gambar dan video yang lengkap.
Dalam hal arsitektur model, Qwen2-VL melanjutkan struktur seri ViT plus Qwen2. Ketiga ukuran model menggunakan 600M ViT, mendukung input gambar dan video terpadu. Untuk meningkatkan persepsi model terhadap informasi visual dan kemampuan pemahaman video, tim telah meningkatkan arsitekturnya, termasuk menerapkan dukungan penuh untuk resolusi dinamis asli dan menggunakan metode penyematan posisi rotasi multi-modal (M-ROPE).
Platform Alibaba Cloud Bailian menyediakan API Qwen2-VL-72B, yang dapat dihubungi langsung oleh pengguna. Pada saat yang sama, kode sumber terbuka Qwen2-VL-2B dan Qwen2-VL-7B telah diintegrasikan ke dalam Hugging Face Transformers, vLLM, dan kerangka kerja pihak ketiga lainnya, dan pengembang dapat mengunduh dan menggunakan model tersebut melalui platform ini.
Platform Alibaba Cloud Bailian:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
Memeluk Wajah:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
Lingkup Model Ajaib:
https://modelscope.cn/organization/qwen?tab=model
Pengalaman model:
https://huggingface.co/spaces/Qwen/Qwen2-VL
Singkatnya, sumber terbuka model Qwen2-VL memberi pengembang alat yang canggih, mendorong pengembangan teknologi model bahasa visual, dan menghadirkan lebih banyak kemungkinan ke berbagai skenario aplikasi. Pengembang dapat memperoleh model dan kode melalui tautan yang disediakan untuk mulai membangun aplikasi mereka sendiri.