Editor Downcodes mengetahui bahwa tim peneliti ilmiah Tiongkok telah meluncurkan kumpulan data multi-modal skala ultra-besar Infinity-MM dan model AI Aquila-VL-2B berdasarkan pelatihannya. Kumpulan data ini berisi deskripsi gambar yang sangat besar, data instruksi visual, dll., dan menggunakan analisis gambar canggih dan teknologi ekstraksi informasi untuk memastikan kualitas dan keragaman data. Model Aquila-VL-2B berkinerja baik dalam berbagai pengujian benchmark, melampaui sistem serupa dan menunjukkan kemajuan signifikan Tiongkok di bidang AI multimodal. Sifatnya yang open source akan sangat mendorong penelitian akademis dan pengembangan teknologi.
Skala kumpulan data Infinity-MM sangat mencengangkan, berisi empat kategori utama data: 10 juta deskripsi gambar, 24,4 juta data instruksi visual umum, 6 juta data instruksi berkualitas tinggi terpilih, dan 3 juta model AI seperti GPT-4 yang dihasilkan data. Tim peneliti menggunakan model AI open source RAM++ untuk analisis gambar dan ekstraksi informasi, serta memastikan kualitas dan keragaman data yang dihasilkan melalui sistem klasifikasi enam kategori yang unik.
Dalam hal arsitektur model, Aquila-VL-2B dibangun di atas LLaVA-OneVision dan mengintegrasikan model bahasa Qwen-2.5 dan teknologi pemrosesan gambar SigLIP. Tim peneliti mengadopsi metode pelatihan progresif empat tahap: dimulai dari pembelajaran dasar asosiasi gambar-teks, secara bertahap beralih ke tugas visual umum, pemrosesan instruksi khusus, dan akhirnya menggabungkan data sintetis, sambil secara bertahap meningkatkan batas atas resolusi gambar.
Meski hanya memiliki skala parameter 2 miliar, Aquila-VL-2B tampil baik di berbagai pengujian benchmark. Ia mencapai skor terbaik sebesar 54,9% dalam tes kemampuan pemahaman multi-modal MMStar, dan bahkan mencapai skor tinggi sebesar 59% dalam tes kemampuan matematika MathVista, secara signifikan melampaui sistem serupa. Dalam tes pemahaman gambar secara umum, model mencapai hasil yang sangat baik masing-masing sebesar 43% dan 75,2% di HallusionBench dan MMBench.
Penelitian menemukan bahwa pengenalan data sintetik berkontribusi signifikan terhadap peningkatan kinerja model. Eksperimen menunjukkan bahwa tanpa menggunakan data tambahan ini, performa model turun rata-rata sebesar 2,4%. Mulai dari tahap ketiga, kinerja Aquila-VL-2B telah secara signifikan melampaui model referensi seperti InternVL2-2B dan Qwen2VL-2B. Khususnya pada tahap keempat, seiring dengan bertambahnya jumlah data, peningkatan kinerja menjadi lebih jelas.
Perlu disebutkan bahwa tim peneliti telah membuka kumpulan data dan model kepada komunitas riset, yang akan sangat mendorong pengembangan teknologi AI multimodal. Model ini tidak hanya dilatih pada GPU Nvidia A100, tetapi juga mendukung chip yang dikembangkan sendiri di Tiongkok, sehingga menunjukkan kemampuan adaptasi perangkat keras yang kuat.
Peluncuran model Aquila-VL-2B menandai terobosan besar dalam bidang AI multi-modal di Tiongkok. Sifat open source dan kinerjanya yang kuat akan mendorong pengembangan teknologi dan inovasi aplikasi di bidang ini, sehingga menambah vitalitas baru dalam pengembangan masa depan dari kecerdasan buatan. Editor Downcodes menantikan perkembangan terobosan serupa di masa depan.