Tim Peneliti Ilmiah Cina meluncurkan set data multimodal skala-super-mm Infinity-MM dan model AI AILA-VL-2B AI yang dilatih berdasarkan set data, membawa terobosan signifikan ke bidang AI multimodal. Kumpulan data Infinity-MM berisi deskripsi gambar besar, data instruksi visual dan data yang dihasilkan oleh model GPT-4, dan menggunakan model RAM ++ untuk analisis gambar dan sistem klasifikasi enam kategori yang unik untuk memastikan kualitas data. Model Aquila-VL-2B didasarkan pada arsitektur LLAVA-onevision, mengintegrasikan model bahasa QWEN-2.5 dan teknologi pemrosesan gambar SIGLIP, mengadopsi metode pelatihan progresif empat tahap, yang berkinerja sangat baik dalam berbagai tes benchmark, melampaui sistem yang serupa.
Dataset Infinity-MM sangat luar biasa dalam skala, dan berisi empat kategori data: 10 juta deskripsi gambar, 24,4 juta data instruksi visual umum, 6 juta data instruksi berkualitas tinggi yang dipilih, dan 3 juta model AI seperti GPT-4 yang dihasilkan data. Tim peneliti menggunakan model Open Source AI RAM ++ untuk analisis gambar dan ekstraksi informasi, dan memastikan kualitas dan keragaman data yang dihasilkan melalui sistem klasifikasi enam kategori yang unik.
Dalam hal arsitektur model, Aquila-VL-2B dibangun berdasarkan LLAVA-onevision dan mengintegrasikan model bahasa QWEN-2.5 dan teknologi pemrosesan gambar SIGLIP. Tim peneliti mengadopsi metode pelatihan bertahap empat tahap: Mulai dari pembelajaran korelasi grafis-teks dasar, secara bertahap beralih ke tugas visual umum dan pemrosesan instruksi khusus, dan akhirnya mengintegrasikan data sintetis, sementara secara bertahap meningkatkan batas atas resolusi gambar.
Meskipun hanya 2 miliar parameter, Aquila-VL-2B berkinerja baik dalam berbagai tes benchmark. Skor terbaik dalam tes kemampuan pemahaman multimodal MMSTAR mencapai 54,9%, dan skor tinggi dalam Tes Kemampuan Matematika Mathvista mencapai 59%, secara signifikan melampaui sistem serupa. Dalam tes pemahaman gambar umum, model mencapai hasil yang sangat baik masing -masing 43% dan 75,2% di HallusionBench dan Mmbench.
Studi ini menemukan bahwa pengenalan data sintetis berkontribusi secara signifikan terhadap peningkatan kinerja model. Eksperimen menunjukkan bahwa tanpa menggunakan data tambahan ini, kinerja model akan turun rata -rata 2,4%. Mulai dari tahap ketiga, kinerja Aquila-VL-2B secara signifikan melampaui model referensi seperti internvl2-2b dan qwen2vl-2b, terutama pada tahap keempat, peningkatan kinerja lebih jelas karena jumlah data meningkat.
Perlu disebutkan bahwa tim peneliti telah membuka set data dan model untuk komunitas penelitian, yang akan sangat mempromosikan pengembangan teknologi AI multimodal. Model ini tidak hanya menyelesaikan pelatihan tentang NVIDIA A100GPU, tetapi juga mendukung chip yang dikembangkan sendiri oleh Cina, menunjukkan kemampuan beradaptasi perangkat keras yang kuat.
Keberhasilan model Aquila-VL-2B, serta sumber terbuka set data dan model, menandai kemajuan yang signifikan dalam bidang kecerdasan buatan multimoda China, memberikan fondasi yang kuat untuk pengembangan AI di masa depan, dan juga menunjukkan teknologi multimodal AI akan mengantarkan prospek aplikasi yang lebih luas.