Artikel ini memperkenalkan model AI resolusi tinggi terbaru Griffon v2. Model ini menggabungkan isyarat tekstual dan visual, memungkinkan referensi objek yang fleksibel, dan meningkatkan persepsi multimodal melalui proyektor downsampling. Dalam tugas-tugas seperti pembuatan ekspresi referensi, pemosisian frasa, dan pemahaman ekspresi referensi, Griffon v2 mengungguli model pakar, terutama menunjukkan keunggulan signifikan dalam struktur inti referensi visual-linguistik, deteksi target, dan penghitungan objek. Kemunculannya menandai kemajuan penting dalam pemahaman multimodal dan penerapan model AI.
Model AI resolusi tinggi terbaru, Griffon v2, menggabungkan isyarat tekstual dan visual untuk memberikan referensi objek yang fleksibel. Tim menggunakan proyektor downsampling untuk meningkatkan kemampuan persepsi multimodal. Model ini berkinerja baik dalam pembuatan ekspresi kutipan, pelokalan frasa, dan tugas pemahaman ekspresi kutipan, mengungguli model pakar. Ia memiliki struktur inti referensi visual-linguistik dan menunjukkan keunggulan dalam deteksi target dan penghitungan objek.
Terobosan model Griffon v2 dalam pemahaman multi-modal memberikan kemungkinan yang lebih luas untuk penerapan AI di masa depan. Performanya yang unggul dalam deteksi target dan penghitungan objek juga menunjukkan potensi besarnya dalam penerapan praktis. Dipercaya bahwa lebih banyak aplikasi inovatif berdasarkan model ini akan muncul di masa depan.