Dalam beberapa tahun terakhir, bidang kecerdasan buatan telah mengalami kemajuan besar dalam integrasi visi dan bahasa, terutama munculnya model bahasa berskala besar, yang telah memberikan vitalitas baru ke dalam pengembangan sistem kecerdasan buatan multi-modal. Namun, masih terdapat tantangan dalam membangun model dasar visi dan bahasa visual yang kuat. Untuk menghadapi tantangan ini, para peneliti dari banyak universitas dan lembaga penelitian ternama berkolaborasi untuk mengembangkan model inovatif yang disebut InternVL, yang bertujuan untuk meningkatkan skala dan keserbagunaan model visi dasar agar dapat mengatasi berbagai tugas bahasa visi dengan lebih baik.
Baru-baru ini, bidang kecerdasan buatan berfokus pada integrasi penglihatan dan bahasa, terutama dengan munculnya model bahasa besar (LLM), yang telah mengalami kemajuan signifikan. Namun, untuk sistem AGI multimodal, pengembangan model dasar penglihatan dan bahasa visual masih perlu mengejar ketertinggalan. Untuk mengisi kesenjangan ini, para peneliti dari Universitas Nanjing, OpenGVLab, Laboratorium Kecerdasan Buatan Shanghai, Universitas Hong Kong, Universitas Cina Hong Kong, Universitas Tsinghua, Universitas Sains dan Teknologi Tiongkok, dan SenseTime Research mengusulkan model inovatif – InternVL. Model ini memperluas skala model berbasis visi dan menyesuaikannya dengan tugas bahasa visual umum. InternVL menunjukkan kemampuan unggulnya dalam berbagai tugas seperti klasifikasi gambar dan video, pengambilan teks gambar dan video, pembuatan teks gambar, menjawab pertanyaan visual, dan dialog multimodal dengan mengungguli metode yang ada pada 32 tolok ukur bahasa visual umum.Kemunculan model InternVL menandai tahap baru dalam pengembangan model bahasa visual. Hasil yang luar biasa dalam berbagai pengujian benchmark memberikan arah dan kemungkinan baru untuk pembangunan sistem kecerdasan buatan multi-modal di masa depan. Model ini diharapkan dapat berperan dalam penerapan yang lebih praktis di masa depan dan mendorong pengembangan dan penerapan teknologi kecerdasan buatan.