Para peneliti di Chinese University of Hong Kong dan SmartMore bersama-sama mengembangkan kerangka kerja model bahasa visual (VLM) inovatif yang disebut Mini-Gemini. Kerangka kerja ini mencapai hasil luar biasa di luar model yang ada dalam beberapa tolok ukur zero-shot melalui sistem dual-encoder dan teknologi penambangan informasi patch. Mini-Gemini menunjukkan efisiensi tinggi dan akurasi tinggi saat memproses tugas visual dan teks yang kompleks, menunjukkan bahwa teknologi VLM telah membuat kemajuan signifikan dalam memproses tugas-tugas kompleks, dan juga memberikan arah baru untuk pengembangan bidang AI di masa depan. Arsitekturnya yang efisien dan kinerjanya yang bertenaga menjadikannya tonggak penting dalam bidang VLM.
Para peneliti dari Chinese University of Hong Kong dan SmartMore telah memperkenalkan kerangka kerja baru yang disebut Mini-Gemini untuk memajukan pengembangan VLM melalui sistem dual-encoder dan menambal teknologi penambangan informasi. Mini-Gemini berkinerja baik pada berbagai tolok ukur zero-shot, mengungguli model yang sudah ada. Kerangka kerja ini mengadopsi sistem dual-encoder, patch information mining, dan kumpulan data berkualitas tinggi untuk mendorong pengembangan VLM. Mini-Gemini menunjukkan efisiensi dan presisi dalam menangani tugas visual dan tekstual yang kompleks. Cakupan aplikasi dan kinerja model Gemini terus diperluas, menunjukkan potensi besar di bidang AI.
Munculnya kerangka Mini-Gemini menandai terobosan baru dalam teknologi model bahasa visual. Arsitekturnya yang efisien dan performa luar biasa dalam pengujian benchmark telah meletakkan dasar yang kokoh untuk penerapan VLM di lebih banyak bidang di masa depan, dan juga memberikan dorongan baru untuk kelanjutan pengembangan teknologi kecerdasan buatan. Mini-Gemini dan versi penyempurnaannya diyakini akan memainkan peran penting dalam aplikasi yang lebih praktis di masa depan.