Sebuah tim peneliti dari Universitas Sains dan Teknologi Huazhong, ByteDance, dan Universitas Johns Hopkins bersama-sama meluncurkan model dasar tingkat objek universal yang disebut GLEE. Hasil penelitian terobosan ini mengatasi keterbatasan model berbasis visi yang ada dan membawa kemungkinan-kemungkinan baru dalam bidang analisis gambar dan video. Model Glee berkinerja baik dalam berbagai tugas, menunjukkan fleksibilitas dan kemampuan generalisasi yang kuat, terutama dalam skenario pembelajaran transfer zero-shot. Ini mengintegrasikan berbagai sumber data, termasuk sejumlah besar data yang dianotasi secara otomatis, untuk memberikan informasi tingkat objek yang akurat dan universal.
Glee berkinerja baik dalam berbagai tugas, menunjukkan fleksibilitas dan kemampuan generalisasi, terutama dalam skenario transmisi zero-shot. Model ini memberikan informasi tingkat objek yang akurat dan umum dengan mengintegrasikan berbagai sumber data, termasuk data dalam jumlah besar yang diberi label secara otomatis. Arah penelitian di masa depan mencakup perluasan kemampuan dalam memproses skenario kompleks dan kumpulan data terdistribusi jangka panjang untuk meningkatkan kemampuan beradaptasi.
Kemunculan model Glee menandai kemajuan yang signifikan dalam bidang model visual basic, dan kinerjanya yang luar biasa serta prospek penerapannya yang luas layak untuk dinantikan. Di masa depan, tim peneliti akan berupaya meningkatkan kemampuan adaptasi model Glee dalam adegan kompleks dan data ekor panjang, memperluas cakupan penerapannya, dan memberikan dampak yang lebih luas pada teknologi analisis gambar dan video.