ทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยี Huazhong, ByteDance และมหาวิทยาลัย Johns Hopkins ร่วมกันเปิดตัวแบบจำลองพื้นฐานระดับวัตถุสากลที่เรียกว่า GLEE ผลการวิจัยที่ก้าวล้ำนี้เอาชนะข้อจำกัดของแบบจำลองการมองเห็นที่มีอยู่ และนำความเป็นไปได้ใหม่ๆ มาสู่สาขาการวิเคราะห์ภาพและวิดีโอ โมเดล GLEE ทำงานได้ดีในงานต่างๆ โดยแสดงความยืดหยุ่นสูงและความสามารถในการวางภาพรวม โดยเฉพาะอย่างยิ่งในสถานการณ์การเรียนรู้การถ่ายโอนแบบ Zero-Shot โดยผสานรวมแหล่งข้อมูลหลายแหล่ง รวมถึงข้อมูลที่มีคำอธิบายประกอบอัตโนมัติจำนวนมาก เพื่อให้ข้อมูลระดับออบเจ็กต์ที่แม่นยำและเป็นสากล
GLEE ทำงานได้ดีในงานต่างๆ โดยแสดงความยืดหยุ่นและความสามารถในการวางภาพรวม โดยเฉพาะอย่างยิ่งในสถานการณ์การส่งข้อมูลแบบ Zero-shot แบบจำลองนี้ให้ข้อมูลระดับออบเจ็กต์ทั่วไปที่แม่นยำโดยการรวมแหล่งข้อมูลต่างๆ รวมถึงการติดป้ายกำกับข้อมูลจำนวนมากโดยอัตโนมัติ ทิศทางการวิจัยในอนาคต ได้แก่ การขยายขีดความสามารถในการประมวลผลสถานการณ์ที่ซับซ้อนและชุดข้อมูลที่กระจายแบบหางยาวเพื่อปรับปรุงความสามารถในการปรับตัว
การเกิดขึ้นของโมเดล GLEE ถือเป็นความก้าวหน้าที่สำคัญในด้านโมเดลพื้นฐานด้านการมองเห็น และประสิทธิภาพที่ยอดเยี่ยมและโอกาสในการนำไปใช้งานในวงกว้างก็คุ้มค่าที่จะรอคอย ในอนาคต ทีมวิจัยจะทำงานเพื่อปรับปรุงความสามารถในการปรับตัวของโมเดล GLEE ในฉากที่ซับซ้อนและข้อมูลหางยาว ขยายขอบเขตการใช้งานเพิ่มเติม และนำผลกระทบที่กว้างขึ้นมาสู่เทคโนโลยีการวิเคราะห์ภาพและวิดีโอ