أصدر فريق Zhipu للذكاء الاصطناعي بجامعة تسينغهوا مؤخرًا نموذجًا جديدًا للغة المرئية، CogAgent، والذي يهدف إلى تحسين قدرة الكمبيوتر على فهم واجهات المستخدم الرسومية (GUIs) والتحكم فيها. يستخدم النموذج نظام تشفير مزدوج يمكنه معالجة الصور عالية الدقة وعناصر واجهة المستخدم الرسومية المعقدة بكفاءة، ويظهر أداءً ممتازًا في مهام مثل التنقل عبر واجهة المستخدم الرسومية والإجابة على الأسئلة النصية والمرئية على منصات الكمبيوتر الشخصي وAndroid. يوفر ظهور CogAgent إمكانيات جديدة لأتمتة عمليات واجهة المستخدم الرسومية، وتوفير المساعدة والتوجيه لواجهة المستخدم الرسومية، وابتكار تصميم واجهة المستخدم الرسومية وأساليب التفاعل، ومن المتوقع أن يغير بشكل كبير نموذج التفاعل بين الإنسان والحاسوب.
أطلق فريق Zhipu AI بجامعة تسينغهوا CogAgent، وهو نموذج لغة مرئي يركز على تحسين فهم واجهات المستخدم الرسومية (GUIs) والتنقل فيها، باستخدام نظام تشفير مزدوج لمعالجة عناصر واجهة المستخدم الرسومية المعقدة. يعمل النموذج بشكل جيد في معالجة المدخلات عالية الدقة، والتنقل عبر واجهة المستخدم الرسومية على أجهزة الكمبيوتر الشخصية ومنصات Android، ومهام الإجابة على الأسئلة النصية والمرئية. تتضمن التطبيقات المحتملة لـ CogAgent أتمتة عمليات واجهة المستخدم الرسومية، وتوفير المساعدة والتوجيه لواجهة المستخدم الرسومية، وتعزيز تصميم واجهة المستخدم الرسومية وطرق التفاعل الجديدة. وعلى الرغم من أنه لا يزال في المراحل الأولى من التطوير، إلا أن النموذج يعد بأن يؤدي إلى تغييرات كبيرة في طريقة تفاعل أجهزة الكمبيوتر.
يمثل إطلاق نموذج CogAgent تقدمًا مهمًا في تكنولوجيا التفاعل بين الإنسان والحاسوب، وقد أرسى تقدمه المذهل في فهم واجهة المستخدم الرسومية والتنقل أساسًا متينًا لتجربة تفاعل أكثر ذكاءً وملاءمة بين الإنسان والحاسوب في المستقبل. ونحن نتطلع إلى التطوير اللاحق لـ CogAgent ليقدم للمستخدمين سيناريوهات تطبيق أكثر ثراءً وتجربة تفاعلية أكثر سلاسة.