قامت شركة Zhipu AI مؤخرًا بفتح نموذج اللغة المرئية CogAgent الخاص بها، وهو أداة قوية بحجم معلمة يبلغ 18 مليار وأداء ممتاز في فهم واجهة المستخدم الرسومية والتنقل فيها. يدعم CogAgent الإدخال المرئي عالي الدقة والأسئلة والأجوبة التحادثية، ويمكنه إجراء أسئلة وأجوبة بناءً على أي لقطة شاشة لواجهة المستخدم الرسومية، ويدعم المهام المتعلقة بالتعرف الضوئي على الحروف. لقد أدى التدريب المسبق والضبط الدقيق إلى تحسين قدرات النموذج بشكل كبير. يمكن للمستخدمين تنفيذ التفكير في المهام عن طريق تحميل لقطات الشاشة والحصول على الخطط والإجراءات التالية ومعلومات تنسيق العملية المحددة، مما يوفر للمستخدمين تجربة تفاعلية أكثر ملاءمة وكفاءة. لقد حقق هذا النموذج أداء SOTA العام في اختبارات قياس الأداء المتعددة، مما يدل على ريادته التقنية في مجال اللغة المرئية.
يوفر المصدر المفتوح لـ CogAgent أداة جديدة قوية لمجتمع الذكاء الاصطناعي، ومن المتوقع أن تعمل قدراته في فهم واجهة المستخدم الرسومية والتفاعل معها على تعزيز تطوير العديد من سيناريوهات التطبيقات. من المعتقد أن CogAgent ستلعب دورًا مهمًا في المزيد من المجالات في المستقبل وستستمر في التحسين لتزويد المستخدمين بخدمات أكثر اكتمالاً.