قامت Zhipu AI بفتح نموذج CogAgent-9B الخاص بها استنادًا إلى تدريب GLM-4V-9B، وهو نموذج مهمة وكيل يمكنه فهم تعليمات المستخدم من خلال لقطات الشاشة والتنبؤ بعملية واجهة المستخدم الرسومية التالية. يتمتع هذا النموذج بعالمية قوية ومناسب لمختلف سيناريوهات تفاعل واجهة المستخدم الرسومية مثل أجهزة الكمبيوتر الشخصية والهواتف المحمولة والسيارات. بالمقارنة مع الإصدار السابق، تم تحسين CogAgent-9B-20241220 بشكل ملحوظ في العديد من الجوانب، ويدعم اللغتين الصينية والإنجليزية، ويمكنه إخراج عمليات تفكير مفصلة، وأوصاف الإجراءات، وأحكام الحساسية. وقد حققت نتائج رائدة في مجموعات بيانات متعددة، مما يدل على مزاياها في تحديد موضع واجهة المستخدم الرسومية، والعمليات ذات الخطوة الواحدة والمتعددة الخطوات. لا يعمل CogAgent-9B مفتوح المصدر على تعزيز تطوير تكنولوجيا النماذج الكبيرة فحسب، بل يوفر أيضًا إمكانيات جديدة لضعاف البصر.
بالمقارنة مع الإصدار الأول من نموذج CogAgent الذي كان مفتوح المصدر في ديسمبر 2023، تحسن CogAgent-9B-20241220 بشكل ملحوظ من حيث إدراك واجهة المستخدم الرسومية ودقة التنبؤ بالاستدلال واكتمال مساحة العمل وعالمية المهام والتعميم ويدعم لقطات الشاشة واللغة ثنائية اللغة التفاعل باللغتين الصينية والإنجليزية. يتضمن إدخال CogAgent فقط تعليمات اللغة الطبيعية للمستخدم وسجلات الإجراءات التاريخية المنفذة ولقطات شاشة واجهة المستخدم الرسومية، دون أي تمثيل نصي لمعلومات التخطيط أو معلومات تسمية العنصر الإضافية. يغطي الإخراج عملية التفكير، ووصف اللغة الطبيعية للإجراء التالي، والوصف المنظم للإجراء التالي، والحكم الحساس للإجراء التالي.
في اختبار الأداء، حقق CogAgent-9B-20241220 نتائج رائدة في مجموعات بيانات متعددة، مما يوضح مزاياه في تحديد موضع واجهة المستخدم الرسومية، والعمليات ذات الخطوة الواحدة، والقوائم الصينية المتدرجة، والعمليات متعددة الخطوات. لا تعمل هذه الخطوة التي اتخذتها Smart Spectrum Technology على تعزيز تطوير تكنولوجيا النماذج الكبيرة فحسب، بل توفر أيضًا أدوات وإمكانيات جديدة لممارسي تكنولوجيا المعلومات ضعاف البصر.
شفرة:
https://github.com/THUDM/CogAgent
نموذج:
المعانقة: https://huggingface.co/THUDM/cogagent-9b-20241220
مجتمع Cogagent: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
يمثل المصدر المفتوح لـ CogAgent-9B خطوة مهمة في النظام البيئي للوكيل ذو النموذج الكبير. توفر إمكانات تفاعل واجهة المستخدم الرسومية الفعالة وقابلية التطبيق الواسعة اتجاهًا جديدًا للتطوير المستقبلي لتكنولوجيا التفاعل الذكي، كما تبشر بقدوم سيناريوهات تطبيقات مستقبلية أكثر ملاءمة وأكثر ذكاءً. ونحن نتطلع إلى رؤية المزيد من التطبيقات المبتكرة المعتمدة على CogAgent-9B.