Zhipu AI ha abierto su modelo CogAgent-9B basado en el entrenamiento GLM-4V-9B. Este es un modelo de tarea de Agente que puede comprender las instrucciones del usuario a través de capturas de pantalla y predecir la siguiente operación de la GUI. Este modelo tiene una gran universalidad y es adecuado para diversos escenarios de interacción GUI, como computadoras personales, teléfonos móviles y automóviles. En comparación con la versión anterior, CogAgent-9B-20241220 se ha mejorado significativamente en muchos aspectos, admite chino e inglés bilingüe y puede generar procesos de pensamiento detallados, descripciones de acciones y juicios de sensibilidad. Ha logrado resultados líderes en múltiples conjuntos de datos, demostrando sus ventajas en el posicionamiento GUI y operaciones de un solo paso y de varios pasos. El CogAgent-9B de código abierto no sólo promueve el desarrollo de tecnología de modelos grandes, sino que también ofrece nuevas posibilidades para las personas con discapacidad visual.
En comparación con la primera versión del modelo CogAgent que fue de código abierto en diciembre de 2023, CogAgent-9B-20241220 ha mejorado significativamente en términos de percepción de la GUI, precisión de la predicción de inferencias, integridad del espacio de acción, universalidad y generalización de tareas. Y admite capturas de pantalla y lenguaje bilingües. interacción en chino e inglés. La entrada de CogAgent solo incluye las instrucciones en lenguaje natural del usuario, registros de acciones históricas ejecutadas y capturas de pantalla de la GUI, sin ninguna representación textual de información de diseño o información de etiqueta de elemento adicional. El resultado cubre el proceso de pensamiento, la descripción en lenguaje natural de la siguiente acción, la descripción estructurada de la siguiente acción y el juicio sensible de la siguiente acción.
En la prueba de rendimiento, CogAgent-9B-20241220 logró resultados líderes en múltiples conjuntos de datos, demostrando sus ventajas en posicionamiento GUI, operaciones de un solo paso, listas chinas paso a paso y operaciones de varios pasos. Este movimiento de Smart Spectrum Technology no sólo promueve el desarrollo de tecnología de modelos grandes, sino que también proporciona nuevas herramientas y posibilidades para los profesionales de TI con discapacidad visual.
Código:
https://github.com/THUDM/CogAgent
Modelo:
Cara de abrazo: https://huggingface.co/THUDM/cogagent-9b-20241220
Comunidad Cogagent: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
El código abierto de CogAgent-9B marca un paso importante en el ecosistema de agentes de modelos grandes. Sus eficientes capacidades de interacción GUI y su amplia aplicabilidad proporcionan una nueva dirección para el desarrollo futuro de la tecnología de interacción inteligente y también presagian la llegada de futuros escenarios de aplicaciones más convenientes e inteligentes. Esperamos ver más aplicaciones innovadoras basadas en CogAgent-9B.