Zhipu AI recientemente abrió su modelo de lenguaje visual CogAgent, que es una herramienta poderosa con un tamaño de parámetro de 18 mil millones y un excelente rendimiento en comprensión y navegación de GUI. CogAgent admite entrada visual de alta resolución y preguntas y respuestas conversacionales, puede realizar preguntas y respuestas basadas en cualquier captura de pantalla de la GUI y admite tareas relacionadas con OCR. Su entrenamiento previo y ajuste han mejorado significativamente las capacidades del modelo. Los usuarios pueden realizar razonamientos de tareas cargando capturas de pantalla y obtener planes, acciones siguientes e información de coordenadas de operación específicas, lo que brinda a los usuarios una experiencia interactiva más conveniente y eficiente. Este modelo ha logrado el rendimiento general SOTA en múltiples pruebas comparativas, demostrando su liderazgo técnico en el campo del lenguaje visual.
El código abierto de CogAgent aporta una nueva y poderosa herramienta a la comunidad de IA, y se espera que sus capacidades de comprensión e interacción de GUI promuevan el desarrollo de muchos escenarios de aplicaciones. Se cree que CogAgent desempeñará un papel importante en más campos en el futuro y continuará mejorando para brindar a los usuarios servicios más completos.