Zhipu AI открыла исходный код своей модели CogAgent-9B, основанной на обучении GLM-4V-9B. Это модель задач агента, которая может понимать инструкции пользователя с помощью снимков экрана и прогнозировать следующую операцию графического интерфейса. Эта модель обладает высокой универсальностью и подходит для различных сценариев взаимодействия с графическим интерфейсом пользователя, таких как персональные компьютеры, мобильные телефоны и автомобили. По сравнению с предыдущей версией CogAgent-9B-20241220 был значительно улучшен во многих аспектах, поддерживает двуязычный китайский и английский языки и может выводить подробные мыслительные процессы, описания действий и суждения о чувствительности. Он добился лучших результатов на нескольких наборах данных, продемонстрировав свои преимущества в позиционировании графического интерфейса, одношаговых и многоэтапных операциях. CogAgent-9B с открытым исходным кодом не только способствует развитию технологий больших моделей, но и предоставляет новые возможности для людей с нарушениями зрения.
По сравнению с первой версией модели CogAgent, исходный код которой был открыт в декабре 2023 года, CogAgent-9B-20241220 значительно улучшился с точки зрения восприятия графического интерфейса, точности прогнозирования, полноты пространства действий, универсальности задач и обобщения, а также поддерживает двуязычные снимки экрана и язык. взаимодействие на китайском и английском языках. Ввод CogAgent включает только инструкции пользователя на естественном языке, записи выполненных исторических действий и снимки экрана графического пользовательского интерфейса без какого-либо текстового представления информации о макете или дополнительной информации о метках элементов. Выходные данные охватывают мыслительный процесс, описание следующего действия на естественном языке, структурированное описание следующего действия и оценку чувствительности следующего действия.
В тесте производительности CogAgent-9B-20241220 показал лучшие результаты на нескольких наборах данных, продемонстрировав свои преимущества в позиционировании графического интерфейса, одношаговых операциях, китайских пошаговых списках и многошаговых операциях. Этот шаг Smart Spectrum Technology не только способствует развитию технологий больших моделей, но также предоставляет новые инструменты и возможности для ИТ-практиков с нарушениями зрения.
Код:
https://github.com/THUDM/CogAgent
Модель:
Обнимающее лицо: https://huggingface.co/THUDM/cogagent-9b-20241220
Сообщество Cogagent: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
Открытый исходный код CogAgent-9B знаменует собой важный шаг в экосистеме агентов крупных моделей. Его эффективные возможности взаимодействия с графическим пользовательским интерфейсом и широкая применимость открывают новое направление для будущего развития технологий интеллектуального взаимодействия, а также предвещают появление более удобных и интеллектуальных сценариев будущих приложений. Мы с нетерпением ждем появления новых инновационных приложений на базе CogAgent-9B.