Модель визуального языка Zhipu AI с открытым исходным кодом CogAgent поддерживает графический интерфейс GUI, вопросы и ответы

Автор：Eve Cole Время обновления：2025-01-16 14:16:01

Компания Zhipu AI недавно открыла исходный код своей модели визуального языка CogAgent, которая представляет собой мощный инструмент с размером параметров 18 миллиардов и превосходной производительностью в понимании графического интерфейса и навигации. CogAgent поддерживает визуальный ввод с высоким разрешением и диалоговые вопросы и ответы, может проводить вопросы и ответы на основе любого снимка экрана графического интерфейса и поддерживает задачи, связанные с распознаванием символов. Предварительное обучение и точная настройка значительно улучшили возможности модели. Пользователи могут анализировать задачи, загружая снимки экрана и получая планы, следующие действия и информацию о координатах конкретных операций, предоставляя пользователям более удобный и эффективный интерактивный опыт. Эта модель достигла общих показателей SOTA в нескольких тестах производительности, продемонстрировав свое техническое лидерство в области визуального языка.

CogAgent с открытым исходным кодом представляет новый мощный инструмент для сообщества искусственного интеллекта, а его возможности в понимании и взаимодействии с графическим интерфейсом, как ожидается, будут способствовать разработке многих сценариев приложений. Считается, что CogAgent в будущем будет играть важную роль во многих областях и продолжит совершенствоваться, предоставляя пользователям более полные услуги.