Компания Zhipu AI недавно открыла исходный код своей модели визуального языка CogAgent, которая представляет собой мощный инструмент с размером параметров 18 миллиардов и превосходной производительностью в понимании графического интерфейса и навигации. CogAgent поддерживает визуальный ввод с высоким разрешением и диалоговые вопросы и ответы, может проводить вопросы и ответы на основе любого снимка экрана графического интерфейса и поддерживает задачи, связанные с распознаванием символов. Предварительное обучение и точная настройка значительно улучшили возможности модели. Пользователи могут анализировать задачи, загружая снимки экрана и получая планы, следующие действия и информацию о координатах конкретных операций, предоставляя пользователям более удобный и эффективный интерактивный опыт. Эта модель достигла общих показателей SOTA в нескольких тестах производительности, продемонстрировав свое техническое лидерство в области визуального языка.
CogAgent с открытым исходным кодом представляет новый мощный инструмент для сообщества искусственного интеллекта, а его возможности в понимании и взаимодействии с графическим интерфейсом, как ожидается, будут способствовать разработке многих сценариев приложений. Считается, что CogAgent в будущем будет играть важную роль во многих областях и продолжит совершенствоваться, предоставляя пользователям более полные услуги.