Tsinghua University는 GUI 이해 및 탐색을 심화하기 위해 새로운 시각적 언어 모델 CogAgent를 개발했습니다.

저자：Eve Cole 업데이트 시간：2025-01-10 12:00:03

Tsinghua University의 Zhipu AI 팀은 최근 그래픽 사용자 인터페이스(GUI)를 이해하고 제어하는 컴퓨터의 능력을 향상시키는 것을 목표로 하는 새로운 시각적 언어 모델인 CogAgent를 출시했습니다. 이 모델은 고해상도 이미지와 복잡한 GUI 요소를 효율적으로 처리할 수 있는 듀얼 인코더 시스템을 사용하며, PC와 안드로이드 플랫폼에서 GUI 네비게이션, 텍스트, 시각적 질의응답 등의 작업에서 뛰어난 성능을 보여준다. CogAgent의 출현은 GUI 작업 자동화, GUI 도움말 및 지침 제공, GUI 설계 및 상호 작용 방법 혁신을 위한 새로운 가능성을 제공하며 인간-컴퓨터 상호 작용 모델을 크게 변화시킬 것으로 예상됩니다.

Tsinghua University의 Zhipu AI 팀은 듀얼 인코더 시스템을 사용하여 복잡한 GUI 요소를 처리하는 그래픽 사용자 인터페이스(GUI)의 이해와 탐색 향상에 초점을 맞춘 시각적 언어 모델인 CogAgent를 출시했습니다. 이 모델은 고해상도 입력 처리, PC 및 Android 플랫폼의 GUI 탐색, 텍스트 및 시각적 질문 응답 작업에서 잘 작동합니다. CogAgent의 잠재적인 응용 분야에는 GUI 작업 자동화, GUI 도움말 및 안내 제공, 새로운 GUI 디자인 및 상호 작용 방법 홍보 등이 있습니다. 아직 개발 초기 단계에 있지만 이 모델은 컴퓨터가 상호 작용하는 방식에 상당한 변화를 가져올 것으로 예상됩니다.

CogAgent 모델의 출시는 인간-컴퓨터 상호 작용 기술의 중요한 진전을 의미합니다. GUI 이해 및 탐색 분야의 획기적인 발전은 미래에 더욱 스마트하고 편리한 인간-컴퓨터 상호 작용 경험을 위한 견고한 기반을 마련했습니다. 우리는 사용자에게 더 풍부한 애플리케이션 시나리오와 더 원활한 대화형 경험을 제공하기 위한 CogAgent의 후속 개발을 기대합니다.