Zhipu AI는 최근 180억 개의 매개변수 크기와 GUI 이해 및 탐색 성능이 뛰어난 강력한 도구인 시각적 언어 모델인 CogAgent를 오픈소스로 공개했습니다. CogAgent는 고해상도 시각적 입력 및 대화형 Q&A를 지원하고 GUI 스크린샷을 기반으로 Q&A를 수행할 수 있으며 OCR 관련 작업을 지원합니다. 사전 훈련과 미세 조정을 통해 모델의 기능이 크게 향상되었습니다. 사용자는 스크린샷을 업로드하여 작업 추론을 수행하고 계획, 다음 작업 및 특정 작업 좌표 정보를 얻을 수 있어 사용자에게 보다 편리하고 효율적인 대화형 경험을 제공합니다. 이 모델은 여러 벤치마크 테스트에서 SOTA 일반 성능을 달성하여 시각적 언어 분야에서 기술적 리더십을 입증했습니다.
CogAgent의 오픈 소스는 AI 커뮤니티에 강력한 새 도구를 제공하며 GUI 이해 및 상호 작용 기능은 많은 응용 프로그램 시나리오의 개발을 촉진할 것으로 예상됩니다. CogAgent는 앞으로 더 많은 분야에서 중요한 역할을 담당할 것이며 사용자에게 더욱 완전한 서비스를 제공하기 위해 지속적으로 개선될 것이라고 믿습니다.