Zhipu AI는 최근 휴대 전화의 인간 운영을 시뮬레이션하고 다양한 일상 작업을 수행 할 수있는 지능형 기관인 GLM 기술인 AutoGlm을 기반으로 새로운 제품을 발표했습니다. Autoglm의 출현은 AI에서 휴대 전화 응용 프로그램 분야에서 주요 획기적인 획기적인 것으로 나타납니다. WeChat, Taobao, CTRIP, 12306 및 Meituan과 같은 다양한 작업을 완료 할 수 있습니다. 삶. . 작동 논리는 복잡한 프로세스가없는 인간의 논리와 유사하며 사용의 임계 값은 매우 낮습니다.
AutoGlm은 WeChat 순간에 대한 Like and Comment, Taobao에서의 역사적 주문 제품 구매, CTRIP의 호텔 예약, 12306 년 열차 티켓 구매, Meituan에 대한 테이크 아웃 등과 같은 다양한 작업을 수행 할 수 있습니다. 응용 시나리오는 이론적으로 인간이 시각적 전자 장치에서 할 수있는 모든 것을 달성 할 수 있으며 복잡한 워크 플로 구성이 필요하지 않습니다.
현재 사용자는 웹 페이지를 방문하고 웹 페이지를 클릭하며 웹 사이트의 고급 검색, 요약 및 콘텐츠 생성을 자동으로 완료 할 수있는 브라우저 어시스턴트 인 "Zhipu Qingyan"플러그인을 설치하여 AutoGLM-WEB를 경험할 수 있습니다. 또한 AutoGLM은 Android 시스템에서 내부 테스트 응용 프로그램을 열었으며 Honor와 같은 휴대 전화 제조업체와 심층적 인 협력을 수행했습니다.
AutoGlm의 기술은 Zhipu의 자체 개발 된 "기본 에이전트 디퍼 커플 링 중간 인터페이스"및 "자기 진화 온라인 코스 강화 학습 프레임 워크"를 기반으로합니다. 드문 피드백 신호 및 전략 분포 드리프트와 같은 문제. AutoGlm은 지속적으로 개선하고 성장 중에 새로운 기술을 끊임없이 얻는 사람들과 비슷하게 자체 성능을 꾸준히 향상시킬 수 있습니다.
기술적 인 과제 측면에서 AutoGlm은 불충분 한 "작업 실행"과 불충분 한 "작업 계획"의 문제를 해결합니다. "기본 에이전트 디퍼 커플 링 중간 인터페이스"의 설계를 통해 자연어 중간 인터페이스를 통해 "작업 계획"과 "작업 실행"의 두 단계를 분리하여 에이전트의 기능을 크게 개선합니다. 동시에 AutoGLM은 "자체 진화 온라인 코스 강화 학습 프레임 워크"를 채택하여 실제 온라인 환경에서 웹 및 전화 환경에서 대형 모델 에이전트의 기능을 배우고 개선합니다.
AutoGlm은 전화 사용 및 웹 브라우저 사용 모두에서 상당한 성능 개선을 달성했으며 Androidlab 평가 벤치 마크에서 GPT-4O 및 Claude-3.5-Sonnet의 성능을 능가했습니다. Webarena-Lite 평가 벤치 마크에서 Autoglm은 GPT-4O에 비해 약 200% 성능 개선을 달성하여 GUI 조작에서 인간과 대형 모델 에이전트 간의 성공률의 격차를 좁혔습니다.
프로젝트 주소 : https://xiao9905.github.io/autoglm
Autoglm은 강력한 기능과 기술 혁신을 통해 휴대 전화 운영 분야에서 인공 지능의 큰 잠재력을 보여 주어 사람들의 일상 생활에 더 편리하게 제공됩니다. 성능 테스트의 탁월한 성능은 또한 기술력을 입증합니다. 앞으로 기술의 지속적인 발전으로 AutoGlm은 더 넓은 응용 프로그램을 달성하고 사용자에게 더 많은 가치를 창출 할 것으로 예상됩니다.