칭화대학교 지능형 산업 연구소(AIR)는 모바일 기기의 자동화 제어 효율성을 대폭 향상시키는 것을 목표로 2024년 12월 24일 최신 AI 모델 AutoDroid-V2를 출시했습니다. 이 모델은 클라우드에서 대규모 언어 모델에 의존하는 대신 작은 언어 모델을 기반으로 한 스크립트 방식을 획기적으로 채택하여 기존 방식의 높은 트래픽 소비와 높은 개인 정보 보호 및 보안 위험 문제를 효과적으로 해결함으로써 사용자 경험을 향상시키는 동시에 비용을 절감합니다. 서버 측 운영 비용.
최근 칭화대학교 지능형산업연구소(AIR)는 모바일 기기의 자동화 제어 기능을 최적화하는 것을 목표로 2024년 12월 24일 AutoDroid-V2라는 AI 모델을 출시했습니다. 이 모델은 작은 언어 모델의 적용을 통해 자연어를 통한 사용자 작업의 효율성을 크게 향상시킵니다.
AutoDroid-V2는 클라우드의 LLM(대형 언어 모델)에 의존하는 기존 접근 방식과 다른 스크립트 기반 접근 방식을 채택합니다. 이러한 혁신을 통해 장치는 사용자 명령을 효율적으로 실행하고 클라우드 서비스에 대한 의존도를 줄여 개인 정보 보호 및 보안을 크게 향상시킬 수 있습니다. 동시에 사용자 측 트래픽 소비와 서버 측 운영 비용을 줄이고 모바일 장치의 광범위한 적용을 촉진합니다.
프로젝트를 배경으로 최근에는 대형 언어 모델과 시각적 언어 모델의 등장으로 자연어 명령을 통해 모바일 기기를 제어하는 것이 가능해졌다. 이러한 기술은 복잡한 사용자 작업을 해결하는 새로운 방법을 제공합니다. 그러나 기존의 "단계별 GUI 에이전트" 접근 방식은 높은 트래픽 소비와 개인 정보 보안 위험 문제가 있어 대규모 배포에 어려움을 겪습니다.
AutoDroid-V2의 혁신은 여러 GUI 작업을 한 번에 수행하기 위해 사용자 지침을 기반으로 다단계 스크립트를 생성할 수 있다는 것입니다. 이 방법은 쿼리 빈도를 크게 줄이고, 리소스 소모를 줄이며, 사용자 장치에서 작업 스크립트를 직접 생성하고 실행할 수 있습니다. 이 모델은 애플리케이션 문서를 오프라인으로 구축하여 후속 스크립트 생성을 위한 기반을 마련합니다.
성능 테스트에서 AutoDroid-V2는 23개 모바일 애플리케이션에서 226개 작업에 대한 벤치마크 테스트를 진행했으며, AutoDroid, SeeClick 등 이전 모델과 비교하면 작업 완료율이 10.5%에서 51.7%로 증가했습니다. 또한 입력 및 출력 토큰 소비가 각각 1/43.5 및 1/5.8로 줄어들고, 모델 추론 지연 시간도 원본보다 5.7~13.4배로 줄어듭니다. 이러한 결과는 실제 응용 분야에서 AutoDroid-V2의 효율성과 신뢰성을 보여줍니다.
하이라이트:
AutoDroid-V2는 모바일 기기의 자연어 제어 효율성을 향상시키기 위해 칭화대학교에서 출시한 새로운 AI 모델입니다.
이 모델은 소규모 언어 모델을 통해 클라우드 서비스에 대한 의존도를 줄이고 사용자 개인 정보 보호 및 보안을 강화합니다.
벤치마크 테스트에 따르면 AutoDroid-V2는 작업 완료율과 리소스 소비가 크게 향상되어 강력한 애플리케이션 잠재력을 보여줍니다.
전체적으로 AutoDroid-V2는 높은 효율성, 안전성 및 저렴한 비용으로 모바일 장치의 자동화된 제어를 위한 새로운 솔루션을 제공하며 향후 개발 및 더 넓은 적용 가능성을 기대할 가치가 있습니다.