휴대폰, 태블릿, 컴퓨터, TV에는 점점 더 많은 화면이 있고 조작은 점점 더 복잡해지고 있습니다. Apple은 최근 강력한 UI 이해 모델인 Ferret-UI2를 출시했습니다. 세계를 통일하겠다고!
이건 자랑이 아닙니다. Ferret-UI2의 목표는 iPhone, Android, iPad, 웹, AppleTV 등 다양한 플랫폼의 사용자 인터페이스를 이해할 수 있는 진정한 육각형 전사가 되는 것입니다. 쉽게 승리할 수 있습니다.
Ferret-UI2의 주요 특징 중 하나는 다중 플랫폼 지원입니다. 모바일 플랫폼에 국한된 Ferret-UI와 달리 Ferret-UI2는 태블릿, 웹페이지, 스마트 TV 등 다양한 디바이스의 UI 화면을 이해할 수 있습니다. 이 다중 플랫폼 지원을 통해 오늘날의 다양한 장치 생태계에 적응하고 사용자에게 더 광범위한 애플리케이션 시나리오를 제공할 수 있습니다.
Ferret-UI2는 UI 인식을 향상시키기 위해 동적 고해상도 이미지 인코딩 기술을 도입하고 "Adaptive Grid"라는 향상 방법을 채택합니다. 이러한 접근 방식을 통해 Ferret-UI2는 UI 스크린샷의 기본 해상도에서 인식을 유지할 수 있어 시각적 요소와 그 관계를 보다 정확하게 인식할 수 있습니다.
또한 Ferret-UI2는 고품질 교육 데이터를 활용하여 기본 및 고급 작업을 학습합니다. 기본 작업의 경우 Ferret-UI2는 간단한 참조 및 위치 데이터를 대화형 형식으로 변환하여 모델이 다양한 UI 화면에 대한 기본적인 이해를 구축할 수 있도록 합니다. 사용자 경험에 더 초점을 맞춘 고급 작업을 위해 Ferret-UI2는 GPT-4o 기반 "마커 세트 시각적 신호" 기술을 사용하여 교육 데이터를 생성하고 이전 방법의 간단한 클릭을 단일 단계 사용자 중심 상호 작용 지침으로 대체합니다.
Ferret-UI2의 성능을 평가하기 위해 연구원들은 각 플랫폼에 대한 6가지 기본 작업과 3가지 고급 작업을 포함하여 5가지 플랫폼을 포괄하는 45개의 벤치마크를 구축했습니다. 또한 GUIDE 및 GUI-World와 같은 공개 벤치마크를 사용했습니다. 결과는 테스트된 모든 벤치마크에서 Ferret-UI2가 Ferret-UI를 능가하는 것으로 나타났습니다. 특히 고급 작업에서 상당한 개선을 달성하여 크로스 플랫폼 UI 이해 작업을 처리하는 데 있어 다재다능함을 입증했습니다.
Ablation 연구에서는 Ferret-UI2의 아키텍처 개선과 데이터 세트 개선이 모두 성능 향상에 기여하며 새로운 데이터 세트가 더 까다로운 작업에 더 큰 영향을 미치는 것으로 나타났습니다. 또한 Ferret-UI2는 교차 플랫폼 전이 학습에서도 좋은 성능을 발휘하며 특히 iPhone, iPad 및 Android 플랫폼 간에 우수한 일반화 기능을 보여줍니다.
모델 주소: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
논문 주소: https://arxiv.org/pdf/2410.18967