Apple은 휴대 전화, 태블릿, 컴퓨터 및 TV와 같은 멀티 스크린 시대의 점점 더 복잡한 인터페이스 상호 작용에 직면하여 다양한 플랫폼의 사용자 인터페이스 이해를 통합하기 위해 강력한 UI 이해 모델 인 Ferret-UI2를 출시했습니다. Ferret-UI2는 간단한 업그레이드가 아니라 iPhone, Android, iPad, 웹 페이지 및 Apple TV와 같은 다양한 장치의 UI 화면을 이해할 수 있으므로 응용 프로그램 시나리오를 크게 확장 할 수 있습니다. 핵심 장점은 다중 플랫폼, 동적 고해상도 이미지 코딩 기술 및 GPT-4O 기반의 "시장 세트 시각적 신호"기술을 지원하는데, 이는 Ferret-UI2가 UI 인식 및 작업 처리 기능 모두에서 중요하게 만듭니다.
휴대폰, 태블릿, 컴퓨터 및 TV는 점점 더 많은 화면과 더 복잡한 운영을 가지고 있습니까?
이것은 자랑스럽지 않습니다. Ferret-UI2의 목표는 실제 육각형 전사가되는 것입니다.
Ferret-UI2의 하이라이트는 여러 플랫폼에 대한 지원입니다. 모바일 플랫폼으로 제한되는 Ferret-UI와 달리 Ferret-UI2는 태블릿, 웹 페이지 및 스마트 TV와 같은 다양한 장치의 UI 화면을 이해할 수 있습니다. 이 멀티 플랫폼 지원을 통해 오늘날의 다양한 장치 생태계에 적응하고 사용자에게 더 넓은 범위의 응용 프로그램 시나리오를 제공 할 수 있습니다.
UI 인식을 향상시키기 위해 Ferret-UI2는 동적 고해상도 이미지 코딩 기술을 도입하고 "적응 형 그리드"라는 향상 방법을 채택했습니다. 이러한 방식으로 Ferret-UI2는 UI 스크린 샷의 원래 해상도에서 인식을 유지하여 시각적 요소와 그 관계를보다 정확하게 식별 할 수 있습니다.
또한 Ferret-UI2는 고품질 교육 데이터를 사용하여 기본 및 고급 작업을 학습합니다. 기본 작업의 경우 Ferret-UI2는 간단한 참조 및 데이터를 대화 형식으로 변환하여 모델이 다양한 UI 화면에 대한 기본 이해를 설정할 수 있습니다. 사용자 경험에 더 중점을 둔 고급 작업의 경우 Ferret-UI2는 GPT-4O 기반 "TAG Set Visual Prompt"기술을 사용하여 교육 데이터를 생성하고 이전 방법의 간단한 클릭을 단일 단계 사용자 중심 상호 작용으로 대체합니다. 지침.
Ferret-UI2의 성능을 평가하기 위해 연구원들은 6 개의 기본 작업과 각 플랫폼에 대한 3 개의 고급 작업을 포함하여 5 개의 플랫폼을 포함하는 45 개의 벤치 마크를 구축했습니다. 또한 Guide 및 Gui-World와 같은 공개 벤치 마크를 사용했습니다. 결과는 Ferret-UI2가 모든 테스트 벤치 마크, 특히 고급 작업의 상당한 발전으로 흰 족제비를 능가하여 크로스 플랫폼 UI 이해 작업을 처리하는 데있어서의 다양성을 보여줍니다.
Ablation 연구에 따르면 Ferret-UI2 아키텍처 개선 및 데이터 세트 개선은 성능 개선에 기여하며 새로운 데이터 세트가보다 까다로운 작업에 더 큰 영향을 미치는 것으로 나타났습니다. 또한 Ferret-UI2는 특히 iPhone, iPad 및 Android 플랫폼 간의 우수한 일반화 기능에서 크로스 플랫폼 전송 학습에서 잘 수행되었습니다.
모델 주소 : https://huggingface.co/jadechoghari/ferret-ui-llama8b
종이 주소 : https://arxiv.org/pdf/2410.18967
요컨대, Ferret-UI2는 강력한 크로스 플랫폼 UI 이해 기능과 상당한 성능 향상으로 미래에 더 똑똑하고 편리한 인간 컴퓨터 상호 작용을위한 새로운 가능성을 제공합니다. 오픈 소스 모델과 논문은 또한 추가 연구 및 응용 프로그램을위한 귀중한 리소스를 제공합니다.