Dihadapkan dengan interaksi antarmuka yang semakin kompleks di era multi-layar seperti ponsel, tablet, komputer, dan TV, Apple telah meluncurkan model pemahaman UI yang kuat, Ferret-UI2, yang bertujuan untuk menyatukan pemahaman antarmuka pengguna dari berbagai platform. Ferret-UI2 bukanlah peningkatan yang sederhana, tetapi model baru dengan kemampuan lintas platform. Keuntungan intinya terletak pada dukungan multi-platform, teknologi pengkodean gambar resolusi tinggi yang dinamis, dan teknologi "set visual" yang berbasis GPT-4O, yang membuat Ferret-UI2 signifikan dalam persepsi UI dan kemampuan pemrosesan tugas.
Ponsel, tablet, komputer, dan TV memiliki lebih banyak layar dan operasi yang lebih kompleks.
Ini bukan pembual.
Sorotan Ferret-UI2 adalah dukungannya untuk beberapa platform. Tidak seperti Ferret-UI, yang terbatas pada platform seluler, Ferret-UI2 dapat memahami layar UI dari berbagai perangkat seperti tablet, halaman web, dan TV pintar. Dukungan multi-platform ini memungkinkannya untuk beradaptasi dengan ekosistem perangkat yang beragam saat ini dan memberikan pengguna skenario aplikasi yang lebih luas.
Untuk meningkatkan persepsi UI, Ferret-UI2 memperkenalkan teknologi pengkodean gambar resolusi tinggi dinamis dan mengadopsi metode peningkatan yang disebut "Grid Adaptif". Dengan cara ini, Ferret-UI2 mampu mempertahankan persepsi pada resolusi asli tangkapan layar UI, sehingga lebih akurat mengidentifikasi elemen visual dan hubungannya.
Selain itu, Ferret-UI2 juga menggunakan data pelatihan berkualitas tinggi untuk mempelajari tugas-tugas dasar dan lanjutan. Untuk tugas-tugas dasar, Ferret-UI2 mengubah referensi sederhana dan penentuan posisi data menjadi format dialog, memungkinkan model untuk membangun pemahaman dasar dari berbagai layar UI. Untuk tugas-tugas lanjutan yang lebih fokus pada pengalaman pengguna, Ferret-UI2 menggunakan teknologi "set visual prompt" "tag visual prompt" berbasis GPT untuk menghasilkan data pelatihan, dan menggantikan klik sederhana dalam metode sebelumnya dengan interaksi pusat pengguna satu langkah. petunjuk.
Untuk mengevaluasi kinerja Ferret-UI2, para peneliti membangun 45 tolok ukur yang mencakup lima platform, termasuk 6 tugas dasar dan 3 tugas canggih untuk setiap platform. Selain itu, mereka juga menggunakan tolok ukur publik seperti Guide dan GUI-World. Hasilnya menunjukkan bahwa Ferret-UI2 mengungguli Ferret-UI di semua tolok ukur uji, terutama dengan kemajuan yang signifikan dalam tugas-tugas lanjutan, menunjukkan fleksibilitasnya dalam menangani tugas pemahaman UI lintas platform.
Studi ablasi lebih lanjut menunjukkan bahwa peningkatan arsitektur ferret-UI2 dan peningkatan dataset berkontribusi pada peningkatan kinerja, dengan dampak kumpulan data baru pada tugas yang lebih menantang secara lebih signifikan. Selain itu, Ferret-UI2 juga berkinerja baik dalam pembelajaran transfer lintas platform, terutama dalam kemampuan generalisasi yang baik antara platform iPhone, iPad dan Android.
Alamat model: https://huggingface.co/jadechoghari/ferret-ui-llama8b
Alamat kertas: https://arxiv.org/pdf/2410.18967
Singkatnya, Ferret-UI2 menyediakan kemungkinan baru untuk interaksi manusia-komputer yang lebih pintar dan lebih nyaman di masa depan dengan kemampuan pemahaman UI lintas-platform yang kuat dan peningkatan kinerja yang signifikan. Model dan kertas open source -nya juga menyediakan sumber daya yang berharga untuk penelitian dan aplikasi lebih lanjut.