Ada semakin banyak layar di ponsel, tablet, komputer, dan TV, dan pengoperasiannya menjadi semakin kompleks. Apakah ini membuat Anda terpesona? Apple baru-baru ini meluncurkan bom raja - Ferret-UI2, model pemahaman UI yang sangat kuat, mengaku menyatukan dunia!
Ini bukan sombong, tujuan Ferret-UI2 adalah menjadi pejuang segi enam sejati, mampu memahami antarmuka pengguna di berbagai platform, baik itu iPhone, Android, iPad, web atau AppleTV, dapat menang dengan mudah.
Salah satu yang menarik dari Ferret-UI2 adalah dukungan multi-platformnya. Berbeda dengan Ferret-UI yang terbatas pada platform seluler, Ferret-UI2 mampu memahami layar UI dari berbagai perangkat seperti tablet, halaman web, dan smart TV. Dukungan multi-platform ini memungkinkannya beradaptasi dengan ekosistem perangkat yang beragam saat ini dan menyediakan skenario aplikasi yang lebih luas kepada pengguna.
Untuk meningkatkan persepsi UI, Ferret-UI2 memperkenalkan teknologi pengkodean gambar resolusi tinggi yang dinamis dan mengadopsi metode peningkatan yang disebut "Adaptive Grid". Dengan pendekatan ini, Ferret-UI2 mampu mempertahankan persepsi pada resolusi asli tangkapan layar UI, sehingga memungkinkan pengenalan elemen visual dan hubungannya dengan lebih akurat.
Selain itu, Ferret-UI2 memanfaatkan data pelatihan berkualitas tinggi untuk mempelajari tugas-tugas dasar dan lanjutan. Untuk tugas dasar, Ferret-UI2 mengonversi data referensi dan pemosisian sederhana menjadi bentuk percakapan, sehingga model dapat membangun pemahaman dasar tentang berbagai layar UI. Untuk tugas tingkat lanjut yang lebih fokus pada pengalaman pengguna, Ferret-UI2 menggunakan teknologi "tanda set isyarat visual" berbasis GPT-4o untuk menghasilkan data pelatihan dan menggantikan klik sederhana dari metode sebelumnya dengan instruksi satu langkah yang berpusat pada pengguna.
Untuk mengevaluasi kinerja Ferret-UI2, para peneliti membangun 45 benchmark yang mencakup lima platform, termasuk 6 tugas dasar dan 3 tugas lanjutan untuk setiap platform. Selain itu, mereka menggunakan tolok ukur publik seperti GUIDE dan GUI-World. Hasilnya menunjukkan bahwa Ferret-UI2 mengungguli Ferret-UI dalam semua tolok ukur yang diuji, terutama mencapai peningkatan signifikan pada tugas-tugas tingkat lanjut, menunjukkan keserbagunaannya dalam menangani tugas-tugas pemahaman UI lintas platform.
Studi ablasi lebih lanjut menunjukkan bahwa peningkatan arsitektur dan peningkatan kumpulan data di Ferret-UI2 berkontribusi terhadap peningkatan kinerja, dengan kumpulan data baru memiliki dampak yang lebih signifikan pada tugas-tugas yang lebih menantang. Selain itu, Ferret-UI2 juga berkinerja baik dalam pembelajaran transfer lintas platform, terutama menunjukkan kemampuan generalisasi yang baik antara platform iPhone, iPad, dan Android.
Alamat model: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Alamat makalah: https://arxiv.org/pdf/2410.18967