Dengan pesatnya perkembangan kecerdasan buatan, teknologi pemahaman antarmuka pengguna yang ringan dan efisien telah menjadi kunci penerapan AI. Dalam makalah penelitian yang baru-baru ini dirilis, Apple memperkenalkan arsitektur baru yang disebut UI-JEPA, yang bertujuan untuk memecahkan masalah pemahaman UI yang efisien pada perangkat ringan. Teknologi ini tidak hanya mempertahankan kinerja tinggi, namun juga secara signifikan mengurangi kebutuhan komputasi, memberikan kemungkinan baru untuk menjalankan aplikasi AI pada perangkat dengan sumber daya terbatas. Kemunculan UI-JEPA diharapkan dapat mendorong mempopulerkan aplikasi AI yang lebih nyaman dan privat secara luas.
Seiring dengan kemajuan teknologi kecerdasan buatan, pemahaman antarmuka pengguna (UI) telah menjadi tantangan utama dalam menciptakan aplikasi AI yang intuitif dan berguna. Baru-baru ini, peneliti Apple memperkenalkan UI-JEPA dalam makalah barunya, sebuah arsitektur yang dirancang untuk mencapai pemahaman UI sisi perangkat yang ringan yang tidak hanya mempertahankan kinerja tinggi, namun juga secara signifikan mengurangi biaya persyaratan penghitungan UI.
Tantangan pemahaman UI terletak pada kebutuhan untuk memproses fitur lintas modal, termasuk gambar dan bahasa alami, untuk menangkap hubungan temporal dalam rangkaian UI. Meskipun model bahasa besar multimodal (MLLM) seperti Anthropic Claude3.5Sonnet dan OpenAI GPT-4Turbo telah membuat kemajuan dalam perencanaan yang dipersonalisasi, model ini memerlukan sumber daya komputasi yang luas, ukuran model yang besar, dan memperkenalkan latensi tinggi, Tidak cocok untuk solusi perangkat ringan yang memerlukan rendah latensi dan peningkatan privasi.
Sumber gambar contoh kumpulan data IIT dan IIW UI-JEPA: arXiv
Untuk lebih memajukan penelitian mengenai pemahaman UI, para peneliti memperkenalkan dua kumpulan data dan tolok ukur multimodal baru: "Intentions in the Wild" (IIW) dan "Intentions in the Tame" (IIT). IIW menangkap rangkaian tindakan UI terbuka dengan maksud pengguna yang tidak jelas, sementara IIT berfokus pada tugas umum dengan maksud yang lebih jelas.
Mengevaluasi kinerja UI-JEPA pada tolok ukur baru menunjukkan bahwa kinerjanya mengungguli model encoder video lainnya dalam pengaturan beberapa pengambilan gambar dan mencapai kinerja yang sebanding dengan model tertutup yang lebih besar. Para peneliti menemukan bahwa menggabungkan teks yang diekstraksi dari UI menggunakan pengenalan karakter optik (OCR) semakin meningkatkan kinerja UI-JEPA.
Potensi penggunaan model UI-JEPA mencakup pembuatan feedback loop otomatis untuk agen AI, memungkinkan mereka untuk terus belajar dari interaksi tanpa campur tangan manusia, dan mengintegrasikan UI-JEPA ke dalam aplikasi yang dirancang untuk melacak niat pengguna di berbagai aplikasi dan mode dalam kerangka agensi .
Model UI-JEPA Apple tampaknya cocok untuk Apple Intelligence, serangkaian alat AI generatif ringan yang dirancang untuk membuat perangkat Apple lebih cerdas dan efisien. Mengingat fokus Apple pada privasi, biaya rendah dan efisiensi tambahan dari model UI-JEPA dapat memberi asisten AI keunggulan dibandingkan asisten lain yang mengandalkan model cloud.
Kemunculan UI-JEPA telah membawa kemungkinan baru pada aplikasi AI di sisi perangkat yang ringan. Keunggulannya dalam perlindungan privasi dan komputasi yang efisien memberikan prospek penerapan yang luas dalam pengembangan AI di masa depan dan patut mendapat perhatian berkelanjutan.