هناك المزيد والمزيد من الشاشات على الهواتف المحمولة والأجهزة اللوحية وأجهزة الكمبيوتر وأجهزة التلفزيون، وأصبحت العمليات أكثر تعقيدًا. هل أبهرتك شركة Apple مؤخرًا بإطلاق قنبلة كبيرة - Ferret-UI2، وهو نموذج فائق القوة لفهم واجهة المستخدم، المطالبة بتوحيد العالم!
هذا ليس تفاخرًا، فالهدف من Ferret-UI2 هو أن تصبح محاربًا سداسيًا حقيقيًا، قادرًا على فهم واجهة المستخدم على منصات مختلفة، سواء كان iPhone أو Android أو iPad أو الويب أو AppleTV، يمكنه الفوز بسهولة.
أحد أبرز ميزات Ferret-UI2 هو دعمه متعدد المنصات. على عكس Ferret-UI، الذي يقتصر على منصات الأجهزة المحمولة، فإن Ferret-UI2 قادر على فهم شاشات واجهة المستخدم من أجهزة مختلفة مثل الأجهزة اللوحية وصفحات الويب وأجهزة التلفزيون الذكية. يمكّنه هذا الدعم متعدد المنصات من التكيف مع النظام البيئي المتنوع للأجهزة اليوم وتزويد المستخدمين بنطاق أوسع من سيناريوهات التطبيقات.
من أجل تحسين إدراك واجهة المستخدم، يقدم Ferret-UI2 تقنية ترميز الصور الديناميكية عالية الدقة ويعتمد طريقة تحسين تسمى "Adaptive Grid". من خلال هذا النهج، يستطيع Ferret-UI2 الحفاظ على الإدراك بالدقة الأصلية للقطات شاشة واجهة المستخدم، مما يسمح بالتعرف الأكثر دقة على العناصر المرئية وعلاقاتها.
بالإضافة إلى ذلك، تستفيد Ferret-UI2 من بيانات التدريب عالية الجودة لتعلم المهام الأساسية والمتقدمة. بالنسبة للمهام الأساسية، يقوم Ferret-UI2 بتحويل البيانات المرجعية البسيطة وتحديد المواقع إلى نموذج محادثة، مما يسمح للنموذج ببناء فهم أساسي لشاشات واجهة المستخدم المختلفة. بالنسبة للمهام المتقدمة التي تركز بشكل أكبر على تجربة المستخدم، يستخدم Ferret-UI2 تقنية "مجموعة الإشارات المرئية" المستندة إلى GPT-4o لإنشاء بيانات التدريب واستبدال النقرات البسيطة للطريقة السابقة بتفاعلات تتمحور حول المستخدم بخطوة واحدة.
ولتقييم أداء Ferret-UI2، قام الباحثون ببناء 45 معيارًا يغطي خمس منصات، بما في ذلك 6 مهام أساسية و3 مهام متقدمة لكل منصة. بالإضافة إلى ذلك، استخدموا معايير عامة مثل GUIDE وGUI-World. تظهر النتائج أن Ferret-UI2 يتفوق على Ferret-UI في جميع المعايير التي تم اختبارها، وخاصة تحقيق تحسينات كبيرة في المهام المتقدمة، مما يدل على تعدد استخداماته في التعامل مع مهام فهم واجهة المستخدم عبر الأنظمة الأساسية.
تُظهر دراسات الاستئصال أيضًا أن كلاً من التحسينات المعمارية وتحسينات مجموعة البيانات في Ferret-UI2 تساهم في تحسين الأداء، مع وجود مجموعة البيانات الجديدة لها تأثير أكثر أهمية على المهام الأكثر تحديًا. بالإضافة إلى ذلك، يعمل Ferret-UI2 أيضًا بشكل جيد في تعلم النقل عبر الأنظمة الأساسية، ويظهر بشكل خاص قدرات تعميم جيدة بين منصات iPhone وiPad وAndroid.
عنوان النموذج: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
عنوان الورقة: https://arxiv.org/pdf/2410.18967