في مواجهة تفاعلات الواجهة المعقدة بشكل متزايد في عصر متعدد الشاشة مثل الهواتف المحمولة والأجهزة اللوحية وأجهزة الكمبيوتر وأجهزة التلفزيون ، أطلقت Apple نموذجها القوي لفهم واجهة المستخدم ، Ferret-UI2 ، بهدف توحيد فهم واجهة المستخدم للمنصات المختلفة. FERRET-UI2 ليس ترقية بسيطة ، ولكنه نموذج جديد له إمكانات منصة. تكمن مزاياها الأساسية لدعم المنصات المتعددة ، وتكنولوجيا ترميز الصور عالية الدقة ، وتكنولوجيا "مجموعة السوق المرئية" القائمة على GPT-4O ، والتي تجعل FERRET-UI2 مهمة في كل من إدراك واجهة المستخدم.
تحتوي الهواتف المحمولة والأجهزة اللوحية وأجهزة الكمبيوتر على المزيد والمزيد من الشاشات والعمليات الأكثر تعقيدًا.
هذا ليس هدفًا للتفاخر.
أبرز ما في ferret-ui2 هو دعمه للمنصات المتعددة. على عكس FERRET-UI ، الذي يقتصر على منصات المحمول ، فإن FERRET-UI2 قادر على فهم شاشات واجهة المستخدم من أجهزة مختلفة مثل الأجهزة اللوحية وصفحات الويب وأجهزة التلفزيون الذكية. يتيح هذا الدعم متعدد المنصات أن يمكّنه من التكيف مع النظام الإيكولوجي المتنوع لجهاز اليوم وتزويد المستخدمين بمجموعة واسعة من سيناريوهات التطبيق.
لتحسين تصور واجهة المستخدم ، قدم Ferret-UI2 تقنية ترميز الصور الديناميكية عالية الدقة واعتمدت طريقة تعزيز تسمى "الشبكة التكيفية". وبهذه الطريقة ، فإن Ferret-Ui2 قادر على الحفاظ على الإدراك في الدقة الأصلية لقطة شاشة واجهة المستخدم ، وبالتالي تحديد العناصر المرئية وعلاقاتها بشكل أكثر دقة.
بالإضافة إلى ذلك ، يستخدم FERRET-UI2 أيضًا بيانات تدريب عالية الجودة لتعلم المهام الأساسية والمتقدمة. بالنسبة للمهام الأساسية ، يقوم Ferret-UI2 بتحويل بيانات المرجع والمواقع البسيطة إلى تنسيقات حوار ، مما يسمح للنموذج بإنشاء فهم أساسي لشاشات واجهة المستخدم المختلفة. بالنسبة للمهام المتقدمة التي تركز أكثر على تجربة المستخدم ، يستخدم Ferret-Ui2 تقنية "مجموعة العلامات المرئية" التي تعتمد على GPT-4O لإنشاء بيانات التدريب ، واستبدال النقرات البسيطة في الطريقة السابقة مع تفاعل مركز المستخدم أحادي الخطوة. تعليمات.
لتقييم أداء FERRET-UI2 ، قام الباحثون ببناء 45 معايير تغطي خمسة منصات ، بما في ذلك 6 مهام أساسية و 3 مهام متقدمة لكل منصة. بالإضافة إلى ذلك ، استخدموا أيضًا معايير عامة مثل الدليل و GUI-World. تظهر النتائج أن Ferret-Ui2 يتفوق على Ferret-UI في جميع معايير الاختبار ، خاصة مع التطورات الكبيرة في المهام المتقدمة ، مما يدل على تعدد استخداماته في التعامل مع مهام فهم واجهة المستخدم عبر المنصات.
تُظهر دراسات الاجتثاث كذلك أن كلا من تحسينات بنية Ferret-UI2 وتحسينات مجموعات البيانات تساهم في تحسينات الأداء ، مع تأثير مجموعات البيانات الجديدة على المهام الأكثر تحديا. بالإضافة إلى ذلك ، كان أداء FERRET-UI2 جيدًا أيضًا في التعلم عبر المنصات ، خاصة في إمكانيات التعميم الجيدة بين منصات iPhone و iPad و Android.
عنوان النموذج: https://huggingface.co/Jadechoghari/Ferret-Ui-llama8b
عنوان الورق: https://arxiv.org/pdf/2410.18967
باختصار ، يوفر FERRET-UI2 إمكانيات جديدة لتفاعل أكثر ذكاءً وأكثر ملاءمة لحاسوب الإنسان في المستقبل مع إمكانيات فهم واجهة المستخدم القوية عبر المنصات وتحسينات كبيرة في الأداء. يوفر نموذج وورقة المصدر المفتوح أيضًا موارد قيمة لمزيد من البحث والتطبيق.