Screenspot-Pro: أداة قياس متعددة الوسائط LLM مصممة لبيئات عالية الدقة! - مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-02-18 18:48:01

في بيئة مهنية ، يواجه وكلاء واجهة المستخدم الرسومية (GUI) ثلاثة تحديات رئيسية. بادئ ذي بدء ، فإن تعقيد التطبيقات المهنية أعلى بكثير من تعقيد البرامج العامة ، ويتطلب فهمًا عميقًا للتخطيطات المعقدة. تحتوي هذه التطبيقات عادةً على عدد كبير من الوحدات الوظيفية والمنطق التفاعلي المعقد ، مما يتطلب من عوامل واجهة المستخدم الرسومية الحصول على درجة عالية من الذكاء والقدرة على التكيف. ثانياً ، عادة ما يكون للأدوات المهنية قرارات أعلى ، مما يؤدي إلى أحجام مستهدفة أصغر ، مما يقلل من دقة تحديد المواقع. تضع هذه البيئة عالية الدقة مطالب أعلى على دقة وكلاء واجهة المستخدم الرسومية ، خاصة عند التعامل مع عناصر الواجهة الصغيرة. أخيرًا ، تميل سير العمل إلى الاعتماد على أدوات ووثائق إضافية ، مما يضيف إلى تعقيد العمليات. تسلط هذه التحديات الضوء على الحاجة إلى تطوير معايير وحلول أكثر تقدمًا لتحسين أداء وكلاء واجهة المستخدم الرسومية في هذه السيناريوهات الصارمة.

لا يمكن أن تلبي نماذج تحديد مواقع واجهة المستخدم الرسومية الحالية والمعايير متطلبات البيئات المهنية. على سبيل المثال ، تم تصميم أدوات مثل ScreenSpot بشكل أساسي للمهام منخفضة الدقة وتفتقر إلى التنوع الذي يمكنه محاكاة سيناريوهات الحياة الواقعية بدقة. لا تعمل نماذج مثل OS-Atlas و Uground بشكل جيد من حيث كفاءة الحوسبة ، خاصةً عندما يكون الهدف صغيرًا أو أن أيقونات الواجهة غنية ، وغالبًا ما تفشل. بالإضافة إلى ذلك ، فإن عدم وجود دعم متعدد اللغات يحد أيضًا من تطبيق هذه النماذج في سير العمل العالمي. تؤكد أوجه القصور هذه على الحاجة إلى معيار أكثر شمولاً وواقعية لتعزيز هذه المنطقة.

لمعالجة هذه القضايا ، أطلقت فرق الأبحاث من جامعة سنغافورة الوطنية وجامعة شرق الصين العادية وجامعة هونغ كونغ المعمدانية شركات الشاشة ، وهي معيار جديد مصمم خصيصًا للبيئات المهنية عالية الدقة. يحتوي المعيار على 1581 مجموعة بيانات مهمة من 23 صناعة ، بما في ذلك الأدوات الإبداعية والأدوات الإبداعية و CAD ومنصات العلوم وأجنحة المكاتب. يستخدم صورًا عالية الدقة على شاشة كاملة وتضمن الدقة والواقع من خلال التعليقات التوضيحية الخبراء. يوفر Screenspot-Pro أيضًا إرشادات متعددة اللغات ، بما في ذلك اللغة الإنجليزية والصينية ، لتوسيع نطاق التقييم. على عكس ما قبل ، توثق Screenspot-Pro سير العمل الفعلي ، مما يضمن توليد التعليقات التوضيحية عالية الجودة ، وبالتالي توفير أدوات فعالة للتقييم الشامل وتطوير نماذج تحديد المواقع واجهة المستخدم الرسومية.

تلتقط مجموعة البيانات هذه المشاهد الحقيقية والصعبة ، استنادًا إلى الصور عالية الدقة ، والتي تمثل مناطقها المستهدفة 0.07 ٪ فقط من إجمالي الشاشة في المتوسط ، مما يدل على فارق بسيط وعناصر واجهة المستخدم الرسومية. يتم جمع البيانات من قبل المستخدمين المحترفين ذوي الخبرة الواسعة في التطبيقات ذات الصلة ، وذلك باستخدام أدوات متخصصة لضمان دقة التعليقات التوضيحية. بالإضافة إلى ذلك ، تدعم مجموعة البيانات القدرات متعددة اللغات لتسهيل اختبار القدرات ثنائية اللغة وتتضمن سير عمل متعددة لالتقاط الفروق الدقيقة في المهام المهنية. هذه الميزات تجعلها مفيدة بشكل خاص لتقييم وتحسين دقة ومرونة وكلاء واجهة المستخدم الرسومية.

يوضح تحليل نماذج تحديد موقع واجهة المستخدم الرسومية الحالية باستخدام Screenspot-Pro أنها تتمتع بافتقار خطير في القدرة على التعامل مع البيئات المهنية عالية الدقة. أعلى معدل دقة من OS-ATLAS-7B هو 18.9 ٪ فقط. ومع ذلك ، فإن إعادة التشغيل ، التي تتبنى الطريقة التكرارية ، تعمل على تحسين الأداء من خلال صياغة الطريقة متعددة الخطوات ، مما يحقق دقة 40.2 ٪. يُظهر تحديد المكونات الصغيرة مثل الرموز صعوبات كبيرة ، في حين أن المهمة ثنائية اللغة تبرز بشكل أكبر حدود النموذج. تسلط هذه النتائج الضوء على الحاجة إلى تحسين التقنيات لتعزيز فهم السياق والقدرة على التكيف في بيئات واجهة المستخدم الرسومية المعقدة.

يعين Screenspot-Pro معيارًا تحويليًا لتقييم عوامل واجهة المستخدم الرسومية في البيئات المهنية عالية الدقة. إنه يعالج تحديات محددة في سير العمل المعقدة ويوفر مجموعات بيانات متنوعة ودقيقة لتوجيه الابتكارات في تحديد مواقع واجهة المستخدم الرسومية. ستضع هذه المساهمة الأساس للعوامل الأكثر ذكاءً والأكثر كفاءة ، وبالتالي دعم التنفيذ السلس للمهام المهنية وتعزيز الإنتاجية والابتكار بشكل كبير في مختلف الصناعات.

ورقة: https://likaixin2000.github.io/papers/screenspot_pro.pdf

البيانات |: https: //huggingface.co/datasets/likaixin/screenspot-pro

النقاط الرئيسية:

** تعقيد التطبيقات المهنية **: يحتاج وكلاء واجهة المستخدم الرسومية إلى التعامل مع واجهات البرمجيات المهنية ذات التعقيد العالي والدقة العالية.

** Screenspot-Pro Dataset **: يحتوي على 1،581 مهمة ، ويغطي 23 تطبيقًا احترافيًا ، ويدعم التقييم متعدد اللغات.

** تحسين أداء النموذج **: من خلال ضبط الأداء متعدد الخطوات ، تحسين دقة نموذج تحديد موقع واجهة المستخدم الرسومية في البيئات عالية الدقة.