GPT-4V، هذه الأداة المعروفة باسم "النظر إلى الصور والتحدث"، تعرضت لانتقادات بسبب افتقارها إلى فهم الواجهات الرسومية. إنه مثل شخص "أعمى الشاشة" الذي غالبًا ما ينقر على الأزرار الخاطئة، وهو أمر مثير للجنون. ومع ذلك، من المتوقع أن يحل نموذج OmniParser الذي أصدرته Microsoft هذه المشكلة تمامًا! يشبه OmniParser "مترجم الشاشة"، حيث يحول لقطات الشاشة إلى لغة GPT-4V المنظمة سهلة الفهم، مما يجعل "رؤية" GPT-4V أكثر وضوحًا. سيأخذك محرر Downcodes إلى فهم متعمق لهذا النموذج السحري، ومعرفة كيف يساعد GPT-4V في التغلب على عيب "عمى العين"، والتكنولوجيا المذهلة التي تقف وراءه.
هل مازلت تتذكر جهاز GPT-4V، وهو عبارة عن قطعة أثرية تُعرف باسم "النظر إلى الصور والتحدث"؟ يمكنها فهم محتوى الصور وتنفيذ المهام بناءً على الصور، إنها نعمة للأشخاص الكسالى! الضعف: بصره ليس جيدًا جدًا !
تخيل أنك تطلب من GPT-4V أن ينقر على زر نيابةً عنك، ولكنه ينقر في كل مكان مثل "ستارة الشاشة"، أليس هذا جنونًا؟
سأقدم لكم اليوم قطعة أثرية يمكنها أن تجعل GPT-4V يبدو أفضل - OmniParser. هذا نموذج جديد أصدرته Microsoft، يهدف إلى حل مشكلة التفاعل التلقائي لواجهات المستخدم الرسومية (GUI).
ماذا يفعل OmniParser؟
بكل بساطة، OmniParser هو "مترجم شاشة" يمكنه تحليل لقطات الشاشة إلى "لغة منظمة" يمكن أن يفهمها GPT-4V. يجمع OmniParser بين نموذج اكتشاف الأيقونات التفاعلي المضبوط بدقة ونموذج وصف الأيقونات المضبوط بدقة ومخرجات وحدة التعرف الضوئي على الحروف (OCR).
ينتج عن هذا المزيج تمثيل منظم لواجهة المستخدم يشبه DOM، بالإضافة إلى لقطات شاشة تغطي المربعات المحيطة بالعناصر التي يحتمل أن تكون قابلة للتفاعل. قام الباحثون أولاً بإنشاء مجموعة بيانات تفاعلية للكشف عن الأيقونات باستخدام صفحات الويب الشائعة ومجموعات بيانات وصف الأيقونات. تُستخدم مجموعات البيانات هذه لضبط النماذج المتخصصة: نموذج كشف لتحليل المناطق القابلة للتفاعل على الشاشة ونموذج وصف لاستخراج الدلالات الوظيفية للعناصر المكتشفة.
على وجه التحديد، سيقوم OmniParser بما يلي:
حدد جميع الرموز والأزرار التفاعلية الموجودة على الشاشة، وقم بتمييزها بالمربعات، ومنح كل مربع معرفًا فريدًا.
استخدم النص لوصف وظيفة كل رمز، مثل "الإعدادات" و"تصغير". التعرف على النص الموجود على الشاشة واستخراجه.
بهذه الطريقة، يمكن لـ GPT-4V أن يعرف بوضوح ما هو موجود على الشاشة وما يفعله كل شيء، فقط أخبره بمعرف الزر الذي تريد النقر فوقه.
ما مدى روعة OmniParser؟
استخدم الباحثون اختبارات مختلفة لاختبار OmniParser، ووجدوا أنه يمكن أن يجعل GPT-4V "أفضل" حقًا!
في اختبار ScreenSpot، قام OmniParser بتحسين دقة GPT-4V بشكل كبير، حتى أنه تجاوز بعض النماذج المدربة خصيصًا للواجهات الرسومية. على سبيل المثال، في مجموعة بيانات ScreenSpot، يعمل OmniParser على تحسين الدقة بنسبة 73%، متفوقًا على النماذج التي تعتمد على تحليل HTML الأساسي. والجدير بالذكر أن دمج الدلالات المحلية لعناصر واجهة المستخدم أدى إلى تحسن كبير في دقة التنبؤ - تم تصنيف أيقونات GPT-4V بشكل صحيح من 70.5% إلى 93.8% عند استخدام مخرجات OmniParser.
في اختبار Mind2Web، قام OmniParser بتحسين أداء GPT-4V في مهام تصفح الويب، وتجاوزت دقته GPT-4V الذي يستخدم مساعدة معلومات HTML.
في اختبار AITW، قام OmniParser بتحسين أداء GPT-4V بشكل ملحوظ في مهام الملاحة عبر الهاتف المحمول.
ما هي عيوب OmniParser؟
على الرغم من أن OmniParser قوي جدًا، إلا أنه يحتوي أيضًا على بعض العيوب البسيطة، مثل:
من السهل أن تصاب بالارتباك عند مواجهة رموز أو نصوص متكررة ، وهناك حاجة إلى وصف أكثر تفصيلاً للتمييز بينها.
في بعض الأحيان لا يتم رسم الإطار بدقة كافية ، مما يتسبب في نقر GPT-4V في الموضع الخاطئ.
أحيانًا يكون تفسير الرموز خاطئًا ويتطلب سياقًا للحصول على وصف أكثر دقة.
ومع ذلك، يعمل الباحثون بجد لتحسين OmniParser ويعتقدون أنه سيصبح أكثر قوة وسيصبح في النهاية أفضل شريك لـ GPT-4V!
تجربة النموذج: https://huggingface.co/microsoft/OmniParser
المدخل الورقي: https://arxiv.org/pdf/2408.00203
المقدمة الرسمية: https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/
تسليط الضوء على:
✨OmniParser يمكنه مساعدة GPT-4V على فهم محتوى الشاشة بشكل أفضل وتنفيذ المهام بشكل أكثر دقة.
كان أداء OmniParser جيدًا في الاختبارات المختلفة، مما أثبت فعاليته.
️OmniParser لا يزال لديه بعض المجالات للتحسين، ولكن هناك أمل في المستقبل.
بشكل عام، يقدم OmniParser تحسينات ثورية لتفاعل GPT-4V مع واجهات المستخدم الرسومية. وعلى الرغم من أنه لا تزال هناك بعض أوجه القصور، إلا أن إمكاناتها هائلة ويستحق تطويرها المستقبلي التطلع إليه. يعتقد محرر Downcodes أنه مع التقدم التكنولوجي المستمر، سيصبح OmniParser نجمًا ساطعًا في مجال الذكاء الاصطناعي!