مع التطور السريع للذكاء الاصطناعي، أصبحت تقنية فهم واجهة المستخدم خفيفة الوزن وفعالة هي المفتاح لتطبيقات الذكاء الاصطناعي. في ورقة بحثية صدرت مؤخرًا، قدمت شركة Apple بنية جديدة تسمى UI-JEPA، والتي تهدف إلى حل مشكلة فهم واجهة المستخدم بكفاءة على الأجهزة خفيفة الوزن. لا تحافظ هذه التقنية على الأداء العالي فحسب، بل تقلل أيضًا بشكل كبير من متطلبات الحوسبة، مما يوفر إمكانيات جديدة لتشغيل تطبيقات الذكاء الاصطناعي على الأجهزة المحدودة الموارد. من المتوقع أن يؤدي ظهور UI-JEPA إلى تعزيز الانتشار الواسع لتطبيقات الذكاء الاصطناعي الأكثر ملاءمة وخاصة.
مع استمرار تقدم تكنولوجيا الذكاء الاصطناعي، أصبح فهم واجهة المستخدم (UI) تحديًا رئيسيًا في إنشاء تطبيقات الذكاء الاصطناعي البديهية والمفيدة. في الآونة الأخيرة، قدم باحثو Apple UI-JEPA في ورقة بحثية جديدة، وهي بنية مصممة لتحقيق فهم خفيف الوزن لواجهة المستخدم من جانب الجهاز والتي لا تحافظ على الأداء العالي فحسب، بل تقلل أيضًا من تكلفة فهم متطلبات حساب واجهة المستخدم بشكل كبير.
يكمن التحدي المتمثل في فهم واجهة المستخدم في الحاجة إلى معالجة الميزات متعددة الوسائط، بما في ذلك الصور واللغة الطبيعية، لالتقاط العلاقات الزمنية في تسلسلات واجهة المستخدم. على الرغم من أن نماذج اللغات الكبيرة متعددة الوسائط (MLLM) مثل Anthropic Claude3.5Sonnet وOpenAI GPT-4Turbo قد أحرزت تقدمًا في التخطيط الشخصي، إلا أن هذه النماذج تتطلب موارد حوسبة واسعة النطاق وأحجام نماذج ضخمة وتقدم زمن وصول عاليًا، وهي غير مناسبة لحلول الأجهزة خفيفة الوزن التي تتطلب انخفاضًا في الطلب. الكمون وتعزيز الخصوصية.
مجموعة بيانات IIT وIIW الخاصة بـ UI-JEPA مثال لمصدر الصورة: arXiv
لمزيد من التقدم في البحث حول فهم واجهة المستخدم، يقدم الباحثون مجموعتين جديدتين من البيانات والمعايير متعددة الوسائط: "النوايا في البرية" (IIW) و"النوايا في الترويض" (IIT). يلتقط IIW تسلسلات إجراءات واجهة المستخدم المفتوحة ذات نية مستخدم غامضة، بينما يركز IIT على المهام الشائعة بنوايا أكثر وضوحًا.
يُظهر تقييم أداء UI-JEPA وفقًا للمعايير الجديدة أنه يتفوق على نماذج تشفير الفيديو الأخرى في إعداد اللقطات القليلة ويحقق أداءً مشابهًا للنماذج المغلقة الأكبر حجمًا. وجد الباحثون أن دمج النص المستخرج من واجهة المستخدم باستخدام التعرف البصري على الأحرف (OCR) أدى إلى تحسين أداء UI-JEPA.
تشمل الاستخدامات المحتملة لنموذج UI-JEPA إنشاء حلقات تعليقات تلقائية لوكلاء الذكاء الاصطناعي، وتمكينهم من التعلم المستمر من التفاعلات دون تدخل بشري، ودمج UI-JEPA في التطبيقات المصممة لتتبع نوايا المستخدم عبر التطبيقات والأوضاع المختلفة في إطار عمل الوكالة .
يبدو أن نموذج UI-JEPA من Apple مناسب تمامًا لـ Apple Intelligence، وهي مجموعة من أدوات الذكاء الاصطناعي التوليدية خفيفة الوزن المصممة لجعل أجهزة Apple أكثر ذكاءً وأكثر كفاءة. ونظرًا لتركيز شركة Apple على الخصوصية، فإن التكلفة المنخفضة والكفاءة الإضافية لنموذج UI-JEPA يمكن أن تمنح مساعد الذكاء الاصطناعي الخاص بها ميزة على المساعدين الآخرين الذين يعتمدون على النماذج السحابية.
لقد جلب ظهور UI-JEPA إمكانيات جديدة لتطبيقات الذكاء الاصطناعي خفيفة الوزن على جانب الجهاز، ومزاياها في حماية الخصوصية والحوسبة الفعالة تمنحها آفاقًا واسعة للتطبيق في تطوير الذكاء الاصطناعي في المستقبل وتستحق الاهتمام المستمر.