أصدرت شركة Apple ترقية كبيرة لنموذج الذكاء الاصطناعي متعدد الوسائط MM1 - MM1.5. هذه الترقية ليست تكرارًا بسيطًا للإصدار، ولكنها تحسين شامل لقدرات النموذج، مما يؤدي إلى تحسين أدائه بشكل كبير في فهم الصور والتعرف على النص وتنفيذ الأوامر المرئية. سيشرح محرر Downcodes بالتفصيل تحسينات MM1.5 وأهميتها في مجال الذكاء الاصطناعي متعدد الوسائط.
أطلقت شركة Apple مؤخرًا تحديثًا رئيسيًا لنموذج الذكاء الاصطناعي متعدد الوسائط MM1، حيث قامت بترقيته إلى الإصدار MM1.5. هذه الترقية ليست مجرد تغيير بسيط في رقم الإصدار، ولكنها تحسين شامل للقدرة، مما يسمح للنموذج بإظهار أداء أكثر قوة في مختلف المجالات.
تكمن الترقية الأساسية لـ MM1.5 في طريقة معالجة البيانات المبتكرة. يعتمد النموذج نهجًا تدريبيًا يركز على البيانات، ويتم فحص مجموعة بيانات التدريب وتحسينها بعناية. على وجه التحديد، يستخدم MM1.5 بيانات التعرف الضوئي على الحروف عالية الوضوح وأوصاف الصور الاصطناعية، بالإضافة إلى تعليمات مرئية محسنة لضبط مزيج البيانات. أدى إدخال هذه البيانات إلى تحسين أداء النموذج بشكل كبير في التعرف على النص وفهم الصور وتنفيذ التعليمات المرئية.
من حيث حجم النموذج، يغطي MM1.5 إصدارات متعددة تتراوح من 1 مليار إلى 30 مليار معلمة، بما في ذلك المتغيرات المكثفة والمختلطة من الخبراء (MoE). ومن الجدير بالذكر أنه حتى النماذج الأصغر حجمًا التي تحتوي على مليار و3 مليارات من المعلمات يمكن أن تحقق مستويات أداء مذهلة من خلال البيانات واستراتيجيات التدريب المصممة بعناية.
تنعكس تحسينات قدرة MM1.5 بشكل رئيسي في الجوانب التالية: فهم الصور بكثافة النص، والمرجع البصري وتحديد المواقع، والتفكير متعدد الصور، وفهم الفيديو، وفهم واجهة المستخدم المتنقلة. تسمح هذه الإمكانات بتطبيق MM1.5 على نطاق أوسع من السيناريوهات، مثل تحديد فناني الأداء والآلات من صور الحفل، وفهم بيانات المخطط والإجابة على الأسئلة ذات الصلة، وتحديد موقع كائنات محددة في المشاهد المعقدة، وما إلى ذلك.
ولتقييم أداء MM1.5، قارنه الباحثون بنماذج متعددة الوسائط متقدمة أخرى. تظهر النتائج أن أداء MM1.5-1B جيد في نموذج بمقياس يضم 1 مليار معلمة، وهو أفضل بكثير من النماذج الأخرى من نفس المستوى. يتفوق MM1.5-3B على MiniCPM-V2.0 وهو على قدم المساواة مع InternVL2 وPhi-3-Vision. بالإضافة إلى ذلك، وجدت الدراسة أيضًا أنه سواء كان نموذجًا كثيفًا أو نموذج وزارة التربية والتعليم، فإن الأداء سوف يتحسن بشكل ملحوظ مع زيادة الحجم.
ولا يعكس نجاح MM1.5 قوة Apple في مجال البحث والتطوير في مجال الذكاء الاصطناعي فحسب، بل يشير أيضًا إلى الطريق أمام التطوير المستقبلي للنماذج متعددة الوسائط. ومن خلال تحسين أساليب معالجة البيانات وهندسة النماذج، يمكن حتى للنماذج الأصغر حجمًا تحقيق أداء قوي، وهو أمر له أهمية كبيرة لنشر نماذج الذكاء الاصطناعي عالية الأداء على الأجهزة المحدودة الموارد.
عنوان الورقة: https://arxiv.org/pdf/2409.20566
بشكل عام، يمثل إصدار MM1.5 تقدمًا كبيرًا في تكنولوجيا الذكاء الاصطناعي متعدد الوسائط. توفر ابتكاراتها في معالجة البيانات وهندسة النماذج أفكارًا واتجاهات جديدة لتطوير نماذج الذكاء الاصطناعي المستقبلية. ونحن نتطلع إلى استمرار Apple في تحقيق المزيد من النتائج الرائعة في مجال الذكاء الاصطناعي.