تعاونت Apple مع Ecole Polytechnique Fédérale de Lausanne (EPFL) في سويسرا لتطوير نموذج مبتكر متعدد الوسائط، 4M-21. يمكن تدريب النموذج على 21 طريقة مختلفة، وأدائه أفضل بكثير من النماذج الحالية، ويحقق وظائف متعددة مثل الاسترجاع عبر الوسائط والتوليد القابل للتحكم. أدى هذا البحث إلى تحسين أداء النموذج وقابليته للتكيف بشكل كبير من خلال توسيع حجم النموذج ومجموعة البيانات، وزيادة نوع وعدد طرائق التدريب، واعتماد استراتيجية تدريب مشتركة. يعتمد نموذج 4M-21 بنية التشفير وفك التشفير القائمة على المحولات ويضيف تضمينات نمطية إضافية للتكيف مع الأساليب الجديدة، وتأخذ عملية التدريب الخاصة به في الاعتبار بشكل كامل خصائص الأساليب المختلفة وتستخدم طريقة ترميز محددة للوسائل.
اعتمدت هذه الدراسة حل ما قبل التدريب 4M، والذي يمكنه تحسين أداء النموذج وقابليته للتكيف من خلال توسيع حجم النموذج ومجموعات البيانات، وزيادة نوع وعدد الطرائق المشاركة في تدريب النموذج، وإجراء تدريب مشترك على عدة مجموعات البيانات. يستخدم الباحثون طرقًا مختلفة للترميز لتمييز الطرائق ذات الميزات المختلفة، مثل تضمينات الصور العالمية، والأوضاع البشرية، والحالات الدلالية. فيما يتعلق باختيار البنية، تعتمد هذه الدراسة بنية التشفير وفك التشفير 4M استنادًا إلى Transformer وتضيف تضمينات نمطية إضافية للتكيف مع الأساليب الجديدة.
لا يستطيع هذا النموذج فقط تنفيذ سلسلة من مهام الرؤية الشائعة خارج الصندوق، مثل تقدير سطح DIODE الطبيعي وتقدير العمق، وتجزئة COCO الدلالية والمثيلات، وتقدير وضعية الإنسان 3DPW3D، وما إلى ذلك، بل يمكنه أيضًا إنشاء طرق تدريب عشوائية ودعم العديد من يتم تنفيذ الأساليب الدقيقة والمتعددة الوسائط، ويمكن استرجاع صور RGB أو الطرائق الأخرى باستخدام طرائق أخرى كاستعلامات. بالإضافة إلى ذلك، أجرى الباحثون أيضًا تجارب نقل متعددة الوسائط على NYUv2، والتجزئة الدلالية Hypersim، وARKitScenes.
وتشمل ميزاته الوظيفية الهامة ما يلي:
طرائق أي شيء إلى أي شيء: تمت الزيادة من 7 طرائق لأفضل نموذج موجود لأي شيء إلى 21 طريقة مختلفة، مما يتيح استرجاع الوسائط المتعددة، والتوليد الذي يمكن التحكم فيه، والأداء القوي خارج الصندوق.
دعم التنوع: أضف دعمًا لمزيد من البيانات المنظمة مثل الأوضاع البشرية ومثيلات SAM وبيانات التعريف والمزيد.
الترميز: دراسة الترميز المنفصل لطرائق مختلفة باستخدام أساليب خاصة بالطريقة، مثل تضمين الصور العالمية، والأوضاع البشرية، والمثيلات الدلالية.
القياس: قم بتوسيع حجم النموذج إلى 3B معلمات ومجموعة البيانات إلى 0.5B عينة.
التدريب التعاوني: التدريب التعاوني على الرؤية واللغة في نفس الوقت.
عنوان الورقة: https://arxiv.org/pdf/2406.09406
تسليط الضوء على:
- قام باحثون من Apple وEcole Polytechnique Fédérale de Lausanne (EPFL) في سويسرا بتطوير نموذج واحد لطريقة "أي شيء إلى أي" يمكن تدريبه على 21 طريقة مختلفة.
- يمكن للنموذج أداء مجموعة من مهام الرؤية الشائعة خارج الصندوق، كما أنه قادر على إنشاء طرائق تدريب عشوائية، ودعم عدة طرق لأداء توليد دقيق ومتعدد الوسائط.
- أجرى الباحثون أيضًا تجارب نقل متعددة الوسائط على NYUv2، والتجزئة الدلالية Hypersim، وARKitScenes.
بشكل عام، حقق نموذج 4M-21 تقدمًا كبيرًا في مجال البحث متعدد الوسائط، ويوفر أدائه القوي وآفاق التطبيق الواسعة اتجاهًا جديدًا للتطوير المستقبلي للذكاء الاصطناعي متعدد الوسائط. تستحق المصادر المفتوحة والتطبيقات المستقبلية لهذا النموذج التطلع إليها.