يوفر إطار عمل 4M، الذي طورته Ecole Polytechnique Fédérale de Lausanne (EPFL) في سويسرا وشركة Apple، حلاً فعالاً وقابلاً للتطوير لتدريب النماذج الأساسية للرؤية متعددة الوسائط. يستخدم إطار العمل تقنية Transformer بذكاء ويعالج أنواعًا مختلفة من بيانات الإدخال من خلال علامات تمييز خاصة بالطريقة، مما يتغلب بشكل فعال على العديد من تحديات التدريب متعدد الوسائط. ويكمن ابتكارها في استخدام أقنعة الإدخال والهدف للتدريب، مما يظهر أداءً ممتازًا في المهام البصرية المتعددة.
يعمل إطار عمل 4M، الذي أطلقته مدرسة الفنون التطبيقية الفيدرالية في لوزان في سويسرا وApple، على حل التحدي المتمثل في تدريب النماذج الأساسية للرؤية عبر طرائق متعددة. يستخدم الإطار تقنية Transformer لمعالجة طرائق الإدخال المتعددة من خلال علامات تمييز خاصة بالطريقة، مما يحسن قابلية التوسع والكفاءة. تم تدريب 4M باستخدام أقنعة الإدخال والهدف، مما أدى إلى أداء جيد في مهام الرؤية المتعددة، مما أظهر إمكانات كبيرة.
يمثل ظهور إطار عمل 4M تقدمًا كبيرًا في تكنولوجيا التدريب النموذجي الأساسي للرؤية متعددة الوسائط ويوفر أساسًا متينًا لتوسيع تطبيقات الذكاء الاصطناعي المستقبلية. ستعزز كفاءتها وقابليتها للتوسع ظهور المزيد من التطبيقات المبتكرة وتستحق الاهتمام المستمر والبحث المتعمق.