اتخذت Apple خطوة مهمة في مجال الذكاء الاصطناعي ، وقد كشفت عن مظاهرة لنموذج 4M على منصة الوجه المعانقة. يمكن أن يعالج نموذج الذكاء الاصطناعي متعدد الوسائط هذا مجموعة متنوعة من أنواع البيانات مثل النص والصور والمشاهد ثلاثية الأبعاد ، مما يدل على إمكانيات معالجة المعلومات القوية. من خلال تحميل الصورة ، يمكن للمستخدمين بسهولة الحصول على معلومات مفصلة مثل خرائط العمق ورسومات الخطوط وما إلى ذلك من الصورة ، والتي تمثل اختراقًا كبيرًا في تطبيق تقنية AIS من Apple.
يكمن النواة الفنية لنموذج 4M في طريقة التدريب على "نمذجة التدريع متعددة الوسائط على نطاق واسع". تتيح هذه الطريقة للنموذج معالجة طرق بصرية متعددة في وقت واحد ، وتحويل المعلومات الدلالية والهندسية إلى رموز موحدة ، وبالتالي تحقيق اتصال سلس بين طرائق مختلفة. لا يحسن هذا التصميم براعة النموذج فحسب ، بل يفتح أيضًا إمكانيات جديدة لتطبيقات AI متعددة الوسائط المستقبلية.
كسرت خطوة Apple تقليدها الثابت في السرية في مجال البحث والتطوير وأظهرت بنشاط قوته التكنولوجية على منصة AI المصدر المفتوح. من خلال فتح نموذج 4M ، لا توضح Apple الطبيعة المتقدمة لتكنولوجيا الذكاء الاصطناعي فحسب ، بل قامت أيضًا بتمديد فرع الزيتون إلى مجتمع المطورين ، على أمل بناء نظام بيئي مزدهر حوالي 4 أمتار. هذا يعرقل إمكانية وجود تطبيقات أكثر ذكاءً في النظام البيئي Apple ، مثل Siri Siri و The Final Cut Pro الأكثر كفاءة.
ومع ذلك ، فإن إطلاق نموذج 4M قد جلب أيضًا تحديات في ممارسة البيانات وأخلاقيات الذكاء الاصطناعي. كنموذج من الذكاء الاصطناعي كثيف البيانات ، فإن كيفية حماية خصوصية المستخدم مع الترويج للتقدم التكنولوجي ستكون مشكلة تحتاج Apple إلى التفكير فيها بجدية. كانت Apple تعتبر نفسها دائمًا بمثابة واقي خصوصية للمستخدم.
فيما يتعلق بأساليب التدريب ، تتبنى 4M طريقة علامات مبتكرة تم اختيارها عشوائيًا: المشاركة في وضع العلامات كمدخلات والجزء الآخر كهدف ، وبالتالي تحقيق قابلية التوسع في هدف التدريب. يسمح هذا التصميم 4M بمعالجة كل من الصور والنص كعلامات رقمية ، مما يؤدي إلى تحسين مرونة النموذج وقدرة على التكيف.
تأتي بيانات التدريب الخاصة بنموذج 4M من CC12M ، وهي واحدة من أكبر مجموعات بيانات المصادر المفتوحة في العالم. على الرغم من أن مجموعة البيانات هذه غنية بالبيانات ، إلا أن معلومات وضع العلامات ليست مثالية. لحل هذه المشكلة ، تبنى الباحثون طريقة ذات علامات زائفة خاضعة للإشراف بشكل ضعيف ، ومقطع مستخدم ، ومركن ، وغيرها من التقنيات لإنشاء تنبؤات شاملة لمجموعة البيانات ، ثم تحويل نتائج التنبؤ إلى الرموز ، ووضع أساس متين للتوافق متعدد الوسائط 4M.
بعد تجربة واختبار مكثفة ، أثبتت 4M نفسها أنها قادرة على أداء مهام متعددة الوسائط مباشرة دون الحاجة إلى عدد كبير من التدريب المسبق أو ضبط المهام المحددة. إنه مثل إعطاء منظمة العفو الدولية سكينًا للجيش السويسري متعدد الوسائط يسمح لها بالتعامل بمرونة مع مختلف التحديات. إن إطلاق 4M لا يوضح القوة الفنية لـ Apple في مجال الذكاء الاصطناعي فحسب ، بل يشير أيضًا إلى اتجاه التطوير المستقبلي لتطبيقات الذكاء الاصطناعي.
العنوان التجريبي: https://huggingface.co/spaces/epfl-vilab/4m