أطلقت فرق بحثية من مؤسسات مثل الجامعة الصينية في هونغ كونغ والأكاديمية الصينية للعلوم مؤخرًا نموذجًا كاملاً للتدريب المسبق يسمى MiCo، والذي حقق تقدمًا كبيرًا في مجال التعلم متعدد الوسائط وقام بتحديث 37 حالة -سجلات الأداء الفني (SOTA). تهدف MiCo إلى بناء ذكاء كامل الوسائط يمكنه فهم أي طريقة وتعلم التمثيلات العالمية، ومحاكاة العملية المعرفية متعددة الوسائط للدماغ البشري من خلال تقديم المزيد من الأساليب، وحجم البيانات، ومعلمات النموذج. جوهر الأمر هو تقسيم الأوضاع المختلفة إلى "وضع المعرفة" و"وضع الواجهة"، وتصميم بنية تعليمية كاملة الوسائط مقابلة، باستخدام سياق متعدد الوسائط لتعزيز التعزيز المتبادل بين الأساليب، وبناء علاقات سياقية متعددة الوسائط. توفر نتيجة البحث هذه اتجاهات وأفكار جديدة لتطوير مجال الذكاء الاصطناعي.
أخبار من ChinaZ.com في 17 يونيو: اقترح فريق بحث من الجامعة الصينية في هونغ كونغ والأكاديمية الصينية للعلوم ومؤسسات أخرى نموذجًا كاملاً للتدريب المسبق يسمى MiCo (سياق متعدد الوسائط). وقد حققت هذه الطريقة نتائج ملحوظة تم تحقيقه في مجال التعلم متعدد الوسائط، حيث تم تسجيل 37 سجل أداء متطور (SOTA).
الميزات الأساسية:
الفهم الكامل للوسائط: تهدف MiCo إلى بناء ذكاء كامل الوسائط يمكنه فهم أي طريقة وتعلم التمثيلات العالمية.
تدريب مسبق واسع النطاق: من خلال تقديم المزيد من الأساليب وحجم البيانات ومعلمات النموذج، يحاكي MiCo العملية المعرفية متعددة الوسائط للدماغ البشري أثناء عملية ما قبل التدريب.
تصميم بنية الشبكة العصبية: تقوم شركة MiCo بتقسيم الأوضاع المختلفة إلى "وضع المعرفة" و"وضع الواجهة"، وتصمم بنية تعليمية مقابلة كاملة الوسائط، والتي تتم مواءمتها من خلال أساليب التفكير التوليدي.
سياق متعدد الوسائط وقانون القياس: تستخدم MiCo سياقًا متعدد الوسائط لتعزيز التعزيز المتبادل بين الطرائق وبناء علاقات سياقية متعددة الوسائط.
تظهر النتائج التجريبية:
في الاختبار المعياري للإدراك أحادي الوسائط المكون من 10 أوضاع مختلفة، حققت MiCo 7 نتائج SOTA.
في 25 مهمة فهم متعددة الوسائط، بما في ذلك الاسترجاع، والسؤال والجواب، والوصف، وما إلى ذلك، حققت MiCo 20 نتيجة SOTA.
في 18 اختبارًا مرجعيًا لنموذج اللغة واسع النطاق متعدد الوسائط، حققت MiCo إجمالي 10 نتائج SOTA.
طريقة التدريب المسبق لشركة MiCo:
استخدم الفريق مقاطع الفيديو والصوت المقترن والأوصاف النصية والعمق والأعراف للتدريب المسبق المشترك لمحاكاة قدرات الإدراك البصري والسمعي والزمكاني للدماغ البشري.
يتم إنشاء علاقات السياق متعدد الوسائط عن طريق استخراج ميزات متعددة الوسائط باستخدام برنامج تشفير متعدد الوسائط (مثل ViT) واستخراج ميزات النص باستخدام برنامج تشفير النص.
الخلاصة والعمل المستقبلي:
يعد مشروع MiCo محاولة مهمة للذكاء الاصطناعي لمحاكاة الإدراك متعدد الوسائط للدماغ البشري، ويتوقع الفريق أن يلهم البحث المستقبلي ويطور نماذج أساسية كاملة الوسائط أكثر قوة.
تتضمن خطط العمل المستقبلية الجمع بين المزيد من الطرائق، مثل التدفق البصري وبيانات IMU وملفات الأحداث، لمواصلة تعزيز التدريب المسبق المشترك الكامل الوسائط.
لقد وضع أداء MiCo المتميز معيارًا جديدًا في مجال التعلم متعدد الوسائط، كما أن إمكانات التطوير المستقبلية لديها هائلة وتستحق الاهتمام المستمر. كما أن الاتجاه البحثي المستقبلي للفريق يستحق التطلع إليه، وأعتقد أن MiCo ستواصل تعزيز تقدم تكنولوجيا الذكاء الاصطناعي.