حقق نموذج الفهم متعدد الوسائط وتحديد موقع الصور LEGO الذي أطلقته ByteDance وجامعة فودان تقدمًا كبيرًا في المجال متعدد الوسائط. النموذج قادر على معالجة أنواع بيانات متعددة مثل الصور والصوت والفيديو، ولا يمكنه فهم المعلومات متعددة الوسائط فحسب، بل يمكنه أيضًا تحديد موقع الكائنات بدقة وتحديد توقيت أحداث معينة في الفيديو ومصدر أصوات محددة في الصوت. آفاق تطبيقه واسعة، وتغطي العديد من المجالات مثل إنشاء المحتوى والتعليم والترفيه ومراقبة الأمان.
يتمتع نموذج LEGO للفهم متعدد الوسائط وتحديد موقع الصور من Bytedance، والذي تم تطويره بشكل مشترك بواسطة ByteDance وجامعة فودان، بقدرات متعددة لمعالجة المدخلات، بما في ذلك الصور والصوت والفيديو. لا تستطيع LEGO فهم البيانات متعددة الوسائط فحسب، بل يمكنها أيضًا تحديد موقع الكائنات بدقة، والإشارة إلى الوقت الذي تحدث فيه أحداث معينة في مقاطع الفيديو، وتحديد مصدر أصوات معينة في الصوت. لديها مجموعة واسعة من مجالات التطبيق، بما في ذلك إنشاء المحتوى والتعليم والترفيه ومراقبة الأمان. يتضمن مبدأ عمل المشروع معالجة البيانات متعددة الوسائط، واستخراج الميزات، والدمج وتحليل السياق، مما يحقق اختراقات كبيرة في مجالات الفهم متعدد الوسائط وتحديد موضع الصور.
يمثل ظهور نموذج LEGO طفرة جديدة في تكنولوجيا الفهم متعدد الوسائط، حيث تمنحه وظائفه القوية وآفاق تطبيقه الواسعة إمكانات كبيرة للتطوير المستقبلي. ونحن نتطلع إلى إظهار LEGO لقدراتها القوية في المزيد من المجالات.