أطلقت جامعة تشجيانغ وأكاديمية علي بابا دامو بحثًا رائدًا: استخدام مقاطع الفيديو التعليمية لبناء مجموعة بيانات كتب مدرسية متعددة الوسائط عالية الجودة. يهدف هذا البحث إلى حل مشاكل انخفاض كثافة المعرفة وضعف الارتباط بين الصورة والنص لبيانات التدريب المسبق لنموذج اللغة واسع النطاق (VLMs)، وتوفير مواد تدريبية أفضل لنماذج اللغة الافتراضية (VLMs)، وابتكار استخدام الموارد التعليمية. وقام فريق البحث بجمع ومعالجة مقاطع فيديو تعليمية ضخمة، وأخيرًا قام ببناء مجموعة بيانات عالية الجودة تغطي تخصصات متعددة بمدة إجمالية تزيد عن 22000 ساعة، مما يوفر إمكانيات جديدة لتطبيق الذكاء الاصطناعي في مجال التعليم.
في الآونة الأخيرة، أصدرت جامعة تشجيانغ وأكاديمية علي بابا دامو بحثًا ملفتًا للنظر يهدف إلى إنشاء كتب مدرسية عالية الجودة ومتعددة الوسائط من خلال مقاطع الفيديو التعليمية. لا توفر نتيجة البحث المبتكرة هذه أفكارًا جديدة لتدريب نماذج اللغة واسعة النطاق (VLMs) فحسب، بل قد تغير أيضًا طريقة استخدام الموارد التعليمية.
مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، تعتمد مجموعة التدريب المسبق لـ VLMs بشكل أساسي على بيانات نص الصورة ونص الصورة المتشابك. ومع ذلك، فإن معظم البيانات الحالية تأتي من صفحات الويب، والارتباط بين النص والصور ضعيف، وكثافة المعرفة منخفضة نسبيًا، مما يجعلها غير قادرة على دعم التفكير البصري المعقد بشكل فعال.
ومن أجل مواجهة هذا التحدي، قرر فريق البحث استخلاص مجموعة معرفية عالية الجودة من العدد الكبير من مقاطع الفيديو التعليمية على الإنترنت. لقد جمعوا أكثر من 159000 مقطع فيديو تعليمي، وبعد التصفية والمعالجة الدقيقة، احتفظوا أخيرًا بـ 75000 مقطع فيديو عالي الجودة، يغطي مواضيع متعددة مثل الرياضيات والفيزياء والكيمياء وما إلى ذلك، بمدة إجمالية تزيد عن 22000 ساعة.
صمم الباحثون خط أنابيب معقدًا لمعالجة "من الفيديو إلى الكتاب المدرسي". أولاً، يتم استخدام تقنية التعرف التلقائي على الكلام (ASR) لتحويل محتوى الشرح الموجود في الفيديو إلى نص، ثم من خلال تحليل الصور ومطابقة النص، يتم فحص المقاطع ذات الصلة الكبيرة بنقاط المعرفة. أخيرًا، يتم تشذير هذه الإطارات الرئيسية المعالجة ونص التعرف الضوئي على الحروف والنص المكتوب وتنظيمها لتشكل كتابًا مدرسيًا متعدد الوسائط بمحتوى غني وبنية صارمة.
تظهر النتائج الأولية لهذه الدراسة أنه بالمقارنة مع مجموعات البيانات السابقة التي تركز على الويب، فإن مجموعة بيانات الكتب المدرسية التي تم إنشاؤها حديثًا قد حسنت بشكل كبير من كثافة المعرفة وارتباط الصور، مما يوفر أساسًا أكثر صلابة لتعلم VLMs. بالإضافة إلى ذلك، اجتذب البحث اهتمامًا واسع النطاق من المجتمع الأكاديمي، وسرعان ما صعدت مجموعات البيانات ذات الصلة إلى أعلى القائمة الشائعة على منصة Hugging Face، مع أكثر من 7000 عملية تنزيل في أسبوعين فقط.
ومن خلال هذه المحاولة المبتكرة، يأمل الباحثون ليس فقط في تعزيز تطوير VLMs، ولكن أيضًا فتح إمكانيات جديدة في تكامل وتطبيق الموارد التعليمية.
عنوان الورقة: https://arxiv.org/pdf/2501.00958
إن نتيجة البحث هذه ليست ذات أهمية كبيرة في مجال الذكاء الاصطناعي فحسب، بل توفر أيضًا اتجاهًا جديدًا لإصلاح نموذج التعليم المستقبلي، مما يشير إلى آفاق التطبيق الواسعة لتكنولوجيا الذكاء الاصطناعي في مجال التعليم. يوفر المصدر المفتوح لمجموعة البيانات هذه أيضًا موارد قيمة للباحثين في جميع أنحاء العالم ويعزز التعاون والتبادلات في المجتمع الأكاديمي.