Universitas Zhejiang dan Akademi Alibaba Damo bersama-sama meluncurkan penelitian terobosan: menggunakan video pengajaran untuk membangun kumpulan data buku teks multimodal berkualitas tinggi. Penelitian ini bertujuan untuk memecahkan masalah rendahnya kepadatan pengetahuan dan lemahnya korelasi gambar-teks dari data pra-pelatihan model bahasa skala besar (VLM) yang ada, menyediakan materi pelatihan yang lebih baik untuk VLM, dan berinovasi dalam penggunaan sumber daya pendidikan. Tim peneliti mengumpulkan dan memproses video pengajaran dalam jumlah besar, dan akhirnya menyusun kumpulan data berkualitas tinggi yang mencakup berbagai disiplin ilmu dengan total durasi lebih dari 22.000 jam, memberikan kemungkinan baru bagi penerapan kecerdasan buatan di bidang pendidikan.
Baru-baru ini, Universitas Zhejiang dan Akademi Alibaba Damo bersama-sama merilis penelitian menarik yang bertujuan untuk menciptakan buku teks multi-modal berkualitas tinggi melalui video pengajaran. Hasil penelitian inovatif ini tidak hanya memberikan ide-ide baru untuk pelatihan model bahasa skala besar (VLM), namun juga dapat mengubah cara pemanfaatan sumber daya pendidikan.
Dengan pesatnya perkembangan teknologi kecerdasan buatan, korpus VLM pra-pelatihan terutama bergantung pada data gambar-teks dan korpus gambar-teks yang saling terkait. Namun, sebagian besar data saat ini berasal dari halaman web, korelasi antara teks dan gambar lemah, dan kepadatan pengetahuan relatif rendah, sehingga tidak dapat secara efektif mendukung penalaran visual yang kompleks.
Untuk menjawab tantangan ini, tim peneliti memutuskan untuk mengekstraksi kumpulan pengetahuan berkualitas tinggi dari sejumlah besar video pengajaran di Internet. Mereka mengumpulkan lebih dari 159.000 video pengajaran, dan setelah memfilter dan memproses dengan cermat, mereka akhirnya menyimpan 75.000 video berkualitas tinggi, mencakup berbagai mata pelajaran seperti matematika, fisika, kimia, dll., dengan total durasi lebih dari 22.000 jam.
Para peneliti merancang jalur pemrosesan "video-ke-buku teks" yang kompleks. Pertama, teknologi pengenalan ucapan otomatis (ASR) digunakan untuk mentranskripsikan konten penjelasan dalam video menjadi teks, kemudian melalui analisis gambar dan pencocokan teks, klip yang sangat relevan dengan poin pengetahuan disaring. Terakhir, bingkai utama, teks OCR, dan teks transkripsi yang diproses ini disisipkan dan disusun untuk membentuk buku teks multimodal dengan konten yang kaya dan struktur yang ketat.
Hasil awal penelitian ini menunjukkan bahwa dibandingkan dengan kumpulan data yang berpusat pada web sebelumnya, kumpulan data buku teks yang baru dihasilkan telah meningkatkan kepadatan pengetahuan dan korelasi gambar secara signifikan, sehingga memberikan landasan yang lebih kokoh untuk pembelajaran VLM. Selain itu, penelitian ini telah menarik perhatian luas dari komunitas akademis, dan kumpulan data yang relevan dengan cepat naik ke puncak daftar populer di platform Hugging Face, dengan lebih dari 7.000 unduhan hanya dalam dua minggu.
Melalui upaya inovatif ini, para peneliti berharap tidak hanya mendorong pengembangan VLM, namun juga membuka kemungkinan baru dalam integrasi dan penerapan sumber daya pendidikan.
Alamat makalah: https://arxiv.org/pdf/2501.00958
Hasil penelitian ini tidak hanya memiliki arti penting dalam bidang kecerdasan buatan, tetapi juga memberikan arah baru bagi reformasi model pendidikan di masa depan, yang menunjukkan prospek penerapan luas teknologi kecerdasan buatan dalam bidang pendidikan. Sumber terbuka kumpulan data ini juga menyediakan sumber daya berharga bagi para peneliti di seluruh dunia dan mendorong kerja sama dan pertukaran dalam komunitas akademis.