La Universidad de Zhejiang y la Academia Alibaba Damo lanzaron conjuntamente una investigación innovadora: utilizar vídeos didácticos para crear un conjunto de datos de libros de texto multimodales de alta calidad. Esta investigación tiene como objetivo resolver los problemas de baja densidad de conocimiento y débil correlación imagen-texto de los datos previos al entrenamiento de modelos de lenguaje a gran escala (VLM) existentes, proporcionar mejores materiales de capacitación para VLM e innovar en el uso de recursos educativos. El equipo de investigación recopiló y procesó videos educativos masivos y finalmente construyó un conjunto de datos de alta calidad que cubre múltiples disciplinas con una duración total de más de 22.000 horas, lo que brinda nuevas posibilidades para la aplicación de la inteligencia artificial en el campo de la educación.
Recientemente, la Universidad de Zhejiang y la Academia Alibaba Damo publicaron conjuntamente una investigación llamativa destinada a crear libros de texto multimodales de alta calidad a través de vídeos didácticos. Este innovador resultado de investigación no solo proporciona nuevas ideas para la formación de modelos lingüísticos a gran escala (VLM), sino que también puede cambiar la forma en que se utilizan los recursos educativos.
Con el rápido desarrollo de la tecnología de inteligencia artificial, el corpus de preentrenamiento de VLM se basa principalmente en datos de imagen-texto y corpus entrelazados de imagen-texto. Sin embargo, la mayoría de los datos actuales provienen de páginas web, la correlación entre texto e imágenes es débil y la densidad de conocimiento es relativamente baja, lo que los hace incapaces de respaldar de manera efectiva un razonamiento visual complejo.
Para afrontar este desafío, el equipo de investigación decidió extraer un corpus de conocimientos de alta calidad de la gran cantidad de vídeos didácticos disponibles en Internet. Recopilaron más de 159.000 vídeos didácticos y, tras un cuidadoso filtrado y procesamiento, finalmente conservaron 75.000 vídeos de alta calidad, que cubrían múltiples temas como matemáticas, física, química, etc., con una duración total de más de 22.000 horas.
Los investigadores diseñaron un complejo proceso de procesamiento de "video a libro de texto". En primer lugar, se utiliza la tecnología de reconocimiento automático de voz (ASR) para transcribir el contenido explicativo del vídeo en texto y luego, mediante el análisis de imágenes y la comparación de texto, se eliminan los clips que son muy relevantes para los puntos de conocimiento. Finalmente, estos fotogramas clave procesados, texto OCR y texto transcrito se entrelazan y organizan para formar un libro de texto multimodal con contenido rico y estructura rigurosa.
Los resultados preliminares de este estudio muestran que, en comparación con conjuntos de datos anteriores centrados en la web, el conjunto de datos de libros de texto recientemente generado ha mejorado significativamente la densidad del conocimiento y la correlación de imágenes, proporcionando una base más sólida para el aprendizaje de VLM. Además, la investigación ha atraído una amplia atención de la comunidad académica, y los conjuntos de datos relevantes rápidamente subieron a la cima de la lista popular en la plataforma Hugging Face, con más de 7.000 descargas en sólo dos semanas.
A través de este intento innovador, los investigadores esperan no sólo promover el desarrollo de VLM, sino también abrir nuevas posibilidades en la integración y aplicación de recursos educativos.
Dirección del artículo: https://arxiv.org/pdf/2501.00958
El resultado de esta investigación no solo es de gran importancia para el campo de la inteligencia artificial, sino que también proporciona una nueva dirección para la futura reforma del modelo educativo, lo que indica las amplias perspectivas de aplicación de la tecnología de inteligencia artificial en el campo de la educación. El código abierto de este conjunto de datos también proporciona recursos valiosos para investigadores de todo el mundo y promueve la cooperación y los intercambios en la comunidad académica.