La Universidad de Harvard publica decenas de millones de conjuntos de datos de libros para proporcionar materiales de capacitación de alta calidad para modelos de IA

Autor：Eve Cole Fecha de actualización：2024-12-16 15:32:01

La Universidad de Harvard ha gastado enormes sumas de dinero para publicar casi un millón de conjuntos de datos de libros de dominio público, con el objetivo de promover la competencia leal en el campo de la inteligencia artificial y promover el desarrollo de la tecnología de inteligencia artificial. El proyecto está dirigido por la Iniciativa de Datos Institucionales de la Universidad de Harvard y financiado por Microsoft y OpenAI. El conjunto de datos contiene contenido rico, desde literatura clásica hasta literatura académica profesional, proporcionando recursos valiosos para pequeñas empresas de IA e investigadores individuales, reduciendo la brecha entre la brecha de datos. en las grandes empresas tecnológicas. Este movimiento también proporciona nuevas ideas para la fuente de datos de formación en el campo de la inteligencia artificial e intenta explorar un camino de desarrollo sostenible en el contexto de cuestiones de derechos de autor cada vez más complejas.

La Universidad de Harvard anunció recientemente planes para publicar un conjunto de datos que consta de casi 1 millón de libros de dominio público que cualquiera puede utilizar para entrenar grandes modelos de lenguaje y otras herramientas de inteligencia artificial.

Este proyecto está dirigido por la recién creada Iniciativa de Datos Institucionales (Iniciativa de Datos Institucionales) de la Universidad de Harvard y se completa con financiación de Microsoft y OpenAI. El conjunto de datos incluye libros escaneados del proyecto Google Books, que abarcan obras clásicas como Shakespeare, Dickens y Dante, así como algunos oscuros libros de texto de matemáticas checos y diccionarios de galés.

AI助教机器人

Nota sobre la fuente de la imagen: la imagen es generada por IA y el proveedor de servicios de autorización de imágenes Midjourney

Apodado "Books3 Dataset", el conjunto de datos es cinco veces más grande y tiene como objetivo nivelar el campo de juego en el campo de la inteligencia artificial, brindando al público, especialmente a las pequeñas empresas de inteligencia artificial y a los investigadores individuales, acceso a lo que normalmente solo está disponible para las grandes tecnologías. Sólo las empresas pueden recopilar datos de alta calidad. Greg Leppert dijo que el proyecto fue seleccionado rigurosamente y el contenido cuidadosamente seleccionado.

El vicepresidente de Microsoft, Burton Davis, enfatizó que el objetivo de Microsoft al apoyar el proyecto es crear un "grupo de datos accesible" para las empresas emergentes y garantizar que estos datos se gestionen en el "interés público". Tom Rubin, director de propiedad intelectual de OpenAI, también dijo que la empresa estaba encantada de apoyar el proyecto.

A medida que aumentan las demandas por el uso de datos protegidos por derechos de autor en IA, proyectos como el conjunto de datos de dominio público de Harvard se están convirtiendo en una fuente importante de datos de entrenamiento de IA. Aunque no está claro cómo se publicará específicamente el conjunto de datos, se espera que proporcione a las empresas una gran cantidad de datos de alta calidad evitando al mismo tiempo problemas de derechos de autor.

La Iniciativa de Datos Institucionales de Harvard va más allá de los libros: trabaja con la Biblioteca Pública de Boston para escanear millones de artículos periodísticos de dominio público y planifica colaboraciones similares con más socios en el futuro. Además, Harvard está trabajando con Google para discutir cómo lograr la distribución pública del conjunto de datos.

Este proyecto se unirá a varias iniciativas similares que también prometen proporcionar materiales de capacitación en IA de alta calidad sin riesgos de derechos de autor. En el futuro, a medida que haya más conjuntos de datos de dominio público disponibles, las empresas de inteligencia artificial tendrán más opciones para entrenar sus modelos y al mismo tiempo reducir los riesgos legales relacionados con los derechos de autor.

Esta medida de la Universidad de Harvard no solo proporciona recursos de datos de alta calidad para la investigación de inteligencia artificial, sino que también proporciona nuevas ideas para resolver el problema de los derechos de autor de las fuentes de datos de entrenamiento de IA. Se espera que promueva un desarrollo saludable y una competencia justa en el campo de la inteligencia artificial. en el futuro. La implementación exitosa de este proyecto tendrá un profundo impacto en toda la industria.