¡El editor de Downcodes le ayudará a comprender los "usos alternativos" de los artículos académicos! En los últimos años, la fuente de datos de entrenamiento para modelos de IA ha atraído una atención generalizada. Muchos editores académicos están "empaquetando y vendiendo" trabajos de investigación a empresas de tecnología para mejorar las capacidades de los sistemas de IA. Esto implicó enormes transacciones y desencadenó acalorados debates en la comunidad académica sobre los derechos de propiedad intelectual, los derechos de autor y la ética del desarrollo de la IA. Este artículo profundizará en los mecanismos, impactos y tendencias futuras detrás de este fenómeno.
¿Alguna vez pensó que su trabajo de investigación podría haberse utilizado para entrenar IA? Sí, muchas editoriales académicas están “empaquetando y vendiendo” sus resultados a empresas de tecnología que desarrollan modelos de IA. No hay duda de que esta medida ha causado un gran revuelo en la comunidad de investigación científica, especialmente cuando los autores no saben nada al respecto. Los expertos dicen que si el suyo aún no está siendo utilizado por un modelo de lenguaje grande (LLM), es muy probable que lo esté en un futuro cercano.
Recientemente, la editorial académica británica Taylor & Francis llegó a un acuerdo de 10 millones de dólares con Microsoft, lo que permitirá al gigante tecnológico utilizar sus datos de investigación para mejorar las capacidades de sus sistemas de inteligencia artificial. Ya en junio, la editorial estadounidense Wiley también llegó a un acuerdo con una empresa y recibió 23 millones de dólares en ingresos a cambio de que su contenido se utilizara para entrenar modelos de IA generativa.
Si un artículo está disponible en línea, ya sea en acceso abierto o detrás de un muro de pago, es probable que haya sido introducido en algún modelo de lenguaje grande. "Una vez que se utiliza un documento para entrenar un modelo, no se puede eliminar después de entrenar el modelo", dijo Lucy Lu Wang, investigadora de inteligencia artificial de la Universidad de Washington.
Los modelos de lenguaje grandes requieren grandes cantidades de datos para entrenarse, que a menudo se obtienen de Internet. Al analizar miles de millones de fragmentos de lenguaje, estos modelos pueden aprender y generar texto fluido. Los trabajos académicos se han convertido en un "tesoro" muy valioso para los desarrolladores de LLM debido a su alta densidad de información y su gran extensión. Estos datos ayudan a la IA a hacer mejores inferencias en ciencia.
Recientemente, la tendencia a comprar conjuntos de datos de alta calidad está aumentando y muchos medios y plataformas conocidos han comenzado a cooperar con desarrolladores de inteligencia artificial para vender su contenido. Teniendo en cuenta que sin un acuerdo muchas obras pueden ser eliminadas silenciosamente, este tipo de cooperación será cada vez más común en el futuro.
Sin embargo, algunos desarrolladores de IA, como la Red de Inteligencia Artificial a gran escala, optan por mantener abiertos sus conjuntos de datos, pero muchas empresas que desarrollan IA generativa mantienen sus datos de entrenamiento en secreto. No se sabe nada sobre los datos de entrenamiento. Plataformas como arXiv y bases de datos como PubMed son, sin duda, objetivos populares para que las empresas de IA rastreen.
No es sencillo demostrar si un determinado artículo aparece en el conjunto de formación de un determinado LLM. Los investigadores pueden usar oraciones inusuales del artículo para probar si el resultado del modelo coincide con el texto original, pero esto no prueba completamente que el artículo no se utilizó, porque los desarrolladores pueden ajustar el modelo para evitar generar datos de entrenamiento directamente.
Incluso si se demuestra que un LLM ha utilizado un texto específico, ¿qué sucede después? Los editores afirman que el uso no autorizado de texto protegido por derechos de autor constituye una infracción, pero también hay objeciones de que el LLM no copia el texto, sino que genera texto nuevo. analizando el contenido de la información.
Actualmente hay en marcha una demanda por derechos de autor en los Estados Unidos que podría convertirse en un caso histórico. El New York Times está demandando a Microsoft y al desarrollador de ChatGPT OpenAI, acusándolos de utilizar su contenido de noticias para entrenar modelos sin permiso.
Muchos académicos agradecen la inclusión de sus trabajos en los datos de capacitación de LLM, especialmente cuando estos modelos pueden mejorar la precisión de la investigación. Sin embargo, no todos los investigadores de la profesión se toman esto con calma y muchos sienten que sus puestos de trabajo están amenazados.
En general, los autores científicos individuales actualmente tienen poco que decir en las decisiones de ventas de los editores y no existe un mecanismo claro sobre cómo se asigna el crédito y si se utiliza para los artículos publicados. Algunos investigadores expresaron su frustración: "Esperamos contar con la ayuda de modelos de IA, pero también esperamos tener un mecanismo justo. Aún no hemos encontrado tal solución".
Referencias:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
La dirección futura de la IA y las publicaciones académicas aún no está clara, y es necesario mejorar aún más las cuestiones de derechos de autor, la privacidad de los datos y los mecanismos de protección de los derechos e intereses de los autores. Este no es solo un juego entre editores y empresas de tecnología, sino también una cuestión importante relacionada con el desarrollo sostenible de la investigación académica y la ética de la tecnología de IA, que requiere la atención y los esfuerzos conjuntos de toda la sociedad.