Recientemente, el New York Times y el Daily News presentaron una demanda por derechos de autor contra OpenAI, acusándola de utilizar sus trabajos para entrenar modelos de IA sin autorización. El caso se centró en el hecho de que los ingenieros de OpenAI eliminaron accidentalmente pruebas que podrían ser cruciales para el caso, lo que provocó una preocupación generalizada. Esta medida no solo afectó el proceso de juicio del caso, sino que también expuso los riesgos potenciales y los problemas éticos del procesamiento de datos durante el entrenamiento de grandes modelos de lenguaje. Este artículo analizará en detalle los entresijos de este incidente y explorará su impacto en el desarrollo de la industria de la inteligencia artificial.
Recientemente, The New York Times y Daily News demandaron conjuntamente a OpenAI, acusándola de utilizar sus trabajos para entrenar modelos de inteligencia artificial sin autorización.
El desarrollo del caso ha atraído la atención del público porque el equipo legal del demandante señaló en los últimos documentos judiciales que los ingenieros de OpenAI eliminaron accidentalmente pruebas que pueden tener un impacto importante en el caso al procesar datos relevantes.
Se informa que OpenAI acordó proporcionar dos máquinas virtuales este otoño para que el equipo legal del demandante pudiera buscar contenido protegido por derechos de autor en sus datos de capacitación. Una máquina virtual es una computadora virtual que se ejecuta dentro de un sistema operativo de computadora y generalmente se usa para realizar pruebas, realizar copias de seguridad de datos y ejecutar aplicaciones. Los asesores legales de The New York Times y Daily News y sus expertos contratados han trabajado en los datos de capacitación de OpenAI durante más de 150 horas desde el 1 de noviembre.
Sin embargo, el 14 de noviembre, los ingenieros de OpenAI borraron accidentalmente los datos de búsqueda almacenados en una de las máquinas virtuales. Según la carta de los abogados de los demandantes, si bien OpenAI intentó recuperar los datos perdidos y tuvo éxito en la mayoría de los casos, los datos recuperados no pudieron usarse para determinar qué noticias eran los artículos de los demandantes porque la estructura de carpetas y los nombres de los archivos eran "irrecuperable." Cómo se utiliza para entrenar modelos OpenAI.
Los abogados de los demandantes señalaron que no creen que la eliminación haya sido intencional, pero que el incidente demuestra que OpenAI está "en la mejor posición para buscar en sus propios conjuntos de datos contenido potencialmente infractor". Esto significa que OpenAI debería utilizar sus propias herramientas para encontrar contenido infractor relevante de manera más eficiente.
OpenAI ha sostenido en este caso y en otros similares que utilizar datos disponibles públicamente para el entrenamiento de modelos es un uso legítimo. Esto significa que OpenAI cree que no tiene que pagar regalías por el uso de estos ejemplos, aunque gana dinero con estos modelos.
Vale la pena mencionar que OpenAI ha firmado acuerdos de licencia con un número cada vez mayor de nuevos medios, incluidos Associated Press, Business Insider, Financial Times, etc., pero OpenAI no ha revelado los términos específicos de estos acuerdos. Se informa que el socio de contenidos Dotdash recibe al menos 16 millones de dólares en compensación anual.
A pesar de la disputa legal, OpenAI no ha confirmado ni negado el uso de obras específicas con derechos de autor para el entrenamiento de IA sin permiso.
Destacar:
OpenAI ha sido acusada de eliminar por error pruebas potencialmente importantes en una demanda por derechos de autor.
Los abogados de los demandantes dijeron que dedicaron mucho tiempo y mano de obra a intentar recuperar los datos.
OpenAI sostiene que el uso de datos disponibles públicamente para entrenar sus modelos es un uso legítimo.
Este incidente pone de relieve la complejidad de las cuestiones de origen y derechos de autor de los datos de entrenamiento del modelo de inteligencia artificial y también plantea preocupaciones sobre la seguridad de los datos y la gestión de pruebas. Si el comportamiento de OpenAI constituye una infracción y cómo definir los límites del "uso justo" serán cuestiones importantes que necesitarán más debate en el futuro. El resultado final de este caso tendrá un profundo impacto en el desarrollo de la industria de la inteligencia artificial.