El modelo de generación de video Sora de OpenAI ha atraído una gran atención. Sus poderosas capacidades de generación de video son sorprendentes, pero su fuente de datos de entrenamiento ha sido confusa. Este artículo profundizará en las posibles fuentes de datos de entrenamiento de Sora, especialmente el papel que desempeñan las transmisiones en vivo de los juegos y los videos de estrategia, y analizará las cuestiones legales que pueden surgir y el impacto en el futuro desarrollo de la IA.
Sora, el artefacto de generación de vídeo de OpenAI, ha atraído mucha atención desde su lanzamiento, pero siempre ha sido un misterio de dónde aprendió. Ahora, un rincón del misterio parece haber sido revelado: ¡es probable que los datos de entrenamiento de Sora contengan una gran cantidad de transmisiones en vivo de juegos y videos de estrategia de Twitch!
Sora es como un hábil "maestro de la imitación", capaz de generar videos de hasta 20 segundos de duración con solo mensajes de texto o imágenes, y puede controlar múltiples relaciones de aspecto y resoluciones. En febrero de este año, cuando OpenAI presentó por primera vez a Sora, insinuó que su modelo estaba "concentrado en practicar" en el vídeo de "Minecraft". Entonces, además de "Minecraft", ¿qué otros tesoros del juego se esconden en los "Secretos de las artes marciales" de Sora?
Los resultados son sorprendentes, ya que Sora parece estar familiarizado con una variedad de tipos de juegos. Puede generar un vídeo clonado de un juego con la sombra de "Mario", aunque tiene algunos "defectos menores", también puede simular una emocionante pantalla de juego de disparos en primera persona, como si fuera "Call of Duty" y "Counter-Strike"; se "combinan" "; También puede recrear las escenas de lucha del juego de arcade "Teenage Mutant Ninja Turtles" de la década de 1990, haciendo que las personas se sientan inmersas en recuerdos de la infancia.
Lo que es aún más sorprendente es que Sora también conoce bien la forma de transmisión en vivo de Twitch, lo que implica que ha "visto" una gran cantidad de contenido transmitido en vivo. Las capturas de pantalla de video generadas por Sora no solo capturaron con precisión la estructura del cuadro de la transmisión en vivo, sino que también restauraron vívidamente la imagen del conocido presentador Auronplay, incluido el tatuaje en su brazo izquierdo.
No solo eso, Sora también "conoce" a otro presentador de Twitch, Pokimane, y generó un video de un personaje que se parece a ella. Por supuesto, para evitar problemas de derechos de autor, OpenAI ha configurado un mecanismo de filtrado para evitar que Sora genere vídeos que contengan personajes de marca registrada.
Aunque OpenAI guarda silencio sobre la fuente de sus datos de entrenamiento, hay indicios de que lo más probable es que el contenido del juego esté incluido en el conjunto de entrenamiento de Sora. En una entrevista con el Wall Street Journal en marzo, Mira Mulati, ex directora de tecnología de OpenAI, no negó directamente que Sora utilizara contenido de YouTube, Instagram y Facebook para su formación. OpenAI también admite en las especificaciones técnicas de Sora que utiliza datos "disponibles públicamente", así como datos con licencia de bibliotecas multimedia como Shutterstock.
Si el contenido del juego realmente se utiliza para entrenar a Sora, esto podría desencadenar una serie de problemas legales, especialmente cuando OpenAI desarrolla una experiencia más interactiva basada en Sora. El abogado de propiedad intelectual de Pryor Cashman, Joshua Weigensberg, señaló que el uso no autorizado de videos de juegos para el entrenamiento de IA enfrentará enormes riesgos, porque el entrenamiento de modelos de IA generalmente requiere copiar datos de entrenamiento y los videos de juegos contienen una gran cantidad de contenido protegido por derechos de autor.
Los modelos de IA generativa como Sora se basan en la probabilidad. Aprenden patrones a partir de grandes cantidades de datos y hacen predicciones. Esta habilidad les permite "aprender" cómo funciona el mundo. Pero también existen peligros ocultos. Bajo ciertas indicaciones, el modelo puede generar contenido muy similar a sus datos de entrenamiento. Esto provocó un fuerte descontento entre los creadores, quienes creían que sus obras eran utilizadas para la formación sin permiso.
Actualmente, Microsoft y OpenAI están siendo demandados por sus herramientas de inteligencia artificial que supuestamente copian código con licencia. Empresas de aplicaciones de arte de IA como Midjourney, Runway y Stability AI también se han enfrentado a acusaciones de infringir los derechos de los artistas. Las principales compañías de música también han presentado demandas contra Udio y Suno, nuevas empresas que desarrollan generadores de canciones con inteligencia artificial.
Muchas empresas de IA han defendido durante mucho tiempo los principios de "uso justo", argumentando que sus modelos crean trabajos "transformadores" en lugar de plagio. Pero el contenido del juego tiene sus particularidades. Evan Everest, abogado de derechos de autor de Dorsey & Whitney, señaló que los videos de juegos implican al menos dos capas de protección de derechos de autor: los derechos de autor del contenido del juego propiedad del desarrollador del juego y los derechos de autor del video único creado por el jugador o video. productor. Para algunos juegos, también puede haber un tercer nivel de derechos, concretamente los derechos de autor sobre el contenido generado por el usuario.
Por ejemplo, Fortnite permite a los jugadores crear sus propios mapas de juego y compartirlos con otros. Un vídeo de juego sobre estos mapas involucra al menos a tres propietarios de derechos de autor: Epic, jugadores y creadores de mapas. Si el tribunal determina que el entrenamiento del modelo de IA implica responsabilidad por derechos de autor, estos propietarios de derechos de autor pueden convertirse en demandantes potenciales o fuentes autorizadas.
Además, Weigensberg también señaló que el juego en sí también tiene muchos elementos "protegibles", como texturas patentadas, que los jueces pueden considerar en litigios de propiedad intelectual.
En la actualidad, muchos estudios y editores de juegos, incluidos Epic, Microsoft (propietario de "Minecraft"), Ubisoft, Nintendo, Roblox y el desarrollador de "Cyberpunk 2077", CD Projekt Red, no han comentado sobre el asunto.
Incluso si las empresas de IA ganan estas disputas legales, es posible que los usuarios no queden exentos de responsabilidad. Si un modelo generativo copia una obra protegida por derechos de autor, la persona que publica la obra o la incorpora a otros proyectos aún puede ser considerada responsable de infracción de propiedad intelectual.
Algunas empresas de IA cuentan con cláusulas de indemnización para hacer frente a este tipo de situaciones, pero suele haber excepciones. Por ejemplo, los términos de OpenAI solo se aplican a clientes empresariales, no a usuarios individuales. Además de los riesgos de derechos de autor, también existen riesgos como violaciones de marcas registradas; por ejemplo, el contenido resultante puede contener activos utilizados para marketing y marca, incluidos personajes del juego.
A medida que crece el interés por los modelos mundiales, la situación puede volverse más compleja. Una aplicación de los modelos mundiales es generar videojuegos de la vida real, lo que puede causar problemas legales si estos juegos "sintéticos" son demasiado similares a aquello en lo que se entrenó el modelo.
Avery Williams, abogado de litigios de propiedad intelectual de McKool Smith, señaló que elementos como voces, movimientos, personajes, canciones, diálogos y obras de arte utilizados para entrenar la plataforma de IA en los juegos constituyen una infracción de derechos de autor. Las preguntas sobre el “uso legítimo” planteadas en numerosas demandas contra empresas de IA generativa tendrán el mismo impacto en la industria de los videojuegos que en otros mercados creativos.
El éxito de Sora también pone de relieve el enorme potencial de la tecnología de IA generativa en el campo de la creación de contenidos, pero también expone sus enormes desafíos en el uso de datos y los derechos de propiedad intelectual. Cómo equilibrar la innovación tecnológica y la protección de la propiedad intelectual será una cuestión clave que deberá resolverse en el futuro desarrollo de la IA. En el futuro, la fuente de datos de entrenamiento para los modelos de IA y su legalidad estarán sujetas a un escrutinio más estricto, lo que tendrá un profundo impacto en el desarrollo futuro de la industria de la IA.