OpenAI的Sora视频生成模型引发广泛关注,其强大的视频生成能力令人惊叹,但其训练数据来源却一直扑朔迷离。本文将深入探讨Sora可能的训练数据来源,特别是游戏直播和攻略视频在其中扮演的角色,并分析由此可能引发的法律问题以及对未来AI发展的影响。
OpenAI的视频生成神器Sora,自面世以来就备受瞩目,但它究竟师从何处,却始终是个谜。如今,谜团的一角似乎被揭开:Sora的训练数据中,极有可能潜藏着大量来自Twitch的游戏直播和攻略视频!
Sora就像一位技艺精湛的“模仿大师”,仅需文本提示或图像,便能“信手拈来”生成长达20秒的视频,并能驾驭多种宽高比和分辨率。今年2月,OpenAI首次公开Sora时,曾暗示其模型在《我的世界》的视频中“潜心修炼”。那么,除了《我的世界》,Sora的“武功秘籍”里还藏着哪些游戏宝典呢?
结果令人惊讶,Sora似乎熟稔各种游戏类型。它能生成一段带有“马里奥”影子的克隆游戏视频,尽管有些“小瑕疵”;也能模拟出令人热血沸腾的第一人称射击游戏画面,仿佛《使命召唤》与《反恐精英》的“合体”;更能复刻出90年代《忍者神龟》街机游戏的格斗场景,令人仿佛置身于童年回忆之中。
更令人惊讶的是,Sora对Twitch直播的形态也了如指掌,这暗示着它曾“观看”过大量的直播内容。Sora生成的视频截图,不仅准确捕捉了直播的框架结构,甚至连知名主播Auronplay的形象都惟妙惟肖地还原了出来,包括他左臂上的纹身。
不仅如此,Sora还“认识”另一位Twitch主播Pokimane,并生成了与她外貌相似的角色视频。当然,为了避开版权问题,OpenAI设置了过滤机制,阻止Sora生成包含商标角色的视频。
虽然OpenAI对训练数据的来源讳莫如深,但种种迹象表明,游戏内容极有可能被纳入了Sora的训练集。OpenAI前CTO米拉·穆拉蒂在3月份接受《华尔街日报》采访时,并未直接否认Sora使用了YouTube、Instagram和Facebook上的内容进行训练。OpenAI在Sora的技术规范中也承认,它使用了“公开可用”的数据以及来自Shutterstock等媒体库的授权数据。
如果游戏内容真的被用于Sora的训练,这可能引发一系列法律问题,尤其是当OpenAI基于Sora开发更具互动性的体验时。Pryor Cashman知识产权律师约书亚·韦根斯伯格指出,未经授权使用游戏视频进行AI训练,将面临巨大的风险,因为训练AI模型通常需要复制训练数据,而游戏视频中包含大量的受版权保护的内容。
生成式AI模型如Sora,是基于概率的。它们通过大量数据学习模式,进行预测。这种能力使它们能够“学习”世界的运作方式。但同时也存在隐患,在特定提示下,模型可能会生成与其训练数据极为相似的内容。这引起了创作者的强烈不满,他们认为自己的作品未经允许就被用于训练。
目前,微软和OpenAI正因其AI工具涉嫌复制许可代码而遭到起诉。Midjourney、Runway和Stability AI等AI艺术应用公司也面临着侵犯艺术家权利的指控。各大音乐公司也对开发AI歌曲生成器的初创公司Udio和Suno提起了诉讼。
许多AI公司长期以来主张“合理使用”原则,认为它们的模型创造的是“转换性”作品,而非抄袭。但游戏内容却有其特殊性。Dorsey & Whitney律师事务所的版权律师埃文·埃弗里斯特指出,游戏视频至少涉及两层版权保护:游戏开发者拥有的游戏内容版权,以及玩家或视频制作者创作的独特视频版权。对于一些游戏,还可能存在第三层权利,即用户生成的内容版权。
例如,《堡垒之夜》允许玩家创建自己的游戏地图并分享给他人使用。一段关于这些地图的游戏视频,就至少涉及三个版权所有者:Epic、游戏玩家和地图创建者。如果法院判定AI模型训练存在版权责任,这些版权所有者都可能成为潜在的原告或授权来源。
此外,韦根斯伯格还指出,游戏本身也拥有许多“可保护”的元素,如专有纹理等,法官可能会在知识产权诉讼中考虑这些因素。
目前,包括Epic、微软(拥有《我的世界》)、育碧、任天堂、Roblox和《赛博朋克2077》开发商CD Projekt Red在内的多家游戏工作室和发行商都未对此事发表评论。
即使AI公司在这些法律纠纷中胜诉,用户也可能无法免责。如果生成模型复制了受版权保护的作品,那么发布该作品或将其纳入其他项目的人,仍可能被追究侵犯知识产权的责任。
一些AI公司为应对此类情况设置了赔偿条款,但通常存在例外情况。例如,OpenAI的条款仅适用于企业客户,而非个人用户。此外,除了版权风险,还存在违反商标权等风险,例如输出内容中可能包含用于市场营销和品牌推广的资产,包括游戏中的角色。
随着人们对世界模型的兴趣日益浓厚,情况可能变得更加复杂。世界模型的一个应用是在现实中生成电子游戏,如果这些“合成”游戏与模型训练的内容过于相似,就可能引发法律问题。
McKool Smith的知识产权诉讼律师艾弗里·威廉姆斯指出,在游戏中训练AI平台的语音、动作、人物、歌曲、对话和艺术品等元素,构成版权侵权。针对生成式AI公司的诸多诉讼中提出的关于“合理使用”的问题,将对视频游戏行业产生与其他创意市场同样的影响。
Sora的成功也凸显了生成式AI技术在内容创作领域的巨大潜力,但也暴露了其在数据使用和知识产权方面的巨大挑战。如何平衡技术创新与知识产权保护,将是未来AI发展需要解决的关键问题。 未来,AI模型的训练数据来源及其合法性将受到更严格的审查,这将对AI行业的未来发展产生深远影响。