OpenAI的Sora視訊生成模型引發廣泛關注,其強大的視訊生成能力令人驚嘆,但其訓練資料來源卻一直撲朔迷離。本文將深入探討Sora可能的訓練資料來源,特別是遊戲直播和攻略影片在其中扮演的角色,並分析由此可能引發的法律問題以及對未來AI發展的影響。
OpenAI的視訊生成神器Sora,自面世以來就備受矚目,但它究竟師從何處,卻始終是個謎。如今,謎團的一角似乎被揭開:Sora的訓練資料中,極有可能潛藏著大量來自Twitch的遊戲直播和攻略影片!
Sora就像一位技藝精湛的“模仿大師”,僅需文字提示或圖像,便能“信手拈來”生成長達20秒的視頻,並能駕馭多種寬高比和分辨率。今年2月,OpenAI首次公開Sora時,曾暗示其模型在《我的世界》的影片中「潛心修煉」。那麼,除了《我的世界》,Sora的「武功秘籍」裡還藏著哪些遊戲寶典呢?
結果令人驚訝,Sora似乎熟稔各種遊戲類型。它能生成一段帶有“馬裡奧”影子的克隆遊戲視頻,儘管有些“小瑕疵”;也能模擬出令人熱血沸騰的第一人稱射擊遊戲畫面,彷彿《使命召喚》與《反恐精英》的“合體」;更能復刻出90年代《忍者龜》街機遊戲的格鬥場景,令人彷彿置身於童年回憶之中。
更令人驚訝的是,Sora對Twitch直播的形態也瞭如指掌,這暗示著它曾經「觀看」過大量的直播內容。 Sora產生的視訊截圖,不僅準確捕捉了直播的框架結構,甚至連知名主播Auronplay的形像都惟妙惟肖地還原了出來,包括他左臂上的紋身。
不僅如此,Sora還「認識」另一位Twitch主播Pokimane,並產生了與她外表相似的角色影片。當然,為了避開版權問題,OpenAI設定了過濾機制,阻止Sora產生包含商標角色的影片。
雖然OpenAI對訓練資料的來源諱莫如深,但種種跡象表明,遊戲內容極有可能被納入了Sora的訓練集。 OpenAI前CTO米拉·穆拉蒂在3月接受《華爾街日報》採訪時,並未直接否認Sora使用了YouTube、Instagram和Facebook上的內容進行訓練。 OpenAI在Sora的技術規格中也承認,它使用了「公開可用」的資料以及Shutterstock等媒體庫的授權資料。
如果遊戲內容真的被用於Sora的訓練,這可能引發一系列法律問題,尤其是當OpenAI基於Sora開發更具互動性的體驗時。 Pryor Cashman知識產權律師約書亞·韋根斯伯格指出,未經授權使用遊戲影片進行AI訓練,將面臨巨大的風險,因為訓練AI模型通常需要複製訓練數據,而遊戲影片中包含大量的受版權保護的內容。
生成式AI模型如Sora,是基於機率的。它們透過大量資料學習模式,進行預測。這種能力使它們能夠「學習」世界的運作方式。但同時也存在隱患,在特定提示下,模型可能會產生與其訓練資料極為相似的內容。這引起了創作者的強烈不滿,他們認為自己的作品未經允許就被用於訓練。
目前,微軟和OpenAI正因其AI工具涉嫌複製許可代碼而遭到起訴。 Midjourney、Runway和Stability AI等AI藝術應用公司也面臨侵犯藝術家權利的指控。各大音樂公司也對開發AI歌曲產生器的新創公司Udio和Suno提起了訴訟。
許多AI公司長期以來主張「合理使用」原則,認為它們的模型創造的是「轉換性」作品,而非抄襲。但遊戲內容卻有其特殊性。 Dorsey & Whitney律師事務所的版權律師埃文·埃弗里斯特指出,遊戲視頻至少涉及兩層版權保護:遊戲開發者擁有的遊戲內容版權,以及玩家或視頻製作者創作的獨特視頻版權。對於某些遊戲,也可能存在第三層權利,即使用者產生的內容版權。
例如,《要塞英雄》允許玩家創建自己的遊戲地圖並分享給他人使用。一段關於這些地圖的遊戲視頻,就至少涉及三個版權所有者:Epic、遊戲玩家和地圖創建者。如果法院判定AI模型訓練存在版權責任,這些版權所有者都可能成為潛在的原告或授權來源。
此外,韋根斯伯格也指出,遊戲本身也擁有許多「可保護」的元素,如專有紋理等,法官可能會在智慧財產權訴訟中考慮這些因素。
目前,包括Epic、微軟(擁有《我的世界》)、育碧、任天堂、Roblox和《Cyberpunk2077》開發商CD Projekt Red在內的多家遊戲工作室和發行商都未對此事發表評論。
即使AI公司在這些法律糾紛中勝訴,用戶也可能無法免責。如果生成模型複製了受版權保護的作品,那麼發布該作品或將其納入其他項目的人,仍可能被追究侵犯知識產權的責任。
一些AI公司為應對此類情況設定了賠償條款,但通常存在例外。例如,OpenAI的條款僅適用於企業客戶,而非個人使用者。此外,除了版權風險,還存在違反商標權等風險,例如輸出內容中可能包含用於行銷和品牌推廣的資產,包括遊戲中的角色。
隨著人們對世界模型的興趣日益濃厚,情況可能變得更加複雜。世界模型的一個應用是在現實中產生電子遊戲,如果這些「合成」遊戲與模型訓練的內容過於相似,就可能引發法律問題。
McKool Smith的智慧財產權訴訟律師艾佛瑞‧威廉斯指出,在遊戲中訓練AI平台的語音、動作、人物、歌曲、對話和藝術品等元素,構成版權侵權。針對生成式AI公司的許多訴訟中提出的關於「合理使用」的問題,將對電玩產業產生與其他創意市場同樣的影響。
Sora的成功也凸顯了生成式AI技術在內容創作領域的巨大潛力,但也揭露了其在資料使用和智慧財產權方面的巨大挑戰。如何平衡技術創新與智慧財產權保護,將是未來AI發展需要解決的關鍵問題。 未來,AI模型的訓練資料來源及其合法性將受到更嚴格的審查,這將對AI產業的未來發展產生深遠影響。