Meta公司近日陷入一起備受矚目的版權侵權訴訟,原告方指控其首席執行官馬克·扎克伯格親自批准使用盜版電子書和文章數據集來訓練其Llama AI模型。這一案件不僅將Meta推上了風口浪尖,也引發了業界對科技巨頭在AI模型訓練中版權使用問題的廣泛關注。值得注意的是,這是針對多家科技公司的眾多版權訴訟之一,這些公司均被指控在未經授權的情況下使用受版權保護的作品進行AI模型訓練。
根據最新提交給美國加利福尼亞北區地方法院的文件,原告方引用了Meta去年年底的證詞,其中明確提到扎克伯格批准使用名為LibGen的數據集進行Llama模型的訓練。 LibGen作為一個"鏈接聚合器",提供了大量受版權保護的學術出版物。儘管該網站因侵犯版權多次遭到起訴和關閉,但它依然持續提供來自Cengage Learning、McGraw Hill等大型出版商的作品,這為Meta的侵權行為提供了便利。
文件進一步披露,Meta內部員工承認LibGen是一個"已知的盜版數據集",並意識到其使用可能對公司與監管機構的談判地位產生不利影響。更令人震驚的是,Meta工程師Nikolay Bashlykov被指控編寫腳本,專門刪除LibGen電子書中的版權信息,包括"版權"和"致謝"等字樣。此外,Meta還被指控從科學期刊文章中刪除了版權標記和源元數據,這些行為都旨在掩蓋其侵權行為。
案件中最具爭議的指控是Meta通過torrenting方式下載LibGen內容,並幫助傳播這些被盜版權的文件。 Torrenting作為一種網絡文件分發方式,下載者在上傳文件的同時也在共享內容。原告律師指出,Meta通過參與torrenting實際上實施了另一種形式的版權侵權行為。儘管Meta工程師對此提出保留意見,認為這一行為不合法,但在生成AI負責人Ahmad Al-Dahle的支持下,Meta依然繼續進行這一行為。
這些指控與《紐約時報》去年4月的報導相吻合,該報導暗示Meta在收集人工智能數據時採取了偷工減料的做法。據報導,Meta曾僱傭非洲承包商匯總書籍摘要,並曾考慮收購出版商西蒙舒斯特。然而,Meta高管認為談判版權許可需要過長時間,合理使用原則成為了他們的主要辯護理由,這一態度引發了業界對科技公司商業倫理的質疑。
目前,案件的審理尚未有定論,且僅涉及Meta早期的Llama模型。儘管法院曾在2023年駁回了與AI相關的幾項版權訴訟,認為原告未能證明侵權行為,但本案中的指控仍然可能對Meta產生重大影響。主審法官文斯·查布里亞在周三的命令中指出,他駁回了Meta請求刪除大部分文件的請求,表示這些文件的刪除顯然是為了避免負面宣傳,而非保護敏感商業信息,這一表態對Meta來說無疑是一個重大打擊。
此次案件不僅對Meta構成了嚴峻挑戰,也引發了關於科技公司如何使用版權作品訓練AI模型的廣泛討論。特別是在合理使用與版權保護之間的界限問題上,本案可能會成為未來類似案件的重要參考。隨著AI技術的快速發展,如何在創新與版權保護之間找到平衡點,將成為科技公司和法律界共同面臨的重要課題。