Meta 涉嫌版權侵權:使用LibGen 數據集訓練AI 並刪除版權信息- AI文章

作者：Eve Cole 更新時間：2025-02-18 12:32:01

Meta公司近日陷入一起備受矚目的版權侵權訴訟，原告方指控其首席執行官馬克·扎克伯格親自批准使用盜版電子書和文章數據集來訓練其Llama AI模型。這一案件不僅將Meta推上了風口浪尖，也引發了業界對科技巨頭在AI模型訓練中版權使用問題的廣泛關注。值得注意的是，這是針對多家科技公司的眾多版權訴訟之一，這些公司均被指控在未經授權的情況下使用受版權保護的作品進行AI模型訓練。

根據最新提交給美國加利福尼亞北區地方法院的文件，原告方引用了Meta去年年底的證詞，其中明確提到扎克伯格批准使用名為LibGen的數據集進行Llama模型的訓練。 LibGen作為一個"鏈接聚合器"，提供了大量受版權保護的學術出版物。儘管該網站因侵犯版權多次遭到起訴和關閉，但它依然持續提供來自Cengage Learning、McGraw Hill等大型出版商的作品，這為Meta的侵權行為提供了便利。

全息投影机器人设计 (3)

文件進一步披露，Meta內部員工承認LibGen是一個"已知的盜版數據集"，並意識到其使用可能對公司與監管機構的談判地位產生不利影響。更令人震驚的是，Meta工程師Nikolay Bashlykov被指控編寫腳本，專門刪除LibGen電子書中的版權信息，包括"版權"和"致謝"等字樣。此外，Meta還被指控從科學期刊文章中刪除了版權標記和源元數據，這些行為都旨在掩蓋其侵權行為。

案件中最具爭議的指控是Meta通過torrenting方式下載LibGen內容，並幫助傳播這些被盜版權的文件。 Torrenting作為一種網絡文件分發方式，下載者在上傳文件的同時也在共享內容。原告律師指出，Meta通過參與torrenting實際上實施了另一種形式的版權侵權行為。儘管Meta工程師對此提出保留意見，認為這一行為不合法，但在生成AI負責人Ahmad Al-Dahle的支持下，Meta依然繼續進行這一行為。

這些指控與《紐約時報》去年4月的報導相吻合，該報導暗示Meta在收集人工智能數據時採取了偷工減料的做法。據報導，Meta曾僱傭非洲承包商匯總書籍摘要，並曾考慮收購出版商西蒙舒斯特。然而，Meta高管認為談判版權許可需要過長時間，合理使用原則成為了他們的主要辯護理由，這一態度引發了業界對科技公司商業倫理的質疑。

目前，案件的審理尚未有定論，且僅涉及Meta早期的Llama模型。儘管法院曾在2023年駁回了與AI相關的幾項版權訴訟，認為原告未能證明侵權行為，但本案中的指控仍然可能對Meta產生重大影響。主審法官文斯·查布里亞在周三的命令中指出，他駁回了Meta請求刪除大部分文件的請求，表示這些文件的刪除顯然是為了避免負面宣傳，而非保護敏感商業信息，這一表態對Meta來說無疑是一個重大打擊。

此次案件不僅對Meta構成了嚴峻挑戰，也引發了關於科技公司如何使用版權作品訓練AI模型的廣泛討論。特別是在合理使用與版權保護之間的界限問題上，本案可能會成為未來類似案件的重要參考。隨著AI技術的快速發展，如何在創新與版權保護之間找到平衡點，將成為科技公司和法律界共同面臨的重要課題。