近年來,人工智能技術的快速發展引發了廣泛關注,但隨之而來的法律和倫理問題也日益凸顯。最近,Meta 公司在人工智能訓練方面的做法受到了質疑,被指控非法下載大量盜版數據用於模型訓練,這一事件引發了關於版權和數據使用的深刻討論。
最近,Meta 公司在人工智能訓練方面的做法受到廣泛關注。根據一項訴訟,這家公司被指控在未獲得授權的情況下,下載了大量盜版電子書和文章,用於訓練其人工智能模型。此次事件的核心是幾封洩露的電子郵件,這些郵件為Meta 的行為提供了進一步的證據。
郵件中顯示,Meta 承認下載了一個名為LibGen 的爭議性大型數據集,該數據集中包含了數千萬本盜版書籍。根據原告提交的法庭文件,Meta 通過名為Anna's Archive 的網站,從多個影子圖書館下載了至少81.7TB 的數據,其中包括來自Z-Library 和LibGen 的至少35.7TB 數據。此外,Meta 之前還從LibGen 下載了80.6TB 的數據。這些數字顯示,Meta 公司在這一非法行為上的規模是驚人的。原告指出,儘管其他小規模的盜版行為已導致法律追究,但Meta 的行為卻更加嚴重。
在郵件的內容中,Meta 的員工也表達了對其行為的法律風險的擔憂。 2023年4月,該公司研究工程師尼古拉・巴什利科夫曾表示:“用公司的筆記本電腦下BT 感覺不妥。” 到了2023年9月,巴什利科夫對此的反對聲音更加明顯,並諮詢了法律團隊。他指出,“使用Torrents 意味著對文件進行'播種',即對外共享內容。這在法律上是不允許的。” 然而,儘管有這樣的警告,Meta 似乎仍決定隱瞞其下載和共享活動,並通過編輯設置盡量減少“播種” 行為的可追溯性。
據稱,Meta 還試圖通過將數據集下載到非Meta 服務器上,來降低被追溯到其服務器的風險。這一系列的行為引發了外界對Meta 公司在數據使用和版權方面的深刻反思。
劃重點:
Meta 公司被指控非法下載81.7TB 盜版書籍,涉嫌用於AI 訓練。
員工對法律風險表示擔憂,曾警告下載行為可能觸犯法律。
Meta 試圖通過隱瞞和使用非公司服務器來規避法律責任。
此次事件不僅暴露了Meta 在數據使用上的問題,也為整個AI 行業敲響了警鐘。如何在技術發展與法律合規之間找到平衡,將是未來需要解決的重要課題。