Meta公司因最新AI聊天機器人Llama3的訓練資料來源引發巨大爭議。據披露的文件顯示,Meta利用了盜版電子書網站Library Genesis(LibGen)來訓練Llama3,此舉引發了關於版權和資料所有權的廣泛擔憂。儘管Meta內部員工曾對使用LibGen的風險表達擔憂,包括潛在的法律風險和負面輿論,但CEO祖克柏仍批准了這項決定,凸顯了大型科技公司在AI競賽中的激進策略和對版權的漠視。
近日,隨著Meta 公司在一場關於版權的集體訴訟中披露的文件浮出水面,該公司利用一個名為Library Genesis(LibGen)的盜版電子書圖書館來訓練其最新的AI 聊天機器人Llama3的消息引發了廣泛關注。這些文件顯示,Meta 的工程師曾討論過利用LibGen 這一「影子圖書館」 的潛在風險,尤其是在版權和數據所有權問題日益突出的背景下。儘管存在潛在的負面影響和輿論風險,Meta 的執行長馬克・祖克柏依然批准了這項決定。
在法庭的要求下,Meta 內部關於使用LibGen 數據集的機密對話記錄被解密,文件顯示,Meta 的高管在與AI 研究團隊的討論中明確表示LibGen 的數據是“我們知道是盜版的”,並同意使用該數據來提高Llama3的性能。在一封電子郵件中,Meta 的產品管理總監Sony Theakanath 指出,雖然使用LibGen 的決定引發了輿論風險,但其他AI 公司也在使用類似的數據,這使得Meta 的團隊感到這條路並非孤例。
更令人擔憂的是,Meta 的員工還討論瞭如何處理和過濾LibGen 中的文本,以去除版權標識,例如ISBN 和版權聲明。內部備忘錄稱,LibGen 提供的資料「品質高且文件較長,非常適合學習特別專業的知識」。這表明Meta 似乎試圖隱藏其使用未經授權的內容。
此外,Meta 的員工也在郵件中提到,直接使用公司IP 位址進行種子下載可能不妥,並對此行為表示擔憂。然而,在祖克柏「從高層推動」 使用LibGen 資料集的情況下,Meta 在AI 競賽中的求勝心態顯露無遺。這事件也再次引發了外界對大型科技公司在版權問題上的關注與質疑。
這項版權訴訟的結果可能會對其他正在進行的類似案件產生重要影響,尤其是涉及圖像、音樂和文學等創作作品的使用問題。隨著科技公司對原創內容的需求不斷增加,原創內容創作者的權益將成為關注的焦點。
此事件不僅暴露出Meta在版權問題上的不負責任態度,也引發了人們對AI發展中倫理和法律問題的深入思考。未來,如何平衡科技發展與智慧財產權保護將成為一個重要的課題,需要產業內外的共同努力來尋求解決方案。