近日,紐約時報和《每日新聞》對OpenAI提起版權訴訟,指控其未經授權使用其作品訓練AI模型。此案的焦點在於OpenAI工程師意外刪除了可能對案件至關重要的證據,引發了廣泛關注。此舉不僅影響了案件的審理進程,也暴露出大型語言模型訓練過程中數據處理的潛在風險和倫理問題。本文將詳細分析此事件的來龍去脈,並探討其對人工智能行業發展的影響。
近期,紐約時報(The New York Times)和《每日新聞》(Daily News)聯合起訴OpenAI,指控其在未獲授權的情況下,使用他們的作品來訓練人工智能模型。
此案的發展引發了公眾的關注,因為原告的律師團隊在最新的法庭文件中指出,OpenAI 的工程師在處理相關數據時,意外刪除了可能對案件有重要影響的證據。
據悉,OpenAI 在今年秋季曾同意提供兩台虛擬機器,以便原告律師團隊能夠搜索其訓練數據中是否包含版權內容。虛擬機器是一種在計算機操作系統內運行的虛擬計算機,通常用於測試、數據備份和運行應用程序。自11月1日以來,紐約時報和《每日新聞》的法律顧問及其聘請的專家已在OpenAI 的訓練數據上工作了超過150小時。
然而,在11月14日,OpenAI 的工程師意外地清除了其中一台虛擬機器上存儲的搜索數據。根據原告律師的信件,儘管OpenAI 嘗試恢復丟失的數據,並且在大多數情況下取得了成功,但由於文件夾結構和文件名稱“不可恢復”,因此恢復的數據無法用於確定新聞原告的文章是如何被用來訓練OpenAI 的模型的。
原告的法律顧問指出,他們並不認為這次刪除是故意的,但這起事件表明,OpenAI“在搜索自己的數據集中,尋找潛在侵權內容方面處於最佳位置”。這意味著,OpenAI 應當利用其自身工具來更有效地查找相關的侵權內容。
OpenAI 在這起案件及其他類似案件中,始終堅稱,使用公開可用數據進行模型訓練是合理使用(fair use)。這意味著,OpenAI 認為其無需為使用這些例子支付版權費用,儘管其從這些模型中獲利。
值得一提的是,OpenAI 已經與越來越多的新媒體簽署了授權協議,包括美聯社、商業內幕、金融時報等,但對於這些協議的具體條款,OpenAI 並未公開。據悉,內容合作夥伴Dotdash 每年獲得至少1600萬美元的報酬。
儘管在法律問題上存在爭議,OpenAI 並未確認或否認在未獲許可的情況下使用特定的版權作品進行AI 訓練。
劃重點:
OpenAI 被指控在版權訴訟中誤刪了可能的重要證據。
原告律師表示,為了恢復數據,他們耗費了大量時間和人力。
OpenAI 堅持認為其訓練模型使用公開數據屬於合理使用。
此事件突顯了人工智能模型訓練數據來源和版權問題的複雜性,也引發了對數據安全和證據管理的擔憂。 OpenAI 的行為是否構成侵權,以及如何界定“合理使用”的界限,都將是未來需要進一步探討的重要議題。 此案的最終結果將對人工智能行業的發展產生深遠的影響。