Downcodes小編帶你了解學術論文的「另類用途」!近年來,AI模型的訓練資料來源引發廣泛關注,許多學術出版商正將研究論文「打包出售」給科技公司,用於提升AI系統能力。這其中涉及巨額交易,也引發了學術界關於智慧財產權、作者權益以及AI發展倫理的激烈討論。本文將深入探討這現象背後的機制、影響以及未來走向。
你可曾想過,你的研究論文可能已經薅去訓練AI了。沒錯,許多學術出版商正在將他們的成果「打包出售」 給開發AI 模型的科技公司,毫無疑問,這一舉動在科研界引發了不小的波瀾,尤其是當作者們對此一無所有所知的時候。專家表示,如果你的尚未被某個大型語言模型(LLM)使用,那麼它很可能也會在不久的將來被「利用」。
近期,英國的學術出版商泰勒與弗朗西斯(Taylor & Francis)與微軟達成了一項價值1000萬美元的交易,允許這家科技巨頭使用他們的研究數據來提升AI 系統的能力。而早在六月,美國出版商威利(Wiley)也與某家公司達成了一項交易,獲得2300萬美元的收益,作為他們的內容被用來訓練生成式AI 模型的回報。
如果一篇論文在網路上可以找到,無論是開放取用還是付費牆後面的內容,都很可能已經被餵進了某個大型語言模型。華盛頓大學的AI 研究員Lucy Lu Wang 表示:“一旦一篇論文被用於訓練模型,就無法在模型訓練後將其移除。”
大型語言模型需要大量的資料來訓練,這些資料通常是從網路上抓取的。透過分析數以億計的語言片段,這些模型能夠學習並產生流暢的文字。學術論文由於其資訊密度高且篇幅長,成為了LLM 開發者非常寶貴的「寶藏」。這樣的數據幫助AI 在科學領域中做出更好的推理。
近來,購買高品質資料集的趨勢正在上升,許多知名媒體和平台也開始紛紛與AI 開發者合作,出售他們的內容。考慮到如果不達成協議,許多作品可能會被無聲無息地抓取,未來這種合作只會越來越普遍。
然而,有些AI 開發者,如大型人工智慧網路(Large-scale Artificial Intelligence Network),選擇保持其資料集的開放性,但許多開發生成式AI 的公司卻對訓練資料保持神秘,「我們對他們的訓練資料一無所知。
想要證明某篇論文是否出現在某個LLM 的訓練集並不簡單。研究人員可以用論文中不尋常的句子來測試模型輸出是否與原文匹配,但這並不能完全證明該論文沒有被使用,因為開發者可以對模型進行調整,以避免直接輸出訓練資料。
即便證明了某個LLM 使用了特定文本,接下來又會發生什麼?出版商們聲稱,未獲得授權使用受版權保護的文本便構成侵權,但也有反對意見認為,LLM 並不是在複製文本,而是透過分析資訊內容來產生新的文本。
目前在美國,一起關於版權的訴訟正在進行,這可能成為一個具有里程碑意義的案例。 《紐約時報》正在起訴微軟和ChatGPT 的開發者OpenAI,指控他們在未獲得許可的情況下使用其新聞內容來訓練模型。
許多學者對他們的作品被納入LLM 的訓練資料表示歡迎,尤其是當這些模型能提升研究的準確性時。不過,這並不是每個職業的研究者都能泰然處之,許多人覺得自己工作受到威脅。
總的來說,現階段個別科研作者在出版商做出出售決定時幾乎沒有發言權,而對於已經公開的文章,如何分配信用以及是否被使用都缺乏明確的機制。一些研究者對此表示挫敗:“我們希望有AI 模型的幫助,但也希望有一個公平的機制,現在我們還沒有找到這樣的解決方案。”
參考資料:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
AI與學術出版的未來走向仍不明朗,版權問題、資料隱私以及作者權益的保護機制都需要進一步改進。 這不僅是出版商和科技公司之間的博弈,更是關乎學術研究永續發展和AI技術倫理的重大議題,需要全社會共同關注和努力。