紐約大學的一項最新研究揭示了大規模語言模型(LLM)在數據訓練中的驚人脆弱性。研究表明,極少量的虛假信息,甚至僅佔訓練數據的0.001%,就能嚴重影響LLM的準確性和可靠性,導致其產生重大錯誤。這項發現對醫療領域尤為重要,因為錯誤的醫療信息可能直接危及患者安全。該研究已發表在《自然醫學》雜誌上,引發了對AI在醫療應用中安全性與可靠性的廣泛關注。
近期,紐約大學的研究團隊發表了一項研究,揭示了大規模語言模型(LLM)在數據訓練中的脆弱性。他們發現,即使是極少量的虛假信息,只需佔訓練數據的0.001%,就能導致整個模型出現重大錯誤。這一發現對於醫療領域尤其引人關注,因為錯誤的信息可能直接影響患者的安全。
研究人員在《自然醫學》雜誌上發表的論文中指出,雖然LLM 表現出色,但如果其訓練數據中被注入了虛假信息,這些模型依然可能在一些開放源代碼的評估基准上表現得與未受影響的模型一樣好。這意味著,在常規測試下,我們可能無法察覺到這些模型潛在的風險。
為了驗證這一點,研究團隊對一個名為“The Pile” 的訓練數據集進行了實驗,他們在其中故意加入了150,000篇AI 生成的醫療虛假文章。僅用24小時,他們就生成了這些內容,研究表明,給數據集替換0.001% 的內容,即使是一個小小的1百萬個訓練標記,也能導致有害內容增加4.8%。這個過程的成本極其低廉,僅花費了5美元。
這種數據中毒攻擊不需要直接接觸模型的權重,而是攻擊者只需在網絡上發布有害信息,就能削弱LLM 的有效性。研究團隊強調,這一發現凸顯了在醫療領域使用AI 工具時存在的重大風險。與此同時,他們也提到,已經有相關案例顯示,某些AI 醫療平台,例如MyChart,在自動回复患者問題時,常常會生成錯誤的信息,給患者帶來困擾。
因此,研究人員呼籲AI 開發者和醫療提供者在開發醫療LLM 時,必須清楚認識到這一脆弱性。他們建議,在未來能夠確保安全性之前,不應將LLM 用於診斷或治療等關鍵任務。
劃重點:
研究表明,僅需0.001% 的虛假信息,就能讓大規模語言模型(LLM)失效。
醫療領域中,虛假信息的傳播可能嚴重影響患者安全。
研究人員呼籲在確保安全之前,不應將LLM 用於診斷或治療等重要醫療任務。
該研究結果警示我們,在將大規模語言模型應用於醫療等關鍵領域之前,必須加強數據安全和模型可靠性方面的研究,確保其安全性及有效性,避免潛在的風險。