資料來源:MIT News
儘管大型語言模型的能力令人印象深刻,但它們仍然遠非完美。這些人工智慧模型有時會出現“幻覺”,產生不正確或沒有依據的資訊來回應查詢。
由於這個幻覺問題,模型的回應通常需要由人工審查員進行驗證,尤其是在醫療或金融等高風險環境中。然而,驗證過程往往要求人們閱讀模型引用的長文檔,這項繁瑣且容易出錯的任務可能會讓一些用戶望而卻步,從不願意使用生成式AI 模型。
為了幫助人工驗證者,MIT 的研究人員創建一個使用者友善的系統,使人們能夠更快地驗證大型語言模型的回應。這個名為SymGen 的工具可以讓LLM 產生帶有引用的回應,直接指向來源文件中的特定位置,例如資料庫中的某個儲存格。
使用者可以懸停在文字回應的高亮部分,以查看模型用於產生特定詞彙或短語的資料。同時,未高亮的部分則顯示需要額外關注以進行檢查和驗證的短語。
「我們讓人們能夠選擇性地關注他們需要更加關注的文本部分。最終,SymGen 能夠提高人們對模型響應的信心,因為他們可以輕鬆地仔細檢查,以確保資訊的可靠性。」電機工程與電腦科學研究生、SymGen 論文的共同第一作者Shannon Shen 表示。
透過使用者研究,Shen 和他的合作者發現,使用SymGen 進行驗證的時間比手動流程縮短了約20%。透過讓人們驗證模型輸出的過程更快、更簡單,SymGen 有助於識別在各種實際應用中使用的LLM 的錯誤,從產生臨床記錄到總結金融市場報告。
Shen 的論文合作者還包括共同第一作者、EECS 研究生Lucas Torroba Hennigen;EECS 研究生Aniruddha “Ani” Nrusimha;Good Data Initiative 的主席Bernhard Gapp;以及資深作者David Sontag,EECS 教授、MIT Jameel Clinic 成員、電腦科學與人工智慧實驗室(CSAIL)臨床機器學習小組的負責人;還有助理教授yoon Kim,CSAIL 的成員。該研究最近在語言建模會議上進行了展示。
符號引用
為了幫助驗證,許多LLM 被設計為產生引用,指向外部文檔,並提供語言基礎的回應,以便使用者進行檢查。然而,這些驗證系統通常是事後考慮的,並沒有考慮到人們在篩選大量引用時所需的努力,Shen 說。
「生成式AI 的目的是減少用戶完成任務所需的時間。如果您需要花費數小時閱讀這些文檔,以驗證模型的說法是否合理,那麼在實際應用中生成的內容就不那麼有幫助了。” Shen 表示。
研究人員從將要進行驗證工作的人的角度來解決這個問題。
SymGen 使用者首先向LLM 提供可以作為參考的數據,例如包含籃球比賽統計資料的表格。然後,研究人員進行一個中間步驟,而不是立即要求模型完成任務,例如從這些數據產生比賽摘要。他們提示模型以符號形式產生回應。
在這個提示下,每當模型希望在回應中引用詞彙時,就必須寫出資料表中包含該資訊的特定單元格。例如,如果模型想在回應中引用「波特蘭拓荒者」這個短語,它將用資料表中包含這些單字的儲存格名稱取代該文字。
「因為我們有這個中間步驟,使文本以符號格式呈現,我們能夠實現非常精細的引用。我們可以明確指出,輸出中每一段文本具體對應數據中的哪一部分。」Torroba Hennigen 表示。
SymGen 接著使用基於規則的工具解析每個引用,將對應的文字從資料表複製到模型的回應中。
「這樣,我們知道它是逐字複製的,因此可以確保與實際資料變數對應的文字部分不會出錯。」Shen 補充道。
簡化驗證
模型能夠產生符號響應,是由於其訓練方式。大型語言模型接受來自互聯網的大量數據,其中一些數據以“佔位符格式”記錄,代碼取代了實際值。
當SymGen 提示模型產生符號響應時,它使用類似的結構。
「我們以特定的方式設計提示,以發揮LLM 的能力。」Shen 補充說。
在使用者研究中,大多數參與者表示SymGen 使驗證LLM 產生的文字變得更容易。他們驗證模型響應的速度比使用標準方法快約20%。
然而,SymGen 的效果受來源資料品質的限制。 LLM 可能引用錯誤的變量,而人工驗證者可能對此毫不知情。
此外,使用者必須以結構化格式(如表格)提供來源數據,以便輸入到SymGen。目前,該系統僅適用於表格資料。
展望未來,研究人員正在增強SymGen 的功能,以便處理任意文字和其他資料形式。有了這個能力,它可以幫助驗證AI 產生的法律文件摘要的某些部分。他們還計劃與醫生一起測試SymGen,以研究它如何識別AI 產生的臨床摘要中的錯誤。
這項工作部分由LiBERTy Mutual 和MIT 智慧探索計畫資助。