大型語言模型(LLM)的興起,特別是ChatGPT等應用的廣泛使用,徹底改變了人機互動模式。 LLM展現出出生成連貫、全面文本的強大能力,令人印象深刻。然而,Downcodes小編發現,LLM也存在「幻覺」問題,即生成看似真實卻虛構、無意義或與提示不符的內容。哈佛大學研究人員對此進行了深入研究,試圖揭示LLM「幻覺」的成因及解決方法。
大型語言模型(LLM)的橫空出世,尤其是ChatGPT等應用的普及,徹底改變了人機互動的方式。 這些模型能夠產生連貫且全面的文本,令人印象深刻。然而,儘管能力強大,LLM卻容易產生“幻覺”,即生成看似真實但實際上是虛構、無意義或與提示不符的內容。
哈佛大學的研究人員對LLM「幻覺」現象進行了深入研究,發現其根源在於LLM的工作原理。 LLM透過對海量文字資料進行機器學習來建立機率模型,並根據字詞共現的機率來預測下一個字。 換句話說,LLM並非真正理解語言的含義,而是根據統計機率進行預測。
研究人員將LLM比作“眾包”,認為LLM實際上是在輸出“網路共識”。 就像維基百科或Reddit等平台一樣,LLM從大量文字資料中提取訊息,並產生最常見的答案。 由於大多數語言的使用都是為了描述世界,因此LLM產生的答案通常是準確的。
然而,當LLM遇到模糊、有爭議或缺乏共識的主題時,就會出現「幻覺」。 為了驗證這個假設,研究人員設計了一系列實驗,測試了不同LLM在處理不同主題時的表現。 實驗結果表明,LLM在處理常見主題時表現良好,但在處理模糊或有爭議的主題時,準確性明顯下降。
這項研究表明,LLM雖然是強大的工具,但其準確性取決於訓練資料的品質和數量。 在使用LLM時,尤其是在處理模糊或有爭議的主題時,需要謹慎對待其輸出結果。 這項研究也為LLM的未來發展提供了方向,即需要改進LLM處理模糊和有爭議主題的能力,並提高其產出結果的可解釋性。
論文網址:https://dl.acm.org/doi/pdf/10.1145/3688007
哈佛大學的研究為理解和改進LLM提供了寶貴見解,也提醒我們需謹慎使用LLM,尤其是在處理複雜或爭議性主題時,應批判性地評估其產出結果。未來的LLM發展方向,應著重於提升其處理模糊資訊和提高可解釋性的能力。 Downcodes小編希望這項研究能推動LLM技術朝著更可靠、更可信的方向發展。