近期,奧地利複雜科學研究所(CSH)對GPT-4、Llama和Gemini三大頂尖大型語言模型(LLMs)的歷史知識進行評估,結果令人意外。研究團隊使用名為“Hist-LLM”的基準測試工具,基於Seshat全球歷史數據庫,對模型回答歷史問題的準確性進行測試。該研究成果已在NeurIPS人工智能會議上公佈,其結果引發了人們對LLMs在復雜領域應用能力的深思。
為了評估這些模型在歷史知識上的表現,研究者們開發了一個名為“Hist-LLM” 的基準測試工具。該工具依據Seshat 全球歷史數據庫,旨在驗證AI 回答歷史問題的準確性。研究結果在知名人工智能會議NeurIPS 上公佈,數據顯示,表現最佳的GPT-4Turbo 的準確率僅為46%。這一結果顯示,其表現僅比隨機猜測稍好。
倫敦大學學院計算機科學副教授Maria del Rio-Chanona 表示:“儘管大型語言模型令人印象深刻,但它們在高級歷史知識方面的理解深度仍顯不足。它們擅長處理簡單的事實,但在應對更複雜的歷史問題時卻顯得無能為力。” 例如,當詢問古埃及某一特定時期是否存在鱗甲時,GPT-4Turbo 錯誤地回答“存在”,而實際情況是這種技術在1500年後才出現。此外,當研究者詢問古埃及是否擁有職業常備軍時,GPT-4也錯誤地回答“有”,而實際答案是沒有。
研究還揭示出,模型在處理一些特定區域(如撒哈拉以南非洲)的問題時表現較差,這表明其訓練數據可能存在一定偏見。研究負責人Peter Turchin 指出,這些結果反映了在某些領域,LLMs 仍無法替代人類。
劃重點:
- GPT-4Turbo 在高級歷史考試中的準確率僅為46%,表現不佳。
- 研究顯示大型語言模型在復雜歷史知識理解上仍顯不足。
- 研究團隊希望通過改進測試工具,提升模型在歷史研究中的應用潛力。
這項研究結果提醒我們,雖然大型語言模型在許多方面取得了顯著進展,但在處理需要深入理解和細緻分析的複雜問題時,仍然存在局限性。未來的研究需要關注如何改進模型的訓練數據和算法,以提升其在各個領域的應用能力,最終實現真正的通用人工智能。