人工智慧在各領域展現出強大的能力,但其在處理複雜歷史問題的限制也日益凸顯。最近的研究表明,即使是最先進的大型語言模型,在處理細緻入微的歷史細節時也存在明顯的不足。這項研究對現有AI模型的可靠性和應用範圍提出了新的挑戰,也為未來AI模型的改進方向提供了寶貴的參考。
最新研究顯示,儘管人工智慧在程式設計和內容創作等領域表現出色,但在處理複雜的歷史問題時仍顯不足。近期在NeurIPS會議上公佈的一項研究表明,即使是最先進的大型語言模型(LLM)在歷史知識測試中也難以取得令人滿意的成績。
研究團隊開發了名為Hist-LLM的測試基準,對OpenAI的GPT-4、Meta的Llama和Google的Gemini三款頂級語言模型進行評估。測試基於Seshat全球歷史資料庫進行,結果令人失望:表現最佳的GPT-4Turbo準確率僅46%。
倫敦大學學院副教授瑪麗亞·德爾裡奧-查諾納解釋說:"這些模型在基本史實方面表現不錯,但在涉及博士級別的深入歷史研究時卻力不從心。"研究發現AI經常在細節上出錯,例如錯誤判斷古埃及某些時期是否擁有特定軍事技術或常備軍。
研究人員認為,這種表現不佳源自於AI模型傾向從主流歷史敘事中推斷,難以準確掌握更為細微的歷史細節。此外,研究也發現這些模型在處理撒哈拉以南非洲等地區的歷史問題時表現較差,暴露出訓練資料可能存在的偏差問題。
複雜性科學中心(CSH)的研究負責人Peter Turchin表示,這項發現說明在某些專業領域,AI尚無法取代人類專家。不過研究團隊仍對AI在歷史研究中的應用前景保持樂觀,他們正在改進測試基準,以期幫助開發出更優秀的模型。
這項研究結果提醒我們,雖然人工智慧技術發展迅速,但在某些特定領域,人類專家的知識和判斷仍然不可取代。未來,需要進一步改進AI模型,使其能夠更好地處理複雜的歷史信息,為歷史研究提供更有效的輔助工具。