近期,奥地利复杂科学研究所(CSH)对GPT-4、Llama和Gemini三大顶尖大型语言模型(LLMs)的历史知识进行评估,结果令人意外。研究团队使用名为“Hist-LLM”的基准测试工具,基于Seshat全球历史数据库,对模型回答历史问题的准确性进行测试。该研究成果已在NeurIPS人工智能会议上公布,其结果引发了人们对LLMs在复杂领域应用能力的深思。
为了评估这些模型在历史知识上的表现,研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库,旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智能会议 NeurIPS 上公布,数据显示,表现最佳的 GPT-4Turbo 的准确率仅为46%。这一结果显示,其表现仅比随机猜测稍好。
伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“尽管大型语言模型令人印象深刻,但它们在高级历史知识方面的理解深度仍显不足。它们擅长处理简单的事实,但在应对更复杂的历史问题时却显得无能为力。” 例如,当询问古埃及某一特定时期是否存在鳞甲时,GPT-4Turbo 错误地回答 “存在”,而实际情况是这种技术在1500年后才出现。此外,当研究者询问古埃及是否拥有职业常备军时,GPT-4也错误地回答 “有”,而实际答案是没有。
研究还揭示出,模型在处理一些特定区域(如撒哈拉以南非洲)的问题时表现较差,这表明其训练数据可能存在一定偏见。研究负责人 Peter Turchin 指出,这些结果反映了在某些领域,LLMs 仍无法替代人类。
划重点:
- GPT-4Turbo 在高级历史考试中的准确率仅为46%,表现不佳。
- 研究显示大型语言模型在复杂历史知识理解上仍显不足。
- 研究团队希望通过改进测试工具,提升模型在历史研究中的应用潜力。
这项研究结果提醒我们,虽然大型语言模型在许多方面取得了显著进展,但在处理需要深入理解和细致分析的复杂问题时,仍然存在局限性。未来的研究需要关注如何改进模型的训练数据和算法,以提升其在各个领域的应用能力,最终实现真正的通用人工智能。