大型语言模型(LLM)的兴起,特别是ChatGPT等应用的广泛使用,彻底改变了人机交互模式。LLM展现出生成连贯、全面文本的强大能力,令人印象深刻。然而,Downcodes小编发现,LLM也存在“幻觉”问题,即生成看似真实却虚构、无意义或与提示不符的内容。哈佛大学研究人员对此进行了深入研究,试图揭示LLM“幻觉”的成因及解决方法。
大型语言模型(LLM)的横空出世,尤其是ChatGPT等应用的普及,彻底改变了人机交互的方式。 这些模型能够生成连贯且全面的文本,令人印象深刻。然而,尽管能力强大,LLM却容易产生“幻觉”,即生成看似真实但实际上是虚构、无意义或与提示不符的内容。
哈佛大学的研究人员对LLM“幻觉”现象进行了深入研究,发现其根源在于LLM的工作原理。 LLM通过对海量文本数据进行机器学习来构建概率模型,并根据词语共现的概率来预测下一个词语。 换句话说,LLM并非真正理解语言的含义,而是根据统计概率进行预测。
研究人员将LLM比作“众包”,认为LLM实际上是在输出“网络共识”。 就像维基百科或Reddit等平台一样,LLM从大量文本数据中提取信息,并生成最常见的答案。 由于大多数语言的使用都是为了描述世界,因此LLM生成的答案通常是准确的。
然而,当LLM遇到模糊、有争议或缺乏共识的主题时,就会出现“幻觉”。 为了验证这一假设,研究人员设计了一系列实验,测试了不同LLM在处理不同主题时的表现。 实验结果表明,LLM在处理常见主题时表现良好,但在处理模糊或有争议的主题时,准确性明显下降。
这项研究表明,LLM虽然是强大的工具,但其准确性取决于训练数据的质量和数量。 在使用LLM时,尤其是在处理模糊或有争议的主题时,需要谨慎对待其输出结果。 这项研究也为LLM的未来发展提供了方向,即需要改进LLM处理模糊和有争议主题的能力,并提高其输出结果的可解释性。
论文地址:https://dl.acm.org/doi/pdf/10.1145/3688007
哈佛大学的研究为理解和改进LLM提供了宝贵见解,也提醒我们需谨慎使用LLM,尤其是在处理复杂或争议性话题时,应批判性地评估其输出结果。未来的LLM发展方向,应该侧重于提升其处理模糊信息和提高可解释性的能力。 Downcodes小编希望这项研究能推动LLM技术朝着更加可靠和可信的方向发展。