Downcodes小编获悉,苹果公司研究人员针对大语言模型(LLM)的数学推理能力,推出了一项名为GSM-Symbolic的新基准测试。这项测试基于GSM8K改进而来,旨在更全面地评估LLM的推理能力,而非仅仅依赖于其概率模式匹配。GSM8K虽流行,但存在数据污染和性能波动等问题,GSM-Symbolic则通过符号模板生成多样化数学问题来克服这些缺陷,为更准确的评估提供了保障。
最近,苹果公司的研究人员对大语言模型(LLM)的数学推理能力进行了深入研究,推出了一项名为 GSM-Symbolic 的新基准测试。
这个新基准测试是在 GSM8K 的基础上发展的,后者主要用于评估基础数学能力。虽然许多 LLM 在 GSM8K 上的表现有所提升,但科学界对这些模型的推理能力仍然存有疑问,认为现有的评估指标可能无法全面反映它们的真实能力。研究发现,LLM 通常依赖于概率模式匹配,而非真正的逻辑推理,导致它们对输入的小变化非常敏感。
在这项新研究中,研究人员使用符号模板生成多样化的数学问题,从而提供更可靠的评估。实验结果显示,当问题的数值或复杂度增加时,LLM 的表现显著下降。此外,即使是添加与问题表面相关但实际上无关的信息,也可能导致模型性能下降高达65%。这些结果再次印证了 LLM 在推理时更多依赖模式匹配,而非正式的逻辑推理。
GSM8K 数据集包含超过8000个适合年级水平的数学问题,因其流行而引发了一些风险,比如数据污染和小问题变化带来的性能波动。为了应对这些挑战,GSM-Symbolic 的出现使得问题的多样性得到了有效控制。这项基准测试对20多种开放和封闭模型进行了评估,使用了来自100个模板的5000个样本,展现了 LLM 在数学推理能力上的深刻见解和局限性。
初步实验表明,不同模型在 GSM-Symbolic 上的性能差异显著,整体准确率低于在 GSM8K 上所报告的表现。研究进一步探讨了更改变量名称和数值对 LLM 的影响,结果表明数值变化对性能的影响更大。此外,问题的复杂性也直接影响准确性,复杂问题导致性能显著下降。这些结果表明,模型在处理数学问题时可能更依赖于模式匹配,而非真正的推理能力。
这项研究强调了当前 GSM8K 评估的局限性,并介绍了新基准 GSM-Symbolic,旨在评估 LLM 的数学推理能力。总体而言,研究结果表明,LLM 在处理复杂问题时仍需进一步提升逻辑推理能力。
论文:https://arxiv.org/abs/2410.05229
总而言之,苹果公司提出的GSM-Symbolic基准测试为评估大语言模型的数学推理能力提供了新的视角,也揭示了LLM在逻辑推理方面仍有待提升的空间,这为未来的模型改进指明了方向。 期待未来有更多研究能够进一步推动LLM的推理能力发展。