Downcodes小編獲悉,蘋果近期發布了一項關於大語言模型(LLM)在數學推理能力方面的研究,引發業界廣泛關注。該研究對現有LLM在GSM8K基準測試上的表現提出了質疑,並引入改進型基準測試GSM-Symbolic,以更可靠地評估LLM的推理能力。這項研究對於理解LLM在數學領域的限制具有重要意義,也為未來LLM的改進方向提供了valuable insights。
最近,蘋果進行了一項關於大語言模型(LLM)推理能力的研究,引發了人們對這些模型在數學領域表現的關注。
眾所周知,GSM8K 基準測試被廣泛用於評估模型在小學數學問題上的推理能力。儘管LLM 在GSM8K 上的表現近年來有所提高,但研究人員對此結果的可靠性產生了質疑。因此,他們進行了大規模的研究,探討目前最先進的開源和閉源模型的表現。
為了更好地評估模型的推理能力,研究團隊引入了改進的基準測試—GSM-Symbolic。這個新基準測試使用符號範本產生多樣化的問題,能夠更好地控制評估過程,提供更可靠的指標。
研究發現,當問題中的數值被改變時,LLM 的表現明顯出現波動。更有趣的是,隨著問題中條款數量的增加,模型的表現顯著下降。研究人員推測,這種表現的下降表明現有的LLM 並不具備真正的邏輯推理能力,而是簡單地模仿訓練資料中的推理步驟。
在實驗中,當只增加一個看似相關的條款時,所有最先進模型的表現下降幅度高達65%。這些條款雖然與得出最終答案的推理鏈無關,卻依然對模型的表現產生了巨大的影響。總體而言,這項研究為我們提供了對LLM 在數學推理方面的能力和局限性的更深刻理解。
劃重點:
LLM 的數學推理能力在不同問題實例中表現出明顯的差異。
? 隨著問題複雜度增加,LLM 的表現顯著下降,尤其是在增加額外條款後。
現有LLM 並不具備真正的邏輯推理能力,它們主要依賴訓練資料的重複和模仿。
蘋果這項研究揭示了大語言模型在數學推理上的不足,為未來的模型改進提供了重要方向。 進一步的研究可望提升LLM的邏輯推理能力,使其更接近人類的認知層次。 Downcodes小編將持續關注該領域的最新進展。