Downcodes小編獲悉,蘋果公司研究人員針對大語言模型(LLM)的數學推理能力,推出了一項名為GSM-Symbolic的新基準測試。這項測試是基於GSM8K改進而來,旨在更全面地評估LLM的推理能力,而非僅依賴其機率模式匹配。 GSM8K雖流行,但存在數據污染和性能波動等問題,GSM-Symbolic則透過符號模板產生多樣化數學問題來克服這些缺陷,為更準確的評估提供了保障。
最近,蘋果的研究人員對大語言模型(LLM)的數學推理能力進行了深入研究,推出了名為GSM-Symbolic 的新基準測試。
這個新基準測試是在GSM8K 的基礎上發展的,後者主要用於評估基礎數學能力。雖然許多LLM 在GSM8K 上的表現有所提升,但科學界對這些模型的推理能力仍有疑問,認為現有的評估指標可能無法全面反映它們的真實能力。研究發現,LLM 通常依賴機率模式匹配,而非真正的邏輯推理,導致它們對輸入的小變化非常敏感。
在這項新研究中,研究人員使用符號模板產生多樣化的數學問題,從而提供更可靠的評估。實驗結果顯示,當問題的數值或複雜度增加時,LLM 的表現顯著下降。此外,即使是添加與問題表面相關但實際上無關的信息,也可能導致模型性能下降高達65%。這些結果再次印證了LLM 在推理時更依賴模式匹配,而非正式的邏輯推理。
GSM8K 資料集包含超過8000個適合年級程度的數學問題,因其流行而引發了一些風險,例如資料污染和小問題變化帶來的效能波動。為了應對這些挑戰,GSM-Symbolic 的出現使得問題的多樣性得到了有效控制。這項基準測試對20多種開放和封閉模型進行了評估,使用了來自100個模板的5000個樣本,展現了LLM 在數學推理能力上的深刻見解和局限性。
初步實驗表明,不同模型在GSM-Symbolic 上的性能差異顯著,整體準確率低於在GSM8K 上所報告的表現。研究進一步探討了更改變數名稱和數值對LLM 的影響,結果顯示數值變化對表現的影響更大。此外,問題的複雜性也直接影響準確性,複雜問題導致效能顯著下降。這些結果表明,模型在處理數學問題時可能更依賴模式匹配,而非真正的推理能力。
這項研究強調了目前GSM8K 評估的局限性,並介紹了新基準GSM-Symbolic,旨在評估LLM 的數學推理能力。總體而言,研究結果表明,LLM 在處理複雜問題時仍需進一步提升邏輯推理能力。
論文:https://arxiv.org/abs/2410.05229
總而言之,蘋果提出的GSM-Symbolic基準測試為評估大語言模型的數學推理能力提供了新的視角,也揭示了LLM在邏輯推理方面仍有待提升的空間,這為未來的模型改進指明了方向。 期待未來有更多研究能進一步推動LLM的推理能力發展。