Downcodes의 편집자는 Apple 연구원들이 LLM(대형 언어 모델)의 수학적 추론 기능을 위해 GSM-Symbolic이라는 새로운 벤치마크 테스트를 시작했다는 사실을 알게 되었습니다. 이 테스트는 GSM8K를 기반으로 하며 확률적 패턴 일치에만 의존하기보다는 LLM의 추론 기능을 보다 포괄적으로 평가하도록 설계되었습니다. GSM8K가 인기가 있지만 데이터 오염, 성능 변동 등의 문제가 있습니다. GSM-Symbolic은 기호 템플릿에서 다양한 수학적 문제를 생성하여 이러한 단점을 극복하고 보다 정확한 평가를 보장합니다.
최근 Apple 연구원들은 LLM(대형 언어 모델)의 수학적 추론 기능에 대한 심층적인 연구를 수행하고 GSM-Symbolic이라는 새로운 벤치마크를 출시했습니다.
이 새로운 벤치마크는 기본 수학 능력을 평가하는 데 주로 사용되는 GSM8K를 기반으로 개발되었습니다. GSM8K에서 많은 LLM의 성능이 향상되었지만 과학계는 여전히 이러한 모델의 추론 기능에 대해 의문을 갖고 있으며 기존 평가 지표가 실제 기능을 완전히 반영하지 못할 수 있다고 믿습니다. 연구에 따르면 LLM은 실제 논리적 추론보다는 확률적 패턴 일치에 의존하는 경우가 많아 입력의 작은 변화에 매우 민감하다는 사실이 밝혀졌습니다.
새로운 연구에서 연구자들은 기호 템플릿을 사용하여 보다 신뢰할 수 있는 평가를 제공하는 다양한 수학적 문제를 생성했습니다. 실험 결과, 문제의 수치나 복잡성이 증가할수록 LLM의 성능이 크게 저하되는 것으로 나타났습니다. 게다가 표면적으로는 문제와 관련이 있지만 실제로는 관련이 없는 정보를 추가해도 모델 성능이 최대 65%까지 저하될 수 있습니다. 이러한 결과는 LLM이 추론 시 공식적인 논리적 추론보다는 패턴 일치에 더 많이 의존한다는 것을 다시 한 번 확인시켜 줍니다.
GSM8K 데이터 세트에는 8,000개 이상의 학년 수준 수학 문제가 포함되어 있으며, 그 인기로 인해 작은 문제 변경으로 인한 데이터 오염 및 성능 변동과 같은 여러 위험이 발생합니다. 이러한 과제를 해결하기 위해 GSM-Symbolic의 등장으로 다양한 문제를 효과적으로 제어할 수 있게 되었습니다. 이 벤치마크는 100개 템플릿의 5,000개 샘플을 사용하여 20개 이상의 개방형 및 폐쇄형 모델을 평가하여 LLM 수학적 추론 기능의 통찰력과 한계를 보여줍니다.
예비 실험에 따르면 GSM-Symbolic에서는 다양한 모델의 성능이 크게 다르며 전체 정확도는 GSM8K에서 보고된 성능보다 낮습니다. 본 연구에서는 변수 이름과 값을 변경하는 것이 LLM에 미치는 영향을 추가로 조사한 결과, 값의 변경이 성과에 더 큰 영향을 미치는 것으로 나타났습니다. 또한, 문제의 복잡성 역시 정확성에 직접적인 영향을 미치며, 복잡한 문제는 심각한 성능 저하로 이어집니다. 이러한 결과는 모델이 수학적 문제를 다룰 때 실제 추론 능력보다 패턴 일치에 더 의존할 수 있음을 시사합니다.
이 연구에서는 현재 GSM8K 평가의 한계를 강조하고 LLM의 수학적 추론 기능을 평가하도록 설계된 새로운 벤치마크인 GSM-Symbolic을 소개합니다. 전반적으로, 연구 결과에 따르면 LLM은 복잡한 문제를 다룰 때 논리적 추론 능력을 더욱 향상시켜야 합니다.
논문: https://arxiv.org/abs/2410.05229
전체적으로 Apple이 제안한 GSM-Symbolic 벤치마크는 대규모 언어 모델의 수학적 추론 기능을 평가하기 위한 새로운 관점을 제공합니다. 이는 또한 LLM이 향후 모델 개선의 길을 제시하는 논리적 추론에서 여전히 개선의 여지가 있음을 보여줍니다. 우리는 LLM의 추론 능력 개발을 더욱 촉진하기 위해 앞으로 더 많은 연구를 기대합니다.