LLM(대형 언어 모델)의 추론 능력은 인공 지능 분야의 연구 핫스팟입니다. Apple의 AI 연구팀은 최근 수학적 추론에서 LLM의 한계를 밝히는 논문을 발표했습니다. 다운코드 편집자는 논문의 주요 내용을 해석하고 그것이 AI 기술 발전에 미친 영향을 분석할 것입니다.
인공 지능의 세계에서 기계 학습 모델, 특히 LLM(대형 언어 모델)의 추론 기능은 항상 과학자들의 초점이었습니다.
최근 애플 AI 연구팀은 '수학적 추론에서 대규모 언어 모델의 한계 이해'라는 논문을 발표해 이러한 모델이 논리적 문제를 다루는 데 한계가 있음을 드러냈다.
논문에서 연구자들은 간단한 수학적 문제를 통해 이를 입증했습니다. 그들은 먼저 올리버가 키위를 따는 것에 관해 질문했습니다.
아래와 같이:
올리버는 금요일에 키위 과일 44개를 골랐습니다. 토요일에 그는 또 다른 키위 과일 58개를 수확했습니다. 일요일에는 금요일보다 두 배나 많은 키위를 수확했습니다. 올리버는 총 몇 개의 키위를 가지고 있나요?
분명히 대답은 44+58+ (44*2) =190입니다. 대규모 언어 모델은 실제로 수학적으로 완벽하지는 않지만 이와 같은 문제를 상당히 안정적으로 해결할 수 있습니다.
그러나 모델의 반응을 관찰하기 위해 다음과 같은 관련 없는 정보를 추가하는 경우:
올리버는 금요일에 키위 과일 44개를 골랐습니다. 토요일에 그는 또 다른 58개를 골랐다. 일요일에는 금요일보다 두 배나 많은 키위를 수확했지만 그 중 5개는 평균보다 조금 작았습니다. 올리버는 키위를 몇 개나 갖고 있나요?
이것이 문제의 수학적 성격을 바꾸지는 않지만 최첨단 LLM조차도 이러한 작은 변동으로 인해 잘못된 답을 제공합니다. 예를 들어, GPT-o1-mini는 일요일에 수확한 전체 키위 수에서 작은 키위 5개를 잘못 뺍니다.
이 실험은 LLM이 어떤 경우에는 정답을 제공할 수 있지만 실제로 문제의 본질을 이해하지 못한다는 것을 보여줍니다.
연구원들은 이러한 모델의 실패 패턴이 실제 논리적 추론을 수행하는 것이 아니라 훈련 데이터에서 관찰한 추론 단계를 복제하고 있음을 나타낸다고 믿습니다. 이는 LLM이 "사랑해" 뒤에 "나도 사랑해"가 따라오는 것을 셀 수 있는 것과 같습니다. 그러나 이것이 사랑의 의미를 진정으로 이해한다는 의미는 아닙니다.
논문의 공동 저자 중 한 명인 Mehrdad Farajtabar는 소셜 미디어에서 발견한 내용을 더 자세히 설명했습니다. 그는 더 나은 힌트 엔지니어링을 통해 일부 간단한 경우에는 모델 성능을 향상시킬 수 있지만 복잡한 섭동의 경우 모델이 올바르게 처리하기 위해 더 많은 상황별 데이터가 필요할 수 있으며 이러한 섭동은 어린 아이가 전혀 처리하기 어려울 수 있다고 지적합니다. 문제 없습니다.
이 연구는 LLM이 언어 처리에는 뛰어나지만 논리적 추론 능력은 여전히 제한적이라는 점을 상기시켜 줍니다. 이것은 단지 학문적인 질문이 아닙니다. AI 기술이 점점 우리 일상생활의 일부가 되면서 이러한 질문에 대한 답이 점점 더 중요해지고 있습니다.
우리는 AI가 복잡한 작업을 이해하고 수행할 수 있다고 단순히 가정할 수 없으며 AI의 작동 방식과 한계에 대해 더 깊이 이해해야 합니다. 이 연구는 AI 기술에 대한 더 깊은 이해를 제공하는 동시에 이러한 기술을 사용하고 개발하는 방법에 대한 귀중한 통찰력을 제공합니다.
참고: https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/
전체적으로, Apple 팀의 연구는 논리적 추론에서 대규모 언어 모델의 한계를 강조하며, AI의 기능에 대해 주의를 기울여야 하며 AI의 기능에 대한 과도한 의존을 피하기 위해 AI의 개발 방향에 계속 주의를 기울여야 함을 상기시켜 줍니다. 앞으로는 LLM이 기존 패턴을 단순히 모방하는 것이 아니라 문제의 본질을 진정으로 이해할 수 있도록 추론 능력을 향상시키는 방법에 대해 더 깊이 연구해야 합니다.