Alibaba Tongyi Qianwen 팀은 놀라운 Qwen2-Math 수학적 모델을 출시했습니다. 그 성능은 여러 벤치마크 테스트에서 GPT-4를 능가했으며 7B 매개변수 버전에서는 오픈 소스 모델 NuminaMath의 72B 매개변수 버전도 능가했습니다. 이 모델은 텍스트로 입력된 수학 문제를 처리할 수 있을 뿐만 아니라 사진과 스크린샷의 공식도 인식할 수 있어 수학 학습을 위한 강력한 보조 도구가 됩니다. 다양한 버전(72B, 7B 및 1.5B)은 다양한 요구에 맞는 옵션을 제공하여 강력한 성능과 적응성을 보여줍니다.
Alibaba의 Tongyi Qianwen 팀은 방금 Qwen2Math 데모를 출시했습니다. 이 수학적 모델은 GPT-4조차도 발 아래 짓밟힐 만큼 작은 괴물입니다.
이 모델은 텍스트 입력의 수학적 문제를 처리할 수 있을 뿐만 아니라 사진과 스크린샷의 수식도 이해할 수 있습니다. 계산 사진을 찍으면 답을 얻을 수 있다고 상상해 보세요. 이는 단순히 수학 수업의 문제를 해결하기 위한 도구일 뿐입니다. (물론 부정행위를 옹호하는 것은 아닙니다.)
Qwen2-Math는 72B, 7B 및 1.5B의 세 가지 버전으로 출시됩니다. 그 중 버전 72B는 실제로 MATH 데이터 세트에서 GPT-4보다 7점 더 많은 9.6% 증가한 수학적 천재입니다. 이는 당신이 대학 입시 수학 시험에서 145점을 받았는데, 옆의 상위권 학생은 132점밖에 얻지 못한 것과 같습니다.
더욱 놀라운 점은 7B 버전이 72B 오픈 소스 수학적 모델인 NuminaMath를 능가하는 1/10 미만의 매개변수를 사용한다는 것입니다. 아시다시피 NuminaMath는 세계 최초의 AIMO에서 상을 받은 모델인데, 이 상은 수학계의 최고 인물인 Terence Tao가 직접 시상했습니다.
Alibaba의 수석 알고리즘 전문가인 Lin Junyang은 Qwen2 모델을 수학 대가로 만들었다고 기쁘게 발표했습니다. 그들은 그것을 어떻게 했나요? 그들은 특별한 수학적 두뇌 보충제, 즉 세심하게 설계된 수학 관련 코퍼스를 사용했습니다. 이 두뇌 보충제에는 Qwen2 모델로 편집된 수많은 고품질 수학 온라인 텍스트, 서적, 코드, 시험 문제는 물론 수학 문제까지 포함되어 있습니다.
결과는? GSM8K 및 MATH와 같은 고전적인 수학 테스트 세트에서 Qwen2-Math-72B는 405B Llama-3.1을 대체했습니다. 이 테스트 세트에는 대수학, 기하학, 확률, 정수론 등 다양한 수학 문제가 포함되어 있습니다.
뿐만 아니라 Qwen2-Math는 중국 데이터 세트 CMATH 및 대학 입시 문제에도 도전했습니다. 중국 데이터 세트에서는 1.5B 버전도 70B Llama3.1을 능가할 수 있습니다. 또한, 어떤 버전이던 동일한 규모의 Qwen2 기본 모델과 비교해 성능이 대폭 향상됐다.
이번에 Tongyi Qianwen이 정말로 수학 천재에게 물어본 것 같습니다! 앞으로 수학 문제를 풀 때 물어봐도 될까요? 하지만 이것은 단지 도구일 뿐이므로 지능에 속지 마세요. 혼란스러운 눈은 여전히 연습이 필요합니다. 당신의 수학 능력!
온라인 체험 주소 : https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
Qwen2-Math의 출현은 수학 분야의 대규모 언어 모델에서 중요한 진전을 나타냅니다. 강력한 도구이기는 하지만, 자신만의 수학적 능력을 개발하고 도구에 절대 의존하지 않고 학습 과정을 무시하는 것이 더 중요합니다. 앞으로 Qwen2-Math가 더 많은 분야에서 역할을 하여 학습과 과학 연구에 더 많은 편의를 제공할 수 있기를 기대합니다.