Alibaba Cloud Tongyi 팀은 새로운 수학적 추론 프로세스 보상 모델인 Qwen2.5-Math-PRM을 출시했습니다. 이 모델은 72B 및 7B 크기로 제공되며 특히 추론 오류 식별 측면에서 유사한 오픈 소스 모델을 훨씬 능가합니다. 버전 7B는 인기 있는 GPT-4o를 능가하여 추론 모델 연구 및 개발 분야에서 Alibaba Cloud의 획기적인 발전을 입증했다는 점은 주목할 가치가 있습니다. 모델 성능을 보다 종합적으로 평가하기 위해 팀은 수학 올림피아드의 난이도를 다루는 3,400개의 수학 문제를 포함하는 1단계 평가 표준인 ProcessBench를 오픈소스화했으며, 전문가의 상세한 추론 프로세스를 표시하여 과학성을 보장했습니다. 그리고 평가의 엄격함.
오늘 Alibaba Cloud Tongyi 팀은 새로운 수학적 추론 프로세스 보상 모델 Qwen2.5-Math-PRM을 공식 출시했습니다. 이 모델은 72B 및 7B 크기로 제공되며 특히 추론 오류 식별 측면에서 유사한 오픈 소스 프로세스 보상 모델보다 성능이 훨씬 뛰어납니다.
Qwen2.5-Math-PRM의 7B 버전은 놀랍게도 업계에서 인기 있는 GPT-4o를 능가했습니다. 이 성과는 추론 모델 개발에서 Alibaba Cloud의 중요한 단계입니다. 수학적 추론에서 모델의 성능을 종합적으로 평가하기 위해 Tongyi 팀은 첫 번째 단계 수준 평가 표준인 ProcessBench를 오픈 소스로 공개했습니다. 이 평가기준은 국제수학올림피아드 대회의 어려운 문제를 포함하여 3,400개의 수학 문제 테스트 사례를 다루고 있으며, 각 사례에는 평가의 과학성과 포괄성을 보장하기 위해 인간 전문가의 상세한 추론 과정이 표시되어 있습니다.
연구팀은 ProcessBench에서 Qwen2.5-Math-PRM의 성능을 평가함으로써 72B와 7B 크기 모델 모두 좋은 성능을 발휘한다는 사실을 발견했습니다. 특히 7B 버전은 같은 크기의 오픈 소스 모델을 능가할 뿐만 아니라 어떤 측면에서는 폐쇄 소스 GPT-4o-0806을 능가하기도 합니다. 이는 추론의 신뢰성을 향상시키는 PRM(Process Reward Model)의 큰 잠재력을 입증하고 향후 추론 프로세스 감독 기술 개발을 위한 새로운 아이디어를 제공합니다.
Alibaba Cloud Tongyi 팀의 이 혁신적인 작업은 인공 지능 추론 기술의 발전을 촉진할 뿐만 아니라 업계의 다른 개발자에게 귀중한 참고 자료를 제공합니다. Tongyi 팀은 오픈 소스를 통해 더 많은 연구자들과 경험을 공유하고 업계 전체의 기술 발전을 촉진하기를 희망합니다.
Qwen2.5-Math-PRM의 출시는 수학적 추론 분야에서 대형 모델에 대한 새로운 혁신을 의미하며, 오픈 소스 기능은 학계와 산업계에서의 연구 및 적용에 큰 편의성을 제공합니다. 인공지능의 미래 발전 가능성은 더욱 커졌습니다.