Команда Alibaba Cloud Tongyi запускает новую модель вознаграждения за процесс математического рассуждения Qwen2.5-Math-PRM. Эта модель доступна в размерах 72B и 7B. Она значительно превосходит аналогичные модели с открытым исходным кодом по производительности, особенно при выявлении ошибок в рассуждениях. Стоит отметить, что версия 7B даже превзошла популярную GPT-4o, продемонстрировав прорывной прогресс Alibaba Cloud в области исследований и разработок моделей вывода. Чтобы оценить производительность модели более полно, команда также открыла исходный код первого стандарта оценки уровня шага ProcessBench, который содержит 3400 математических вопросов, охватывающих сложность математической олимпиады, и отмечен экспертами подробными процессами рассуждения для обеспечения научности. и строгость оценки.
Сегодня команда Alibaba Cloud Tongyi официально выпустила новую модель вознаграждения за процесс математического рассуждения Qwen2.5-Math-PRM. Модель доступна в двух размерах: 72B и 7B, и ее производительность значительно лучше, чем у аналогичных моделей вознаграждения процессов с открытым исходным кодом, особенно при выявлении ошибок вывода.
Версия 7B Qwen2.5-Math-PRM неожиданно превзошла популярную в отрасли GPT-4o. Это достижение знаменует собой важный шаг для Alibaba Cloud в разработке моделей вывода. Чтобы всесторонне оценить эффективность модели в математических рассуждениях, команда Tongyi также открыла исходный код первого стандарта оценки уровня шага — ProcessBench. Этот стандарт оценки охватывает 3400 тестовых примеров математических задач, включая сложные вопросы Международной математической олимпиады. Каждый случай отмечен детальным процессом рассуждения, проводимым экспертами, чтобы обеспечить научность и полноту оценки.
Оценивая производительность Qwen2.5-Math-PRM на ProcessBench, исследовательская группа обнаружила, что модели размера 72B и 7B работают хорошо. Особенно версия 7B не только превосходит модель с открытым исходным кодом того же размера, но даже превосходит GPT-4o-0806 с закрытым исходным кодом в некоторых аспектах. Это демонстрирует большой потенциал модели вознаграждения процесса (PRM) в повышении надежности вывода и дает новые идеи для разработки будущей технологии контроля процесса вывода.
Эта инновационная работа команды Alibaba Cloud Tongyi не только способствует развитию технологии рассуждения на основе искусственного интеллекта, но и предоставляет ценную информацию для других разработчиков в отрасли. С помощью открытого исходного кода команда Тонги надеется поделиться опытом с большим количеством исследователей и способствовать технологическому прогрессу во всей отрасли.
Выпуск Qwen2.5-Math-PRM знаменует собой новый прорыв в области больших моделей в области математических рассуждений. Его функция открытого исходного кода также обеспечивает большое удобство для исследований и применения в научных кругах и промышленности. Стоит с нетерпением ждать его использования. Больше возможностей в будущем развитии искусственного интеллекта.