L'équipe Alibaba Tongyi Qianwen a publié l'incroyable modèle mathématique Qwen2-Math. Ses performances ont dépassé GPT-4 dans plusieurs tests de référence, et ont même dépassé la version de paramètres 72B du modèle open source NuminaMath dans la version de paramètres 7B. Ce modèle peut non seulement gérer des problèmes mathématiques saisis par du texte, mais également reconnaître des formules dans des images et des captures d'écran, ce qui en fait un puissant outil auxiliaire pour l'apprentissage des mathématiques. Différentes versions (72B, 7B et 1.5B) offrent des options pour différents besoins, démontrant de solides performances et adaptabilité.
L'équipe Tongyi Qianwen d'Alibaba a fait une autre grande nouvelle ! Elle vient de publier la démo Qwen2Math. Ce modèle mathématique est tout simplement un petit monstre, même GPT-4 est piétiné.
Ce modèle peut non seulement gérer les problèmes mathématiques de saisie de texte, mais également comprendre les formules dans les images et les captures d'écran. Imaginez que vous prenez une photo d'un calcul et qu'il puisse vous donner la réponse. C'est simplement un outil pour résoudre des problèmes en cours de mathématiques (Bien sûr, nous ne préconisons pas la triche)
Qwen2-Math est lancé en trois versions : 72B, 7B et 1.5B. Parmi eux, la version 72B est tout simplement un génie mathématique. Elle a en fait obtenu 7 points de plus que GPT-4 sur l'ensemble de données MATH, soit une augmentation de 9,6 %. C'est comme si vous aviez obtenu 145 points au test de mathématiques de l'examen d'entrée à l'université, mais que le meilleur étudiant à côté de vous n'avait obtenu que 132 points.
Ce qui est encore plus étonnant, c'est que la version 7B utilise moins d'un dixième des paramètres, surpassant ainsi le modèle mathématique open source NuminaMath 72B. Vous savez, NuminaMath est le modèle qui a remporté le prix lors du premier AIMO au monde, et le prix a été personnellement remis par Terence Tao, la plus haute figure du monde des mathématiques.
Lin Junyang, expert principal en algorithmes d'Alibaba, a annoncé avec enthousiasme qu'ils avaient transformé le modèle Qwen2 en un maître mathématique. Comment ont-ils fait ? Ils ont utilisé un supplément cérébral mathématique spécial – un corpus spécifique aux mathématiques soigneusement conçu. Ce supplément cérébral contient un grand nombre de textes mathématiques en ligne de haute qualité, de livres, de codes, de questions d'examen et même de questions mathématiques compilées par le modèle Qwen2.
Le résultat ? Sur les ensembles de tests de mathématiques classiques tels que GSM8K et MATH, Qwen2-Math-72B a laissé derrière lui le 405B Llama-3.1. Ces ensembles de tests ne sont pas une blague. Ils contiennent divers problèmes mathématiques tels que l'algèbre, la géométrie, les probabilités et la théorie des nombres.
De plus, Qwen2-Math a également contesté l'ensemble de données chinois CMATH et les questions de l'examen d'entrée à l'université. Sur l'ensemble de données chinois, même la version 1,5B peut battre le 70B Llama3.1. De plus, quelle que soit la version, par rapport au modèle de base Qwen2 de même échelle, les performances ont été considérablement améliorées.
Il semble que Tongyi Qianwen ait vraiment demandé à un génie des mathématiques cette fois-ci ! Pouvons-nous le demander lors de problèmes de mathématiques à l'avenir ? Mais rappelez-vous, ce n'est qu'un outil, ne vous laissez pas berner par son intelligence. Yeux confus, vous devez encore vous entraîner ? vos compétences en mathématiques !
Adresse de l'expérience en ligne : https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
L’émergence de Qwen2-Math marque des progrès significatifs dans les modèles de langage à grande échelle dans le domaine des mathématiques. Bien qu'il s'agisse d'un outil puissant, il est plus important de développer vos propres capacités mathématiques et de ne jamais vous fier à l'outil et d'ignorer le processus d'apprentissage. Nous espérons que Qwen2-Math pourra jouer un rôle dans davantage de domaines à l'avenir, apportant plus de commodité à l'apprentissage et à la recherche scientifique.