À la fin de l'année, Beijing Zhipu Huazhang Technology Co., Ltd. a lancé la première version de GLM-Zero, le premier modèle d'inférence formé sur la base d'une technologie d'apprentissage par renforcement étendu - GLM-Zero-Preview. Ce modèle a démontré d'excellentes capacités en logique mathématique, en écriture de code et en raisonnement de problèmes complexes, et a obtenu des résultats comparables à des modèles OpenAI similaires dans plusieurs évaluations faisant autorité. GLM-Zero-Preview améliore non seulement les capacités des tâches expertes, mais maintient également d'excellentes performances sur les tâches générales, établissant ainsi une nouvelle référence pour l'amélioration des capacités de raisonnement de l'intelligence artificielle.
À la fin de l'année, pour Beijing Zhipu Huazhang Technology Co., Ltd., la société a publié son premier modèle d'inférence formé sur la base d'une technologie d'apprentissage par renforcement étendu - la première version de GLM-Zero, GLM-Zero-Preview. Ce modèle se concentre sur l’amélioration des capacités de raisonnement de l’intelligence artificielle, en particulier dans la logique mathématique, l’écriture de code et le traitement de problèmes complexes nécessitant un raisonnement approfondi. Par rapport au modèle de base, GLM-Zero-Preview a considérablement amélioré ses capacités de tâches expertes tout en conservant ses capacités de tâches générales. Ses performances dans les évaluations AIME2024, MATH500 et LiveCodeBench sont équivalentes à celles d'OpenAI o1-preview.
Les utilisateurs peuvent désormais expérimenter gratuitement GLM-Zero-Preview dans l'agent « Modèle d'inférence zéro » de la plateforme Zhipu Qingyan. La plateforme prend en charge le téléchargement de texte et d'images, et le modèle produira le processus de raisonnement complet. Dans le même temps, les développeurs peuvent également appeler ce modèle via l'API de la plateforme ouverte Zhipu.
Bien qu'il existe encore un certain écart entre GLM-Zero-Preview et le modèle o3 d'OpenAI, Zhipu Huazhang Technology Co., Ltd. prévoit de continuer à optimiser la technologie d'apprentissage par renforcement itératif et lancera bientôt la version officielle de GLM-Zero pour étendre la capacité de réflexion approfondie allant de la logique mathématique aux domaines technologiques plus généraux.
En termes de performances du modèle, GLM-Zero-Preview démontre l'importance de l'apprentissage par renforcement pour améliorer les capacités de raisonnement profond du modèle. À mesure que la quantité de formation augmente, les performances du modèle dans des aspects tels que le raisonnement profond se sont régulièrement améliorées. La loi d'échelle du modèle dans la phase d'inférence a également été vérifiée. Autrement dit, à mesure que le nombre de jetons auxquels le modèle peut penser augmente et que davantage de calculs sont nécessaires, la qualité des résultats fournis par le modèle s'améliore également régulièrement. GLM-Zero-Preview peut réaliser une prise de décision autonome, une décomposition des problèmes et essayer de multiples façons de résoudre les problèmes au cours du processus de raisonnement, ce qui est similaire au processus de pensée et de prise de décision humaine.
Dans des cas de test réels, GLM-Zero-Preview a démontré sa capacité à identifier les failles logiques et à simuler plusieurs hypothèses en termes de raisonnement logique. En termes de mathématiques, le modèle possède de fortes capacités inductives et déductives, peut gérer rapidement des opérations mathématiques complexes et a atteint le niveau d'un étudiant diplômé exceptionnel lors du test de mathématiques I de l'examen d'entrée de troisième cycle 2025. En termes de programmation, GLM-Zero-Preview maîtrise l'utilisation de plusieurs langages de programmation et aide les développeurs à écrire du code rapidement.
Spectre de sagesse mots clairs :
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
Plateforme ouverte Zhipu :
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
Le lancement de GLM-Zero-Preview marque que Zhipu Huazhang a réalisé des progrès significatifs dans le domaine du raisonnement en intelligence artificielle. Sa stratégie gratuite et ouverte facilite également l'expérience et les commentaires des développeurs et des utilisateurs, fournissant des données précieuses pour l'optimisation itérative des futurs modèles. Nous attendons avec impatience la sortie de la version officielle de GLM-Zero pour promouvoir davantage l'avancement de la technologie de l'intelligence artificielle.