Le modèle de grande langue de Tencent, Hunyuan-Large, prend en charge jusqu'à 256k séquences de texte - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-02-12 19:32:01

Tencent a annoncé aujourd'hui l'open source de son modèle de grand langage appelé Hunyuan-Large, avec une échelle de paramètre de 398b et un volume de paramètres d'activation 52B. Le modèle fonctionne bien dans plusieurs repères faisant autorité, dépassant des modèles open source similaires comme Llama 3.1 et Mixtral. Ses innovations technologiques incluent l'application de données synthétiques de haute qualité, qui résout efficacement le problème des données naturelles insuffisantes et prend en charge les séquences de texte jusqu'à 256k, améliorant considérablement de longues capacités de traitement de texte. En outre, Tencent a également ouvert l'ensemble de données d'évaluation intitulé "Penguin Scroll", visant à compenser le manque d'ensembles d'évaluation de texte longue de haute qualité dans l'industrie et à favoriser le développement de la technologie des grands modèles.

Tencent a publié aujourd'hui le modèle Open Source MOE en grande langue Hunyuan-Large, avec un volume de paramètres total de 398b et un volume de paramètres d'activation de 52B. Les résultats de l'évaluation publique montrent que Tencent Hunyuan Large mène dans les ensembles d'évaluation complets multidisciplinaires, ainsi que neuf dimensions telles que les tâches NLP chinoises et anglaises, le code et les mathématiques, dépassant les majors open source de première classe, telles comme Llama3.1 et Mixtral.

Il est entendu que ce modèle peut obtenir des données synthétiques de haute qualité dans l'innovation technologique et gérer efficacement les lacunes des données naturelles grâce à l'utilisation de données synthétiques. En termes de capacités de traitement de contexte, le modèle pré-formé prend en charge les séquences de texte jusqu'à 256k, améliorant considérablement la capacité de gérer de longues tâches de contexte.

Dans le même temps, Tencent Hunyuan a annoncé que pour combler les lacunes d'ensembles d'examen d'articles longs réels dans l'industrie, Tencent Hunyuan sera bientôt un ensemble d'examen de défilement Penguin Open Source pour aider à la recherche sur l'industrie. Les rouleaux de pingouin auto-développés sont basés sur une variété de textes longs naturels tels que les finances publiques, le droit et les documents académiques.

La libération de Tencent Hunyuan grand modèle de grand langage et l'open source de l'ensemble d'évaluation du défilement Penguin fourniront à l'industrie des modèles de langage et des outils d'évaluation plus puissants pour promouvoir le développement du traitement du langage naturel et de l'intelligence artificielle.

Adresse officielle du site Web: https://llm.hunyuan.tencent.com

L'open source de Hunyuan-Large et la libération simultanée de l'ensemble de revue de défilement Penguin Marquent une autre percée majeure pour Tencent dans le domaine des modèles de grande langue, fournissant un solide soutien pour la recherche académique et les applications industrielles, et il vaut la peine d'être attendu à son avenir Développement de l'intelligence artificielle.