ByteDance Doubao Big Model Team a publié un nouveau benchmark d'évaluation de gros modèles de code - FullStack Bench. Ce benchmark couvre 11 scénarios réels, 16 langages de programmation et 3374 questions. Par rapport aux normes d'évaluation précédentes, FullStack Bench peut fonctionner de manière plus complète et plus. évaluation précise des capacités de développement de code pour les grands modèles. Il filtre les données de Stack Overflow et est validé de manière croisée par l'IA et les humains pour garantir la fiabilité et l'étendue des données. Dans le même temps, l’équipe a également open source l’outil sandbox de code SandboxFusion pour permettre aux développeurs d’effectuer des tests sur de grands modèles.
Le 5 décembre, l'équipe des grands modèles de Byte Doubao a lancé le dernier benchmark d'évaluation de grands modèles de code - FullStack Bench, qui couvre plus de 11 types de scénarios réels, prend en charge 16 langages de programmation et contient 3 374 questions. Ce benchmark peut évaluer avec plus de précision les capacités de développement de code de grands modèles dans un plus large éventail de domaines de programmation que les normes d'évaluation précédentes, et favorise l'optimisation des modèles dans les tâches de programmation du monde réel.
Les références actuelles d'évaluation de code grand public, telles que HumanEval et MBPP, se concentrent généralement sur les problèmes de programmation de base et avancés, tandis que DS-1000 se concentre sur l'analyse des données et les tâches d'apprentissage automatique et ne prend en charge que Python. xCodeEval se concentre sur la programmation et les mathématiques avancées, et présente de vastes scénarios d'application et des limitations de couverture linguistique. En revanche, FullStack Bench a considérablement amélioré la couverture des données, couvrant plus de 11 domaines d'application et couvrant des scénarios de programmation plus complexes et plus diversifiés.
L'ensemble de données FullStack Bench provient de Stack Overflow, la plus grande plateforme de questions et réponses de programmation au monde. L'équipe de recherche a sélectionné les 88,1 % des principaux domaines d'application parmi 500 000 questions, garantissant ainsi l'étendue et la robustesse de l'ensemble de données. Chaque question comprend une description détaillée du problème, des solutions de référence et des cas de tests unitaires pour garantir l'exactitude de l'évaluation. L’équipe a également mené une évaluation croisée de la qualité des données grâce à l’IA et à un examen manuel pour améliorer encore la fiabilité des données.
Afin de faciliter l'utilisation de cet ensemble de données par les développeurs, l'équipe Byte Doubao a également open source l'outil sandbox de code SandboxFusion pour prendre en charge l'exécution efficace de tâches de programmation multilingues. SandboxFusion est compatible avec plus de 10 ensembles de données d'évaluation de code largement utilisés et prend en charge 23 langages de programmation, aidant ainsi les développeurs à tester facilement de grands modèles dans différents environnements.
En outre, l'équipe des grands modèles de Byte Doubao a également présenté pour la première fois son modèle de grand code auto-développé - Doubao-Coder, et a évalué les capacités de programmation de plus de 20 grands modèles de code à travers le monde. Les progrès continus de Byte dans le domaine de la programmation de l'IA, notamment grâce à son modèle de base de code auto-développé MarsCode, fournissent des millions de codes aux utilisateurs chaque mois, démontrant ainsi sa position de leader dans ce domaine.
Adresse open source de l'ensemble de données : https://huggingface.co/datasets/ByteDance/FullStackBench
Adresse open source du bac à sable : https://github.com/bytedance/SandboxFusion
Adresse papier : https://arxiv.org/pdf/2412.00535v2
La sortie de FullStack Bench et l’open source des outils associés marquent les progrès significatifs de ByteDance dans le domaine du code d’IA et ont apporté d’importantes contributions à la promotion de l’évaluation et du développement de grands modèles de code. Les développeurs peuvent utiliser ces ressources pour mieux améliorer les performances de leurs propres modèles et promouvoir l'avancement de la technologie du code d'IA.