L'éditeur de Downcodes a appris qu'OpenAI avait publié le 13 août le benchmark d'évaluation de la génération de code vérifié SWE-bench, visant à évaluer plus précisément les performances des modèles d'IA dans le domaine du génie logiciel. Cette décision vise à combler les lacunes du benchmark SWE-bench original, à améliorer la fiabilité et la précision de l'évaluation et à fournir un outil d'évaluation plus efficace pour l'application des modèles d'IA dans le développement de logiciels. Le nouveau benchmark introduit un environnement Docker conteneurisé, qui résout les problèmes du benchmark d'origine tels que les tests unitaires trop stricts, la description peu claire du problème et la difficulté de configuration de l'environnement de développement.
OpenAI a annoncé le 13 août le lancement du benchmark d'évaluation de génération de code vérifié SWE-bench, visant à évaluer plus précisément les performances des modèles d'intelligence artificielle dans les tâches d'ingénierie logicielle. Ce nouveau benchmark résout de nombreuses limitations du précédent banc SWE.
SWE-bench est un ensemble de données d'évaluation basé sur des problèmes logiciels réels sur GitHub, contenant 2294 paires Issue-Pull Request provenant de 12 référentiels Python populaires. Cependant, le banc SWE d'origine présente trois problèmes principaux : les tests unitaires sont trop stricts et peuvent rejeter les solutions correctes ; la description du problème n'est pas assez claire et l'environnement de développement est difficile à configurer de manière fiable ;
Pour résoudre ces problèmes, SWE-bench Verified introduit une nouvelle boîte à outils d'évaluation pour les environnements Docker conteneurisés, rendant le processus d'évaluation plus cohérent et fiable. Cette amélioration a considérablement amélioré les scores de performances des modèles d’IA. Par exemple, GPT-4o a résolu 33,2 % des échantillons du nouveau benchmark, tandis que le score d'Agentless, le framework d'agents open source le plus performant, a également doublé pour atteindre 16 %.
Cette amélioration des performances montre que SWE-bench Verified peut mieux capturer les véritables capacités des modèles d'IA dans les tâches d'ingénierie logicielle. En résolvant les limites du benchmark d'origine, OpenAI fournit un outil d'évaluation plus précis pour l'application de l'IA dans le domaine du développement de logiciels, qui devrait promouvoir le développement et l'application ultérieurs des technologies associées.
Alors que la technologie de l’IA est de plus en plus utilisée dans le génie logiciel, les critères d’évaluation tels que SWE-bench Verified joueront un rôle important dans la mesure et la promotion de l’amélioration des capacités des modèles d’IA.
Adresse : https://openai.com/index/introducing-swe-bench-verified/
Le lancement de SWE-bench Verified marque l’avancement de l’évaluation des modèles d’IA vers un stade plus précis et plus fiable, et contribuera à promouvoir l’innovation et le développement de l’IA dans le domaine du génie logiciel. L'éditeur de Downcodes estime que davantage de critères d'évaluation similaires apparaîtront à l'avenir pour promouvoir davantage les progrès de la technologie de l'IA.