OpenAI lança SWE-bench Verified: melhorando a avaliação da capacidade de engenharia de software de IA

Autor：Eve Cole Data da Última Atualização：2024-12-05 12:32:01

O editor do Downcodes soube que a OpenAI lançou o benchmark de avaliação de geração de código verificado SWE-bench em 13 de agosto, com o objetivo de avaliar com mais precisão o desempenho dos modelos de IA na área de engenharia de software. Esta medida visa melhorar as deficiências do benchmark original do SWE, melhorar a confiabilidade e a precisão da avaliação e fornecer uma ferramenta de avaliação mais eficaz para a aplicação de modelos de IA no desenvolvimento de software. O novo benchmark introduz um ambiente Docker em contêineres, que resolve os problemas do benchmark original, como testes de unidade muito rígidos, descrição pouco clara do problema e dificuldade de configuração do ambiente de desenvolvimento.

A OpenAI anunciou o lançamento do benchmark de avaliação de geração de código verificado SWE-bench em 13 de agosto, com o objetivo de avaliar com mais precisão o desempenho de modelos de inteligência artificial em tarefas de engenharia de software. Este novo benchmark resolve muitas limitações do banco SWE anterior.

SWE-bench é um conjunto de dados de avaliação baseado em problemas reais de software no GitHub, contendo 2.294 pares Issue-Pull Request de 12 repositórios Python populares. No entanto, o banco SWE original tem três problemas principais: os testes unitários são muito rigorosos e podem rejeitar soluções corretas; a descrição do problema não é suficientemente clara e o ambiente de desenvolvimento é difícil de configurar de forma confiável;

Para resolver esses problemas, o SWE-bench Verified apresenta um novo kit de ferramentas de avaliação para ambientes Docker em contêineres, tornando o processo de avaliação mais consistente e confiável. Esta melhoria melhorou significativamente as pontuações de desempenho dos modelos de IA. Por exemplo, o GPT-4o resolveu 33,2% das amostras no novo benchmark, enquanto a pontuação do Agentless, a estrutura de agente de código aberto com melhor desempenho, também dobrou para 16%.

Esta melhoria de desempenho mostra que o SWE-bench Verified pode capturar melhor as verdadeiras capacidades dos modelos de IA em tarefas de engenharia de software. Ao resolver as limitações do benchmark original, o OpenAI fornece uma ferramenta de avaliação mais precisa para a aplicação de IA no campo do desenvolvimento de software, que deverá promover o desenvolvimento e aplicação de tecnologias relacionadas.

À medida que a tecnologia de IA é cada vez mais utilizada na engenharia de software, benchmarks de avaliação como o SWE-bench Verified desempenharão um papel importante na medição e promoção da melhoria das capacidades do modelo de IA.

Endereço: https://openai.com/index/introduzindo-swe-bench-verified/

O lançamento do SWE-bench Verified marca o avanço da avaliação de modelos de IA para um estágio mais preciso e confiável e ajudará a promover a inovação e o desenvolvimento de IA no campo da engenharia de software. O editor do Downcodes acredita que mais benchmarks de avaliação semelhantes aparecerão no futuro para promover ainda mais o progresso da tecnologia de IA.