El editor de Downcodes se enteró de que OpenAI lanzó el punto de referencia de evaluación de generación de código verificado por SWE-bench el 13 de agosto, con el objetivo de evaluar con mayor precisión el rendimiento de los modelos de IA en el campo de la ingeniería de software. Esta medida tiene como objetivo mejorar las deficiencias del banco de pruebas SWE original, mejorar la confiabilidad y precisión de la evaluación y proporcionar una herramienta de evaluación más efectiva para la aplicación de modelos de IA en el desarrollo de software. El nuevo punto de referencia introduce un entorno Docker en contenedores, que resuelve los problemas del punto de referencia original, como pruebas unitarias demasiado estrictas, descripción poco clara del problema y dificultad para configurar el entorno de desarrollo.
OpenAI anunció el lanzamiento del punto de referencia de evaluación de generación de código verificado SWE-bench el 13 de agosto, con el objetivo de evaluar con mayor precisión el rendimiento de los modelos de inteligencia artificial en tareas de ingeniería de software. Este nuevo banco de pruebas resuelve muchas limitaciones del banco SWE anterior.
SWE-bench es un conjunto de datos de evaluación basado en problemas de software reales en GitHub, que contiene 2294 pares de solicitudes de emisión y extracción de 12 repositorios populares de Python. Sin embargo, el banco SWE original tiene tres problemas principales: las pruebas unitarias son demasiado estrictas y pueden rechazar soluciones correctas; la descripción del problema no es lo suficientemente clara y el entorno de desarrollo es difícil de configurar de manera confiable;
Para abordar estos problemas, SWE-bench Verified presenta un nuevo conjunto de herramientas de evaluación para entornos Docker en contenedores, lo que hace que el proceso de evaluación sea más consistente y confiable. Esta mejora mejoró significativamente las puntuaciones de rendimiento de los modelos de IA. Por ejemplo, GPT-4o resolvió el 33,2% de las muestras bajo el nuevo punto de referencia, mientras que la puntuación de Agentless, el marco de agente de código abierto con mejor rendimiento, también se duplicó al 16%.
Esta mejora del rendimiento muestra que SWE-bench Verified puede capturar mejor las verdaderas capacidades de los modelos de IA en tareas de ingeniería de software. Al resolver las limitaciones del punto de referencia original, OpenAI proporciona una herramienta de evaluación más precisa para la aplicación de la IA en el campo del desarrollo de software, que se espera promueva un mayor desarrollo y aplicación de tecnologías relacionadas.
A medida que la tecnología de IA se utiliza cada vez más en la ingeniería de software, los puntos de referencia de evaluación como SWE-bench Verified desempeñarán un papel importante en la medición y promoción de la mejora de las capacidades del modelo de IA.
Dirección: https://openai.com/index/introduciendo-swe-bench-verified/
El lanzamiento de SWE-bench Verified marca el avance de la evaluación de modelos de IA a una etapa más precisa y confiable, y ayudará a promover la innovación y el desarrollo de la IA en el campo de la ingeniería de software. El editor de Downcodes cree que en el futuro aparecerán más puntos de referencia de evaluación similares para promover aún más el progreso de la tecnología de inteligencia artificial.