El editor de Downcodes lo llevará a comprender los últimos resultados de la investigación de OpenAI: ¡prueba comparativa de banco MLE! Esta investigación tiene como objetivo evaluar las capacidades reales de los agentes de IA en el campo de la ingeniería de aprendizaje automático. El equipo de investigación seleccionó 75 competencias de aprendizaje automático de Kaggle como escenarios de prueba, cubriendo muchos aspectos como el entrenamiento de modelos, la preparación de datos y la ejecución experimental, y utilizó los datos de clasificación pública de Kaggle como punto de referencia humano para la comparación. Al probar una variedad de modelos de lenguaje de vanguardia, el equipo de investigación obtuvo una experiencia valiosa y abrió el código de referencia para facilitar la investigación posterior.
En un estudio reciente, el equipo de investigación de OpenAI lanzó un nuevo punto de referencia llamado MLE-bench, que está diseñado para evaluar el desempeño de los agentes de IA en la ingeniería de aprendizaje automático.
Este estudio se centra específicamente en 75 competencias relacionadas con la ingeniería de aprendizaje automático de Kaggle, que están diseñadas para probar una variedad de habilidades requeridas por los agentes en el mundo real, incluido el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos.
Para una mejor evaluación, el equipo de investigación utilizó datos básicos de las clasificaciones públicas de Kaggle para establecer puntos de referencia humanos para cada competencia. En el experimento, utilizaron la arquitectura del agente de código abierto para probar varios modelos de lenguaje de vanguardia. Los resultados muestran que la configuración de mejor rendimiento (la vista previa o1 de OpenAI combinada con la arquitectura AIDE) logró niveles de medalla de bronce de Kaggle en el 16,9% de las competiciones.
No solo eso, el equipo de investigación también llevó a cabo discusiones en profundidad sobre la forma de expansión de recursos de los agentes de IA y estudió el impacto contaminante del entrenamiento previo en los resultados. Destacaron que los resultados de esta investigación proporcionan una base para una mayor comprensión de las capacidades de los agentes de IA en la ingeniería de aprendizaje automático en el futuro. Para facilitar futuras investigaciones, el equipo también hizo que el código de referencia fuera de código abierto para que lo utilicen otros investigadores.
El lanzamiento de esta investigación marca un avance importante en el campo del aprendizaje automático, especialmente en cómo evaluar y mejorar las capacidades de ingeniería de los agentes de IA. Los científicos esperan que MLE-bench pueda proporcionar más estándares de evaluación científica y una base práctica para el desarrollo de la tecnología de IA.
Entrada del proyecto: https://openai.com/index/mle-bench/
Destacar:
MLE-bench es un nuevo punto de referencia diseñado para evaluar las capacidades de ingeniería de aprendizaje automático de los agentes de IA.
La investigación cubre 75 competiciones de Kaggle y prueba las capacidades de procesamiento de datos y entrenamiento del modelo del agente.
La combinación de vista previa o1 de OpenAI y arquitectura AIDE alcanzó el nivel bronce de Kaggle en el 16,9% de las competiciones.
El código abierto del banco de pruebas MLE proporciona un nuevo estándar para la evaluación de agentes de IA en el campo de la ingeniería de aprendizaje automático y también contribuye al desarrollo de la tecnología de IA. ¡El editor de Downcodes espera recibir más resultados de investigación basados en MLE-bench en el futuro!