L'éditeur de Downcodes vous fera comprendre les derniers résultats de recherche d'OpenAI : test de référence MLE-bench ! Cette recherche vise à évaluer les capacités réelles des agents d’IA dans le domaine de l’ingénierie du machine learning. L'équipe de recherche a sélectionné 75 compétitions d'apprentissage automatique Kaggle comme scénarios de test, couvrant de nombreux aspects tels que la formation de modèles, la préparation des données et l'exécution expérimentale, et a utilisé les données de classement public de Kaggle comme référence humaine à des fins de comparaison. En testant une variété de modèles linguistiques de pointe, l’équipe de recherche a acquis une expérience précieuse et a ouvert le code de référence pour faciliter les recherches ultérieures.
Dans une étude récente, l'équipe de recherche d'OpenAI a lancé un nouveau benchmark appelé MLE-bench, conçu pour évaluer les performances des agents d'IA dans l'ingénierie de l'apprentissage automatique.
Cette étude se concentre spécifiquement sur 75 concours Kaggle liés à l'ingénierie de l'apprentissage automatique, conçus pour tester diverses compétences requises par les agents dans le monde réel, notamment la formation de modèles, la préparation d'ensembles de données et la réalisation d'expériences.
Pour une meilleure évaluation, l'équipe de recherche a utilisé les données de base des classements publics de Kaggle pour établir des références humaines pour chaque compétition. Dans le cadre de l'expérience, ils ont utilisé l'architecture d'agent open source pour tester plusieurs modèles de langage de pointe. Les résultats montrent que la configuration la plus performante – l'o1-preview d'OpenAI combinée à l'architecture AIDE – a obtenu la médaille de bronze de Kaggle dans 16,9 % des compétitions.
De plus, l’équipe de recherche a également mené des discussions approfondies sur la forme d’expansion des ressources des agents d’IA et a étudié l’impact contaminant de la pré-formation sur les résultats. Ils ont souligné que ces résultats de recherche constituent une base pour une meilleure compréhension des capacités des agents d’IA dans l’ingénierie de l’apprentissage automatique à l’avenir. Pour faciliter les recherches futures, l’équipe a également rendu le code de référence open source pour que d’autres chercheurs puissent l’utiliser.
Le lancement de cette recherche marque une avancée importante dans le domaine de l’apprentissage automatique, notamment dans la manière d’évaluer et d’améliorer les capacités d’ingénierie des agents d’IA. Les scientifiques espèrent que le banc MLE pourra fournir davantage de normes d’évaluation scientifique et une base pratique pour le développement de la technologie de l’IA.
Entrée du projet : https://openai.com/index/mle-bench/
Souligner:
MLE-bench est une nouvelle référence conçue pour évaluer les capacités d'ingénierie d'apprentissage automatique des agents d'IA.
La recherche couvre 75 compétitions Kaggle, testant les capacités de formation des modèles et de traitement des données de l'agent.
La combinaison de l'aperçu o1 d'OpenAI et de l'architecture AIDE a atteint le niveau bronze de Kaggle dans 16,9 % des compétitions.
L'open source du benchmark MLE-bench fournit une nouvelle norme pour l'évaluation des agents d'IA dans le domaine de l'ingénierie de l'apprentissage automatique et contribue également au développement de la technologie de l'IA. L’éditeur de Downcodes attend avec impatience d’autres résultats de recherche basés sur le banc MLE à l’avenir !