O editor de Downcodes levará você a entender os resultados da pesquisa mais recente do OpenAI: teste de benchmark MLE-bench! Esta pesquisa tem como objetivo avaliar as reais capacidades dos agentes de IA na área de engenharia de aprendizado de máquina. A equipe de pesquisa selecionou 75 competições de aprendizado de máquina Kaggle como cenários de teste, cobrindo muitos aspectos, como treinamento de modelo, preparação de dados e execução experimental, e usou dados de classificação pública Kaggle como referência humana para comparação. Ao testar uma variedade de modelos de linguagem de ponta, a equipe de pesquisa ganhou uma experiência valiosa e abriu o código do benchmark para facilitar pesquisas subsequentes.
Em um estudo recente, a equipe de pesquisa da OpenAI lançou um novo benchmark chamado MLE-bench, projetado para avaliar o desempenho de agentes de IA na engenharia de aprendizado de máquina.
Este estudo se concentra especificamente em 75 competições relacionadas à engenharia de aprendizado de máquina do Kaggle, que são projetadas para testar uma variedade de habilidades exigidas pelos agentes no mundo real, incluindo treinamento de modelos, preparação de conjuntos de dados e execução de experimentos.
Para uma melhor avaliação, a equipe de pesquisa utilizou dados básicos das classificações públicas do Kaggle para estabelecer referências humanas para cada competição. No experimento, eles usaram a arquitetura do agente de código aberto para testar vários modelos de linguagem de ponta. Os resultados mostram que a configuração de melhor desempenho – o1-preview da OpenAI combinada com a arquitetura AIDE – alcançou níveis de medalha de bronze Kaggle em 16,9% das competições.
Além disso, a equipe de pesquisa também conduziu discussões aprofundadas sobre a forma de expansão de recursos dos agentes de IA e estudou o impacto contaminante do pré-treinamento nos resultados. Eles enfatizaram que os resultados da pesquisa fornecem uma base para uma maior compreensão das capacidades dos agentes de IA na engenharia de aprendizado de máquina no futuro. Para facilitar pesquisas futuras, a equipe também tornou o código de benchmark de código aberto para uso de outros pesquisadores.
O lançamento desta investigação marca um progresso importante no campo da aprendizagem automática, especialmente na forma de avaliar e melhorar as capacidades de engenharia dos agentes de IA. Os cientistas esperam que o banco MLE possa fornecer mais padrões de avaliação científica e bases práticas para o desenvolvimento da tecnologia de IA.
Entrada do projeto: https://openai.com/index/mle-bench/
Destaque:
MLE-bench é um novo benchmark projetado para avaliar as capacidades de engenharia de aprendizado de máquina de agentes de IA.
A pesquisa abrange 75 competições Kaggle, testando o modelo de treinamento do agente e as capacidades de processamento de dados.
?A combinação da arquitetura o1-preview e AIDE da OpenAI alcançou o nível Kaggle bronze em 16,9% das competições.
O código aberto do benchmark MLE-bench fornece um novo padrão para a avaliação de agentes de IA no campo da engenharia de aprendizado de máquina e também contribui para o desenvolvimento da tecnologia de IA. O editor do Downcodes espera mais resultados de pesquisas baseados no banco MLE no futuro!