Downcodes のエディターが、OpenAI の最新の研究結果、MLE-bench ベンチマーク テストを理解します。この研究は、機械学習工学の分野における AI エージェントの実際の能力を評価することを目的としています。研究チームは、モデルのトレーニング、データの準備、実験の実行などの多くの側面をカバーする 75 の Kaggle 機械学習コンテストをテスト シナリオとして選択し、比較のための人間のベンチマークとして Kaggle の公開ランキング データを使用しました。さまざまな最先端の言語モデルをテストすることで、研究チームは貴重な経験を積み、その後の研究を容易にするためにベンチマーク コードをオープンソース化しました。
最近の研究で、OpenAI 研究チームは、機械学習エンジニアリングにおける AI エージェントのパフォーマンスを評価するように設計された、MLE ベンチと呼ばれる新しいベンチマークを開始しました。
この調査は、Kaggle が主催する 75 の機械学習エンジニアリング関連のコンテストに特に焦点を当てています。これらのコンテストは、モデルのトレーニング、データセットの準備、実験の実行など、現実世界のエージェントに必要なさまざまなスキルをテストするように設計されています。
より良い評価を行うために、研究チームは Kaggle の公開ランキングの基本データを使用して、各コンテストの人間によるベンチマークを確立しました。実験では、オープンソース エージェント アーキテクチャを使用して、いくつかの最先端の言語モデルをテストしました。結果は、最もパフォーマンスの高い構成 (OpenAI の o1-preview と AIDE アーキテクチャを組み合わせたもの) が、コンペティションの 16.9% で Kaggle の銅メダル レベルを達成したことを示しています。
それだけでなく、研究チームはAIエージェントのリソース拡張形式について徹底的な議論を行い、事前トレーニングが結果に及ぼす汚染の影響も研究しました。彼らは、これらの研究結果が、将来の機械学習エンジニアリングにおける AI エージェントの機能をさらに理解するための基礎を提供することを強調しました。将来の研究を促進するために、チームは他の研究者が使用できるようにベンチマーク コードをオープン ソースとしても作成しました。
この研究の開始は、機械学習の分野、特に AI エージェントのエンジニアリング能力を評価および改善する方法における重要な進歩を示しています。科学者たちは、MLE ベンチがより科学的な評価基準と AI 技術開発の実践的な基盤を提供できることを期待しています。
プロジェクト入口:https://openai.com/index/mle-bench/
ハイライト:
MLE ベンチは、AI エージェントの機械学習エンジニアリング能力を評価するために設計された新しいベンチマークです。
この調査は 75 の Kaggle コンペティションを対象としており、エージェントのモデル トレーニングとデータ処理能力をテストしています。
? OpenAI の o1-preview と AIDE アーキテクチャの組み合わせは、コンペティションの 16.9% で Kaggle ブロンズ レベルに達しました。
MLE ベンチ ベンチマークのオープンソースは、機械学習エンジニアリングの分野における AI エージェントの評価の新しい標準を提供し、AI 技術の発展にも貢献します。 Downcodes 編集者は、今後も MLE-bench に基づいたさらなる研究結果を楽しみにしています。