Downcodes의 편집자는 OpenAI: MLE 벤치 벤치마크 테스트의 최신 연구 결과를 이해하도록 안내합니다! 본 연구는 기계학습공학 분야에서 AI 에이전트의 실제 역량을 평가하는 것을 목표로 한다. 연구팀은 모델 훈련, 데이터 준비, 실험 실행 등 다양한 측면을 다루는 75개의 Kaggle 머신러닝 대회를 테스트 시나리오로 선택하고 Kaggle 공개 순위 데이터를 비교를 위한 인간 벤치마크로 사용했습니다. 다양한 최첨단 언어 모델을 테스트함으로써 연구팀은 귀중한 경험을 얻었고 후속 연구를 촉진하기 위해 벤치마크 코드를 오픈 소스로 제공했습니다.
최근 연구에서 OpenAI 연구팀은 기계 학습 엔지니어링에서 AI 에이전트의 성능을 평가하도록 설계된 MLE-bench라는 새로운 벤치마크를 출시했습니다.
이 연구는 특히 모델 훈련, 데이터 세트 준비, 실험 실행을 포함하여 실제 세계에서 에이전트에게 필요한 다양한 기술을 테스트하기 위해 고안된 Kaggle의 75개 기계 학습 엔지니어링 관련 대회에 중점을 둡니다.
더 나은 평가를 위해 연구팀은 Kaggle 공개 순위의 기본 데이터를 사용하여 각 대회에 대한 인간 벤치마크를 설정했습니다. 실험에서 그들은 오픈 소스 에이전트 아키텍처를 사용하여 여러 가지 최첨단 언어 모델을 테스트했습니다. 결과에 따르면 AIDE 아키텍처와 결합된 OpenAI의 o1-preview와 같은 최고 성능의 구성은 16.9%의 대회에서 Kaggle 동메달 수준을 달성한 것으로 나타났습니다.
뿐만 아니라 연구팀은 AI 에이전트의 자원 확장 형태에 대해 심도 있는 논의를 진행하고, 사전 훈련이 결과에 미치는 오염 영향도 연구했습니다. 이들은 이번 연구 결과가 향후 머신러닝 엔지니어링 분야에서 AI 에이전트의 역량을 더욱 깊이 이해할 수 있는 기반을 제공한다고 강조했다. 향후 연구를 촉진하기 위해 팀은 다른 연구자들이 사용할 수 있도록 벤치마크 코드를 오픈 소스로 만들었습니다.
이 연구의 시작은 기계 학습 분야, 특히 AI 에이전트의 엔지니어링 기능을 평가하고 개선하는 방법에서 중요한 진전을 나타냅니다. 과학자들은 MLE-벤치가 AI 기술 개발을 위한 보다 과학적인 평가 기준과 실질적인 기반을 제공할 수 있기를 바라고 있다.
프로젝트 입구: https://openai.com/index/mle-bench/
가장 밝은 부분:
MLE-bench는 AI 에이전트의 기계 학습 엔지니어링 기능을 평가하기 위해 설계된 새로운 벤치마크입니다.
이 연구에서는 75개의 Kaggle 대회를 다루며 에이전트의 모델 훈련 및 데이터 처리 기능을 테스트합니다.
? OpenAI의 o1-preview와 AIDE 아키텍처 조합은 16.9%의 경쟁에서 Kaggle 브론즈 레벨에 도달했습니다.
MLE-bench 벤치마크의 오픈소스는 머신러닝 엔지니어링 분야에서 AI 에이전트 평가를 위한 새로운 표준을 제공하고 AI 기술 발전에도 기여합니다. 다운코드 편집자는 앞으로 MLE-bench를 기반으로 한 더 많은 연구 결과를 기대합니다!