Редактор Downcodes познакомит вас с последними результатами исследования OpenAI: тест производительности MLE-bench! Целью этого исследования является оценка реальных возможностей агентов ИИ в области машинного обучения. Исследовательская группа выбрала 75 соревнований по машинному обучению Kaggle в качестве тестовых сценариев, охватывающих многие аспекты, такие как обучение моделей, подготовка данных и проведение экспериментов, и использовала данные публичного рейтинга Kaggle в качестве эталона для сравнения. Тестируя различные передовые языковые модели, исследовательская группа приобрела ценный опыт и открыла исходный код тестового кода для облегчения последующих исследований.
В недавнем исследовании исследовательская группа OpenAI запустила новый тест под названием MLE-bench, который предназначен для оценки производительности агентов ИИ в области машинного обучения.
В этом исследовании особое внимание уделяется 75 соревнованиям Kaggle, связанным с машинным обучением, которые предназначены для проверки различных навыков, необходимых агентам в реальном мире, включая обучение моделей, подготовку набора данных и проведение экспериментов.
Для лучшей оценки исследовательская группа использовала базовые данные из публичных рейтингов Kaggle, чтобы установить человеческие критерии для каждого соревнования. В ходе эксперимента они использовали архитектуру агента с открытым исходным кодом для тестирования нескольких передовых языковых моделей. Результаты показывают, что самая производительная конфигурация — o1-preview OpenAI в сочетании с архитектурой AIDE — завоевала бронзовые медали Kaggle в 16,9% соревнований.
Мало того, исследовательская группа также провела углубленное обсуждение формы расширения ресурсов агентов ИИ и изучила влияние предварительного обучения на результаты. Они подчеркнули, что результаты этих исследований создают основу для дальнейшего понимания возможностей агентов ИИ в области машинного обучения в будущем. Чтобы облегчить будущие исследования, команда также открыла исходный код тестового кода для использования другими исследователями.
Запуск этого исследования знаменует собой важный прогресс в области машинного обучения, особенно в том, как оценивать и улучшать инженерные возможности агентов ИИ. Ученые надеются, что MLE-bench сможет предоставить больше стандартов научной оценки и практическую основу для развития технологий искусственного интеллекта.
Вход в проект: https://openai.com/index/mle-bench/
Выделять:
MLE-bench — это новый тест, предназначенный для оценки инженерных возможностей машинного обучения агентов ИИ.
Исследование охватывает 75 соревнований Kaggle, проверяя возможности обучения модели агента и обработки данных.
? Комбинация OpenAI o1-preview и архитектуры AIDE достигла бронзового уровня Kaggle в 16,9% соревнований.
Открытый исходный код теста MLE-bench обеспечивает новый стандарт оценки агентов ИИ в области машинного обучения, а также способствует развитию технологий ИИ. Редактор Downcodes надеется на дальнейшие результаты исследований на основе MLE-bench в будущем!