Редактор Downcodes узнал, что 13 августа OpenAI выпустила тест оценки генерации кода SWE-bench Verified, целью которого является более точная оценка производительности моделей ИИ в области разработки программного обеспечения. Этот шаг направлен на устранение недостатков исходного теста SWE-bench, повышение надежности и точности оценки и предоставление более эффективного инструмента оценки для применения моделей ИИ при разработке программного обеспечения. В новом тесте представлена контейнерная среда Docker, которая решает проблемы исходного теста, такие как слишком строгое модульное тестирование, нечеткое описание проблемы и трудности с настройкой среды разработки.
OpenAI объявила о запуске 13 августа теста оценки генерации кода SWE-bench Verified, целью которого является более точная оценка производительности моделей искусственного интеллекта в задачах разработки программного обеспечения. Этот новый тест устраняет многие ограничения предыдущего тестера SWE.
SWE-bench — это набор оценочных данных, основанный на реальных проблемах с программным обеспечением на GitHub и содержащий 2294 пары Issue-Pull Request из 12 популярных репозиториев Python. Однако исходный SWE-bench имеет три основные проблемы: модульные тесты слишком строги и могут отклонять правильные решения; описание проблемы недостаточно ясно, а среду разработки сложно настроить;
Для решения этих проблем SWE-bench Verified представляет новый набор инструментов оценки для контейнерных сред Docker, что делает процесс оценки более последовательным и надежным. Это улучшение значительно улучшило показатели производительности моделей искусственного интеллекта. Например, GPT-4o решил 33,2% образцов в рамках нового теста, в то время как оценка Agentless, самой эффективной платформы агентов с открытым исходным кодом, также удвоилась до 16%.
Такое улучшение производительности показывает, что SWE-bench Verified может лучше отражать истинные возможности моделей искусственного интеллекта в задачах разработки программного обеспечения. Решив ограничения исходного теста, OpenAI предоставляет более точный инструмент оценки применения ИИ в области разработки программного обеспечения, который, как ожидается, будет способствовать дальнейшему развитию и применению связанных технологий.
Поскольку технология искусственного интеллекта все чаще используется в разработке программного обеспечения, оценочные тесты, такие как SWE-bench Verified, будут играть важную роль в измерении и содействии улучшению возможностей модели искусственного интеллекта.
Адрес: https://openai.com/index/introducing-swe-bench-verified/
Запуск SWE-bench Verified знаменует собой переход оценки моделей ИИ на более точную и надежную стадию и будет способствовать продвижению инноваций и развития ИИ в области разработки программного обеспечения. Редактор Downcodes считает, что в будущем появится больше подобных тестов для дальнейшего развития технологий искусственного интеллекта.