Увеличьте масштаб! OpenAI выпускает самую надежную модель вывода o3 и оптимизированную версию o3-mini

Автор：Eve Cole Время обновления：2024-12-26 17:32:02

OpenAI выпустила новое поколение модели вывода o3 и ее упрощенную версию o3-mini, которые являются преемниками серии o1 и предназначены для повышения точности ответов на вопросы посредством более глубокого мышления. o3 добился прорывного прогресса в тесте ARC-AGI, продемонстрировав возможности решения проблем на уровне, близком к человеческому. o3-mini ориентирован на скорость и экономичность и особенно подходит для задач программирования. Хотя модели серии o3 не будут выпущены напрямую для широкой публики, OpenAI открыла их для предварительного просмотра исследователям безопасности.

Модель o3 хорошо работает в нескольких тестах. Например, точность теста SWE-bench Verified более чем на 20 % выше, чем модель o1, а точность математических вычислений для соревнований и GPQA Diamond также значительно улучшена. OpenAI также представила новый метод оценки безопасности, называемый «сознательным согласованием», для обеспечения безопасности модели и соответствия спецификациям безопасности. В настоящее время OpenAI проходит внешнее тестирование безопасности и открыла приложения раннего доступа.

Выпущена самая сильная модель вывода OpenAI o3: возможности AGI стремительно растут, приближаясь к человеческому уровню

С точки зрения программирования и решения математических задач модель o3 продемонстрировала замечательные возможности. В тесте SWE-bench Verified точность o3 составляет примерно 71,7%, что более чем на 20% выше, чем у модели o1. Согласно Кодексу соревнований, o3 получил оценку Эло 2727, а o1 получил только 1891. Кроме того, точность o3 в соревновательной математике достигла 96,7%, а точность в GPQA Diamond — 87,7%, что почти на 10% выше, чем у o1.

OpenAI также представила новый метод оценки безопасности — совещательное выравнивание, которое представляет собой новую парадигму, которая напрямую обучает спецификациям безопасности модели и может научить модель явно вызывать спецификации и точно выполнять рассуждения перед ответом. Этот подход используется для согласования моделей OpenAI серии o и достижения высокоточного соответствия политикам безопасности OpenAI.

В настоящее время OpenAI продвигает внешнее тестирование безопасности и открыла на веб-сайте приложения раннего доступа. Кандидатам необходимо заполнить онлайн-форму и предоставить соответствующую информацию. Отобранным исследователям будет предоставлен доступ к o3 и o3-mini для изучения их возможностей и участия в оценке безопасности.

Выпуск моделей серии OpenAI o3 знаменует собой значительное улучшение возможностей искусственного интеллекта, а его выдающиеся характеристики во многих областях предвещают новое направление для будущего развития технологий искусственного интеллекта. В будущем мы продолжим уделять внимание развитию и применению моделей серии o3.