Последняя модель OpenAI, o3, достигла впечатляющих результатов в тесте ARC-AGI, набрав 75,7% в стандартных вычислительных условиях и 87,5% в версии для высоких вычислений. Этот результат намного превосходит все предыдущие модели и привлек широкое внимание в области исследований ИИ. Тест ARC-AGI предназначен для оценки способности систем искусственного интеллекта адаптироваться к новым задачам и продемонстрировать гибкий интеллект. Он чрезвычайно сложен и считается одним из самых сложных стандартов в оценке искусственного интеллекта. Прорывные характеристики o3, несомненно, открывают новые направления и возможности для развития ИИ, но это не означает, что AGI взломан.
Последняя модель o3, выпущенная OpenAI, показала потрясающие результаты в тесте ARC-AGI, набрав 75,7% в стандартных вычислительных условиях, а версия для высоких вычислений достигла 87,5%. Это достижение удивило исследовательское сообщество в области искусственного интеллекта, но оно все еще не доказывает, что всеобщность искусственного интеллекта (AGI) раскрыта.
Тест ARC-AGI основан на корпусе абстрактных рассуждений — тесте, предназначенном для оценки способности системы ИИ адаптироваться к новым задачам и продемонстрировать гибкий интеллект. ARC состоит из серии визуальных головоломок, требующих понимания основных понятий, таких как объекты, границы и пространственные отношения. Люди могут легко решить эти головоломки, но современные системы искусственного интеллекта сталкиваются в этом отношении с серьезными проблемами. ARC считается одним из самых сложных критериев оценки ИИ.
o3 работает значительно лучше, чем предыдущие модели. Наивысшая оценка o1-preview и o1 модели на ARC-AGI составляет 32%. До этого исследователь Джереми Берман использовал гибридный метод, объединив Claude3.5Sonnet с генетическим алгоритмом, получив оценку 53%, а появление o3 рассматривалось как скачок в возможностях ИИ.
Франсуа Шолле, основатель ARC, похвалил o3 за качественные изменения в возможностях ИИ и полагал, что он достиг беспрецедентного уровня в своей способности адаптироваться к новым задачам.
Хотя o3 работает хорошо, его вычислительные затраты также довольно высоки. При низкой вычислительной конфигурации решение каждой головоломки стоит от 17 до 20 долларов США, потребляя 33 миллиона жетонов, при высокой вычислительной конфигурации вычислительные затраты увеличиваются в 172 раза при использовании миллиардов жетонов; Однако по мере постепенного снижения стоимости вывода эти накладные расходы могут стать более разумными.
На данный момент нет подробностей о том, как o3 удалось добиться такого прорыва. Некоторые ученые предполагают, что o3 может использовать метод программного синтеза, сочетающий в себе цепное мышление и механизмы поиска. Другие ученые полагают, что o3 может возникнуть просто в результате дальнейшего расширения обучения с подкреплением.
Хотя o3 добилась значительного прогресса в ARC-AGI, Шолле подчеркнул, что ARC-AGI не является тестом AGI, и o3 еще не достиг стандартов AGI. Он по-прежнему плохо справляется с некоторыми простыми задачами, демонстрируя фундаментальные отличия от человеческого интеллекта. Кроме того, o3 по-прежнему полагается на внешнюю проверку в процессе рассуждения, что далеко от способности AGI к независимому обучению.
Команда Chollet разрабатывает новые сложные тесты для проверки возможностей o3 и рассчитывает снизить его оценку ниже 30%. Он отмечает, что настоящий AGI будет означать, что станет практически невозможно создавать задачи, простые для людей, но сложные для ИИ.
Выделять:
o3 получил высокий балл 75,7% в эталонном тесте ARC-AGI, превзойдя предыдущие модели.
Стоимость решения каждой головоломки в o3 достигает от 17 до 20 долларов США, что представляет собой огромный объем вычислений.
Хотя o3 работает хорошо, эксперты подчеркивают, что он еще не достиг стандартов AGI.
В целом, отличные показатели модели o3 в тесте ARC-AGI демонстрируют значительный прогресс искусственного интеллекта в возможностях абстрактного мышления, но это лишь небольшой шаг на пути к настоящему AGI. Будущие исследования все еще должны продолжаться, чтобы решить высокие вычислительные затраты и основные проблемы ОИИ.