ARC-AGI, тест, предназначенный для оценки абстрактных и логических способностей общего искусственного интеллекта (AGI), недавно добился прогресса, но его создатель Франсуа Шоле напоминает нам, что это не означает, что AGI приближается. Он отметил, что производительность нынешних систем ИИ в тесте ARC-AGI все еще намного ниже ожиданий, и основная причина — ограничения больших языковых моделей (LLM), которые лучше справляются с распознаванием образов, чем с истинными рассуждениями. Шолай и его коллеги объявили конкурс на 1 миллион долларов, чтобы продвигать прорывы в области искусственного интеллекта с открытым исходным кодом в ARC-AGI, но результаты также подтвердили, что сам тест может иметь недостатки и нуждается в дальнейшем улучшении.
С момента своего запуска в 2019 году ARC-AGI находился в центре внимания в области искусственного интеллекта. Хотя система ИИ и добилась некоторого прогресса в тестировании, ее оценки все еще были значительно ниже человеческих уровней. Это заставило задуматься о текущем направлении развития ИИ и побудило исследователей пересмотреть определение и методы оценки ОИИ. В статье подробно анализируются ограничения тестирования ARC-AGI, а также перспективы будущих направлений исследований AGI, а также показаны соответствующие результаты конкуренции и стратегии выживания исследователей.
Тем не менее, Шолай не прекратил настаивать на исследованиях в области искусственного интеллекта. В июне этого года он и основатель Zapier Майк Кнуп совместно запустили конкурс на 1 миллион долларов, чтобы побудить искусственный интеллект с открытым исходным кодом бросить вызов тесту ARC-AGI. Хотя самая эффективная система искусственного интеллекта набрала всего 55,5% из 17 789 заявок, что ниже отметки в 85%, необходимой для достижения «человеческой эффективности», Шолай и Кнооп по-прежнему считают это важным шагом вперед.
Кнооп отметил в своем блоге, что это достижение не означает, что мы приблизились к реализации AGI. Вместо этого оно подчеркивает, что некоторые задачи в ARC-AGI слишком полагаются на решения «грубой силы» и могут не давать эффективных сигналов для истинного общего. интеллект. ARC-AGI изначально был разработан для проверки способности ИИ к обобщению путем выполнения сложных, ранее не встречавшихся задач. Однако до сих пор существуют сомнения, смогут ли эти задачи эффективно оценить AGI.
Примечание к источнику изображения: изображение генерируется искусственным интеллектом и разрешено поставщиком услуг Midjourney.
Задачи в тесте ARC-AGI включают в себя головоломки и т. д., которые требуют от ИИ выводить неизвестные ответы на основе известной информации. Хотя эти задачи, похоже, способствуют адаптации ИИ к новым ситуациям, результаты показывают, что существующие модели, похоже, находят решения посредством большого количества вычислений и не обязательно демонстрируют истинную интеллектуальную адаптивность.
Кроме того, создатели ARC-AGI столкнулись с критикой со стороны своих коллег, особенно в отношении двусмысленности определения AGI. Сотрудник OpenAI недавно заявил, что если AGI определить как искусственный интеллект, который «работает лучше, чем большинство людей, в большинстве задач», то AGI действительно достигнут. Однако Шоле и Кнооп утверждают, что существующие разработки теста ARC-AGI еще не полностью достигли этой цели.
В дальнейшем Шолай и Кнооп планируют выпустить тест ARC-AGI второго поколения и в 2025 году проведут новый конкурс для устранения недостатков текущего теста. Они заявили, что новый ориентир будет в большей степени ориентирован на содействие развитию исследований ИИ в более важном направлении и ускорение внедрения AGI.
Однако исправление существующих показателей — непростая задача. Усилия Шолея и Кнупа показывают, что определение интеллекта в области искусственного интеллекта, особенно в области общего интеллекта, остается трудной и комплексной задачей.
В целом, прогресс в тесте ARC-AGI и связанные с ним дискуссии отражают то, что исследование общего искусственного интеллекта в области искусственного интеллекта все еще продолжается, с как прорывами, так и с проблемами. В будущем появятся более строгие определения и более эффективная оценка. необходимы методы содействия реальному развитию ОИИ.