Редактор Downcodes узнал, что последние исследования OpenAI показывают, что даже несмотря на быстрое развитие технологий искусственного интеллекта, точность самых современных языковых моделей в ответах на фактические вопросы по-прежнему вызывает беспокойство. В этом исследовании использовался собственный тест SimpleQA компании OpenAI. Результаты испытаний показали, что точность даже лучших моделей OpenAI оказалась намного ниже ожидаемой, что вызвало пересмотр возможностей моделей ИИ по сбору знаний.
В исследовании использовался собственный эталонный тест SimpleQA компании OpenAI. Этот тест содержит 4326 вопросов, охватывающих различные области, такие как наука, политика и искусство. Каждый вопрос имеет четкий правильный ответ.
После проверки двумя независимыми рецензентами результаты показывают, что точность лучшей модели OpenAI o1-preview составляет всего 42,7%, а GPT-4o немного ниже – всего 38,2%. Что касается меньшего GPT-4o-mini, то точность составляет всего лишь 8,6%. Для сравнения, модель Claude от Anthropic работала еще хуже: точность сонета Claude-3.5 составила всего 28,9%.
Ключом к этому исследованию является разработка теста не только для проверки производительности ИИ, но и для того, чтобы все знали об ограничениях моделей ИИ в приобретении знаний. Исследователи подчеркивают, что когда пользователи используют эти модели, они должны относиться к ним как к инструментам обработки информации, а не как к полностью зависимым источникам знаний. Чтобы получить более точные ответы, лучше предоставить ИИ достоверные данные, а не полагаться исключительно на его встроенные знания.
Стоит отметить, что модели ИИ часто имеют слишком оптимистичные оценки своих возможностей. Исследователи обнаружили, что, когда этих моделей просили оценить уверенность в своих ответах, они часто давали завышенные оценки точности. В тестах, в которых на одни и те же вопросы отвечали неоднократно, даже если модели давали один и тот же ответ несколько раз, их фактический уровень успеха все равно был ниже, чем их самооцененная точность. Это согласуется с внешней критикой, согласно которой языковые модели часто дают нелепые ответы, но кажутся уверенными.
Исследователи полагают, что нынешняя система искусственного интеллекта имеет очевидные пробелы в фактической точности и срочно нуждается в улучшении. Они также подняли открытый вопрос о том, предсказывает ли способность ИИ отвечать на короткие фактические вопросы его эффективность при обработке более длинных и сложных ответов. Чтобы поддержать разработку более надежных языковых моделей, OpenAI опубликовала на Github данные теста SimpleQA.
Это исследование звучит предупреждением о надежности моделей ИИ и указывает направление для будущих улучшений. Нам необходимо более осторожно использовать инструменты ИИ и рассчитывать на большие прорывы в фактической точности моделей ИИ в будущем. Публично опубликованные тестовые данные OpenAI SimpleQA помогут способствовать развитию всей области искусственного интеллекта.