Большое разочарование! Пользовательский фактический тест новой модели o1 OpenAI: она действительно допустила всевозможные ошибки низкого уровня, даже просчитала букву.

Автор：Eve Cole Время обновления：2024-12-02 20:00:01

Последняя модель искусственного интеллекта OpenAI «o1-preview» (ранее известная под кодовым названием «Strawberry») вызвала бурные дискуссии. OpenAI утверждала, что ее возможности не хуже, чем у аспиранта, но в реальных тестах она показала неутешительные ошибки. Редактор Downcodes поможет вам глубже понять эту долгожданную, но проблемную модель ИИ, увидеть, какого уровня она достигла, и реальные отзывы пользователей.

Недавно OpenAI запустила долгожданную модель искусственного интеллекта под кодовым названием «Strawberry» и официальное название «o1-preview».

OpenAI обещает, что новая модель будет работать так же хорошо, как аспирант, при решении сложных контрольных задач по физике, химии и биологии. Однако предварительные результаты испытаний показывают, что этот ИИ еще далек от своей цели заменить ученых или программистов.

В социальных сетях многие пользователи поделились своим опытом взаимодействия с ИИ «OpenAI o1», и результаты показали, что модель по-прежнему плохо справляется с базовыми задачами.

Например, Матье Ашер, исследователь из INSA Rennes, обнаружил, что OpenAI o1 часто предлагал недопустимые ходы при решении определенных шахматных задач.

Ученый по мета-ИИ Колин Фрейзер отметил, что в простой словесной головоломке о фермерах, перевозящих овец через реку, ИИ на самом деле отказался от правильного ответа и вместо этого выдал какую-то нелогичную ерунду.

Даже в логической головоломке, которую OpenAI использовала в качестве демонстрации, вопросы, связанные с клубникой, приводили к тому, что пользователи получали разные ответы, причем один пользователь обнаружил, что уровень ошибок модели достигал 75%.

Мало того, некоторые пользователи сообщают, что новая модель даже допускает ошибки при подсчете количества раз, когда буква «R» встречается в слове «клубника».

Хотя на момент выпуска OpenAI заявила, что это была ранняя модель и еще не имела таких функций, как просмотр веб-страниц и загрузка файлов, такие основные ошибки все еще вызывают удивление.

В целях улучшения OpenAI ввела в новую модель процесс «цепочки мышления», благодаря чему OpenAI o1 значительно отличается от предыдущей модели GPT-4o. Такой подход позволяет ИИ думать снова и снова, прежде чем прийти к ответу, хотя это также приводит к увеличению времени ответа.

Некоторые пользователи обнаружили, что модели на самом деле требовалось 92 секунды, чтобы дать ответ на словесную головоломку, но результат все равно был неверным.

Ноам Браун, научный сотрудник OpenAI, сказал, что, хотя текущая скорость ответа низкая, они ожидают, что будущие версии будут думать дольше и даже дадут новое представление о прорывных проблемах.

Однако известный критик искусственного интеллекта Гэри Маркус скептически относится к этому и считает, что долгосрочная обработка не обязательно приводит к выдающимся способностям к рассуждению. Он подчеркнул, что, несмотря на постоянное развитие технологий искусственного интеллекта, реальные исследования и эксперименты по-прежнему необходимы.

Видно, что при реальном использовании производительность новой модели искусственного интеллекта OpenAI по-прежнему разочаровывает во всех аспектах, и это также вызвало дискуссии о будущем развитии технологии искусственного интеллекта.

Выделять:

Недавно OpenAI запустила новую модель ИИ «Клубника», утверждая, что она сравнима с аспирантами в сложных задачах.

Многие пользователи обнаружили, что ИИ часто допускал ошибки при выполнении базовых задач, например, придумывал недопустимые ходы и неправильно отвечал на простые головоломки.

? OpenAI признает, что модель все еще находится в стадии разработки, но длительное мышление может не улучшить способности рассуждения, и многие основные проблемы остаются нерешенными.

В целом, хотя модель OpenAI «o1-preview» показывает потенциал развития технологии искусственного интеллекта, она также обнажает множество недостатков в ее практическом применении. В будущем при разработке моделей ИИ по-прежнему необходимо будет найти баланс между техническим усовершенствованием и практическим применением, чтобы действительно достичь ожидаемых целей. Редактор Downcodes продолжит следить за тенденциями в области ИИ и предлагать вам еще больше интересных отчетов.