Редактор Downcodes сообщает: Недавно выпущенная система чат-ботов OpenAI возглавила список в недавних оценках. Она хорошо работает с точки зрения общей производительности, безопасности и технических возможностей, особенно в задачах STEM. Однако стоит отметить, что количество рейтингов, участвовавших в этой оценке, было относительно небольшим, что может оказать определенное влияние на конечные результаты и должно интерпретироваться с осторожностью.
Новая система OpenAI показала отличные результаты в недавних оценках, заняв первое место в рейтинге чат-ботов. Однако из-за малого количества оценок это может исказить результаты оценки.
Согласно обзору релиза, новые системы показали хорошие результаты по всем категориям оценки, включая общую производительность, безопасность и технические возможности. Одна из систем, посвященная задачам STEM, ненадолго заняла второе место и вышла в лидеры в области технологий вместе с версией GPT-4o, выпущенной в начале сентября.
Chatbot Arena, платформа для сравнения различных систем, оценивает новые системы, используя более 6000 оценок сообщества. Результаты показали, что эти новые системы хорошо справляются с математическими задачами, сложными подсказками и программированием.
Однако эти новые системы получают гораздо более низкие оценки, чем другие зрелые системы, такие как GPT-4o или Claude3.5 от Anthropic, каждая из которых имеет менее 3000 отзывов. Столь небольшой размер выборки может исказить оценку и ограничить значимость результатов.
Новая система OpenAI превосходно справляется с математикой и программированием, что и было основными целями ее разработки. «Думая» дольше, прежде чем ответить, эти системы стремятся установить новые стандарты рассуждений ИИ. Однако эти системы не превосходят другие по всем параметрам. Многие задачи не требуют сложных логических рассуждений, а иногда достаточно быстрого ответа других систем.
Диаграмма прочности математической модели Lmsys ясно показывает, что эти новые системы набрали более 1360 баллов, что значительно превышает производительность других систем.
Несмотря на ограниченный размер выборки, отличная производительность новой системы OpenAI по-прежнему заслуживает внимания. Ее прорывы в области математики и программирования открывают новое направление для развития технологии рассуждения ИИ. Ожидается, что в будущем, по мере накопления большего количества данных и постоянного улучшения моделей, новая система OpenAI продемонстрирует свои мощные возможности в большем количестве областей. Редактор Downcodes продолжит уделять внимание его развитию.