Новейшие крупномасштабные языковые модели команды xAI, Grok-2 и Grok-Mini, добились впечатляющих результатов в рейтингах чат-бота LMSys Arena. Благодаря своей высокой производительности, особенно выдающейся производительности в математических задачах, Grok-2 занял второе место, сравнявшись с моделью Google Gemini, и даже превзошел OpenAI GPT-4o в мае. Это достижение было одобрено более чем 6000 пользователями сообщества. Grok-Mini также показал хорошие результаты, заняв пятое место. Такое значительное улучшение рейтинга демонстрирует сильную силу команды xAI в области исследований и разработок моделей ИИ, а также открывает новые направления и возможности для будущей разработки крупномасштабных языковых моделей.
Данные показывают, что две модели команды xAI, Grok-2 и Grok-Mini, официально вошли в рейтинг LMSys Chatbot Arena. Среди них Grok-2 выделяется на втором месте, обогнав GPT-4o от OpenAI (5 месяцев). наряду с последней моделью Gemini, поддержанной активными голосами более чем 6000 пользователей сообщества.
Стоит отметить, что Грок-2 особенно хорошо справился с математическими задачами, заняв первое место в этой категории, а также добился отличных результатов на втором месте в ряде других задач, включая сложные подсказки, программирование и ожидание. Для сравнения, «Грок-2-Мини» вышел в рейтинге на пятое место, показав свою немалую силу.
«Грок-2-Мини» также значительно увеличил скорость: теперь он работает в два раза быстрее, чем раньше. Этот скачок в улучшении произошел благодаря команде вывода xAI, которая полностью переписала стек вывода и использовала SGLang для достижения более эффективного вывода с несколькими хостами и повышения точности. В то же время команда также представила новые базовые алгоритмы вычислений и связи, а также улучшенную технологию планирования пакетной обработки и количественной оценки, чтобы еще больше улучшить общую производительность модели.
Хотя некоторые люди скептически относятся к производительности Grok-2 и считают, что GPT-4o от OpenAI лучше, при реальном использовании многие пользователи утверждают, что Grok-2 действительно хорошо справляется с задачами по программированию и математике. Модели серии Grok-2 были выпущены в бета-версии в этом месяце, и пользователи также могут испытать их на платформе X. Кроме того, модель также поддерживает создание изображений с использованием модели генерации изображений FLUX.1.
Выделять:
✨ Grok-2 занял второе место в рейтинге чат-ботов LMSys, обогнав GPT-4o (май) и разделив второе место с Gemini.
Грок-2 хорошо справился с математической задачей, заняв первое место, а также вошел в число лучших по многим другим задачам.
Grok-2-Mini работает в два раза быстрее, чем раньше, что еще больше повышает производительность.
Выдающаяся производительность Grok-2 и Grok-Mini не только доказывает инновационные способности команды xAI в области технологий искусственного интеллекта, но и дает новый ориентир для разработки крупномасштабных языковых моделей в будущем. Их преимущества в конкретных областях, таких как математика и программирование, предвещают большой потенциал больших языковых моделей для профессиональных приложений. Я верю, что команда xAI в будущем преподнесет еще больше сюрпризов.