Платформа для оценки больших моделей CompassArena, запущенная командой OpenCompass Шанхайской лаборатории искусственного интеллекта Синан, и платформа ModelScope недавно претерпели серьезное обновление. Это обновление призвано улучшить взаимодействие с пользователем и обеспечить более научную и всестороннюю оценку модели. Собирая большой объем пользовательских данных и постоянно оптимизируя их, CompassArena добавила функцию Judge Copilot, улучшила алгоритм ранжирования и включила более 20 новых моделей, охватывающих отечественные и зарубежные бизнес-модели, а также модели с открытым исходным кодом, чтобы предоставить пользователям более широкие возможности. выбор и лучшее. Точный рейтинг моделей.
Функция Judge Copilot использует мощную модель оценки Compass-Judger-1-32B-Instruct, чтобы предоставить пользователям возможность всесторонне сравнивать и анализировать эффективность диалоговых моделей: от многомерной оценки, сравнения в реальном времени до интеллектуального принятия решений. помощь, чтобы повысить эффективность и точность оценки. В то же время обновленный алгоритм ранжирования эффективно снижает влияние мешающих факторов за счет улучшения статистического алгоритма Брэдли-Терри и введения контрольных переменных, что делает ранжирование модели более научным и точным. Платформа также активно собирает отзывы пользователей, чтобы постоянно улучшать комплексные возможности и эффекты согласования модели Judge.
CompassArena придает большое значение эффективности модели Judge в практических приложениях и активно собирает отзывы пользователей для дальнейшего улучшения комплексных возможностей и эффектов согласования модели Judge. Пользователи могут выразить свою оценку модели Judge, нажав кнопки «Мне нравится» и «Не нравится». Используя статистическую модель Брэдли-Терри, включающую контрольные переменные, CompassArena может оценить влияние многих внешних факторов. Конкретное влияние может быть выражено в форме отношения шансов.
Благодаря этому обновлению CompassArena приветствует отечественные бизнес-модели, включая 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828, а также claude-3.5-sonnet-20241022, Gemini-exp-1121 и т. д. Добавление зарубежных бизнес-моделей и ряда моделей с открытым исходным кодом. Новые модели принадлежат таким организациям, как 360, DeepSeek, Doubao и т. д., предоставляя пользователям более широкие возможности для боя.
Адрес для опыта: https://www.modelscope.cn/studios/opencompass/CompassArena.
Это обновление CompassArena не только повышает научность и точность оценки моделей, но также предоставляет пользователям более широкий выбор моделей и более удобный опыт, знаменуя новый этап развития платформы оценки больших моделей. Приглашаем посетить адрес опыта, принять участие в оценке модели и совместно способствовать развитию технологии больших моделей.