Grande plataforma de avaliação de modelos CompassArena atualiza e lança nova função Judge Copilot

Autor：Eve Cole Data da Última Atualização：2024-12-24 19:00:01

A plataforma de avaliação de grandes modelos CompassArena lançada pela equipe OpenCompass do Laboratório de Inteligência Artificial de Xangai Sinan e a plataforma ModelScope passaram recentemente por uma grande atualização. Esta atualização visa melhorar a experiência do usuário e fornecer uma avaliação do modelo mais científica e abrangente. Ao coletar uma grande quantidade de dados do usuário e otimizá-los continuamente, a CompassArena adicionou a função Judge Copilot, melhorou o algoritmo de classificação e incorporou mais de 20 novos modelos, abrangendo modelos de negócios nacionais e estrangeiros e modelos de código aberto, para fornecer aos usuários informações mais ricas. escolhas e melhor classificação precisa do modelo.

A função Judge Copilot usa o poderoso modelo de avaliação Compass-Judger-1-32B-Instruct para fornecer aos usuários a capacidade de comparar e analisar de forma abrangente o desempenho de modelos de diálogo, desde avaliação multidimensional, comparação em tempo real até tomada de decisão inteligente. assistência, para melhorar a eficiência e a precisão da avaliação. Ao mesmo tempo, o algoritmo de classificação atualizado reduz efetivamente o impacto de fatores de confusão, melhorando o algoritmo estatístico Bradley-Terry e introduzindo variáveis de controle, tornando a classificação do modelo mais científica e precisa. A plataforma também coleta ativamente feedback dos usuários para melhorar continuamente os recursos abrangentes e os efeitos de alinhamento do modelo Judge.

微信截图_20241219174613.png

A CompassArena atribui grande importância ao desempenho do modelo Judge em aplicações práticas e coleta ativamente feedback do usuário para melhorar ainda mais as capacidades abrangentes e os efeitos de alinhamento do modelo Judge. Os usuários podem expressar sua avaliação do modelo Juiz clicando nos botões “Curtir” e “Não Curtir”. Ao ajustar um modelo estatístico de Bradley-Terry que inclui variáveis de controle, a CompassArena pode estimar o impacto de muitos fatores externos. O impacto específico pode ser expresso na forma de razões de probabilidade.

Com esta atualização, a CompassArena dá as boas-vindas a modelos de negócios domésticos, incluindo 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828, bem como claude-3.5-sonnet-20241022, gemini-exp-1121, etc. . A adição de modelos de negócios estrangeiros e uma série de modelos de código aberto. Os novos modelos pertencem a organizações como 360, DeepSeek, Doubao, etc., proporcionando aos usuários opções de batalha mais ricas.

Endereço da experiência: https://www.modelscope.cn/studios/opencompass/CompassArena

Esta atualização do CompassArena não apenas melhora a cientificidade e a precisão da avaliação de modelos, mas também oferece aos usuários opções de modelos mais ricas e uma experiência mais conveniente, marcando uma nova etapa para a grande plataforma de avaliação de modelos. Bem-vindo a visitar o endereço da experiência, participar da avaliação do modelo e promover conjuntamente o desenvolvimento de tecnologia de modelos de grande porte.