La plataforma de evaluación de modelos grandes CompassArena lanzada por el equipo OpenCompass del Laboratorio de Inteligencia Artificial Sinan de Shanghai y la plataforma ModelScope han experimentado recientemente una importante actualización. Esta actualización tiene como objetivo mejorar la experiencia del usuario y proporcionar una evaluación del modelo más científica y completa. Al recopilar una gran cantidad de datos de usuario y optimizarlos continuamente, CompassArena agregó la función Judge Copilot, mejoró el algoritmo de clasificación e incorporó más de 20 modelos nuevos, que cubren modelos comerciales nacionales y extranjeros y modelos de código abierto, para brindar a los usuarios información más rica. opciones y una mejor clasificación de modelos precisa.
La función Judge Copilot utiliza el potente modelo de evaluación Compass-Judger-1-32B-Instruct para brindar a los usuarios la capacidad de comparar y analizar de manera integral el desempeño de los modelos de diálogo, desde evaluación multidimensional, comparación en tiempo real hasta toma de decisiones inteligente. asistencia técnica para mejorar la eficiencia y precisión de la evaluación. Al mismo tiempo, el algoritmo de clasificación actualizado reduce efectivamente el impacto de los factores de confusión al mejorar el algoritmo estadístico Bradley-Terry e introducir variables de control, lo que hace que la clasificación del modelo sea más científica y precisa. La plataforma también recopila activamente comentarios de los usuarios para mejorar continuamente las capacidades integrales y los efectos de alineación del modelo Judge.
CompassArena concede gran importancia al rendimiento del modelo Judge en aplicaciones prácticas y recopila activamente comentarios de los usuarios para mejorar aún más las capacidades integrales y los efectos de alineación del modelo Judge. Los usuarios pueden expresar su valoración del modelo Judge haciendo clic en los botones "Me gusta" y "No me gusta". Al ajustar un modelo estadístico de Bradley-Terry que incluye variables de control, CompassArena puede estimar el impacto de muchos factores externos. El impacto específico se puede expresar en forma de odds ratios.
Con esta actualización, CompassArena da la bienvenida a modelos comerciales nacionales que incluyen 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828, así como claude-3.5-sonnet-20241022, gemini-exp-1121, etc. La incorporación de modelos de negocio extranjeros y una serie de modelos de código abierto. Los nuevos modelos pertenecen a organizaciones como 360, DeepSeek, Doubao, etc., lo que brinda a los usuarios opciones de batalla más ricas.
Dirección de la experiencia: https://www.modelscope.cn/studios/opencompass/CompassArena
Esta actualización de CompassArena no solo mejora la cientificidad y precisión de la evaluación de modelos, sino que también brinda a los usuarios opciones de modelos más ricas y una experiencia más conveniente, lo que marca una nueva etapa para la plataforma de evaluación de modelos a gran escala. Bienvenido a visitar la dirección de experiencias, participar en la evaluación de modelos y promover conjuntamente el desarrollo de tecnología de modelos grandes.