La plateforme d'évaluation de grands modèles CompassArena se met à niveau et lance une nouvelle fonction Judge Copilot

Auteur：Eve Cole Date de mise à jour：2024-12-24 19:00:01

La plateforme d'évaluation de grands modèles CompassArena lancée par l'équipe OpenCompass du laboratoire d'intelligence artificielle de Shanghai Sinan et la plateforme ModelScope ont récemment fait l'objet d'une mise à niveau majeure. Cette mise à niveau vise à améliorer l’expérience utilisateur et à fournir une évaluation plus scientifique et plus complète des modèles. En collectant une grande quantité de données utilisateur et en les optimisant continuellement, CompassArena a ajouté la fonction Judge Copilot, amélioré l'algorithme de classement et incorporé plus de 20 nouveaux modèles, couvrant les modèles commerciaux nationaux et étrangers et les modèles open source, pour fournir aux utilisateurs une expérience plus riche. choix et meilleur classement précis des modèles.

La fonction Judge Copilot utilise le puissant modèle d'évaluation Compass-Judger-1-32B-Instruct pour fournir aux utilisateurs la possibilité de comparer et d'analyser de manière exhaustive les performances des modèles de dialogue, depuis l'évaluation multidimensionnelle, la comparaison en temps réel jusqu'à la prise de décision intelligente. assistance, pour améliorer l’efficacité et la précision de l’évaluation. Dans le même temps, l'algorithme de classement amélioré réduit efficacement l'impact des facteurs de confusion en améliorant l'algorithme statistique de Bradley-Terry et en introduisant des variables de contrôle, ce qui rend le classement du modèle plus scientifique et plus précis. La plate-forme collecte également activement les commentaires des utilisateurs pour améliorer continuellement les capacités globales et les effets d'alignement du modèle Judge.

微信截图_20241219174613.png

CompassArena attache une grande importance aux performances du modèle Judge dans les applications pratiques et collecte activement les commentaires des utilisateurs pour améliorer encore les capacités globales et les effets d'alignement du modèle Judge. Les utilisateurs peuvent exprimer leur évaluation du modèle Judge en cliquant sur les boutons « J'aime » et « Je n'aime pas ». En ajustant un modèle statistique Bradley-Terry incluant des variables de contrôle, CompassArena peut estimer l'impact de nombreux facteurs externes. L'impact spécifique peut être exprimé sous forme de rapports de cotes.

Avec cette mise à niveau, CompassArena accueille les modèles commerciaux nationaux, notamment 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828, ainsi que claude-3.5-sonnet-20241022, gemini-exp-1121, etc. . L'ajout de modèles économiques étrangers et d'une série de modèles open source. Les nouveaux modèles appartiennent à des organisations telles que 360, DeepSeek, Doubao, etc., offrant aux utilisateurs des options de combat plus riches.

Adresse de l'expérience : https://www.modelscope.cn/studios/opencompass/CompassArena

Cette mise à niveau de CompassArena améliore non seulement le caractère scientifique et la précision de l'évaluation des modèles, mais offre également aux utilisateurs des choix de modèles plus riches et une expérience plus pratique, marquant une nouvelle étape pour la grande plateforme d'évaluation de modèles. Bienvenue pour visiter l'adresse d'expérience, participer à l'évaluation du modèle et promouvoir conjointement le développement de la technologie des grands modèles.