Die große Modellbewertungsplattform CompassArena aktualisiert und führt die neue Judge Copilot-Funktion ein

Autor：Eve Cole Aktualisierungszeit：2024-12-24 19:00:01

Die vom OpenCompass-Team des Shanghai Artificial Intelligence Laboratory Sinan ins Leben gerufene CompassArena-Plattform zur Evaluierung großer Modelle und die ModelScope-Plattform wurden kürzlich einem umfassenden Upgrade unterzogen. Ziel dieses Upgrades ist es, die Benutzererfahrung zu verbessern und eine wissenschaftlichere und umfassendere Modellbewertung bereitzustellen. Durch das Sammeln einer großen Menge an Benutzerdaten und deren kontinuierliche Optimierung hat CompassArena die Judge Copilot-Funktion hinzugefügt, den Ranking-Algorithmus verbessert und mehr als 20 neue Modelle integriert, die inländische und ausländische Geschäftsmodelle sowie Open-Source-Modelle abdecken, um den Benutzern ein reichhaltigeres Angebot zu bieten Auswahlmöglichkeiten und genaueres Modellranking.

Die Judge Copilot-Funktion nutzt das leistungsstarke Bewertungsmodell Compass-Judger-1-32B-Instruct, um Benutzern die Möglichkeit zu geben, die Leistung von Dialogmodellen umfassend zu vergleichen und zu analysieren, von der mehrdimensionalen Bewertung über den Echtzeitvergleich bis hin zur intelligenten Entscheidungsfindung Unterstützung, um die Effizienz und Genauigkeit der Bewertung zu verbessern. Gleichzeitig reduziert der verbesserte Ranking-Algorithmus effektiv die Auswirkungen von Störfaktoren, indem er den statistischen Bradley-Terry-Algorithmus verbessert und Kontrollvariablen einführt, wodurch das Modellranking wissenschaftlicher und genauer wird. Die Plattform sammelt außerdem aktiv Benutzerfeedback, um die umfassenden Funktionen und Ausrichtungseffekte des Judge-Modells kontinuierlich zu verbessern.

微信截图_20241219174613.png

CompassArena legt großen Wert auf die Leistung des Judge-Modells in praktischen Anwendungen und sammelt aktiv Benutzerfeedback, um die umfassenden Fähigkeiten und Ausrichtungseffekte des Judge-Modells weiter zu verbessern. Benutzer können ihre Bewertung des Judge-Modells äußern, indem sie auf die Schaltflächen „Gefällt mir“ und „Gefällt mir nicht“ klicken. Durch die Anpassung eines statistischen Bradley-Terry-Modells, das Kontrollvariablen enthält, kann CompassArena die Auswirkungen vieler externer Faktoren abschätzen. Die spezifischen Auswirkungen können in Form von Quotenverhältnissen ausgedrückt werden.

Mit diesem Upgrade begrüßt CompassArena inländische Geschäftsmodelle, darunter 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828 sowie claude-3.5-sonnet-20241022, gemini-exp-1121 usw . Die Hinzufügung ausländischer Geschäftsmodelle und einer Reihe von Open-Source-Modellen. Die neuen Modelle gehören Organisationen wie 360, DeepSeek, Doubao usw. und bieten Benutzern umfangreichere Kampfoptionen.

Erlebnisadresse: https://www.modelscope.cn/studios/opencompass/CompassArena

Dieses Upgrade von CompassArena verbessert nicht nur die Wissenschaftlichkeit und Genauigkeit der Modellbewertung, sondern bietet Benutzern auch eine umfassendere Modellauswahl und ein komfortableres Erlebnis und markiert damit eine neue Stufe für die große Modellbewertungsplattform. Besuchen Sie die Erlebnisadresse, nehmen Sie an der Modellbewertung teil und fördern Sie gemeinsam die Entwicklung großer Modelltechnologien.