상하이 인공 지능 연구소 Sinan의 OpenCompass 팀과 ModelScope 플랫폼이 출시한 CompassArena 대형 모델 평가 플랫폼은 최근 대대적인 업그레이드를 거쳤습니다. 이번 업그레이드는 사용자 경험을 개선하고 보다 과학적이고 포괄적인 모델 평가를 제공하는 것을 목표로 합니다. CompassArena는 대량의 사용자 데이터를 수집하고 지속적으로 최적화하여 Judge Copilot 기능을 추가하고 순위 알고리즘을 개선했으며 국내외 비즈니스 모델과 오픈 소스 모델을 포괄하는 20개 이상의 새로운 모델을 통합하여 사용자에게 더욱 풍부한 서비스를 제공하고 있습니다. 선택과 더 나은 정확한 모델 순위.
Judge Copilot 기능은 강력한 평가 모델인 Compass-Judger-1-32B-Instruct를 사용하여 사용자에게 다차원 평가, 실시간 비교에서 지능형 의사 결정에 이르기까지 대화 모델의 성능을 종합적으로 비교 및 분석할 수 있는 기능을 제공합니다. 평가 효율성과 정확성을 높이기 위한 지원입니다. 동시에 업그레이드된 순위 알고리즘은 Bradley-Terry 통계 알고리즘을 개선하고 제어 변수를 도입하여 교란 요인의 영향을 효과적으로 줄여 모델 순위를 더욱 과학적이고 정확하게 만듭니다. 또한 플랫폼은 사용자 피드백을 적극적으로 수집하여 Judge 모델의 종합적인 기능과 정렬 효과를 지속적으로 개선합니다.
CompassArena는 실제 응용 분야에서 Judge 모델의 성능을 매우 중요하게 생각하며 사용자 피드백을 적극적으로 수집하여 Judge 모델의 포괄적인 기능과 정렬 효과를 더욱 향상시킵니다. 사용자는 '좋아요'와 '싫어요' 버튼을 클릭하여 심사위원 모델에 대한 평가를 표현할 수 있습니다. CompassArena는 제어 변수를 포함하는 Bradley-Terry 통계 모델을 적용하여 다양한 외부 요인의 영향을 추정할 수 있으며 특정 영향은 승산비의 형태로 표현될 수 있습니다.
이번 업그레이드를 통해 CompassArena는 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828은 물론 claude-3.5-sonnet-20241022, gemini-exp-1121 등을 포함한 국내 비즈니스 모델을 환영합니다. . 해외 비즈니스 모델 및 일련의 오픈 소스 모델 추가. 새로운 모델은 360, DeepSeek, Doubao 등의 조직에 속해 사용자에게 더욱 풍부한 전투 옵션을 제공합니다.
체험 주소: https://www.modelscope.cn/studios/opencompass/CompassArena
CompassArena의 이번 업그레이드는 모델 평가의 과학성과 정확성을 향상시킬 뿐만 아니라 사용자에게 더 풍부한 모델 선택과 더 편리한 경험을 제공하여 대형 모델 평가 플랫폼의 새로운 단계를 열었습니다. 체험 주소 방문, 모델 평가 참여, 대형 모델 기술 개발 공동 추진에 오신 것을 환영합니다.