Downcodes의 편집자는 베이징 Zhiyuan 인공 지능 연구소(BAAI)가 세계 최초의 중국 대형 모델 토론 플랫폼 FlagEval Debate를 출시했다는 사실을 알게 되었습니다! 모델 토론을 핵심으로 하는 플랫폼은 다양한 대형 모델의 기능 차이를 보다 효과적으로 구별하는 것을 목표로 하는 대형 언어 모델 능력 평가를 위한 새로운 측정 방법을 제공합니다. 언어 기반의 지적 활동인 토론을 교묘하게 활용하여 모델의 정보 이해, 논리적 추론, 언어 생성 등의 능력을 종합적으로 검토하고, 공개 테스트와 전문가 검토를 결합하여 평가 결과의 과학성과 권위성을 보장합니다. .섹스. 이러한 움직임은 대규모 모델 평가의 새로운 이정표를 의미하며 업계에 귀중한 참고 자료를 제공합니다.
BAAI(Beijing Zhiyuan Artificial Intelligence Research Institute)는 최근 세계 최초의 중국 대형 모델 토론 플랫폼인 FlagEval Debate를 출시했습니다. 이 새로운 플랫폼은 모델 토론의 경쟁 메커니즘을 통해 대규모 언어 모델의 능력 평가를 위한 새로운 측정 방법을 제공하는 것을 목표로 합니다. Intelligent Source 모델 전투 평가 서비스인 FlagEval 대형 모델 경기장의 확장으로, 대형 언어 모델 간 성능 차이를 식별하는 것이 목표입니다.
기존의 대규모 모델 전투에는 몇 가지 문제가 있습니다. 예를 들어, 모델 전투의 결과가 동점인 경우가 많고, 테스트 내용이 사용자 투표에 의존하고 있으며 기존의 많은 사용자가 참여해야 한다는 점 등이 있습니다. 전투 방법에는 모델 간의 상호 작용이 부족합니다. 이러한 문제를 해결하기 위해 지식재산연구소는 평가를 위한 대규모 모델 토론의 형태를 채택했습니다.
토론은 언어를 기반으로 한 지적 활동으로서 참가자의 논리적 사고, 언어 구성, 정보 분석 및 처리 능력을 반영할 수 있습니다. 모델 토론은 정보 이해, 지식 통합, 논리적 추론, 언어 생성 및 대화 기능에서 대규모 모델의 수준을 입증하는 동시에 복잡한 상황에서 정보 처리 깊이와 마이그레이션 적응성을 테스트할 수 있습니다.
Zhiyuan Research Institute는 토론과 같은 대화형 전투를 통해 모델 간의 격차를 강조하고 소수의 데이터 샘플을 기반으로 모델의 효과적인 순위를 계산할 수 있음을 발견했습니다. 이에 공개 테스트 기반의 중국 대형 모델 토론 플랫폼인 FlagEval Debate를 출시했습니다.
플랫폼은 토론 주제에 대한 토론을 수행하기 위해 두 가지 모델을 지원합니다. 토론 주제 데이터베이스는 주로 핫 검색 주제, 평가 전문가 및 최고 토론 전문가가 주문한 토론 주제로 구성됩니다. 모든 토론은 사용자 경험을 향상시키기 위해 모든 사용자가 플랫폼에서 판단할 수 있습니다.
각 모델 토론에는 5차례의 의견 발표가 포함되며, 양측 모두 한 번의 기회를 갖습니다. 양수 및 음수 정사각형의 위치로 인한 편차를 피하기 위해 두 모델 모두 각각 하나의 정사각형과 하나의 음수 정사각형을 수행합니다. 각 대형 모델은 다른 모델과 여러 토론을 통해 경쟁하며, 승점을 기준으로 최종 모델 순위가 계산됩니다.
모델토론대회는 공개시험과 전문가 평가의 두 가지 방식을 채택하고 있으며, 전문심사위원단은 전문토론대회 출신 선수와 심사위원으로 구성된다. 공개 테스트 대상자는 자유롭게 감상하고 투표할 수 있습니다.
Zhiyuan 연구소는 모델 토론의 기술적 경로와 적용 가치를 계속 탐색하고 과학, 권위, 공정성 및 개방성의 원칙을 고수하며 FlagEval 대형 모델 평가 시스템을 지속적으로 개선하고 새로운 통찰력과 사고를 제공할 것이라고 밝혔습니다. 대형 모델 평가 생태.
FlagEval 토론 공식 웹사이트:
https://flageval.baai.org/#/debate
FlagEval Debate의 출시는 대형 모델 평가를 위한 새로운 아이디어와 방법을 제공하고 대형 모델 기술 개발에도 기여합니다. Downcodes의 편집자는 플랫폼이 앞으로도 지속적으로 개선되고 대형 모델 분야에 더 많은 혁신과 돌파구를 가져올 수 있기를 바랍니다.