BAAI(Beijing Zhiyuan Artificial Intelligence Research Institute)는 2024년 9월 4일 FlagEval 대형 모델 경기장을 출시했습니다. 이는 Vincent의 영상을 포함하는 세계 최초의 모델 전투 평가 서비스입니다. 해당 서비스는 대중에게 공개되고 있으며 국내외 대형 모델 약 40여 명을 대상으로 언어 질의응답, 다중모달 이미지 및 텍스트 이해, 텍스트 기반 그림, 텍스트 등 4가지 주요 업무에 대한 맞춤형 온라인 또는 오프라인 평가를 지원한다. 영상 기반으로 주관식을 혁신적으로 도입하여 래더 채점 방식을 선호하며 모델 성능을 보다 정확하게 평가하기 위해 노력합니다. FlagEval은 간단한 이해, 지식 적용, 코딩 능력, 추론 능력 등 미리 설정된 다양한 질문에 대한 평가를 제공할 뿐만 아니라 익명 메커니즘을 사용하여 평가 과정의 공정성과 객관성을 보장합니다. 이용자는 웹이나 모바일 단말기를 통해 평가에 참여할 수 있으며, 채점 결과와 경기장 순위를 실시간으로 확인할 수 있다.
2024년 9월 4일, BAAI(Beijing Zhiyuan Artificial Intelligence Research Institute)는 Vincent의 비디오-FlagEval 대형 모델 경기장을 포함한 세계 최초의 모델 전투 평가 서비스 출시를 발표했습니다.
이 서비스는 국내외 대형 모델 약 40여 명을 대상으로 사용자에게 공개되며, 언어 질의응답, 다중 모드 이미지 및 텍스트 이해, 빈첸시안 사진, 빈첸시안 동영상 등 4대 과제에 대한 맞춤형 온라인 또는 오프라인 평가를 지원한다. FlagEval 대형 모델 경기장의 출시는 간단한 이해, 지식 적용, 코딩 능력, 추론 능력 등 다양한 미리 설정된 질문에 대한 평가를 제공할 뿐만 아니라 주관적 경향 래더 점수 시스템을 더 많은 분야에 최초로 도입합니다. 모델 성능 차이를 정확하게 드러냅니다.
이 서비스는 평가 프로세스의 공정성을 보장하기 위해 익명 평가 메커니즘을 채택합니다. 이용자는 홈페이지나 국내 최초 모바일 접속포털을 통해 평가에 참여해 효율적인 모델대전 평가를 경험할 수 있다. FlagEval의 대규모 모델 경기장의 득점 결과는 즉시 발표되어 경기장 목록을 구성하고 각 모델의 전투 능력을 보여줍니다.
Zhiyuan 연구소는 대규모 모델 평가 생태계의 발전을 촉진하기 위해 모델 전투 평가의 전체 링크 데이터를 공개할 것이라고 밝혔습니다. FlagEval의 대규모 모델 경기장 출시로 Zhiyuan의 기술 레이아웃과 모델 평가 분야의 도구 및 방법 연구 개발이 더욱 확장되고 인공 지능 분야의 연구 및 적용을 위한 새로운 테스트 및 평가 도구가 제공됩니다.
체험 주소 : https://flageval.baai.ac.cn/#/home
Zhiyuan 연구소의 오픈 소스 FlagEval 대형 모델 경기장 데이터는 대형 모델 평가 생태계의 건전한 발전을 촉진하고 인공 지능 분야의 지속적인 발전을 위한 강력한 지원을 제공하는 것을 목표로 합니다. 체험 주소 방문, 평가 참여, AI 기술 개발 공동 추진에 오신 것을 환영합니다!