O Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim (BAAI) lançou o grande modelo de arena FlagEval em 4 de setembro de 2024. Este é o primeiro serviço de avaliação de modelo de batalha do mundo que inclui os vídeos de Vincent. O serviço é aberto ao público e abrange cerca de 40 grandes modelos no país e no exterior. Ele oferece suporte à avaliação personalizada online ou offline de quatro tarefas principais: perguntas e respostas em idiomas, compreensão multimodal de imagens e textos, imagens baseadas em texto e texto. baseado em vídeos e apresenta de forma inovadora Favorece o sistema de pontuação de escada e se esforça para avaliar o desempenho do modelo com mais precisão. FlagEval não apenas fornece avaliação de uma variedade de questões predefinidas, como compreensão simples, aplicação de conhecimento, capacidade de codificação, capacidade de raciocínio, etc., mas também usa um mecanismo anônimo para garantir a justiça e objetividade do processo de avaliação. Os usuários podem participar da avaliação por meio da web ou do terminal móvel, e visualizar os resultados da pontuação e o ranking da arena em tempo real.
Em 4 de setembro de 2024, o Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim (BAAI) anunciou o lançamento do primeiro serviço de avaliação de batalha de modelo do mundo, incluindo a grande arena de modelo video-FlagEval de Vincent.
Este serviço está aberto aos usuários, abrangendo cerca de 40 grandes modelos no país e no exterior, e oferece suporte à avaliação personalizada online ou offline de quatro tarefas principais, incluindo perguntas e respostas linguísticas, compreensão multimodal de imagens e textos, imagens vicentinas e vídeos vicentinos. O lançamento da grande arena de modelos FlagEval não apenas fornece avaliação de uma variedade de questões predefinidas, como compreensão simples, aplicação de conhecimento, capacidade de codificação, capacidade de raciocínio, etc., mas também introduz pela primeira vez um sistema de pontuação de escada de tendência subjetiva para mais revelar com precisão as diferenças de desempenho do modelo.
O serviço adota um mecanismo anônimo de avaliação para garantir a imparcialidade do processo de avaliação. Os usuários podem participar da avaliação por meio da página web ou do primeiro portal de acesso móvel doméstico e experimentar uma avaliação eficiente de batalhas de modelos. Os resultados da pontuação do modelo de arena em grande escala do FlagEval serão anunciados imediatamente para formar uma lista de arenas, mostrando as capacidades de combate de cada modelo.
O Instituto de Pesquisa Zhiyuan declarou que abrirá o código-fonte dos dados de link completo de avaliação de batalha de modelos para promover o desenvolvimento de ecologia de avaliação de modelos de grande porte. O lançamento da arena de modelos em grande escala da FlagEval expande ainda mais o layout técnico e a pesquisa e desenvolvimento de ferramentas e métodos da Zhiyuan no campo de avaliação de modelos, e fornece novas ferramentas de teste e avaliação para pesquisa e aplicação no campo da inteligência artificial.
Endereço da experiência: https://flageval.baai.ac.cn/#/home
Os dados de código aberto da arena de grandes modelos FlagEval do Zhiyuan Research Institute visam promover o desenvolvimento saudável do ecossistema de avaliação de grandes modelos e fornecer um forte apoio para o progresso contínuo no campo da inteligência artificial. Bem-vindo a visitar o endereço da experiência, participar da avaliação e promover conjuntamente o desenvolvimento da tecnologia de IA!