O editor do Downcodes soube que o Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim (BAAI) lançou a primeira plataforma chinesa de debate de grandes modelos do mundo, FlagEval Debate! Tendo o debate de modelos como núcleo, a plataforma fornece um novo método de medição para avaliação da capacidade de modelos de linguagem de grande porte, com o objetivo de distinguir de forma mais eficaz as diferenças de capacidade de diferentes modelos de grande porte. Utiliza habilmente o debate, uma atividade intelectual baseada na linguagem, para examinar de forma abrangente as capacidades do modelo em compreensão de informações, raciocínio lógico, geração de linguagem, etc., e garante a cientificidade e autoridade dos resultados da avaliação através de uma combinação de testes públicos e revisão especializada sexo. Este movimento marca um novo marco na avaliação de grandes modelos e fornece referência e referência valiosas para a indústria.
O Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim (BAAI) lançou recentemente o FlagEval Debate, a primeira plataforma chinesa de debate de grandes modelos do mundo. Esta nova plataforma visa fornecer um novo método de medição para a avaliação da capacidade de grandes modelos de linguagem através do mecanismo de competição de debate de modelos. É uma extensão do serviço de avaliação de batalha de modelos de fonte inteligente FlagEval arena de modelos grandes, e seu objetivo é identificar as diferenças de capacidade entre grandes modelos de linguagem.
Existem alguns problemas nas grandes batalhas de modelos existentes. Por exemplo, os resultados das batalhas de modelos são frequentemente empatados e é difícil distinguir as diferenças entre os modelos de teste que dependem da votação do usuário e requerem a participação de um grande número de usuários existentes; os métodos de batalha carecem de interação entre os modelos. Para resolver esses problemas, o Instituto de Propriedade Intelectual adotou a forma de grande modelo de debate para avaliação.
Sendo uma actividade intelectual baseada na linguagem, o debate pode reflectir o pensamento lógico, a organização da linguagem, a análise da informação e as capacidades de processamento dos participantes. O debate de modelos pode demonstrar o nível de grandes modelos na compreensão da informação, integração do conhecimento, raciocínio lógico, geração de linguagem e capacidades de diálogo, ao mesmo tempo que testa a sua profundidade de processamento de informação e adaptabilidade à migração em contextos complexos.
O Instituto de Pesquisa Zhiyuan descobriu que batalhas interativas, como debates, podem destacar as lacunas entre os modelos e calcular classificações eficazes de modelos com base em um pequeno número de amostras de dados. Portanto, eles lançaram o FlagEval Debate, uma plataforma chinesa de debate de grande porte baseada em testes públicos.
A plataforma suporta dois modelos para conduzir debates em torno de tópicos de debate. Os tópicos de debate são selecionados aleatoriamente pela plataforma. O banco de dados de tópicos de debate é composto principalmente por tópicos de pesquisa populares, especialistas em avaliação e tópicos de debate ordenados pelos principais especialistas em debate. Cada debate pode ser julgado na plataforma por todos os usuários para melhorar a experiência do usuário.
Cada modelo de debate inclui 5 rodadas de apresentação de opinião, com cada lado tendo uma oportunidade. Para evitar o desvio causado pela posição dos quadrados positivos e negativos, ambos os modelos farão um quadrado e um quadrado negativo cada. Cada grande modelo compete em múltiplos debates contra outros modelos, com a classificação final do modelo calculada com base nos pontos ganhos.
A competição modelo de debate adota dois métodos: prova pública aberta e avaliação de especialistas. O júri especializado é composto por jogadores e juízes de competições de debate profissional. O público de testes públicos abertos pode apreciar e votar livremente.
O Instituto de Pesquisa Zhiyuan declarou que continuará a explorar o caminho técnico e o valor de aplicação do debate de modelos, aderirá aos princípios de ciência, autoridade, justiça e abertura, melhorará continuamente o sistema de avaliação de grandes modelos FlagEval e fornecerá novos insights e pensamentos para a ecologia de avaliação de grande modelo.
Site oficial do debate FlagEval:
https://flageval.baai.org/#/debate
O lançamento do FlagEval Debate fornece novas ideias e métodos para avaliação de grandes modelos e também contribui para o desenvolvimento de tecnologia de grandes modelos. O editor do Downcodes espera que a plataforma continue a melhorar no futuro e traga mais inovações e avanços para o campo dos grandes modelos.