L'éditeur de Downcodes a appris que l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin (BAAI) a lancé la première plateforme chinoise de débat sur grands modèles au monde, FlagEval Debate ! Basée sur le débat sur les modèles, la plateforme fournit une nouvelle méthode de mesure pour l'évaluation des capacités des grands modèles de langage, visant à distinguer plus efficacement les différences de capacités des différents grands modèles. Il utilise intelligemment le débat, une activité intellectuelle basée sur le langage, pour examiner de manière exhaustive les capacités du modèle en matière de compréhension de l'information, de raisonnement logique, de génération de langage, etc., et garantit la scientificité et l'autorité des résultats de l'évaluation grâce à une combinaison de tests publics et d'examens par des experts. .le sexe. Cette décision marque une nouvelle étape dans l'évaluation des grands modèles et fournit une référence et une référence précieuses pour l'industrie.
L'Institut de recherche sur l'intelligence artificielle Zhiyuan (BAAI) de Pékin a récemment lancé FlagEval Debate, la première plateforme de débat chinoise à grande échelle au monde. Cette nouvelle plateforme vise à fournir une nouvelle méthode de mesure pour l'évaluation des capacités de grands modèles de langage à travers le mécanisme de compétition du débat sur les modèles. Il s'agit d'une extension du service d'évaluation de combat de modèles Intelligent Source FlagEval, et son objectif est d'identifier les différences de capacités entre les grands modèles de langage.
Il existe certains problèmes dans les grandes batailles de modèles existantes. Par exemple, les résultats des batailles de modèles sont souvent liés et il est difficile de distinguer les différences entre les modèles ; le contenu des tests repose sur le vote des utilisateurs et nécessite la participation d'un grand nombre d'utilisateurs existants ; les méthodes de combat manquent d’interaction entre les modèles. Afin de résoudre ces problèmes, l'Institut de la propriété intellectuelle a adopté la forme d'un grand débat modèle à des fins d'évaluation.
En tant qu'activité intellectuelle basée sur le langage, le débat peut refléter la pensée logique des participants, leur organisation linguistique, leurs capacités d'analyse et de traitement de l'information. Le débat sur les modèles peut démontrer le niveau des grands modèles en matière de compréhension de l'information, d'intégration des connaissances, de raisonnement logique, de génération de langage et de capacités de dialogue, tout en testant leur profondeur de traitement de l'information et leur adaptabilité à la migration dans des contextes complexes.
L'Institut de recherche Zhiyuan a découvert que les batailles interactives telles que les débats peuvent mettre en évidence les écarts entre les modèles et calculer des classements efficaces des modèles sur la base d'un petit nombre d'échantillons de données. C’est pourquoi ils ont lancé FlagEval Debate, une plateforme chinoise de débat à grande échelle basée sur des tests publics.
La plateforme prend en charge deux modèles pour mener des débats autour de sujets de débat. Les sujets de débat sont sélectionnés de manière aléatoire par la plateforme. La base de données de sujets de débat est principalement composée de sujets de recherche chauds, d'experts en évaluation et de sujets de débat classés par les meilleurs experts en débat. Chaque débat peut être jugé sur la plateforme par tous les utilisateurs afin d'améliorer l'expérience utilisateur.
Chaque débat modèle comprend 5 séries de présentation d'opinions, chaque camp ayant une opportunité. Afin d'éviter l'écart provoqué par la position des carrés positifs et négatifs, les deux modèles feront chacun un carré et un carré négatif. Chaque grand modèle participe à de multiples débats contre d'autres modèles, le classement final des modèles étant calculé sur la base des points gagnants.
Le concours de débat modèle adopte deux méthodes : des tests publics ouverts et une évaluation par des experts. Le jury d'experts est composé d'acteurs et de juges issus de concours de débat professionnels. Le public ouvert aux tests peut librement apprécier et voter.
L'Institut de recherche Zhiyuan a déclaré qu'il continuerait à explorer la voie technique et la valeur d'application du débat sur les modèles, à adhérer aux principes de science, d'autorité, d'équité et d'ouverture, à améliorer continuellement le système d'évaluation des grands modèles FlagEval et à fournir de nouvelles informations et réflexions pour l’écologie de l’évaluation des grands modèles.
Site officiel du débat FlagEval :
https://flageval.baai.org/#/debate
Le lancement de FlagEval Debate fournit de nouvelles idées et méthodes pour l'évaluation des grands modèles et contribue également au développement de la technologie des grands modèles. L'éditeur de Downcodes espère que la plateforme continuera à s'améliorer à l'avenir et apportera davantage d'innovations et de percées dans le domaine des grands modèles.