L'Institut de recherche sur l'intelligence artificielle Zhiyuan (BAAI) de Pékin a lancé l'arène de grands modèles FlagEval le 4 septembre 2024. Il s'agit du premier service d'évaluation de combats de modèles au monde qui inclut les vidéos de Vincent. Le service est ouvert au public et couvre environ 40 grands modèles nationaux et étrangers. Il prend en charge l'évaluation personnalisée en ligne ou hors ligne de quatre tâches principales : questions et réponses linguistiques, compréhension multimodale d'images et de textes, images basées sur du texte et texte. -des vidéos basées sur des vidéos et introduit de manière innovante le système de notation subjectif Favorise le système de notation en échelle et s'efforce d'évaluer les performances du modèle avec plus de précision. FlagEval permet non seulement d'évaluer une variété de questions prédéfinies telles que la compréhension simple, l'application des connaissances, la capacité de codage, la capacité de raisonnement, etc., mais utilise également un mécanisme anonyme pour garantir l'équité et l'objectivité du processus d'évaluation. Les utilisateurs peuvent participer à l'évaluation via le Web ou le terminal mobile et consulter les résultats des scores et le classement des arènes en temps réel.
Le 4 septembre 2024, l'Institut de recherche sur l'intelligence artificielle Zhiyuan (BAAI) de Pékin a annoncé le lancement du premier service d'évaluation de combats de modèles réduits au monde, comprenant l'arène de grands modèles vidéo-FlagEval de Vincent.
Ce service est ouvert aux utilisateurs, couvrant environ 40 grands modèles au pays et à l'étranger, et prend en charge l'évaluation personnalisée en ligne ou hors ligne de quatre tâches principales, notamment les questions et réponses linguistiques, la compréhension multimodale d'images et de textes, les images vincentiennes et les vidéos vincentiennes. Le lancement de l'arène des grands modèles FlagEval permet non seulement d'évaluer une variété de questions prédéfinies telles que la compréhension simple, l'application des connaissances, la capacité de codage, la capacité de raisonnement, etc., mais introduit également pour la première fois un système de notation par échelle de tendance subjective pour plus d'informations. révéler avec précision les différences de performances des modèles.
Le service adopte un mécanisme d'évaluation anonyme afin de garantir l'équité du processus d'évaluation. Les utilisateurs peuvent participer à l'évaluation via la page Web ou le premier portail d'accès mobile national et faire l'expérience d'une évaluation efficace des combats de modèles. Les résultats de notation de l'arène de modèles à grande échelle de FlagEval seront annoncés immédiatement pour former une liste d'arènes, montrant les capacités de combat de chaque modèle.
L'Institut de recherche Zhiyuan a déclaré qu'il ouvrirait la source des données de lien complet de l'évaluation des combats de modèles afin de promouvoir le développement d'une écologie d'évaluation de grands modèles. Le lancement de l'arène de modèles à grande échelle de FlagEval élargit encore l'agencement technique et la recherche et le développement d'outils et de méthodes de Zhiyuan dans le domaine de l'évaluation de modèles, et fournit de nouveaux outils de test et d'évaluation pour la recherche et les applications dans le domaine de l'intelligence artificielle.
Adresse de l'expérience : https://flageval.baai.ac.cn/#/home
Les données open source FlagEval sur les grands modèles de l'Institut de recherche Zhiyuan visent à promouvoir le développement sain de l'écosystème d'évaluation des grands modèles et à fournir un soutien solide aux progrès continus dans le domaine de l'intelligence artificielle. Bienvenue pour visiter l'adresse de l'expérience, participer à l'évaluation et promouvoir conjointement le développement de la technologie de l'IA !