El Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing (BAAI) lanzó la arena de modelos grandes FlagEval el 4 de septiembre de 2024. Este es el primer servicio de evaluación de batallas de modelos del mundo que incluye videos de Vincent. El servicio está abierto al público y cubre alrededor de 40 modelos grandes en el país y en el extranjero. Admite la evaluación personalizada en línea o fuera de línea de cuatro tareas principales: preguntas y respuestas sobre idiomas, comprensión multimodal de imágenes y textos, imágenes basadas en texto y texto. -Videos basados e introduce de manera innovadora subjetiva Favorece el sistema de puntuación de escalera y se esfuerza por evaluar el rendimiento del modelo con mayor precisión. FlagEval no solo proporciona una evaluación de una variedad de preguntas preestablecidas, como comprensión simple, aplicación de conocimientos, capacidad de codificación, capacidad de razonamiento, etc., sino que también utiliza un mecanismo anónimo para garantizar la equidad y objetividad del proceso de evaluación. Los usuarios pueden participar en la evaluación a través de la web o del terminal móvil y ver los resultados de la puntuación y las clasificaciones de las arenas en tiempo real.
El 4 de septiembre de 2024, el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing (BAAI) anunció el lanzamiento del primer servicio de evaluación de modelos de batalla del mundo, incluido el gran estadio de modelos Video-FlagEval de Vincent.
Este servicio está abierto a los usuarios y cubre alrededor de 40 modelos grandes en el país y en el extranjero, y admite una evaluación personalizada en línea o fuera de línea de cuatro tareas principales, incluidas preguntas y respuestas en idiomas, comprensión multimodal de imágenes y textos, imágenes vicencianas y videos vicencianos. El lanzamiento del campo de modelos grandes FlagEval no solo proporciona una evaluación de una variedad de preguntas preestablecidas, como comprensión simple, aplicación de conocimientos, capacidad de codificación, capacidad de razonamiento, etc., sino que también introduce por primera vez un sistema de puntuación de escalera de tendencia subjetiva para más revelar con precisión las diferencias de rendimiento del modelo.
El servicio adopta un mecanismo de evaluación anónimo para garantizar la equidad del proceso de evaluación. Los usuarios pueden participar en la evaluación a través de la página web o del primer portal de acceso móvil nacional y experimentar una evaluación eficiente de la batalla del modelo. Los resultados de la puntuación de la arena modelo a gran escala de FlagEval se anunciarán inmediatamente para formar una lista de arenas que muestre las capacidades de combate de cada modelo.
El Instituto de Investigación Zhiyuan declaró que abrirá el código fuente de los datos de enlace completo de la evaluación de modelos de batalla para promover el desarrollo de la ecología de evaluación de modelos a gran escala. El lanzamiento del campo de modelos a gran escala de FlagEval amplía aún más el diseño técnico y la investigación y desarrollo de herramientas y métodos de Zhiyuan en el campo de la evaluación de modelos, y proporciona nuevas herramientas de prueba y evaluación para la investigación y aplicación en el campo de la inteligencia artificial.
Dirección de la experiencia: https://flageval.baai.ac.cn/#/home
Los datos de arena de modelos grandes FlagEval de código abierto del Instituto de Investigación Zhiyuan tienen como objetivo promover el desarrollo saludable del ecosistema de evaluación de modelos grandes y brindar un fuerte apoyo para el progreso continuo en el campo de la inteligencia artificial. ¡Bienvenido a visitar la dirección de la experiencia, participar en la evaluación y promover conjuntamente el desarrollo de la tecnología de IA!