El Instituto de Investigación Zhiyuan lanza FlagEval Debate, la primera plataforma de debate modelo chino a gran escala del mundo

Autor：Eve Cole Fecha de actualización：2024-11-30 19:40:02

El editor de Downcodes se enteró de que el Instituto de Investigación de Inteligencia Artificial Zhiyuan (BAAI) de Beijing ha lanzado la primera plataforma china de debate de modelos grandes del mundo, FlagEval Debate. Con el debate sobre modelos como núcleo, la plataforma proporciona un nuevo método de medición para la evaluación de la capacidad de los modelos de lenguaje grandes, con el objetivo de distinguir de manera más efectiva las diferencias de capacidad de diferentes modelos grandes. Utiliza inteligentemente el debate, una actividad intelectual basada en el lenguaje, para examinar exhaustivamente las capacidades del modelo en comprensión de información, razonamiento lógico, generación de lenguaje, etc., y garantiza la cientificidad y autoridad de los resultados de la evaluación mediante una combinación de pruebas públicas y revisión de expertos. sexo. Este movimiento marca un nuevo hito en la evaluación de modelos grandes y proporciona referencias y referencias valiosas para la industria.

El Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing (BAAI) lanzó recientemente FlagEval Debate, la primera plataforma china de debate de gran modelo del mundo. Esta nueva plataforma tiene como objetivo proporcionar un nuevo método de medición para la evaluación de la capacidad de modelos de lenguaje grandes a través del mecanismo de competencia del debate de modelos. Es una extensión del servicio de evaluación de batallas de modelos de Intelligent Source, FlagEval, campo de modelos grandes, y su objetivo es identificar las diferencias de capacidad entre modelos de lenguajes grandes.

Hay algunos problemas en las batallas de modelos grandes existentes, por ejemplo, los resultados de las batallas de modelos a menudo están empatados y es difícil distinguir las diferencias entre los modelos. El contenido de la prueba depende de la votación de los usuarios y requiere la participación de una gran cantidad de usuarios existentes. Los métodos de batalla carecen de interacción entre modelos. Para resolver estos problemas, el Instituto de Propiedad Intelectual adoptó la forma de un gran debate modelo para su evaluación.

Como actividad intelectual basada en el lenguaje, el debate puede reflejar el pensamiento lógico, la organización del lenguaje, el análisis de la información y las habilidades de procesamiento de los participantes. El debate sobre modelos puede demostrar el nivel de los modelos grandes en comprensión de información, integración de conocimientos, razonamiento lógico, generación de lenguaje y capacidades de diálogo, al tiempo que prueba su profundidad de procesamiento de información y adaptabilidad de migración en contextos complejos.

El Instituto de Investigación Zhiyuan descubrió que las batallas interactivas, como los debates, pueden resaltar las brechas entre modelos y calcular clasificaciones efectivas de modelos basadas en una pequeña cantidad de muestras de datos. Por lo tanto, lanzaron FlagEval Debate, una plataforma de debate china de gran modelo basada en pruebas públicas.

La plataforma admite dos modelos para llevar a cabo debates sobre temas de debate. Los temas de debate son seleccionados aleatoriamente por la plataforma. La base de datos de temas de debate se compone principalmente de temas de búsqueda candentes, expertos en evaluación y temas de debate ordenados por los principales expertos en debate. Todos los usuarios pueden juzgar cada debate en la plataforma para mejorar la experiencia del usuario.

Cada modelo de debate incluye 5 rondas de presentación de opiniones, y cada parte tiene una oportunidad. Para evitar la desviación causada por la posición de los cuadrados positivos y negativos, ambos modelos harán un cuadrado y un cuadrado negativo cada uno. Cada modelo grande compite en múltiples debates contra otros modelos, y la clasificación final del modelo se calcula en función de los puntos ganadores.

El concurso modelo de debate adopta dos métodos: prueba pública abierta y evaluación de expertos. El jurado de expertos está compuesto por jugadores y jueces de concursos de debate profesionales. Las audiencias de prueba públicas abiertas pueden apreciar y votar libremente.

El Instituto de Investigación Zhiyuan declaró que continuará explorando la ruta técnica y el valor de aplicación del debate sobre modelos, se adherirá a los principios de ciencia, autoridad, equidad y apertura, mejorará continuamente el sistema de evaluación de modelos grandes FlagEval y brindará nuevos conocimientos e ideas para La ecología de evaluación del modelo grande.

Sitio web oficial del Debate FlagEval:

https://flageval.baai.org/#/debate

El lanzamiento de FlagEval Debate proporciona nuevas ideas y métodos para la evaluación de modelos grandes y también contribuye al desarrollo de tecnología de modelos grandes. El editor de Downcodes espera que la plataforma siga mejorando en el futuro y aporte más innovaciones y avances al campo de los modelos grandes.