El último punto de referencia Multi-IF publicado por Meta tiene como objetivo evaluar de manera más integral la capacidad de seguimiento de instrucciones de modelos de lenguaje grande (LLM) en conversaciones de múltiples turnos y entornos multilingües. A diferencia de los estándares de evaluación anteriores que se centraban más en una sola ronda y un solo idioma, Multi-IF cubre ocho idiomas y contiene 4501 tareas de diálogo de tres rondas. Se esfuerza por simular la complejidad de escenarios de aplicación reales y proporcionar una solución más rigurosa y. Evaluación desafiante para estándares sexuales LLM. Los resultados de las pruebas comparativas revelan muchas deficiencias del LLM actual en el diálogo de múltiples turnos y las tareas en varios idiomas, lo que proporciona una referencia valiosa para futuras direcciones de mejora del modelo.
Meta lanzó recientemente una nueva prueba de referencia llamada Multi-IF, que está diseñada para evaluar la capacidad de seguir instrucciones de modelos de lenguaje grandes (LLM) en conversaciones de varios turnos y entornos multilingües. Este punto de referencia cubre ocho idiomas y contiene 4501 tareas de diálogo de tres turnos, centrándose en el rendimiento de los modelos actuales en escenarios complejos de múltiples turnos y múltiples idiomas.
Entre los estándares de evaluación existentes, la mayoría se centra en el diálogo de un solo turno y las tareas en un solo idioma, que son difíciles de reflejar completamente el desempeño del modelo en aplicaciones prácticas. El lanzamiento de Multi-IF tiene como objetivo llenar este vacío. El equipo de investigación generó escenarios de diálogo complejos extendiendo una única ronda de instrucciones a múltiples rondas de instrucciones, y se aseguró de que cada ronda de instrucciones fuera lógicamente coherente y progresiva. Además, el conjunto de datos también logra soporte en varios idiomas a través de pasos como la traducción automática y la revisión manual.
Los resultados experimentales muestran que el rendimiento de la mayoría de los LLM cae significativamente a lo largo de múltiples rondas de diálogo. Tomando como ejemplo el modelo de vista previa de o1, su precisión promedio en la primera ronda fue del 87,7%, pero cayó al 70,7% en la tercera ronda. Especialmente en idiomas con escrituras no latinas, como hindi, ruso y chino, el rendimiento del modelo es generalmente inferior al del inglés, lo que muestra limitaciones en tareas multilingües.
En la evaluación de 14 modelos de lenguaje de vanguardia, o1-preview y Llama3.1405B obtuvieron los mejores resultados, con tasas de precisión promedio del 78,9 % y 78,1 % en tres rondas de instrucciones, respectivamente. Sin embargo, a lo largo de múltiples rondas de diálogo, todos los modelos mostraron una disminución general en su capacidad para seguir instrucciones, lo que refleja los desafíos que enfrentan los modelos en tareas complejas. El equipo de investigación también introdujo la "tasa de olvido de instrucciones" (IFR) para cuantificar el fenómeno de olvido de instrucciones del modelo en múltiples rondas de diálogo. Los resultados muestran que los modelos de alto rendimiento funcionan relativamente bien en este sentido.
El lanzamiento de Multi-IF proporciona a los investigadores un punto de referencia desafiante y promueve el desarrollo de LLM en globalización y aplicaciones multilingües. El lanzamiento de este punto de referencia no solo revela las deficiencias de los modelos actuales en tareas de múltiples rondas y múltiples idiomas, sino que también proporciona una dirección clara para futuras mejoras.
Documento: https://arxiv.org/html/2410.15553v2
Destacar:
El punto de referencia Multi-IF cubre ocho idiomas, contiene 4501 tareas de diálogo de tres turnos y evalúa el desempeño de LLM en escenarios complejos.
Los experimentos muestran que la precisión de la mayoría de los LLM disminuye significativamente en múltiples rondas de diálogo, especialmente en idiomas con escritura no latina.
Los modelos o1-preview y Llama3.1405B obtuvieron mejores resultados, con tasas de precisión promedio del 78,9% y 78,1% para tres rondas de instrucciones respectivamente.
Con todo, el surgimiento del punto de referencia Multi-IF proporciona una nueva dirección para la evaluación de grandes modelos lingüísticos. Su enfoque en el diálogo multiturno y el soporte multilingüe ayudará a promover la aplicación y el desarrollo de la tecnología LLM a escala global. y promover el nacimiento de modelos más inteligentes y más cercanos a aplicaciones prácticas.