Los modelos de lenguaje ahora son capaces de resolver tareas que requieren lidiar con largas secuencias que consisten en cientos de miles de tokens. Sin embargo, a menudo fracasan en tareas que requieren el uso repetitivo de reglas simples, incluso en secuencias mucho más cortas que las observadas durante el entrenamiento. Por ejemplo, los LLM de última generación pueden encontrar elementos comunes en dos listas con hasta 20 elementos, pero fallan cuando las listas tienen 80 elementos. En este artículo, presentamos MLissard, un punto de referencia multilingüe diseñado para evaluar las capacidades de los modelos para procesar y generar textos de longitudes variadas y ofrece un mecanismo para controlar la complejidad de la secuencia.
Nuestra evaluación de modelos propietarios y de código abierto muestra una disminución constante en el rendimiento en todos los modelos y lenguajes a medida que aumenta la complejidad de la secuencia. Sorprendentemente, el uso de ejemplos en contexto en idiomas distintos del inglés ayuda a aumentar significativamente el rendimiento de la extrapolación.
En la carpeta datos/(tarea)/ encontrará los conjuntos de datos para evaluación con MLissard. Los archivos están en formato .json y presentan una breve descripción de la tarea seguida de ejemplos en contexto del idioma de destino. El campo "test_examples" contiene los ejemplos de prueba compuestos por la entrada, el objetivo, la longitud (len) y el contenedor que pertenece a esta longitud.
En resultados/(tarea)/GPT-4/ es posible encontrar las respuestas generadas por los modelos GPT-4 y Llama-3 así como las pruebas de ablación, las carpetas están separadas por tareas.
La carpeta src/(task)/ contiene archivos .py para generar nuevos ejemplos o expandir MLissard. Para ejecutar: python <nombre_tarea>.py --output_path=my_output_path