Los modelos de lenguajes grandes (LLM) con ventanas de contexto muy largas se están desarrollando rápidamente y su capacidad para procesar información ha atraído una atención generalizada. Sin embargo, existen desafíos a la hora de evaluar la capacidad de estos modelos para comprender y utilizar grandes cantidades de información. Los investigadores de Google DeepMind desarrollaron el punto de referencia Michelangelo para este propósito, con el objetivo de evaluar más profundamente las capacidades de razonamiento del LLM de contexto largo y proporcionar direcciones para futuras mejoras del modelo.
Recientemente, los modelos de lenguaje grandes (LLM) con ventanas de contexto muy largas se han convertido en un tema candente de discusión. Estos modelos pueden manejar cientos de miles o incluso millones de tokens en un solo mensaje, lo que abre muchas posibilidades nuevas para los desarrolladores. Sin embargo, ¿qué tan bien pueden estos LLM de contexto largo comprender y utilizar la gran cantidad de información recibida? Para resolver este problema, los investigadores de Google DeepMind lanzaron un nuevo punto de referencia llamado Michelangelo, diseñado para evaluar las capacidades de inserción de contexto largo. Los resultados muestran que aunque los modelos actuales de última generación han logrado algunos avances en la extracción de información de grandes cantidades de datos contextuales, todavía tienen dificultades en tareas que requieren razonamiento y comprensión de la estructura de los datos. A medida que surgieron los LLM con ventanas de contexto largas, los investigadores comenzaron a darse cuenta de que se necesitaban nuevos puntos de referencia para evaluar las capacidades de estos modelos. Las evaluaciones existentes se centran principalmente en tareas de recuperación de información, como evaluaciones de “encontrar agujas en un pajar”, es decir, buscar información específica en una gran cantidad de contextos. Sin embargo, la simple recuperación no equivale a la comprensión del contexto general por parte del modelo. Para abordar estos problemas, Miguel Ángel propuso un nuevo método de evaluación al establecer tareas complejas que requieren que los modelos realicen razonamientos y síntesis más profundos al procesar textos largos. Por ejemplo, el marco de evaluación contiene múltiples tareas relacionadas con la programación y el lenguaje natural. Estas tareas no solo prueban la capacidad de memoria del modelo, sino que también se centran en su profundidad de comprensión y procesamiento de información. En la tarea de evaluación de Michelangelo, el modelo necesita resolver tres tareas básicas de síntesis de documentos largos, a saber, "lista potencial", "resolución de correferencia de múltiples rondas" y varios otros escenarios de aplicación. Estas tareas no sólo ayudan a evaluar el rendimiento de un modelo en documentos extensos, sino que también revelan sus deficiencias en la inferencia y la síntesis. La primera es la "lista potencial", donde el modelo necesita procesar una larga lista de operaciones en una lista de Python, filtrando declaraciones irrelevantes o redundantes para determinar el estado final de la lista. El segundo elemento es "resolución de referencia de múltiples turnos", donde el modelo necesita comprender la estructura de la conversación y resolver problemas de referencia en conversaciones largas. El tercer elemento es "No sé". Al responder varias preguntas de opción múltiple, el modelo debe determinar si la respuesta está incluida en el contexto y poder responder con precisión a "No sé". Los investigadores evaluaron a Michelangelo con diez LLM principales, incluidas diferentes versiones de Gemini, GPT-4 y Claude, y probaron el modelo en el contexto de hasta 1 millón de tokens. El modelo Gemini funciona mejor en MRCR, el modelo GPT funciona bien en Latent List y Claude3.5Sonnet obtiene la puntuación más alta en IDK.
El editor de Downcodes concluyó: La aparición del punto de referencia Michelangelo proporciona una nueva perspectiva para evaluar el LLM de contexto ultralargo y también señala las deficiencias de los modelos actuales en capacidades de razonamiento complejas. En el futuro, un LLM más potente necesitará lograr avances en las capacidades de razonamiento para afrontar mejor tareas y escenarios de aplicaciones más complejos. ¡Esperamos que futuras investigaciones nos traigan más sorpresas!