Recientemente, un estudio conjunto realizado por la Universidad de Munich, el Munich Machine Learning Center y Adobe Research evaluaron el rendimiento de los 12 modelos de idiomas de IA principales que incluyen GPT-4, Gemini y LLAMA en tareas de razonamiento conceptual de texto largo. Los resultados del estudio son alarmantes: a pesar de la capacidad de procesar texto ultra largo, estos modelos tienen defectos significativos en el razonamiento lógico complejo, y su rendimiento tiene una disminución similar a un acantilado en textos largos. A través del sistema de evaluación comparativa Nolima, el equipo de investigación evitó hábilmente la duplicación de palabras clave, revelando la fragilidad del modelo en las asociaciones conceptuales y analizando profundamente las causas de este fenómeno.
La investigación publicada conjuntamente por la Universidad de Munich, el Munich Machine Learning Center y Adobe Research mostraron recientemente que 12 modelos de idiomas de IA principales que incluyen GPT-4O, Gemini1.5Pro y LLAMA-3.3-70B enfrentan resultados obvios en tareas de razonamiento conceptual de texto de texto largo. Decadencia de rendimiento. Aunque todos estos modelos admiten el procesamiento de contexto de al menos 128,000 marcadores, sus capacidades de correlación lógicas profundas aún tienen limitaciones fundamentales.
El sistema de prueba de referencia Nolima (sin coincidencia de texto) desarrollado por el equipo de investigación revela la fragilidad de los modelos de IA en la conexión conceptual al evitar deliberadamente el diseño de la duplicación de palabras clave. Por ejemplo, cuando el texto describe "Yuki vive junto a Semperoper", el modelo debe comprender el sentido común de que "Semperoper se encuentra en Dresde" antes de responder "que ha estado en Dresde".
Los resultados de la prueba muestran:
1. ** El rendimiento del texto largo disminuye de manera similar a la de acantilado **: Cuando el contexto se expande de 2,000 a 8,000 puntos, el rendimiento de la mayoría de los modelos ha disminuido significativamente; Qué es cuando texthe corto.
2. ** El mecanismo de atención expone las deficiencias **: El modelo es difícil de ubicar con precisión la información relacionada en textos largos, y cuando las respuestas clave aparecen en la segunda mitad del texto, la tasa de precisión disminuye aún más.
3. ** El modelo de inferencia dedicado todavía tiene defectos **: los sistemas O1, O3-Mini y Deepseek-R1 diseñados para una inferencia compleja obtenida menos del 50% en la prueba de 32k-Label Nolima, aunque es casi en breve texto perfecto.
La investigación señala que la excesiva dependencia del modelo en el pensamiento inercial en la "coincidencia de palabras" es el problema central. Cuando la prueba excluye deliberadamente el mismo vocabulario, incluso si se utiliza la tecnología rápida de la cadena de pensamiento (COT), la mejora de la capacidad de procesamiento de texto largo de LLAMA-3.3-70B todavía es limitada. Lo que es más serio es que si hay una interferencia de coincidencia de palabras en el contexto irrelevante, intensificará el juicio erróneo del modelo.
"Esto revela la contradicción fundamental de la IA actual: es fácil expandir la ventana de contexto, pero es difícil mejorar las capacidades de razonamiento profundo". Tomando GPT-4O como ejemplo, aunque alcanza la longitud de contexto efectiva de 8,000 marcas, todavía es débil en la integración de los conceptos de párrafo cruzado. A medida que se extiende el texto, el mecanismo de atención del modelo se "sin foco" gradualmente, lo que dificulta mantener una cadena lógica coherente.
Esta investigación suena la alarma para el desarrollo de la IA: simplemente aumentar la longitud del procesamiento no puede romper el cuello de botella de razonamiento. La industria necesita volver a examinar el diseño de la arquitectura del modelo y desarrollar mecanismos de extracción de información y asociación más eficientes. En el futuro, cómo hacer que la IA realmente entienda el texto en lugar de confiar en la coincidencia de patrones se convertirá en la clave para romper los límites del procesamiento de texto largo.
Este estudio enfatiza las limitaciones de los modelos AI actuales en el razonamiento de texto largo y proporciona una referencia importante para la dirección de mejora futura de los modelos de IA. Simplemente aumentar el tamaño de la ventana de contexto no puede resolver el problema.