Récemment, une étude conjointe menée par l'Université de Munich, le Munich Machine Learning Center et Adobe Research ont évalué les performances de 12 meilleurs modèles de langue AI, notamment GPT-4, Gemini et Llama dans des tâches de raisonnement conceptuel à long texte. Les résultats de l'étude sont alarmants: malgré la capacité de traiter du texte ultra-long, ces modèles ont des défauts significatifs dans un raisonnement logique complexe, et leurs performances ont une baisse de type falaise dans les textes longs. Grâce au système d'analyse comparative de Nolima, l'équipe de recherche a intelligemment évité la duplication des mots clés, révélant la fragilité du modèle dans les associations conceptuelles et analysant profondément les causes de ce phénomène.
La recherche publiée conjointement par l'Université de Munich, le Munich Machine Learning Center et la recherche en Adobe ont récemment montré que 12 meilleurs modèles de langue AI, notamment GPT-4O, GEMINI1.5PRO et LLAMA-3.3-70B, sont confrontés à des résultats évidents dans de longs tâches de raisonnement conceptuel de texte long. Déris de performance. Bien que ces modèles prennent tous en charge le traitement de contexte d'au moins 128 000 marqueurs, leurs capacités de corrélation logique profonde ont encore des limitations fondamentales.
Le système de test de référence Nolima (sans correspondance de texte) développé par l'équipe de recherche révèle la fragilité des modèles d'IA dans la connexion conceptuelle en évitant délibérément la conception de la duplication des mots clés. Par exemple, lorsque le texte décrit "Yuki vit à côté de Semperoper", le modèle doit comprendre le bon sens que "Semperoper est situé à Dresde" avant de répondre "qui a été à Dresde".
Les résultats des tests montrent:
1. ** Les performances du texte longs diminuent de manière semblable à la falaise **: Lorsque le contexte passe de 2 000 à 8 000 points, la performance de la plupart des modèles a considérablement baissé; ce que c'est quand un texte court.
2. ** Le mécanisme d'attention expose les lacunes **: Le modèle est difficile à localiser avec précision les informations connexes dans de longs textes, et lorsque les réponses clés apparaissent dans la seconde moitié du texte, le taux de précision diminue encore.
3. ** Le modèle d'inférence dédié présente toujours des défauts **: les systèmes O1, O3-MinI et Deepseek-R1 conçus pour une inférence complexe ont obtenu moins de 50% dans le test nolima-hard à 32k-étiquettes, bien qu'il soit presque en bref Texte parfait.
La recherche souligne que la rétention excessive du modèle sur la pensée inertielle de la «correspondance des mots» est le problème de base. Lorsque le test exclut délibérément le même vocabulaire, même si la technologie rapide de la chaîne de réflexion (COT) est utilisée, l'amélioration de la longue capacité de traitement de texte de LLAMA-3.3-70B est toujours limitée. Ce qui est plus grave, c'est que s'il y a des interférences de correspondance de mots dans le contexte non pertinent, cela intensifiera le mauvais jugement du modèle.
"Cela révèle la contradiction fondamentale de l'IA actuelle - il est facile d'élargir la fenêtre de contexte, mais il est difficile d'améliorer les capacités de raisonnement profonde." Prenant l'exemple du GPT-4O, bien qu'il atteigne la durée de contexte effective de 8 000 points, il est toujours faible dans l'intégration des concepts de paragraphe croisé. Au fur et à mesure que le texte est étendu, le mécanisme d'attention du modèle «hors de focus», ce qui rend difficile le maintien d'une chaîne logique cohérente.
Cette recherche sonne l'alarme pour le développement de l'IA: le simple fait d'augmenter la durée de traitement ne peut pas percer le goulot d'étranglement du raisonnement. L'industrie doit réexaminer la conception de l'architecture du modèle et développer des mécanismes d'extraction et d'association d'informations plus efficaces. À l'avenir, comment faire en sorte que l'IA comprenne vraiment le texte plutôt que de s'appuyer sur la correspondance des modèles deviendra la clé pour franchir les limites du traitement long du texte.
Cette étude met l'accent sur les limites des modèles d'IA actuels dans le raisonnement de texte long et fournit une référence importante pour la direction d'amélioration future des modèles d'IA. L'augmentation de la taille de la fenêtre de contexte ne peut pas résoudre le problème.