Kürzlich bewertete eine gemeinsame Studie der Universität von München, dem München Machine Learning Center und Adobe Research die Leistung von 12 Top-KI-Sprachmodellen, darunter GPT-4, Gemini und LLAMA bei langen Text-Konzept-Argumentationsaufgaben. Die Ergebnisse der Studie sind alarmierend: Trotz der Fähigkeit, ultra-langen Text zu verarbeiten, weisen diese Modelle erhebliche Mängel im komplexen logischen Denken auf, und ihre Leistung hat einen klippenartigen Rückgang der langen Texte. Durch das Nolima -Benchmarking -System hat das Forschungsteam die Keyword -Duplikation geschickt vermieden, die Fragilität des Modells in konzeptionellen Assoziationen enthüllt und die Ursachen dieses Phänomens tief analysiert.
Die von der University of Munich, dem München maschinell gelernten Zentrum und Adobe Research, die gemeinsam veröffentlicht wurden, haben kürzlich gezeigt, dass 12 Top-KI-Sprachmodelle, darunter GPT-4O, Gemini1.5Pro und Lama-3,3-70b, offensichtliche Ergebnisse in langen Text-Konzept-Arguming-Aufgaben ausgesetzt sind. Leistungsverfall. Obwohl diese Modelle alle die Kontextverarbeitung von mindestens 128.000 Markern unterstützen, haben ihre tiefen logischen Korrelationsfunktionen immer noch grundlegende Einschränkungen.
Das vom Forschungsteam entwickelte Benchmark -Testsystem von Nolima (No Text Matching) zeigt die Fragilität von KI -Modellen in der konzeptionellen Verbindung, indem das Design der Keyword -Duplikation absichtlich vermieden wird. Wenn der Text beispielsweise "Yuki Lives neben Semperoper" beschreibt, muss das Modell den gesunden Menschenverstand verstehen, den "Semperoper in Dresden befindet", bevor er antwortete, "wer war in Dresden".
Die Testergebnisse zeigen:
1. ** Langer Textleistung nimmt auf klippenartige Weise ab **: Wenn der Kontext von 2.000 auf 8.000 Punkte erweitert wird, ist die Leistung der meisten Modelle erheblich gesunken. Was es ist, wenn kurzer Text.
2. ** Aufmerksamkeitsmechanismus enthüllt Mängel **: Das Modell ist schwierig, die verwandten Informationen in langen Texten genau zu lokalisieren, und wenn die wichtigsten Antworten in der zweiten Hälfte des Textes erscheinen, nimmt die Genauigkeitsrate weiter ab.
3. ** Das dedizierte Inferenzmodell hat noch Defekte **: Die für komplexen Inferenz ausgelegten O1-, O3-Mini- und Deek-R1 Text perfekt.
Untersuchungen weist darauf hin, dass das überträgende Abhängigkeit des Modells zum Inertialdenken von "Wort Matching" das Kernproblem ist. Wenn der Test absichtlich das gleiche Vokabular ausschließt, ist die Verbesserung der langen Textverarbeitungsfähigkeit von LLAMA-3,3-70B immer noch begrenzt, auch wenn die Denkkette (COT) -Technologie verwendet wird. Ernsthafter ist, dass, wenn es Wortstörungen im irrelevanten Kontext gibt, das Modellfehlurteil intensiviert wird.
"Dies zeigt den grundlegenden Widerspruch der aktuellen KI - es ist leicht, das Kontextfenster zu erweitern, aber es ist schwierig, die Funktionen der tiefen Argumente zu verbessern." Wenn Sie GPT-4O als Beispiel einnehmen, ist es, obwohl es die effektive Kontextlänge von 8.000 Punkten erreicht, immer noch schwach bei der Integration von Cross-Absatz-Konzepten. Wenn der Text erweitert wird, "schadet der Aufmerksamkeitsmechanismus des Modells allmählich" unscharf ", was es schwierig macht, eine kohärente logische Kette aufrechtzuerhalten.
Diese Forschung ertönt den Alarm für die Entwicklung von KI: Wenn Sie einfach die Verarbeitungslänge erhöhen, kann das Argumentationsgutall nicht durchbrechen. Die Branche muss das Design der Modellarchitektur neu untersuchen und eine effizientere Informationsextraktion und Assoziationsmechanismen entwickeln. Wie man KI in Zukunft den Text wirklich versteht, anstatt sich auf das Muster -Matching zu verlassen, wird der Schlüssel zum Brechen der Grenzen der langen Textverarbeitung.
Diese Studie betont die Einschränkungen der aktuellen KI -Modelle im langen Text Denken und liefert eine wichtige Referenz für die zukünftige Verbesserungsrichtung von KI -Modellen. Einfach die Größe des Kontextfensters kann das Problem nicht lösen.