Недавно совместное исследование, проведенное Университетом Мюнхена, Мюнхенским центром машинного обучения и Adobe Research, оценило производительность 12 лучших языковых моделей ИИ, включая GPT-4, Gemini и Llama, в задачах с концептуальными рассуждениями длинного текста. Результаты исследования вызывают тревогу: несмотря на способность обрабатывать сверхпрочный текст, эти модели имеют значительные недостатки в сложных логических рассуждениях, и их производительность имеет снижение в длинных текстах. Через систему сравнительного анализа Nolima исследовательская группа умно избегала дублирования ключевых слов, раскрывая хрупкость модели в концептуальных ассоциациях и глубоко анализируя причины этого явления.
Исследования совместно выпущены Университетом Мюнхена, Мюнхенским центром машинного обучения и Adobe Research недавно показали, что 12 лучших языковых моделей AI, включая GPT-4O, Gemini1.5Pro и Llama-3,3-70b, сталкиваются с очевидными результатами в задачах с концепциями длинных текстовых концепций. выступление производительности. Хотя все эти модели поддерживают обработку контекста не менее 128 000 маркеров, их глубокие логические корреляционные возможности по -прежнему имеют фундаментальные ограничения.
Исследовательская система Nolima (без сопоставления текста), разработанная исследовательской группой Например, когда текст описывает «Юки живет рядом с Semperoper», модель должна понять здравый смысл, что «Semperoper находится в Дрездене», прежде чем ответить «кто был в Дрездене».
Результаты теста показывают:
1. ** Длинные текстовые характеристики снижаются в виде скал **: Когда контекст расширяется с 2000 до 8000 баллов, производительность большинства моделей значительно снизилась; что это за короткий текст.
2. ** Механизм внимания раскрывает недостатки **: модель трудно точно определить связанную информацию в длинных текстах, и когда ключевые ответы появляются во второй половине текста, скорость точности еще больше снижается.
3. Текст идеален.
Исследования указывают на то, что чрезмерная зависимость модели на инерционное мышление о «сопоставлении слов» является основной проблемой. Когда тест сознательно исключает тот же словарный запас, даже если используется технология быстрого мышления (COT) (COT), улучшение возможности обработки длинной текстовой обработки Llama-3.3-70B все еще ограничено. Что более серьезно, так это то, что если в неактуальном контексте есть помехи, соответствующие неактуальным контексту, это усилит модель ошибок.
«Это раскрывает фундаментальное противоречие текущего ИИ - легко расширить окно контекста, но трудно улучшить возможности глубоких рассуждений». Принимая GPT-4O в качестве примера, хотя он достигает эффективной длины контекста в 8000 баллов, он все еще слаб в интеграции концепций перекрестного параграфа. По мере расширения текста механизм внимания модели постепенно «из фокуса», что затрудняет поддержание когерентной логической цепи.
Это исследование звучит тревога для разработки ИИ: простое увеличение длины обработки не может прорваться через узкое место. Промышленность должна пересмотреть модельную проектирование архитектуры и разработать более эффективные механизмы извлечения информации и ассоциации. В будущем, как заставить ИИ по -настоящему понять текст, а не полагаться на сопоставление рисунков, станет ключом к прорыву через пределы длинной обработки текста.
Это исследование подчеркивает ограничения современных моделей ИИ в длинных текстовых рассуждениях и обеспечивает важную ссылку для будущего направления улучшения моделей искусственного интеллекта. Простое увеличение размера окна контекста не может решить проблему.