최근 뮌헨 대학교 (University of Munich), 뮌헨 머신 러닝 센터 및 Adobe Research가 실시한 공동 연구에 따르면 긴 텍스트 개념적 추론 작업에서 GPT-4, Gemini 및 Llama를 포함한 12 개의 최고 AI 언어 모델의 성능을 평가했습니다. 이 연구 결과는 놀라운 일입니다. 초대형 텍스트를 처리 할 수있는 능력에도 불구하고 이러한 모델은 복잡한 논리적 추론에 상당한 결함이 있으며, 성능은 긴 텍스트에서 절벽과 같은 감소합니다. Nolima 벤치마킹 시스템을 통해 연구팀은 키워드 복제를 영리하게 피해 개념 연관에서 모델의 취약성을 드러내고이 현상의 원인을 깊이 분석했습니다.
뮌헨 대학교 (University of Munich)가 공동으로 발표 한 Munich Machine Learning Center 및 Adobe Research는 최근 GPT-4O, Gemini1.5PRO 및 LLAMA-3.3-70B를 포함한 12 개의 최고 AI 언어 모델이 긴 텍스트 개념적 추론 작업에서 명백한 결과에 직면하고 있음을 보여주었습니다. 성능 부패. 이러한 모델은 모두 128,000 개 이상의 마커의 컨텍스트 처리를 지원하지만, 깊은 논리적 상관 기능은 여전히 기본 제한이 있습니다.
연구팀이 개발 한 놀리마 (텍스트 일치하지 않음) 벤치 마크 테스트 시스템은 키워드 복제의 설계를 의도적으로 피함으로써 개념적 연결에서 AI 모델의 취약성을 보여줍니다. 예를 들어, 텍스트가 "유키키는 Semperoper 옆에 산다"를 설명 할 때, 모델은 "Semperoper가 Dresden에 위치한"상식을 이해해야합니다.
테스트 결과는 다음과 같습니다.
1. ** 긴 텍스트 성능은 절벽과 같은 방식으로 감소 ** : 컨텍스트가 2,000에서 8,000 마크로 확장되면 대부분의 모델의 성능은 32,000 마크 시나리오에서 크게 떨어졌습니다. 짧은 텍스트는 무엇입니까?
2. **주의 메커니즘은 단점을 드러냅니다. ** : 모델은 긴 텍스트로 관련 정보를 정확하게 찾기가 어렵고 텍스트의 후반에 주요 답변이 나타나면 정확도가 더 줄어 듭니다.
3. ** 전용 추론 모델에는 여전히 결함이 있습니다. ** : O1, O3-MINI 및 DeepSeek-R1 시스템은 32K 라벨 놀리마 하드 테스트에서 복잡한 추론을 위해 설계된 복잡한 추론을 위해 설계되었습니다. 텍스트 완벽합니다.
연구에 따르면 "단어 일치"에 대한 관성 사고에 대한 모델의 과도한 관계는 핵심 문제라고 지적합니다. 테스트가 고의적으로 동일한 어휘를 제외 할 때, 사고 체인 (COT) 프롬프트 기술이 사용 되더라도 LLAMA-3.3-70B의 긴 텍스트 처리 기능의 향상은 여전히 제한적입니다. 더 심각한 점은 관련이없는 맥락에서 단어가 일치하는 간섭이 있으면 모델 잘못된 판단을 강화한다는 것입니다.
"이것은 현재 AI의 근본적인 모순을 보여줍니다. 컨텍스트 창을 쉽게 확장하는 것은 쉽지만, 심층 추론 능력을 향상시키는 것은 어렵습니다." GPT-4O를 예를 들어, 8,000 점의 유효 컨텍스트 길이에 도달하지만, 교차 수석 개념의 통합에서 여전히 약합니다. 텍스트가 확장됨에 따라 모델의주의 메커니즘은 점차 "초점이 불가능"하여 일관된 논리 체인을 유지하기가 어렵습니다.
이 연구는 AI의 개발에 대한 경보로 들립니다. 단순히 처리 길이를 늘리는 것은 추론 병목 현상을 뚫을 수 없습니다. 업계는 모델 아키텍처 설계를 재검토하고보다 효율적인 정보 추출 및 연관 메커니즘을 개발해야합니다. 앞으로 AI가 패턴 일치에 의존하기보다는 AI를 진정으로 이해하게 만드는 방법은 긴 텍스트 처리의 한계를 해결하는 열쇠가 될 것입니다.
이 연구는 긴 텍스트 추론에서 현재 AI 모델의 한계를 강조하고 AI 모델의 향후 개선 방향에 대한 중요한 참조를 제공합니다. 컨텍스트 창의 크기를 높이면 AI 모델에 대한 진정한 이해를 향상시키기 위해서는 문제를 해결할 수 없으며 모델 아키텍처 수준에서 개선이 필요합니다.