매우 긴 컨텍스트 창을 갖춘 대규모 언어 모델(LLM)이 빠르게 발전하고 있으며 정보 처리 능력이 널리 주목을 받고 있습니다. 그러나 이러한 모델이 많은 양의 정보를 이해하고 활용하는 능력을 평가하는 데는 어려움이 있습니다. Google DeepMind의 연구원들은 이러한 목적을 위해 Michelangelo 벤치마크를 개발했으며, 이는 장기 컨텍스트 LLM의 추론 기능을 보다 심층적으로 평가하고 향후 모델 개선을 위한 방향을 제시하는 것을 목표로 합니다.
최근에는 컨텍스트 창이 매우 긴 LLM(대형 언어 모델)이 뜨거운 논의 주제가 되었습니다. 이러한 모델은 단일 프롬프트에서 수십만 또는 심지어 수백만 개의 토큰을 처리할 수 있어 개발자에게 많은 새로운 가능성을 열어줍니다. 그러나 이러한 긴 컨텍스트 LLM은 수신된 대규모 정보를 얼마나 잘 이해하고 활용할 수 있습니까? 이 문제를 해결하기 위해 Google DeepMind의 연구원은 긴 컨텍스트 푸시 기능을 평가하도록 설계된 Michelangelo라는 새로운 벤치마크를 출시했습니다. 그 결과, 현재의 최신 모델은 방대한 양의 맥락 데이터에서 정보를 추출하는 데는 어느 정도 진전을 이루었지만, 데이터의 구조에 대한 추론과 이해가 필요한 작업에서는 여전히 어려움을 겪고 있음을 보여줍니다. 긴 컨텍스트 창이 있는 LLM이 등장하면서 연구자들은 이러한 모델의 기능을 평가하기 위해 새로운 벤치마크가 필요하다는 것을 깨닫기 시작했습니다. 기존 평가는 대부분 '건초 더미에서 바늘 찾기' 평가, 즉 수많은 맥락에서 특정 정보를 찾는 것과 같은 정보 검색 작업에 중점을 두고 있습니다. 그러나 단순 검색은 전체 맥락에 대한 모델의 이해와 동일하지 않습니다. 이러한 문제를 해결하기 위해 미켈란젤로는 긴 텍스트를 처리할 때 모델이 더 깊은 추론과 종합을 수행해야 하는 복잡한 작업을 설정하여 새로운 평가 방법을 제안했습니다. 예를 들어, 평가 프레임워크에는 프로그래밍 및 자연어와 관련된 여러 작업이 포함되어 있습니다. 이러한 작업은 모델의 기억 능력을 테스트할 뿐만 아니라 정보 이해 및 처리의 깊이에도 중점을 둡니다. 미켈란젤로의 평가 작업에서 모델은 세 가지 기본적인 긴 문서 합성 작업, 즉 "잠재 목록", "다중 상호 참조 해결" 및 기타 다양한 응용 시나리오를 해결해야 합니다. 이러한 작업은 긴 문서에서 모델의 성능을 평가하는 데 도움이 될 뿐만 아니라 추론 및 합성의 단점도 드러냅니다. 첫 번째는 모델이 Python 목록에서 긴 작업 목록을 처리하고 관련이 없거나 중복되는 문을 필터링하여 목록의 최종 상태를 결정해야 하는 "잠재적 목록"입니다. 두 번째 항목은 모델이 대화 구조를 이해하고 긴 대화에서 참조 문제를 해결해야 하는 '다회전 참조 해결'입니다. 세 번째 항목은 '모른다'로, 객관식 질문에 답할 때 모델은 답변이 문맥에 포함되는지 판단하고 '모른다'에 정확하게 응답할 수 있어야 합니다. 연구원들은 다양한 버전의 Gemini, GPT-4 및 Claude를 포함한 10개의 상위 LLM에 대해 미켈란젤로를 평가하고 최대 100만 개의 토큰의 맥락에서 모델을 테스트했습니다. Gemini 모델은 MRCR에서 가장 좋은 성능을 발휘하고, GPT 모델은 Latent List에서 가장 좋은 성능을 발휘하며, Claude3.5Sonnet은 IDK에서 가장 높은 점수를 받았습니다.
Downcodes의 편집자는 다음과 같이 결론을 내렸습니다. Michelangelo 벤치마크의 출현은 매우 긴 컨텍스트 LLM을 평가하기 위한 새로운 관점을 제공하고 복잡한 추론 기능에서 현재 모델의 단점도 지적합니다. 앞으로는 더 강력한 LLM이 더 복잡한 작업과 애플리케이션 시나리오에 더 잘 대처하기 위해 추론 능력의 획기적인 발전을 달성해야 할 것입니다. 우리는 더 많은 놀라움을 가져올 미래의 연구를 기대합니다!