이제 언어 모델은 수십만 개의 토큰으로 구성된 긴 시퀀스를 처리해야 하는 작업을 해결할 수 있습니다. 그러나 간단한 규칙을 반복적으로 사용해야 하는 작업에서는 종종 실패하며, 훈련 중에 보이는 것보다 훨씬 짧은 시퀀스에서도 실패합니다. 예를 들어, 최첨단 LLM은 최대 20개 항목이 포함된 두 목록에서 공통 항목을 찾을 수 있지만 목록에 항목이 80개 있으면 실패합니다. 본 논문에서는 다양한 길이의 텍스트를 처리하고 생성하는 모델의 능력을 평가하고 시퀀스 복잡성을 제어하기 위한 메커니즘을 제공하도록 설계된 다국어 벤치마크인 MLissard를 소개합니다.
오픈 소스 및 독점 모델에 대한 우리의 평가는 시퀀스의 복잡성이 증가함에 따라 모든 모델과 언어에서 성능이 지속적으로 저하되는 것을 보여줍니다. 놀랍게도 영어 이외의 언어로 된 상황별 예제를 사용하면 추정 성능이 크게 향상되는 데 도움이 됩니다.
data/(task)/ 폴더에서 MLissard를 사용하여 평가할 데이터 세트를 찾을 수 있습니다. 파일은 .json 형식이며 작업에 대한 간략한 설명과 대상 언어의 상황별 예를 제공합니다. "test_examples" 필드에는 입력, 대상, 길이(len) 및 이 길이에 속하는 bin으로 구성된 테스트 예제가 포함됩니다.
결과/(작업)/GPT-4/에서는 GPT-4 및 Llama-3 모델과 절제 테스트에서 생성된 답변을 찾을 수 있으며, 폴더는 작업별로 구분되어 있습니다.
src/(task)/ 폴더에는 새 예제를 생성하거나 MLissard를 확장하기 위한 .py 파일이 포함되어 있습니다. 실행하려면: python <task_name>.py --output_path=my_output_path