Meta가 발표한 최신 Multi-IF 벤치마크는 다국어 대화 및 다국어 환경에서 LLM(대형 언어 모델)의 지시 따르기 능력을 보다 포괄적으로 평가하는 것을 목표로 합니다. 단일 라운드, 단일 언어에 더 중점을 두었던 이전 평가 표준과 달리 Multi-IF는 8개 언어를 포괄하고 4501개의 3라운드 대화 작업을 포함하며 실제 응용 시나리오의 복잡성을 시뮬레이션하고 보다 엄격하고 LLM 성적 기준에 대한 도전적인 평가. 벤치마크 테스트 결과는 다중 턴 대화 및 다중 언어 작업에서 현재 LLM의 많은 단점을 드러내며 향후 모델 개선 방향에 대한 귀중한 참고 자료를 제공합니다.
Meta는 최근 다중 대화 및 다국어 환경에서 LLM(대형 언어 모델)의 지시 따르기 능력을 평가하도록 설계된 Multi-IF라는 새로운 벤치마크 테스트를 출시했습니다. 이 벤치마크는 8개 언어를 다루며 4501개의 3턴 대화 작업을 포함하며 복잡한 다중 턴 및 다중 언어 시나리오에서 현재 모델의 성능에 중점을 둡니다.
기존 평가 기준 중 대부분이 단일 회전 대화 및 단일 언어 작업에 중점을 두어 실제 적용에서 모델의 성능을 완전히 반영하기 어렵습니다. Multi-IF의 출시는 이러한 격차를 메우는 것입니다. 연구팀은 단일 지침을 여러 단계의 지침으로 확장하여 복잡한 대화 시나리오를 생성했으며, 각 지침이 논리적으로 일관되고 점진적인지 확인했습니다. 또한 데이터 세트는 자동 번역 및 수동 교정과 같은 단계를 통해 다국어 지원도 달성합니다.
실험 결과에 따르면 대부분의 LLM의 성능은 여러 대화 라운드에 걸쳐 크게 저하됩니다. o1-preview 모델을 예로 들면, 1라운드 평균 정확도는 87.7%였지만, 3라운드에서는 70.7%로 떨어졌습니다. 특히 힌디어, 러시아어, 중국어 등 비라틴 문자를 사용하는 언어에서는 일반적으로 모델의 성능이 영어에 비해 낮아 다국어 작업에 한계를 보입니다.
14개 최첨단 언어 모델 평가에서는 o1-preview와 Llama3.1405B가 3회 명령어 평균 정확도가 각각 78.9%와 78.1%로 가장 좋은 성능을 보였습니다. 그러나 여러 라운드의 대화에서 모든 모델은 복잡한 작업에서 모델이 직면한 어려움을 반영하여 지침을 따르는 능력이 전반적으로 감소한 것으로 나타났습니다. 연구팀은 또한 여러 라운드의 대화에서 모델의 지시 망각 현상을 정량화하기 위해 '명령 망각율'(IFR)을 도입했습니다. 결과는 이와 관련하여 고성능 모델이 상대적으로 좋은 성능을 발휘한다는 것을 보여줍니다.
Multi-IF의 출시는 연구자들에게 도전적인 벤치마크를 제공하고 세계화 및 다국어 응용 프로그램에서 LLM의 개발을 촉진합니다. 이 벤치마크의 출시는 다중 라운드 및 다중 언어 작업에서 현재 모델의 단점을 드러낼 뿐만 아니라 향후 개선을 위한 명확한 방향도 제공합니다.
논문: https://arxiv.org/html/2410.15553v2
가장 밝은 부분:
Multi-IF 벤치마크는 8개 언어를 다루고 4501개의 3턴 대화 작업을 포함하며 복잡한 시나리오에서 LLM의 성능을 평가합니다.
실험에 따르면 대부분의 LLM의 정확도는 여러 라운드의 대화, 특히 라틴어가 아닌 스크립트를 사용하는 언어에서 크게 떨어지는 것으로 나타났습니다.
o1-preview와 Llama3.1405B 모델은 3회 명령에 대해 각각 78.9%와 78.1%의 평균 정확도로 가장 좋은 성능을 보였습니다.
전체적으로 Multi-IF 벤치마크의 출현은 대규모 언어 모델 평가에 대한 새로운 방향을 제시합니다. 다중 회전 대화 및 다중 언어 지원에 중점을 두는 것은 LLM 기술의 글로벌 규모 적용 및 개발을 촉진하는 데 도움이 될 것입니다. 더욱 스마트하고 실용화에 가까운 모델의 탄생을 촉진합니다.