Le dernier benchmark Multi-IF publié par Meta vise à évaluer de manière plus complète la capacité de suivi d'instructions des grands modèles de langage (LLM) dans les conversations à plusieurs tours et les environnements multilingues. Différent des normes d'évaluation précédentes qui se concentraient davantage sur un seul tour et une seule langue, Multi-IF couvre huit langues et contient 4 501 tâches de dialogue en trois tours. Il s'efforce de simuler la complexité des scénarios d'application réels et de fournir une approche plus rigoureuse et plus rigoureuse. évaluation difficile pour les normes sexuelles LLM. Les résultats des tests de référence révèlent de nombreuses lacunes du LLM actuel dans le dialogue multi-tours et les tâches multilingues, fournissant une référence précieuse pour les futures orientations d'amélioration du modèle.
Meta a récemment publié un nouveau test de référence appelé Multi-IF, conçu pour évaluer la capacité de suivi d'instructions des grands modèles de langage (LLM) dans des conversations à plusieurs tours et des environnements multilingues. Ce benchmark couvre huit langues et contient 4501 tâches de dialogue à trois tours, se concentrant sur les performances des modèles actuels dans des scénarios complexes multi-tours et multilingues.
Parmi les normes d'évaluation existantes, la plupart se concentrent sur le dialogue à tour unique et les tâches en une seule langue, qui sont difficiles à refléter pleinement les performances du modèle dans des applications pratiques. Le lancement de Multi-IF vise à combler cette lacune. L'équipe de recherche a généré des scénarios de dialogue complexes en étendant une seule série d'instructions en plusieurs séries d'instructions, et a veillé à ce que chaque série d'instructions soit logiquement cohérente et progressive. En outre, l'ensemble de données prend également en charge plusieurs langues grâce à des étapes telles que la traduction automatique et la relecture manuelle.
Les résultats expérimentaux montrent que les performances de la plupart des LLM diminuent considérablement au fil de plusieurs cycles de dialogue. En prenant comme exemple le modèle o1-preview, sa précision moyenne au premier tour était de 87,7 %, mais est tombée à 70,7 % au troisième tour. Surtout dans les langues avec des écritures non latines, comme l'hindi, le russe et le chinois, les performances du modèle sont généralement inférieures à celles de l'anglais, ce qui montre des limites dans les tâches multilingues.
Lors de l'évaluation de 14 modèles linguistiques de pointe, o1-preview et Llama3.1405B ont obtenu les meilleurs résultats, avec des taux de précision moyens de 78,9 % et 78,1 % respectivement dans trois séries d'instructions. Cependant, au cours de plusieurs cycles de dialogue, tous les modèles ont montré un déclin général de leur capacité à suivre les instructions, reflétant les défis rencontrés par les modèles dans des tâches complexes. L'équipe de recherche a également introduit le « taux d'oubli d'instructions » (IFR) pour quantifier le phénomène d'oubli d'instructions du modèle au cours de plusieurs cycles de dialogue. Les résultats montrent que les modèles hautes performances fonctionnent relativement bien à cet égard.
La sortie de Multi-IF offre aux chercheurs une référence stimulante et favorise le développement du LLM dans la mondialisation et les applications multilingues. Le lancement de ce benchmark révèle non seulement les lacunes des modèles actuels dans les tâches multi-tours et multilingues, mais fournit également une orientation claire pour les améliorations futures.
Article : https://arxiv.org/html/2410.15553v2
Souligner:
Le benchmark Multi-IF couvre huit langues, contient 4 501 tâches de dialogue à trois tours et évalue les performances de LLM dans des scénarios complexes.
Les expériences montrent que la précision de la plupart des LLM diminue considérablement au cours de plusieurs cycles de dialogue, en particulier dans les langues avec des écritures non latines.
Les modèles o1-preview et Llama3.1405B ont obtenu les meilleurs résultats, avec des taux de précision moyens de 78,9 % et 78,1 % pour trois séries d'instructions respectivement.
Dans l’ensemble, l’émergence du benchmark Multi-IF offre une nouvelle direction pour l’évaluation des grands modèles linguistiques. Son accent sur le dialogue multi-tours et la prise en charge multilingue contribuera à promouvoir l’application et le développement de la technologie LLM à l’échelle mondiale. et favoriser la naissance de modèles plus intelligents et plus proches des applications pratiques.