Les grands modèles de langage (LLM) avec de très longues fenêtres contextuelles se développent rapidement et leur capacité à traiter l'information a attiré une large attention. Cependant, il est difficile d’évaluer la capacité de ces modèles à comprendre et à utiliser de grandes quantités d’informations. Les chercheurs de Google DeepMind ont développé le benchmark Michelangelo à cet effet, dans le but d'évaluer plus en profondeur les capacités de raisonnement du LLM à contexte long et de fournir des orientations pour les futures améliorations du modèle.
Récemment, les grands modèles de langage (LLM) avec de très longues fenêtres contextuelles sont devenus un sujet de discussion brûlant. Ces modèles sont capables de gérer des centaines de milliers, voire des millions de jetons en une seule invite, ouvrant ainsi de nombreuses nouvelles possibilités aux développeurs. Cependant, dans quelle mesure ces LLM à contexte long peuvent-ils comprendre et utiliser les informations volumineuses reçues ? Pour résoudre ce problème, les chercheurs de Google DeepMind ont lancé un nouveau benchmark appelé Michelangelo, conçu pour évaluer les capacités de poussée de contexte long. Les résultats montrent que même si les modèles de pointe actuels ont fait certains progrès dans l’extraction d’informations à partir de grandes quantités de données contextuelles, ils rencontrent encore des difficultés dans les tâches qui nécessitent un raisonnement et une compréhension de la structure des données. À mesure que des LLM dotés de longues fenêtres contextuelles ont émergé, les chercheurs ont commencé à se rendre compte que de nouveaux points de référence étaient nécessaires pour évaluer les capacités de ces modèles. Les évaluations existantes se concentrent principalement sur des tâches de recherche d'informations, telles que les évaluations « trouver des aiguilles dans des meules de foin », c'est-à-dire rechercher des informations spécifiques dans un grand nombre de contextes. Cependant, une simple récupération ne signifie pas que le modèle comprenne le contexte global. Pour résoudre ces problèmes, Michel-Ange a proposé une nouvelle méthode d'évaluation en définissant des tâches complexes qui nécessitent que les modèles effectuent un raisonnement et une synthèse plus approfondis lors du traitement de textes longs. Par exemple, le cadre d'évaluation contient plusieurs tâches liées à la programmation et au langage naturel. Ces tâches testent non seulement la capacité de mémoire du modèle, mais se concentrent également sur la profondeur de sa compréhension et de son traitement des informations. Dans la tâche d'évaluation de Michelangelo, le modèle doit résoudre trois tâches de base de synthèse de documents longs, à savoir la « liste de potentiels », la « résolution de coréférence multi-tours » et divers autres scénarios d'application. Ces tâches permettent non seulement d'évaluer les performances d'un modèle sur des documents longs, mais révèlent également ses lacunes en matière d'inférence et de synthèse. La première est la « liste potentielle », dans laquelle le modèle doit traiter une longue liste d'opérations sur une liste Python, en filtrant les instructions non pertinentes ou redondantes pour déterminer l'état final de la liste. Le deuxième élément est la « résolution de référence multi-tours », où le modèle doit comprendre la structure de la conversation et résoudre les problèmes de référence dans les longues conversations. Le troisième élément est « Je ne sais pas ». Lorsqu'il répond à plusieurs questions à choix multiples, le modèle doit déterminer si la réponse est incluse dans le contexte et être capable de répondre avec précision à « Je ne sais pas ». Les chercheurs ont évalué Michelangelo par rapport à dix des meilleurs LLM, dont différentes versions de Gemini, GPT-4 et Claude, et ont testé le modèle dans le contexte de jusqu'à 1 million de jetons. Le modèle Gemini fonctionne mieux sur MRCR, le modèle GPT fonctionne bien sur Latent List et Claude3.5Sonnet obtient le score le plus élevé sur IDK.
L'éditeur de Downcodes a conclu : L'émergence du benchmark Michelangelo offre une nouvelle perspective pour évaluer le LLM à contexte ultra-long, et souligne également les lacunes des modèles actuels en termes de capacités de raisonnement complexes. À l’avenir, des LLM plus puissants devront réaliser des percées dans les capacités de raisonnement afin de mieux faire face à des tâches et des scénarios d’application plus complexes. Nous attendons avec impatience les recherches futures qui nous apporteront d’autres surprises !