Récemment, l'apprentissage d'outils avec de grands modèles de langage (LLM) est apparu comme un paradigme prometteur pour augmenter les capacités des LLM à résoudre des problèmes très complexes.
Il s'agit d'une collection d'articles liés à l'apprentissage des outils avec les LLM. Ces articles sont organisés selon notre document d'enquête « Apprentissage par outils avec de grands modèles linguistiques : une enquête ».
中文 : Nous avons remarqué que PaperAgent et 旺知识 ont fourni respectivement une introduction brève et complète en chinois. Nous apprécions grandement leur aide.
? Notre document d'enquête est accepté par Frontiers of Computer Science (FCS) . La dernière version de notre article a déjà été publiée ; s'il vous plaît, vérifiez-le !
N'hésitez pas à nous contacter si vous avez des questions ou des suggestions !
?? N'hésitez pas à ouvrir un ticket ou à faire une pull request ! ??
Si vous trouvez que notre travail aide vos recherches, veuillez citer notre article :
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
Récemment, l'apprentissage d'outils avec de grands modèles de langage (LLM) est apparu comme un paradigme prometteur pour augmenter les capacités des LLM à résoudre des problèmes très complexes. Malgré une attention croissante et des progrès rapides dans ce domaine, la littérature existante reste fragmentée et manque d’organisation systématique, ce qui pose des barrières à l’entrée pour les nouveaux arrivants. Cette lacune nous motive à mener une enquête complète sur les travaux existants sur l’apprentissage des outils avec les LLM. Dans cette enquête, nous nous concentrons sur l'examen de la littérature existante sous les deux principaux aspects (1) pourquoi l'apprentissage par outils est bénéfique et (2) comment l'apprentissage par outils est mis en œuvre, permettant une compréhension globale de l'apprentissage par outils avec les LLM. Nous explorons d’abord le « pourquoi » en examinant à la fois les avantages de l’intégration des outils et les avantages inhérents au paradigme d’apprentissage des outils sous six aspects spécifiques. En termes de « comment », nous passons systématiquement en revue la littérature selon une taxonomie de quatre étapes clés du flux de travail d'apprentissage des outils : planification des tâches, sélection des outils, appel de l'outil et génération de réponses. De plus, nous fournissons un résumé détaillé des critères de référence et des méthodes d'évaluation existants, en les catégorisant en fonction de leur pertinence pour les différentes étapes. Enfin, nous discutons des défis actuels et décrivons les orientations futures potentielles, dans le but d’inspirer les chercheurs et les développeurs industriels à explorer davantage ce domaine émergent et prometteur.
Acquisition de connaissances.
Moteur de recherche
Génération de dialogue augmenté par Internet , ACL 2022. [Papier]
WebGPT : réponses aux questions assistées par navigateur avec commentaires humains , pré-impression 2021. [Papier]
Modèles linguistiques augmentés par Internet grâce à des invites en quelques étapes pour répondre aux questions dans un domaine ouvert , pré-impression 2022. [Papier]
REPLUG : Modèles de langage Black-Box augmentés par récupération , préimpression 2023. [Papier]
Toolformer : les modèles de langage peuvent apprendre eux-mêmes à utiliser des outils , NeurIPS 2023. [Papier]
ART : Raisonnement automatique en plusieurs étapes et utilisation d'outils pour les grands modèles de langage , Preprint 2023. [Papier]
ToolCoder : Enseigner aux modèles de génération de code l'utilisation des outils de recherche d'API , Preprint 2023. [Papier]
CRITIQUE : Les grands modèles de langage peuvent s'auto-corriger grâce à la critique interactive avec des outils , ICLR 2024. [Papier]
Base de données et graphique de connaissances
Lamda : Modèles de langage pour les applications de dialogue , Preprint 2022. [Papier]
Gorilla : grand modèle de langage connecté à des API massives , NeurIPS 2024. [Papier]
ToolkenGPT : Augmentation des modèles de langage gelés avec des outils massifs via l'intégration d'outils , NeurIPS 2023. [Papier]
ToolQA : un ensemble de données pour la réponse aux questions LLM avec des outils externes , NeurIPS 2023. [Papier]
Utilisation d'un outil de syntaxe sans erreur et généralisable pour les LLM via le décodage à états finis , NeurIPS 2023. [Papier]
Middleware pour les LLM : les outils sont essentiels pour les agents linguistiques dans des environnements complexes , EMNLP 2024. [Papier]
Météo ou carte
Sur la capacité de manipulation d'outils des grands modèles de langage open source , NeurIPS 2023. [Papier]
ToolAlpaca : Apprentissage généralisé des outils pour les modèles de langage avec 3 000 cas simulés , préimpression 2023. [Papier]
Apprentissage des outils avec des modèles de base , préimpression 2023. [Papier]
Valorisation des expertises.
Outils mathématiques
Former des vérificateurs pour résoudre des problèmes de mots mathématiques , Preprint 2021. [Papier]
Systèmes MRKL : Une architecture modulaire et neuro-symbolique qui combine de grands modèles de langage, des sources de connaissances externes et un raisonnement discret , Preprint 2021. [Papier]
Enchaîner les pensées simultanées pour le raisonnement numérique , EMNLP 2022. [Papier]
Calc-X et Calcformers : Renforcer la chaîne de pensée arithmétique grâce à l'interaction avec les systèmes symboliques , EMNLP 2023. [Papier]
Résoudre des problèmes de mots mathématiques en combinant des modèles de langage avec des solveurs symboliques , NeurIPS 2023. [Papier]
Évaluation et amélioration du raisonnement mathématique à forte intensité de calcul augmenté par des outils , NeurIPS 2023. [Papier]
ToRA : un agent de raisonnement intégré à un outil pour la résolution de problèmes mathématiques , ICLR 2024. [Papier]
MATHSENSEI : Un modèle de langage étendu augmenté par des outils pour le raisonnement mathématique , préimpression 2024. [Papier]
Calc-CMU à SemEval-2024 Tâche 7 : Pré-Calc - Apprendre à utiliser la calculatrice améliore la numératie dans les modèles de langage , NAACL 2024. [Papier]
MathViz-E : Une étude de cas sur les agents utilisant des outils spécialisés dans un domaine , préimpression 2024. [Papier]
Interpréteur Python
Pal : Modèles de langage assistés par programme , ICML 2023. [Papier]
Programme de réflexions : démêler le calcul du raisonnement pour les tâches de raisonnement numérique , TMLR 2023. [Papier]
Vérification des faits sur les revendications complexes avec un raisonnement guidé par le programme , ACL 2023. [Papier]
Chameleon : Raisonnement compositionnel Plug-and-Play avec de grands modèles de langage , NeurIPS 2023. [Papier]
LeTI : Apprendre à générer à partir d'interactions textuelles , NAACL 2024. [Papier]
Mint : Évaluer les llms en interaction multi-tours avec des outils et des commentaires linguistiques , ICLR 2024. [Papier]
Les actions de code exécutable suscitent de meilleurs agents LLM , ICML 2024. [Papier]
CodeNav : Au-delà de l'utilisation des outils, utiliser des bases de code du monde réel avec des agents LLM , Preprint 2024. [Papier]
APPL : un langage de programmation rapide pour une intégration harmonieuse des programmes et des invites de modèles de langage étendus , préimpression 2024. [Papier]
BigCodeBench : analyse comparative de la génération de code avec divers appels de fonctions et instructions complexes , préimpression 2024. [Papier]
CodeAgent : Amélioration de la génération de code avec des systèmes d'agents intégrés aux outils pour les défis de codage au niveau des dépôts dans le monde réel , ACL 2024. [Papier]
MuMath-Code : Combiner des modèles de langage étendus utilisant des outils avec une augmentation des données multi-perspectives pour le raisonnement mathématique , EMNLP 2024. [Papier]
Autres
MultiTool-CoT : GPT-3 peut utiliser plusieurs outils externes avec une chaîne de réflexion , ACL 2023. [Papier]
ChemCrow : Augmenter les modèles en grand langage avec des outils chimiques , Nature Machine Intelligence 2024. [Papier]
UNE EXAMEN DES GRANDS MODÈLES DE LANGAGE ET DES AGENTS AUTONOMES EN CHIMIE , Preprint 2024. [Papier]
GeneGPT : Augmentation de grands modèles de langage avec des outils de domaine pour un accès amélioré aux informations biomédicales , ISMB 2024. [Papier]
Équiper les modèles de langage d'une capacité d'utilisation d'outils pour l'analyse de données tabulaires en finance , EACL 2024. [Papier]
Simulation du marché financier via des agents basés sur un grand modèle de langage , préimpression 2024. [Papier]
Un agent de base multimodal pour le trading financier : augmenté par des outils, diversifié et généraliste , KDD 2024. [Papier]
AgentMD : Autonomiser les agents linguistiques pour la prévision des risques grâce à l'apprentissage d'outils cliniques à grande échelle , préimpression 2024. [Papier]
SCIAGENT : Modèles de langage augmentés par des outils pour le raisonnement scientifique , EMNLP 2024. [Papier]
MMedAgent : Apprendre à utiliser des outils médicaux avec un agent multimodal , résultats de l'EMNLP 2024. [Papier]
Laissez-moi le faire pour vous : vers une recommandation habilitée par LLM via l'apprentissage par outils , SIGIR 2024. [Papier]
ReAct SPÉCIFIQUE AU DOMAINE POUR LA MODÉLISATION ITÉRATIVE INTÉGRÉE À LA PHYSIQUE : UNE ÉTUDE DE CAS D'AGENTS LLM POUR L'ANALYSE DU CHEMIN DU GAZ DES TURBINES À GAZ , Préimpression 2024. [Papier]
WORLDAPIS : Le monde vaut combien d’API ? Une expérience de pensée , atelier ACL 2024. [Papier]
Agent assisté par outils sur l'inspection et le raffinement SQL dans des scénarios du monde réel , préimpression 2024. [Papier]
HoneyComb : un système d'agents flexible basé sur LLM pour la science des matériaux , préimpression 2024. [Papier]
Automatisation et efficacité.
Outils de planification
ToolQA : un ensemble de données pour la réponse aux questions LLM avec des outils externes , NeurIPS 2023. [Papier]
Définir des rappels
ToolLLM : Faciliter les grands modèles de langage pour maîtriser plus de 16 000 API du monde réel , ICLR 2024. [Papier]
Filtrer les e-mails
ToolLLM : Faciliter les grands modèles de langage pour maîtriser plus de 16 000 API du monde réel , ICLR 2024. [Papier]
Gestion de projet
ToolLLM : Faciliter les grands modèles de langage pour maîtriser plus de 16 000 API du monde réel , ICLR 2024. [Papier]
Assistants d'achat en ligne
WebShop : Vers une interaction Web évolutive dans le monde réel avec des agents linguistiques ancrés , NeurIPS 2022. [Papier]
Amélioration des interactions.
Outils multimodaux
Vipergpt : Inférence visuelle via l'exécution de Python pour le raisonnement , ICCV 2023. [Papier]
MM-REACT : Inviter ChatGPT pour le raisonnement et l'action multimodaux , préimpression 2023. [Papier]
InternGPT : Résoudre les tâches centrées sur la vision en interagissant avec ChatGPT au-delà du langage , préimpression 2023. [Papier]
AssistGPT : un assistant multimodal général capable de planifier, d'exécuter, d'inspecter et d'apprendre , préimpression 2023. [Papier]
CLOVA : Un assistant visuel en boucle fermée avec utilisation et mise à jour des outils , CVPR 2024. [Papier]
DiffAgent : sélection rapide et précise de l'API texte-image avec un grand modèle linguistique , CVPR 2024. [Papier]
MLLM-Tool : un grand modèle de langage multimodal pour l'apprentissage des agents outils , préimpression 2024. [Papier]
m&m's : Une référence pour évaluer l'utilisation des outils pour les tâches multimodales en plusieurs étapes , préimpression 2024. [Papier]
Du moins au plus : créer un raisonneur visuel Plug-and-Play via la synthèse de données , préimpression 2024. [Papier]
Traducteur automatique
Toolformer : les modèles de langage peuvent apprendre eux-mêmes à utiliser des outils , NeurIPS 2023. [Papier]
Apprentissage des outils avec des modèles de base , préimpression 2023. [Papier]
Outils de traitement du langage naturel
HuggingGPT : Résoudre les tâches d'IA avec ChatGPT et ses amis dans Hugging Face , NeurIPS 2023. [Papier]
GitAgent : Faciliter l'agent autonome avec GitHub par Tool Extension , préimpression 2023. [Papier]
L'incitation à la chaîne de pensée suscite un raisonnement dans de grands modèles de langage , NeurIPS 2022. [Papier]
ReAct : Synergiser le raisonnement et l'action dans les modèles linguistiques , ICLR 2023. [Papier]
ART : Raisonnement automatique en plusieurs étapes et utilisation d'outils pour les grands modèles de langage , Preprint 2023. [Papier]
HuggingGPT : Résoudre les tâches d'IA avec ChatGPT et ses amis dans Hugging Face , NeurIPS 2023. [Papier]
Graph-ToolFormer : Pour doter les LLM d'une capacité de raisonnement graphique via une invite augmentée par ChatGPT , préimpression 2023. [Papier]
Grands modèles de langage en tant que créateurs d'outils , ICLR 2024. [Papier]
CRÉATEUR : Création d'outils pour démêler le raisonnement abstrait et concret des grands modèles de langage , EMNLP 2023. [Papier]
ChatCoT : raisonnement en chaîne de pensée augmenté par des outils sur des modèles de langage étendus basés sur le chat , EMNLP 2023. [Papier]
FacTool : Détection de réalité dans l'IA générative – Un cadre amélioré par un outil pour les scénarios multitâches et multidomaines , préimpression 2023. [Papier]
TPTU : Agents d'IA basés sur un grand modèle de langage pour la planification des tâches et l'utilisation des outils , préimpression 2023. [Papier]
ToolChain* : Navigation efficace dans l'espace d'action dans les grands modèles linguistiques avec recherche A* , ICLR 2024. [Papier]
Renforcez l'attention la plus courte : améliorer la connaissance du contexte des grands modèles de langage pour une utilisation efficace des outils , ACL 2024. [Papier]
TroVE : Induire des boîtes à outils vérifiables et efficaces pour résoudre les tâches programmatiques , préimpression 2024. [Papier]
SwissNYF : Agents LLM basés sur des outils pour la configuration de la boîte noire , préimpression 2024. [Papier]
Du résumé à l'action : Amélioration des modèles de langage étendus pour les tâches complexes avec les API du monde ouvert , préimpression 2024. [Papier]
Apprentissage par outils avec contraintes budgétaires avec planification , résultats de l'ACL 2024. [Papier]
Planification et modification de ce que vous récupérez pour un apprentissage amélioré des outils , NAACL 2024. [Papier]
Les grands modèles linguistiques peuvent planifier rigoureusement vos voyages avec des outils de vérification formelle , préimpression 2024. [Papier]
Schtroumpfs : Exploiter plusieurs agents de compétence avec une efficacité contextuelle pour la planification des outils , préimpression 2024. [Papier]
STRIDE : Un cadre d'agent LLM assisté par outils pour la prise de décision stratégique et interactive , préimpression 2024. [Papier]
Chaîne d'outils : un grand modèle de langage est un apprenant automatique multi-outils , préimpression 2024. [Papier]
L'apprentissage graphique peut-il améliorer la planification dans les agents basés sur LLM ? , NeurIPS 2024. [Papier]
Tool-Planner : Planification dynamique d'un arbre de solutions pour un modèle de langage étendu avec clustering d'outils , préimpression 2024. [Papier]
Échec des outils : détection des erreurs silencieuses dans les outils défectueux , EMNLP 2024. [Papier]
Qu'est-ce qui affecte la stabilité de l'apprentissage des outils ? Une étude empirique sur la robustesse des cadres d'apprentissage des outils , préimpression 2024. [Papier]
Agent Tulip – Permettre aux agents basés sur LLM de résoudre des tâches à l'aide de grandes bibliothèques d'outils , préimpression 2024. [Papier]
Toolshed : Mettre à l'échelle des agents équipés d'outils avec des bases de connaissances avancées sur la fusion RAG-Tool et les outils , préimpression 2024. [Papier]
De l'exploration à la maîtrise : permettre aux LLM de maîtriser les outils via des interactions autonomes , préimpression 2024. [Papier]
TaskMatrix.AI : accomplir des tâches en connectant des modèles de base avec des millions d'API , INTELLIGENT COMPUTING 2024. [Papier]
OpenAGI : Quand le LLM rencontre les experts du domaine , Neurips 2023. [Papier]
ToolLLM : Faciliter les grands modèles de langage pour maîtriser plus de 16 000 API du monde réel , ICLR 2024. [Papier]
Toolink : Lier la création et l'utilisation d'une boîte à outils via une chaîne de résolution sur un modèle open source , préimpression 2023. [Papier]
TPTU-v2 : Améliorer la planification des tâches et l'utilisation des outils des agents basés sur un modèle de langage étendu dans les systèmes du monde réel , ICLR 2024. [Papier]
Naviguer dans l'incertitude : optimiser la dépendance à l'API pour la réduction des hallucinations dans les réponses aux questions à livre fermé , ECIR 2024. [Papier]
Les petits LLM sont de faibles apprenants en outils : un agent multi-LLM , EMNLP 2024. [Papier]
Utilisation efficace des outils avec le raisonnement en chaîne d'abstraction , préimpression 2024. [Papier]
Regardez avant de vous lancer : vers une utilisation d'outils décisionnelle et généralisable pour les grands modèles de langage , préimpression 2024. [Papier]
Une méthodologie utilisant l'API LLM basée sur une solution pour la recherche d'informations académiques , préimpression 2024. [Papier]
Faire progresser les grands modèles de langage augmentés par des outils : intégrer les informations provenant des erreurs dans les arbres d'inférence , NeurIPS 2024. [Papier]
APIGen : Pipeline automatisé pour générer des ensembles de données d'appel de fonctions vérifiables et diversifiés , préimpression 2024. [Papier]
MetaTool : Faciliter la maîtrise des grands modèles de langage avec l'augmentation des méta-tâches , préimpression 2024. [Papier]
ToolPlanner : un outil LLM augmenté pour les instructions multi-granularités avec planification de chemin et commentaires , EMNLP 2024. [Papier]
Une interprétation statistique de la spécificité des termes et son application dans la récupération , Journal of Documentation 1972. [Papier]
Le cadre de pertinence probabiliste : BM25 et au-delà , Fondements et tendances de la recherche d'informations 2009. [Papier]
Phrase-bert : intégrations de phrases à l'aide de réseaux de bert siamois , EMNLP 2019. [Papier]
Apprentissage contrastif négatif approximatif du voisin le plus proche pour la récupération de texte dense , ICLR 2021. [Papier]
Enseigner efficacement un Dense Retriever efficace avec un échantillonnage équilibré tenant compte du sujet , SIGIR 2021. [Papier]
Pré-formation au modèle de langage sensible au corpus non supervisé pour la récupération de passages denses , ACL 2022. [Papier]
Récupération d'informations denses non supervisée avec apprentissage contrastif , Preprint 2021. [Papier]
CRAFT : Personnalisation des LLM en créant et en récupérant à partir d'ensembles d'outils spécialisés , ICLR 2024. [Papier]
ProTIP : La récupération progressive des outils améliore la planification , préimpression 2023. [Papier]
ToolRerank : reclassement adaptatif et tenant compte de la hiérarchie pour la récupération d'outils , COLING 2024. [Papier]
Amélioration de la récupération d'outils grâce aux commentaires itératifs à partir de grands modèles de langage , résultats de l'EMNLP 2024. [Papier]
Ré-invocation : réécriture d'invocation d'outils pour la récupération d'outils Zero-Shot , résultats de l'EMNLP 2024. [Papier]
Estimation efficace et évolutive des représentations d'outils dans l'espace vectoriel , préimpression 2024. [Papier]
Toolshed : Mettre à l'échelle des agents équipés d'outils avec des bases de connaissances avancées sur la fusion RAG-Tool et les outils , préimpression 2024. [Papier]
COLT : Vers une récupération d'outils orientée vers l'exhaustivité pour les grands modèles de langage , CIKM 2024. [Papier]
Sur la capacité de manipulation d'outils des grands modèles de langage open source , préimpression 2023. [Papier]
Rendre les modèles linguistiques de meilleurs outils pour les apprenants avec des commentaires sur l'exécution , NAACL 2024. [Papier]
ToolLLM : Faciliter les grands modèles de langage pour maîtriser plus de 16 000 API du monde réel , ICLR 2024. [Papier]
Confucius : Outil itératif d'apprentissage à partir des commentaires d'introspection par un programme de niveau facile à difficile , AAAI 2024. [Papier]
AnyTool : Agents hiérarchiques autoréfléchissants pour les appels d'API à grande échelle , préimpression 2024. [Papier]
TOOLVERIFIER : Généralisation à de nouveaux outils via l'auto-vérification , résultats de l'EMNLP 2024. [Papier]
ToolNet : Connecter de grands modèles de langage avec des outils massifs via Tool Graph , préimpression 2024. [Papier]
GeckOpt : Efficacité du système LLM via la sélection d'outils basée sur l'intention , GLSVLSI 2024. [Papier]
AvaTaR : Optimisation des agents LLM pour la récupération de connaissances assistée par des outils , NeurIPS 2024. [Papier]
Un petit agent peut aussi faire du rock ! Autonomiser de petits modèles de langage en tant que détecteur d'hallucinations , préimpression 2024. [Papier]
Sélection adaptative pour des outils homogènes : une instanciation dans le scénario RAG , résultats de l'EMNLP 2024. [Papier]
De l'exploration à la maîtrise : permettre aux LLM de maîtriser les outils via des interactions autonomes , préimpression 2024. [Papier]
RestGPT : Connecter de grands modèles de langage avec des API RESTful du monde réel , préimpression 2023. [Papier]
Chaîne inversée : une règle générique permettant aux LLM de maîtriser la planification multi-API , préimpression 2023. [Papier]
GEAR : Augmentation des modèles de langage avec une résolution d'outils généralisable et efficace , EACL 2023. [Papier]
La documentation des outils permet l'utilisation d'outils Zero-Shot avec de grands modèles de langage , préimpression 2023. [Papier]
ControlLLM : Augmentez les modèles de langage avec des outils en recherchant sur des graphiques , préimpression 2023. [Papier]
EASYTOOL : Amélioration des agents basés sur LLM avec des instructions concises sur les outils , préimpression 2024. [Papier]
Grands modèles de langage en tant que suivi de l'état du dialogue Zero-shot via l'appel de fonction , ACL 2024. [Papier]
Compression de contexte concise et précise pour les modèles de langage utilisant des outils , résultats ACL 2024. [Papier]
Gorilla : grand modèle de langage connecté à des API massives , NeurIPS 2024. [Papier]
GPT4Tools : Enseigner à un grand modèle de langage l'utilisation d'outils via l'auto-apprentissage , NeurIPS 2023. [Papier]
ToolkenGPT : Augmentation des modèles de langage gelés avec des outils massifs via l'intégration d'outils , NeurIPS 2023. [Papier]
Modélisation des récompenses augmentées par des outils , ICLR 2024. [Papier]
LLM dans l'Imaginarium : apprentissage des outils par essais et erreurs simulés , ACL 2024. [Papier]
ToolACE : Gagner les points de l'appel de fonctions LLM , préimpression 2024. [Papier]
CITI : Amélioration de l'outil utilisant les capacités dans les grands modèles de langage sans sacrifier les performances générales , préimpression 2024. [Papier]
La qualité compte : évaluation des données synthétiques pour les LLM utilisant des outils , EMNLP 2024. [Papier]
TALM : Outil de modèles de langage augmentés , préimpression 2022. [Papier]
Toolformer : les modèles de langage peuvent apprendre eux-mêmes à utiliser des outils , NeurIPS 2023. [Papier]
Une évaluation complète des stratégies de génération assistée par outils , EMNLP 2023. [Papier]
TPE : Vers un meilleur raisonnement compositionnel sur les outils conceptuels avec une collaboration multi-personnes , prépublication 2023. [Papier]
RECOMP : Amélioration des LM augmentés par récupération avec compression et augmentation sélective , ICLR 2024. [Papier]
Apprendre à utiliser des outils via des agents coopératifs et interactifs , résultats de l'EMNLP 2024. [Papier]
Référence | Référence | Description | #Outils | #Instances | Lien | Temps de sortie |
---|---|---|---|---|---|---|
API-Banque | [Papier] | Évaluer les capacités des LLM existants en matière de planification, de récupération et d'appel d'API. | 73 | 314 | [Dépôt] | 2023-04 |
APIBanc | [Papier] | Un benchmark complet construit à partir des cartes modèles d'API TorchHub, TensorHub et HuggingFace. | 1 645 | 16 450 | [Dépôt] | 2023-05 |
Banc d'outils1 | [Papier] | Un benchmark de manipulation d'outils composé de divers outils logiciels pour des tâches du monde réel. | 232 | 2 746 | [Dépôt] | 2023-05 |
OutilAlpaga | [Papier] | Évaluer la capacité des LLM à utiliser des outils inédits sans formation spécifique. | 426 | 3 938 | [Dépôt] | 2023-06 |
Banc de repos | [Papier] | Un benchmark de haute qualité composé de deux scénarios du monde réel et d'instructions annotées par des humains avec des solutions en or. | 94 | 157 | [Dépôt] | 2023-06 |
Banc d'outils2 | [Papier] | Un ensemble de données de réglage des instructions pour l'utilisation des outils, qui est construit automatiquement à l'aide de ChatGPT. | 16 464 | 126 486 | [Dépôt] | 2023-07 |
Méta-outil | [Papier] | Un benchmark conçu pour évaluer si les LLM sont conscients de l'utilisation des outils et peuvent choisir correctement les outils. | 199 | 21 127 | [Dépôt] | 2023-10 |
Banc de tâches | [Papier] | Un benchmark conçu pour évaluer la capacité des LLM sous différents aspects, notamment la décomposition des tâches, l'appel d'outils et la prédiction des paramètres. | 103 | 28 271 | [Dépôt] | 2023-11 |
Évaluation T | [Papier] | Évaluer la capacité d'utilisation des outils étape par étape. | 15 | 533 | [Dépôt] | 2023-12 |
OutilYeux | [Papier] | Un système à granularité fine conçu pour l'évaluation des capacités d'apprentissage des outils des LLM dans des scénarios authentiques. | 568 | 382 | [Dépôt] | 2024-01 |
UltraOutil | [Papier] | Un nouveau benchmark conçu pour améliorer et évaluer la capacité des LLM à utiliser les outils dans des scénarios du monde réel. | 2 032 | 5 824 | [Dépôt] | 2024-01 |
API-MÉLANGE | [Papier] | Un grand corpus pour la formation et les tests systématiques de LLM augmentés par des outils. | - | 189 040 | [Dépôt] | 2024-02 |
Outils pour joints | [Papier] | Seal-Tools contient des instances matérielles qui appellent plusieurs outils pour terminer le travail, parmi lesquels certains sont des appels d'outils imbriqués. | 4 076 | 14 076 | [Dépôt] | 2024-05 |
OutilQA | [Papier] | Il est conçu pour évaluer fidèlement la capacité des LLM à utiliser des outils externes pour répondre aux questions. (AQ) | 13 | 1 530 | [Dépôt] | 2023-06 |
OutilEmu | [Papier] | Un framework qui utilise un LM pour émuler l'exécution d'outils et permet des tests évolutifs des agents LM par rapport à une gamme diversifiée d'outils et de scénarios. (Sécurité) | 311 | 144 | [Dépôt] | 2023-09 |
Discussion sur les outils | [Papier] | Un benchmark composé d'intentions d'utilisateur complexes nécessitant l'utilisation d'un outil en plusieurs étapes spécifiées via le dialogue. (Conversation) | 28 | 78 | [Dépôt] | 2023-11 |
VIOT | [Papier] | Un benchmark comprend un ensemble de données de formation et des mesures de performances établies pour 11 modèles de vision représentatifs, classés en trois groupes à l'aide d'annotations semi-automatisées. (VIoT) | 11 | 1 841 | [Dépôt] | 2023-12 |
RoTBench | [Papier] | Un benchmark multi-niveaux pour évaluer la robustesse des LLM dans l'apprentissage des outils. (Robustesse) | 568 | 105 | [Dépôt] | 2024-01 |
Outil MLLM | [Papier] | Un système intégrant des LLM open source et des encodeurs multimodaux afin que les LLM appris puissent être conscients des instructions d'entrée multimodales, puis sélectionner correctement l'outil correspondant à la fonction. (Multimodal) | 932 | 11 642 | [Dépôt] | 2024-01 |
OutilÉpée | [Papier] | Un cadre complet dédié à l'étude méticuleuse des problèmes de sécurité liés aux LLM dans l'apprentissage des outils. (Sécurité) | 100 | 440 | [Dépôt] | 2024-02 |
SciToolBench | [Papier] | Couvrant cinq domaines scientifiques pour évaluer les capacités des LLM avec l'aide d'outils. (Sci-Reasoning) | 2 446 | 856 | [Dépôt] | 2024-02 |
Agent d'injection | [Papier] | Un benchmark conçu pour évaluer la vulnérabilité des agents LLM intégrés aux outils aux attaques IPI. (Sécurité) | 17 | 1 054 | [Dépôt] | 2024-02 |
StableToolBench | [Papier] | Un benchmark évoluant à partir de ToolBench, proposant un serveur API virtuel et un système d'évaluation stable.(Stable) | 16 464 | 126 486 | [Dépôt] | 2024-03 |
m&m's | [Papier] | Un benchmark contenant 4K+ tâches multimodales en plusieurs étapes impliquant 33 outils qui incluent des modèles multimodaux, des API publiques et des modules de traitement d'image. (Multimodal) | 33 | 4 427 | [Dépôt] | 2024-03 |
GeoLLM-QA | [Papier] | Un nouveau benchmark de 1 000 tâches diverses, conçu pour capturer des flux de travail RS complexes dans lesquels les LLM gèrent des structures de données complexes, un raisonnement nuancé et des interactions avec des interfaces utilisateur dynamiques. (Télédétection) | 117 | 1 000 | [Dépôt] | 2024-04 |
OutilLentille | [Papier] | ToolLens comprend des requêtes concises mais intentionnellement multiformes qui imitent mieux les interactions des utilisateurs du monde réel. (Récupération d'outil) | 464 | 18 770 | [Dépôt] | 2024-05 |
SoAyBanc | [Papier] | Une méthodologie basée sur une API LLM utilisant une solution pour la recherche d'informations académiques | 7 | 792 | [Repo], [HF] | 2024-05 |
OutilBH | [Papier] | Un benchmark qui évalue les hallucinations du LLM à travers deux perspectives : la profondeur et l'ampleur. | - | 700 | [Dépôt] | 2024-06 |
RaccourcisBanc | [Papier] | Une référence réelle à grande échelle pour les agents basés sur des API | 1414 | 7627 | [Dépôt] | 2024-07 |
RGT | [Papier] | Une référence pour les agents d'outils généraux | 14 | 229 | [Dépôt] | 2024-07 |
Évaluation WTU | [Papier] | Une référence d'évaluation de l'utilisation des outils, qu'elle soit ou non, pour les grands modèles de langage | 4 | 916 | [Dépôt] | 2024-07 |
AppWorld | [Papier] | Un ensemble de tâches quotidiennes complexes nécessitant un codage interactif avec des appels API | 457 | 750 | [Dépôt] | 2024-07 |
OutilSandbox | [Papier] | Un benchmark d'utilisation des outils avec état, conversationnel et interactif. | 34 | 1032 | [Dépôt] | 2024-08 |
CToolEval | [Papier] | Un benchmark conçu pour évaluer les LLM dans le contexte des applications sociétales chinoises. | 27 | 398 | [Dépôt] | 2024-08 |
NoisyToolBench | [Papier] | Ce benchmark comprend une collection d'API fournies, des requêtes ambiguës, des questions de clarification anticipées et les réponses correspondantes. | - | 200 | [Dépôt] | 2024-09 |
Planification des tâches
Sensibilisation à l'utilisation des outils
MetaTool Benchmark : Décider d'utiliser ou non des outils et lesquels utiliser , ICLR 2024. [Papier]
Les grands modèles de langage augmentés par des outils peuvent-ils être conscients des conditions incomplètes ? , Préimpression 2024. [Papier]
Taux de réussite et taux de victoire
ToolLLM : Faciliter les grands modèles de langage pour maîtriser plus de 16 000 API du monde réel , ICLR 2024. [Papier]
Précision
T-Eval : Évaluation étape par étape de la capacité d'utilisation des outils des grands modèles de langage , ACL 2024. [Papier]
RestGPT : Connecter de grands modèles de langage avec des API RESTful du monde réel , préimpression 2023. [Papier]
Une méthodologie utilisant l'API LLM basée sur une solution pour la recherche d'informations académiques , préimpression 2024. [Papier]
Sélection d'outils
Précision
ShortcutsBench : une référence à grande échelle dans le monde réel pour les agents basés sur des API , préimpression 2024. [Papier]
Rappel
Rappel, précision et précision moyenne , Département de statistique et d'actuariat 2004. [Papier]
NDCG
Évaluation basée sur le gain cumulé des techniques IR , TOIS 2002. [Papier]
COMP
COLT : Vers une récupération d'outils orientée vers l'exhaustivité pour les grands modèles de langage , CIKM 2024. [Papier]
Appel d'outil
Conforme aux stipulations
T-Eval : Évaluation étape par étape de la capacité d'utilisation des outils des grands modèles de langage , ACL 2024. [Papier]
Planification et modification de ce que vous récupérez pour un apprentissage amélioré des outils , NAACL 2024. [Papier]
ToolEyes : Évaluation fine des capacités d'apprentissage des outils de grands modèles de langage dans des scénarios du monde réel , préimpression 2024. [Paper3]
ShortcutsBench : une référence à grande échelle dans le monde réel pour les agents basés sur des API , préimpression 2024. [Papier]
Génération de réponses
BLEU
Bleu : une méthode d'évaluation automatique de la traduction automatique , ACL 2002. [Papier]
ROUGE
Rouge : Un package pour l'évaluation automatique des résumés , ACL 2004. [Papier]
Correspondance exacte
cem : correspondance exacte grossière dans Stata , The Stata Journal 2009. [Papier]
Remplissage des paramètres
Précision
ShortcutsBench : une référence à grande échelle dans le monde réel pour les agents basés sur des API , préimpression 2024. [Papier]
OutilLearningPapers. [Dépôt]
génial-outil-llm. [Dépôt]
génial-llm-tool-learning. [Dépôt]
Modèles de langage augmentés : une enquête , TMLR 2024. [Papier]
Apprentissage des outils avec des modèles de base , préimpression 2024. [Papier]
De toute façon, que sont les outils ? Une enquête du point de vue du modèle linguistique , COLM 2024. [Papier]