In jüngster Zeit hat sich das Tool-Learning mit großen Sprachmodellen (LLMs) als vielversprechendes Paradigma für die Erweiterung der Fähigkeiten von LLMs zur Bewältigung hochkomplexer Probleme herausgestellt.
Dies ist die Sammlung von Artikeln zum Tool-Learning mit LLMs. Diese Papiere sind gemäß unserem Umfragepapier „Tool Learning with Large Language Models: A Survey“ organisiert.
Anmerkungen: Wir haben festgestellt, dass PaperAgent und 旺知识 eine kurze bzw. umfassende Einführung auf Chinesisch bereitgestellt haben. Wir wissen ihre Unterstützung sehr zu schätzen.
? Unser Umfragepapier wird von Frontiers of Computer Science (FCS) akzeptiert. Die neueste Version unseres Artikels wurde bereits veröffentlicht; Bitte schauen Sie es sich an!
Bei Fragen und Anregungen können Sie sich gerne an uns wenden!
?? Bitte zögern Sie nicht, ein Problem zu eröffnen oder eine Pull-Anfrage zu stellen! ??
Wenn Sie feststellen, dass unsere Arbeit Ihrer Forschung hilft, zitieren Sie bitte unser Papier:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
In jüngster Zeit hat sich das Tool-Learning mit großen Sprachmodellen (LLMs) als vielversprechendes Paradigma für die Erweiterung der Fähigkeiten von LLMs zur Bewältigung hochkomplexer Probleme herausgestellt. Trotz wachsender Aufmerksamkeit und rascher Fortschritte auf diesem Gebiet bleibt die vorhandene Literatur fragmentiert und weist keine systematische Organisation auf, was den Zugang für Neueinsteiger erschwert. Diese Lücke motiviert uns, eine umfassende Übersicht über bestehende Arbeiten zum Tool-Learning mit LLMs durchzuführen. In dieser Umfrage konzentrieren wir uns auf die Überprüfung der vorhandenen Literatur unter den beiden Hauptaspekten (1) warum Tool-Lernen von Vorteil ist und (2) wie Tool-Lernen implementiert wird, um ein umfassendes Verständnis des Tool-Lernens mit LLMs zu ermöglichen. Wir untersuchen zunächst das „Warum“, indem wir sowohl die Vorteile der Tool-Integration als auch die inhärenten Vorteile des Tool-Learning-Paradigmas anhand von sechs spezifischen Aspekten untersuchen. Im Hinblick auf das „Wie“ überprüfen wir die Literatur systematisch anhand einer Taxonomie von vier Schlüsselphasen im Tool-Learning-Workflow: Aufgabenplanung, Tool-Auswahl, Tool-Aufruf und Antwortgenerierung. Darüber hinaus bieten wir eine detaillierte Zusammenfassung bestehender Benchmarks und Bewertungsmethoden und kategorisieren diese nach ihrer Relevanz für verschiedene Phasen. Abschließend diskutieren wir aktuelle Herausforderungen und skizzieren mögliche zukünftige Richtungen, um sowohl Forscher als auch Industrieentwickler zu inspirieren, diesen aufstrebenden und vielversprechenden Bereich weiter zu erforschen.
Wissenserwerb.
Suchmaschine
Internet-Augmented Dialogue Generation , ACL 2022. [Aufsatz]
WebGPT: Browsergestützte Fragebeantwortung mit menschlichem Feedback , Preprint 2021. [Papier]
Internet-erweiterte Sprachmodelle durch Few-Shot-Prompting für Open-Domain-Fragenbeantwortung , Preprint 2022. [Aufsatz]
REPLUG: Retrieval-Augmented Black-Box Language Models , Preprint 2023. [Aufsatz]
Toolformer: Sprachmodelle können sich selbst den Umgang mit Werkzeugen beibringen , NeurIPS 2023. [Aufsatz]
ART: Automatisches mehrstufiges Denken und Werkzeugnutzung für große Sprachmodelle , Preprint 2023. [Papier]
ToolCoder: Codegenerierungsmodellen die Verwendung von API-Suchtools beibringen , Preprint 2023. [Papier]
KRITIKER: Große Sprachmodelle können sich mit Tool-interaktiver Kritik selbst korrigieren , ICLR 2024. [Aufsatz]
Datenbank und Wissensgraph
Lamda: Sprachmodelle für Dialoganwendungen , Preprint 2022. [Aufsatz]
Gorilla: Großes Sprachmodell verbunden mit massiven APIs , NeurIPS 2024. [Papier]
ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings , NeurIPS 2023. [Papier]
ToolQA: Ein Datensatz für die Beantwortung von LLM-Fragen mit externen Tools , NeurIPS 2023. [Papier]
Syntaxfehlerfreie und generalisierbare Werkzeugnutzung für LLMs mittels Finite-State-Dekodierung , NeurIPS 2023. [Aufsatz]
Middleware für LLMs: Tools are Instrumental for Language Agents in Complex Environments , EMNLP 2024. [Aufsatz]
Wetter oder Karte
Zur Werkzeugmanipulationsfähigkeit von Open-Source-Modellen großer Sprachen , NeurIPS 2023. [Aufsatz]
ToolAlpaca: Generalisiertes Werkzeuglernen für Sprachmodelle mit 3000 simulierten Fällen , Preprint 2023. [Papier]
Werkzeuglernen mit Grundlagenmodellen , Preprint 2023. [Aufsatz]
Kompetenzerweiterung.
Mathematische Werkzeuge
Schulung von Verifizierern zur Lösung mathematischer Textaufgaben , Preprint 2021. [Aufsatz]
MRKL-Systeme: Eine modulare, neurosymbolische Architektur, die große Sprachmodelle, externe Wissensquellen und diskretes Denken kombiniert , Preprint 2021. [Papier]
Verkettung simultaner Gedanken für numerisches Denken , EMNLP 2022. [Aufsatz]
Calc-X und Calcformers: Stärkung der arithmetischen Gedankenkette durch Interaktion mit symbolischen Systemen , EMNLP 2023. [Aufsatz]
Lösen mathematischer Wortprobleme durch die Kombination von Sprachmodellen mit symbolischen Lösern , NeurIPS 2023. [Aufsatz]
Evaluierung und Verbesserung des werkzeuggestützten, rechenintensiven mathematischen Denkens , NeurIPS 2023. [Aufsatz]
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving , ICLR 2024. [Aufsatz]
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning , Preprint 2024. [Aufsatz]
Calc-CMU bei SemEval-2024 Aufgabe 7: Pre-Calc – Das Erlernen der Verwendung des Taschenrechners verbessert die Rechenleistung in Sprachmodellen , NAACL 2024. [Aufsatz]
MathViz-E: Eine Fallstudie zu domänenspezialisierten Tool-Using Agents , Preprint 2024. [Aufsatz]
Python-Interpreter
Pal: Programmgestützte Sprachmodelle , ICML 2023. [Aufsatz]
Program of Thoughts Prompting: Disentangling Computing from Reasoning for Numerical Reasoning Tasks , TMLR 2023. [Aufsatz]
Faktenprüfung komplexer Behauptungen mit programmgesteuerter Argumentation , ACL 2023. [Aufsatz]
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models , NeurIPS 2023. [Aufsatz]
LeTI: Lernen, aus Textinteraktionen zu generieren , NAACL 2024. [Aufsatz]
Mint: Evaluierung von LMs in Multi-Turn-Interaktion mit Tools und Sprachfeedback , ICLR 2024. [Aufsatz]
Ausführbare Codeaktionen sorgen für bessere LLM-Agenten , ICML 2024. [Papier]
CodeNav: Über die Tool-Nutzung hinaus zur Verwendung realer Codebasen mit LLM-Agenten , Preprint 2024. [Papier]
APPL: Eine schnelle Programmiersprache für die harmonische Integration von Programmen und Eingabeaufforderungen für große Sprachmodelle , Preprint 2024. [Aufsatz]
BigCodeBench: Benchmarking der Codegenerierung mit verschiedenen Funktionsaufrufen und komplexen Anweisungen , Preprint 2024. [Papier]
CodeAgent: Verbesserung der Codegenerierung mit werkzeugintegrierten Agentensystemen für reale Codierungsherausforderungen auf Repo-Ebene , ACL 2024. [Papier]
MuMath-Code: Kombination von werkzeugbasierten großen Sprachmodellen mit multiperspektivischer Datenerweiterung für mathematisches Denken , EMNLP 2024. [Aufsatz]
Andere
MultiTool-CoT: GPT-3 kann mehrere externe Tools mit Chain-of-Thought-Prompting verwenden , ACL 2023. [Papier]
ChemCrow: Augmenting Large-Language Models with Chemistry Tools , Nature Machine Intelligence 2024. [Aufsatz]
A REVIEW OF LARGE LANGUAGE MODELS AND AUTONOMOUS AGENTS IN CHEMISTRY , Preprint 2024. [Aufsatz]
GeneGPT: Erweiterung großer Sprachmodelle mit Domänentools für einen verbesserten Zugang zu biomedizinischen Informationen , ISMB 2024. [Aufsatz]
Ausstattung von Sprachmodellen mit Werkzeugnutzungsfähigkeit für die tabellarische Datenanalyse im Finanzwesen , EACL 2024. [Aufsatz]
Simulation des Finanzmarktes über auf großen Sprachmodellen basierende Agenten , Preprint 2024. [Aufsatz]
Ein multimodaler Basisagent für den Finanzhandel: Tool-erweitert, diversifiziert und generalistisch , KDD 2024. [Aufsatz]
AgentMD: Stärkung von Sprachagenten für die Risikovorhersage durch groß angelegtes klinisches Tool-Lernen , Preprint 2024. [Aufsatz]
SCIAGENT: Tool-augmented Language Models for Scientific Reasoning , EMNLP 2024. [Aufsatz]
MMedAgent: Erlernen des Umgangs mit medizinischen Hilfsmitteln mit multimodalen Agenten , EMNLP 2024-Ergebnisse. [Papier]
Lassen Sie mich das für Sie tun: Auf dem Weg zu LLM-gestützter Empfehlung durch Tool-Learning , SIGIR 2024. [Aufsatz]
DOMAIN-SPECIFIC ReAct FOR PHYSICS-INTEGRATED ITERATIVE MODELING: A CASE STUDY OF LLM AGENTS FOR GAS PATH ANALYSIS OF GAS TURBINES , Preprint 2024. [Papier]
WORLDAPIS: Wie viele APIs ist die Welt wert? Ein Gedankenexperiment , ACL 2024 Workshop. [Papier]
Toolgestützter Agent zur SQL-Inspektion und -Verfeinerung in realen Szenarien , Preprint 2024. [Papier]
HoneyComb: Ein flexibles LLM-basiertes Agentensystem für die Materialwissenschaft , Preprint 2024. [Papier]
Automatisierung und Effizienz.
Planen Sie Tools
ToolQA: Ein Datensatz für die Beantwortung von LLM-Fragen mit externen Tools , NeurIPS 2023. [Papier]
Erinnerungen festlegen
ToolLLM: Erleichterung großer Sprachmodelle zur Beherrschung von mehr als 16.000 realen APIs , ICLR 2024. [Papier]
E-Mails filtern
ToolLLM: Erleichterung großer Sprachmodelle zur Beherrschung von mehr als 16.000 realen APIs , ICLR 2024. [Papier]
Projektmanagement
ToolLLM: Erleichterung großer Sprachmodelle zur Beherrschung von mehr als 16.000 realen APIs , ICLR 2024. [Papier]
Online-Shopping-Assistenten
WebShop: Auf dem Weg zu einer skalierbaren Web-Interaktion in der realen Welt mit geerdeten Sprachagenten , NeurIPS 2022. [Aufsatz]
Interaktionsverbesserung.
Multimodale Tools
Vipergpt: Visuelle Inferenz über Python-Ausführung zur Argumentation , ICCV 2023. [Papier]
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action , Preprint 2023. [Papier]
InternGPT: Lösung visionszentrierter Aufgaben durch Interaktion mit ChatGPT Beyond Language , Preprint 2023. [Aufsatz]
AssistGPT: Ein allgemeiner multimodaler Assistent, der planen, ausführen, prüfen und lernen kann , Preprint 2023. [Papier]
CLOVA: Ein visueller Assistent mit geschlossenem Regelkreis mit Werkzeugnutzung und -aktualisierung , CVPR 2024. [Papier]
DiffAgent: Schnelle und genaue Text-zu-Bild-API-Auswahl mit großem Sprachmodell , CVPR 2024. [Papier]
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning , Preprint 2024. [Papier]
m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks , Preprint 2024. [Papier]
Vom Geringsten zum Höchsten: Aufbau eines Plug-and-Play-Visual Reasoners mittels Datensynthese , Preprint 2024. [Aufsatz]
Maschineller Übersetzer
Toolformer: Sprachmodelle können sich selbst den Umgang mit Werkzeugen beibringen , NeurIPS 2023. [Aufsatz]
Werkzeuglernen mit Grundlagenmodellen , Preprint 2023. [Aufsatz]
Werkzeuge zur Verarbeitung natürlicher Sprache
HuggingGPT: Lösen von KI-Aufgaben mit ChatGPT und seinen Freunden in Hugging Face , NeurIPS 2023. [Papier]
GitAgent: Erleichterung autonomer Agenten mit GitHub durch Tool Extension , Preprint 2023. [Papier]
Chain-of-Thought-Prompting löst Argumentation in großen Sprachmodellen aus , NeurIPS 2022. [Aufsatz]
ReAct: Synergizing Reasoning and Acting in Language Models , ICLR 2023. [Aufsatz]
ART: Automatisches mehrstufiges Denken und Werkzeugnutzung für große Sprachmodelle , Preprint 2023. [Papier]
HuggingGPT: KI-Aufgaben lösen mit ChatGPT und seinen Freunden in Hugging Face , NeurIPS 2023. [Papier]
Graph-ToolFormer: Um LLMs mit Graph Reasoning-Fähigkeiten über Prompt zu stärken, erweitert durch ChatGPT , Preprint 2023. [Papier]
Große Sprachmodelle als Werkzeugmacher , ICLR 2024. [Aufsatz]
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models , EMNLP 2023. [Aufsatz]
ChatCoT: Tool-Augmented Chain-of-Thought Reasoning auf Chat-basierten großen Sprachmodellen , EMNLP 2023. [Aufsatz]
FacTool: Factuality Detection in Generative AI – A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios , Preprint 2023. [Papier]
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage , Preprint 2023. [Papier]
ToolChain*: Effiziente Aktionsraumnavigation in großen Sprachmodellen mit A*-Suche , ICLR 2024. [Aufsatz]
Stärken Sie die kürzeste Aufmerksamkeitsspanne: Verbesserung des Kontextbewusstseins großer Sprachmodelle für eine effektive Werkzeugnutzung , ACL 2024. [Papier]
TroVE: Einführung überprüfbarer und effizienter Toolboxen zur Lösung programmatischer Aufgaben , Preprint 2024. [Papier]
SwissNYF: Tool Grounded LLM Agents for Black Box Setting , Preprint 2024. [Papier]
Von der Zusammenfassung zur Aktion: Verbesserung großer Sprachmodelle für komplexe Aufgaben mit Open-World-APIs , Preprint 2024. [Papier]
Budgetbeschränktes Tool-Lernen mit Planung , ACL 2024-Ergebnisse. [Papier]
Planen und Bearbeiten dessen, was Sie für verbessertes Tool-Lernen abrufen , NAACL 2024. [Papier]
Große Sprachmodelle können Ihre Reisen mit formalen Verifizierungstools rigoros planen , Preprint 2024. [Papier]
Schlümpfe: Nutzung mehrerer Proficiency-Agenten mit Kontexteffizienz für die Werkzeugplanung , Preprint 2024. [Papier]
STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making , Preprint 2024. [Papier]
Chain of Tools: Large Language Model is an Automatic Multi-tool Learner , Preprint 2024. [Papier]
Kann Graph Learning die Planung in LLM-basierten Agenten verbessern? , NeurIPS 2024. [Papier]
Tool-Planner: Dynamische Lösungsbaumplanung für große Sprachmodelle mit Tool-Clustering , Preprint 2024. [Papier]
Tools Fail: Detecting Silent Errors in Faulty Tools , EMNLP 2024. [Papier]
Was beeinflusst die Stabilität des Tool-Lernens? Eine empirische Studie zur Robustheit von Tool-Learning-Frameworks , Preprint 2024. [Aufsatz]
Tulip Agent – Enabling LLM-based Agents to Solve Tasks Using Large Tool Libraries , Preprint 2024. [Papier]
Toolshed: Scale Tool-Equipted Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases , Preprint 2024. [Papier]
Von der Erkundung zur Meisterschaft: LLMs durch selbstgesteuerte Interaktionen in die Lage versetzen, Werkzeuge zu meistern , Preprint 2024. [Aufsatz]
TaskMatrix.AI: Erledigung von Aufgaben durch die Verbindung von Foundation-Modellen mit Millionen von APIs , INTELLIGENT COMPUTING 2024. [Papier]
OpenAGI: Wenn LLM Domänenexperten trifft , Neurips 2023. [Papier]
ToolLLM: Erleichterung großer Sprachmodelle zur Beherrschung von mehr als 16.000 realen APIs , ICLR 2024. [Papier]
Toolink: Verknüpfung der Toolkit-Erstellung und -Nutzung durch Lösungskette im Open-Source-Modell , Preprint 2023. [Papier]
TPTU-v2: Boosting Task Planning and Tool Use of Large Language Model-based Agents in Real-world Systems , ICLR 2024. [Aufsatz]
Navigating Uncertainty: Optimizing API Dependency for Hallucination Reduction in Closed-Book Question Answering , ECIR 2024. [Aufsatz]
Kleine LLMs sind schwache Werkzeuglerner: Ein Multi-LLM-Agent , EMNLP 2024. [Papier]
Effiziente Werkzeugnutzung mit Chain-of-Abstraction Reasoning , Preprint 2024. [Aufsatz]
Schauen Sie, bevor Sie springen: Auf dem Weg zu einer entscheidungsbewussten und verallgemeinerbaren Werkzeugnutzung für große Sprachmodelle , Preprint 2024. [Papier]
A Solution-based LLM API-using Methodology for Academic Information Seeking , Preprint 2024. [Aufsatz]
Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees , NeurIPS 2024. [Aufsatz]
APIGen: Automatisierte Pipeline zur Generierung überprüfbarer und vielfältiger Datensätze mit Funktionsaufrufen , Preprint 2024. [Papier]
MetaTool: Erleichterung der Beherrschung großer Sprachmodelle durch Meta-Task-Augmentation , Preprint 2024. [Papier]
ToolPlanner: Ein Tool-erweitertes LLM für Anweisungen mit mehreren Granularitäten mit Pfadplanung und Feedback , EMNLP 2024. [Papier]
Eine statistische Interpretation der Begriffsspezifität und ihre Anwendung beim Retrieval , Journal of Documentation 1972. [Aufsatz]
Das probabilistische Relevanz-Framework: BM25 und darüber hinaus , Foundations and Trends in Information Retrieval 2009. [Aufsatz]
Satz-Bert: Satzeinbettungen mit siamesischen Bert-Netzwerken , EMNLP 2019. [Aufsatz]
Ungefähres negatives kontrastives Lernen des nächsten Nachbarn für die Suche nach dichtem Text , ICLR 2021. [Aufsatz]
Effizientes Unterrichten eines effektiven Dense Retrievers mit ausgewogener themenbewusster Stichprobe , SIGIR 2021. [Aufsatz]
Unsupervised Corpus Aware Language Model Pre-Training for Dense Passage Retrieval , ACL 2022. [Aufsatz]
Unüberwachter dichter Informationsabruf mit kontrastivem Lernen , Preprint 2021. [Aufsatz]
CRAFT: Anpassen von LLMs durch Erstellen und Abrufen aus spezialisierten Toolsets , ICLR 2024. [Aufsatz]
ProTIP: Progressive Tool Retrieval Improves Planning , Preprint 2023. [Papier]
ToolRerank: Adaptives und hierarchiebewusstes Reranking für den Werkzeugabruf , COLING 2024. [Aufsatz]
Verbesserung der Werkzeugabfrage durch iteratives Feedback aus großen Sprachmodellen , EMNLP 2024-Ergebnisse. [Papier]
Re-Invoke: Umschreiben des Tool-Aufrufs für den Zero-Shot-Tool-Abruf , EMNLP 2024-Ergebnisse. [Papier]
Effiziente und skalierbare Schätzung von Werkzeugdarstellungen im Vektorraum , Preprint 2024. [Aufsatz]
Toolshed: Scale Tool-Equipted Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases , Preprint 2024. [Papier]
COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models , CIKM 2024. [Aufsatz]
Zur Werkzeugmanipulationsfähigkeit von Open-Source-Modellen großer Sprachen , Preprint 2023. [Aufsatz]
Sprachmodelle mit Ausführungsfeedback zu besseren Hilfsmitteln für Lernende machen , NAACL 2024. [Aufsatz]
ToolLLM: Erleichterung großer Sprachmodelle zur Beherrschung von mehr als 16.000 realen APIs , ICLR 2024. [Papier]
Konfuzius: Iteratives Werkzeug Lernen aus Selbstbeobachtungs-Feedback durch einen einfachen bis schwierigen Lehrplan , AAAI 2024. [Aufsatz]
AnyTool: Selbstreflexive, hierarchische Agenten für groß angelegte API-Aufrufe , Preprint 2024. [Papier]
TOOLVERIFIER: Verallgemeinerung auf neue Tools durch Selbstverifizierung , EMNLP 2024-Ergebnisse. [Papier]
ToolNet: Verbinden großer Sprachmodelle mit umfangreichen Tools über Tool Graph , Preprint 2024. [Papier]
GeckOpt: LLM-Systemeffizienz durch absichtsbasierte Werkzeugauswahl , GLSVLSI 2024. [Papier]
AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval , NeurIPS 2024. [Papier]
Auch ein kleiner Agent kann rocken! Stärkung kleiner Sprachmodelle als Halluzinationsdetektor , Preprint 2024. [Papier]
Adaptive Auswahl für homogene Werkzeuge: Eine Instanziierung im RAG-Szenario , EMNLP 2024-Ergebnisse. [Papier]
Von der Erkundung zur Meisterschaft: LLMs durch selbstgesteuerte Interaktionen in die Lage versetzen, Werkzeuge zu meistern , Preprint 2024. [Aufsatz]
RestGPT: Verbindung großer Sprachmodelle mit realen RESTful-APIs , Preprint 2023. [Papier]
Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning , Preprint 2023. [Papier]
GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution , EACL 2023. [Aufsatz]
Tool-Dokumentation ermöglicht Zero-Shot-Tool-Nutzung mit großen Sprachmodellen , Preprint 2023. [Papier]
ControlLLM: Erweitern Sie Sprachmodelle mit Tools durch die Suche in Diagrammen , Preprint 2023. [Papier]
EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction , Preprint 2024. [Papier]
Große Sprachmodelle als Zero-Shot Dialogue State Tracker durch Funktionsaufrufe , ACL 2024. [Aufsatz]
Prägnante und präzise Kontextkomprimierung für Tool-verwendende Sprachmodelle , ACL 2024-Ergebnisse. [Papier]
Gorilla: Großes Sprachmodell verbunden mit massiven APIs , NeurIPS 2024. [Papier]
GPT4Tools: Lehren eines großen Sprachmodells zur Verwendung von Tools durch Selbstunterricht , NeurIPS 2023. [Aufsatz]
ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings , NeurIPS 2023. [Papier]
Tool-Augmented Reward Modeling , ICLR 2024. [Aufsatz]
LLMs im Imaginarium: Werkzeuglernen durch simuliertes Ausprobieren , ACL 2024. [Aufsatz]
ToolACE: Winning the Points of LLM Function Calling , Preprint 2024. [Papier]
CITI: Verbesserung des Tools zur Nutzung der Fähigkeiten in großen Sprachmodellen ohne Einbußen bei der allgemeinen Leistung , Preprint 2024. [Papier]
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs , EMNLP 2024. [Aufsatz]
TALM: Tool Augmented Language Models , Preprint 2022. [Aufsatz]
Toolformer: Sprachmodelle können sich selbst den Umgang mit Werkzeugen beibringen , NeurIPS 2023. [Aufsatz]
A Comprehensive Evaluation of Tool-Assisted Generation Strategies , EMNLP 2023. [Aufsatz]
TPE: Auf dem Weg zu einem besseren kompositorischen Denken gegenüber konzeptionellen Werkzeugen durch Zusammenarbeit mit mehreren Personen , Preprint 2023. [Aufsatz]
RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation , ICLR 2024. [Artikel]
Lernen, Tools über kooperative und interaktive Agenten zu nutzen , EMNLP 2024-Ergebnisse. [Papier]
Benchmark | Referenz | Beschreibung | #Werkzeuge | #Instanzen | Link | Release-Zeit |
---|---|---|---|---|---|---|
API-Bank | [Papier] | Bewertung der Fähigkeiten der vorhandenen LLMs beim Planen, Abrufen und Aufrufen von APIs. | 73 | 314 | [Repo] | 2023-04 |
APIBench | [Papier] | Ein umfassender Benchmark, der aus TorchHub-, TensorHub- und HuggingFace-API-Modellkarten erstellt wurde. | 1.645 | 16.450 | [Repo] | 2023-05 |
ToolBench1 | [Papier] | Ein Tool-Manipulations-Benchmark, bestehend aus verschiedenen Software-Tools für reale Aufgaben. | 232 | 2.746 | [Repo] | 2023-05 |
WerkzeugAlpaka | [Papier] | Bewertung der Fähigkeit von LLMs, bisher nicht dagewesene Tools ohne spezielle Schulung zu nutzen. | 426 | 3.938 | [Repo] | 2023-06 |
Ruhebank | [Papier] | Ein hochwertiger Benchmark, der aus zwei realen Szenarien und von Menschen kommentierten Anweisungen mit goldenen Lösungspfaden besteht. | 94 | 157 | [Repo] | 2023-06 |
ToolBench2 | [Papier] | Ein Datensatz zur Befehlsoptimierung für die Tool-Nutzung, der automatisch mit ChatGPT erstellt wird. | 16.464 | 126.486 | [Repo] | 2023-07 |
MetaTool | [Papier] | Ein Benchmark zur Bewertung, ob LLMs über ein Bewusstsein für die Werkzeugnutzung verfügen und Werkzeuge richtig auswählen können. | 199 | 21.127 | [Repo] | 2023-10 |
TaskBench | [Papier] | Ein Benchmark zur Bewertung der Leistungsfähigkeit von LLMs unter verschiedenen Aspekten, einschließlich Aufgabenzerlegung, Toolaufruf und Parametervorhersage. | 103 | 28.271 | [Repo] | 2023-11 |
T-Bewertung | [Papier] | Schritt für Schritt die Tool-Nutzungsfähigkeit bewerten. | 15 | 533 | [Repo] | 2023-12 |
ToolEyes | [Papier] | Ein feinkörniges System, das auf die Bewertung der Tool-Learning-Fähigkeiten der LLMs in authentischen Szenarien zugeschnitten ist. | 568 | 382 | [Repo] | 2024-01 |
UltraTool | [Papier] | Ein neuartiger Benchmark zur Verbesserung und Bewertung der Fähigkeit von LLMs zur Werkzeugnutzung in realen Szenarien. | 2.032 | 5.824 | [Repo] | 2024-01 |
API-BLEND | [Papier] | Ein großes Korpora für die Schulung und systematische Prüfung von werkzeuggestützten LLMs. | - | 189.040 | [Repo] | 2024-02 |
Dichtungswerkzeuge | [Papier] | Seal-Tools enthält harte Instanzen, die mehrere Tools aufrufen, um den Job abzuschließen, darunter einige verschachtelte Tool-Aufrufe. | 4.076 | 14.076 | [Repo] | 2024-05 |
ToolQA | [Papier] | Es wurde entwickelt, um die Fähigkeit von LLMs, externe Tools zur Beantwortung von Fragen zu verwenden, zuverlässig zu bewerten. (QA) | 13 | 1.530 | [Repo] | 2023-06 |
ToolEmu | [Papier] | Ein Framework, das einen LM verwendet, um die Tool-Ausführung zu emulieren und skalierbare Tests von LM-Agenten anhand einer Vielzahl von Tools und Szenarien ermöglicht. (Sicherheit) | 311 | 144 | [Repo] | 2023-09 |
ToolTalk | [Papier] | Ein Benchmark, der aus komplexen Benutzerabsichten besteht, die eine mehrstufige Werkzeugnutzung erfordern, die durch Dialog spezifiziert wird. (Konversation) | 28 | 78 | [Repo] | 2023-11 |
VIoT | [Papier] | Ein Benchmark umfasst einen Trainingsdatensatz und etablierte Leistungsmetriken für 11 repräsentative Sehmodelle, die mithilfe halbautomatischer Anmerkungen in drei Gruppen kategorisiert werden. (VIoT) | 11 | 1.841 | [Repo] | 2023-12 |
RoTBench | [Papier] | Ein mehrstufiger Benchmark zur Bewertung der Robustheit von LLMs beim Tool-Lernen. (Robustheit) | 568 | 105 | [Repo] | 2024-01 |
MLLM-Tool | [Papier] | Ein System, das Open-Source-LLMs und multimodale Encoder integriert, damit die erlernten LLMs multimodale Eingabeanweisungen berücksichtigen und dann das funktionsangepasste Werkzeug richtig auswählen können. (Multimodal) | 932 | 11.642 | [Repo] | 2024-01 |
WerkzeugSchwert | [Papier] | Ein umfassender Rahmen, der sich der sorgfältigen Untersuchung von Sicherheitsproblemen im Zusammenhang mit LLMs beim Lernen von Werkzeugen widmet. (Sicherheit) | 100 | 440 | [Repo] | 2024-02 |
SciToolBench | [Papier] | Umfasst fünf wissenschaftliche Bereiche zur Bewertung der Fähigkeiten von LLMs mit Werkzeugunterstützung. (Sci-Reasoning) | 2.446 | 856 | [Repo] | 2024-02 |
InjecAgent | [Papier] | Ein Benchmark zur Bewertung der Anfälligkeit von in Tools integrierten LLM-Agenten für IPI-Angriffe. (Sicherheit) | 17 | 1.054 | [Repo] | 2024-02 |
StableToolBench | [Papier] | Ein Benchmark, der sich aus ToolBench entwickelt und einen virtuellen API-Server und ein stabiles Bewertungssystem vorschlägt. (Stabil) | 16.464 | 126.486 | [Repo] | 2024-03 |
M&Ms | [Papier] | Ein Benchmark mit mehrstufigen multimodalen 4K-Aufgaben mit 33 Tools, darunter multimodale Modelle, öffentliche APIs und Bildverarbeitungsmodule. (Multimodal) | 33 | 4.427 | [Repo] | 2024-03 |
GeoLLM-QA | [Papier] | Ein neuartiger Benchmark von 1.000 verschiedenen Aufgaben, der zur Erfassung komplexer RS-Workflows entwickelt wurde, bei denen LLMs komplexe Datenstrukturen, differenzierte Argumentation und Interaktionen mit dynamischen Benutzeroberflächen verarbeiten. (Fernerkundung) | 117 | 1.000 | [Repo] | 2024-04 |
ToolLens | [Papier] | ToolLens umfasst prägnante, aber bewusst vielfältige Abfragen, die reale Benutzerinteraktionen besser nachahmen. (Werkzeugabholung) | 464 | 18.770 | [Repo] | 2024-05 |
SoAyBench | [Papier] | Eine lösungsbasierte LLM-API-verwendende Methodik für die Suche nach akademischen Informationen | 7 | 792 | [Repo], [HF] | 2024-05 |
ToolBH | [Papier] | Ein Benchmark, der die Halluzinationen des LLM aus zwei Perspektiven bewertet: Tiefe und Breite. | - | 700 | [Repo] | 2024-06 |
ShortcutsBench | [Papier] | Ein groß angelegter realer Benchmark für API-basierte Agenten | 1414 | 7627 | [Repo] | 2024-07 |
GTA | [Papier] | Ein Benchmark für allgemeine Tool-Agenten | 14 | 229 | [Repo] | 2024-07 |
WTU-Eval | [Papier] | Ein Benchmark zur Bewertung der Toolnutzung für große Sprachmodelle | 4 | 916 | [Repo] | 2024-07 |
AppWorld | [Papier] | Eine Sammlung komplexer Alltagsaufgaben, die interaktives Codieren mit API-Aufrufen erfordern | 457 | 750 | [Repo] | 2024-07 |
ToolSandbox | [Papier] | Ein zustandsbehafteter, dialogorientierter und interaktiver Tool-Nutzungs-Benchmark. | 34 | 1032 | [Repo] | 2024-08 |
CToolEval | [Papier] | Ein Benchmark zur Bewertung von LLMs im Kontext chinesischer gesellschaftlicher Anwendungen. | 27 | 398 | [Repo] | 2024-08 |
NoisyToolBench | [Papier] | Dieser Benchmark umfasst eine Sammlung bereitgestellter APIs, mehrdeutiger Abfragen, erwarteter Fragen zur Klärung und der entsprechenden Antworten. | - | 200 | [Repo] | 2024-09 |
Aufgabenplanung
Bewusstsein für die Nutzung von Werkzeugen
MetaTool-Benchmark: Entscheiden, ob und welche Tools verwendet werden sollen , ICLR 2024. [Papier]
Können Tool-erweiterte große Sprachmodelle unvollständige Bedingungen erkennen? , Preprint 2024. [Papier]
Erfolgsquote und Gewinnquote
ToolLLM: Erleichterung großer Sprachmodelle zur Beherrschung von mehr als 16.000 realen APIs , ICLR 2024. [Papier]
Genauigkeit
T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step , ACL 2024. [Aufsatz]
RestGPT: Verbinden großer Sprachmodelle mit realen RESTful-APIs , Preprint 2023. [Papier]
A Solution-based LLM API-using Methodology for Academic Information Seeking , Preprint 2024. [Aufsatz]
Werkzeugauswahl
Präzision
ShortcutsBench: A Large-Scale Real-World Benchmark for API-based Agents , Preprint 2024. [Papier]
Abrufen
Rückruf, Präzision und durchschnittliche Präzision , Department of Statistics and Actuarial Science 2004. [Aufsatz]
NDCG
Kumulierte gewinnbasierte Bewertung von IR-Techniken , TOIS 2002. [Aufsatz]
COMP
COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models , CIKM 2024. [Aufsatz]
Werkzeugaufruf
Im Einklang mit den Bestimmungen
T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step , ACL 2024. [Aufsatz]
Planen und Bearbeiten dessen, was Sie für verbessertes Tool-Lernen abrufen , NAACL 2024. [Papier]
ToolEyes: Feinkörnige Bewertung der Tool-Lernfähigkeiten großer Sprachmodelle in realen Szenarien , Preprint 2024. [Paper3]
ShortcutsBench: A Large-Scale Real-World Benchmark for API-based Agents , Preprint 2024. [Papier]
Antwortgenerierung
BLEU
Bleu: eine Methode zur automatischen Bewertung maschineller Übersetzung , ACL 2002. [Aufsatz]
ROUGE
Rouge: Ein Paket zur automatischen Auswertung von Zusammenfassungen , ACL 2004. [Aufsatz]
Genaue Übereinstimmung
cem: Coarsened Exact Matching in Stata , The Stata Journal 2009. [Aufsatz]
Parameterfüllung
Präzision
ShortcutsBench: A Large-Scale Real-World Benchmark for API-based Agents , Preprint 2024. [Papier]
ToolLearningPapers. [Repo]
awesome-tool-llm. [Repo]
awesome-llm-tool-learning. [Repo]
Augmented Language Models: a Survey , TMLR 2024. [Aufsatz]
Werkzeuglernen mit Grundlagenmodellen , Preprint 2024. [Aufsatz]
Was sind überhaupt Werkzeuge? Eine Umfrage aus der Perspektive des Sprachmodells , COLM 2024. [Aufsatz]