最近,使用大型语言模型(LLM)进行工具学习已成为增强 LLM 解决高度复杂问题能力的有前途的范例。
这是与法学硕士工具学习相关的论文集。这些论文是根据我们的调查论文“大型语言模型的工具学习:调查”进行组织的。
中文:我们注意到PaperAgent和旺知识分别提供了简短和全面的中文介绍。我们非常感谢他们的帮助。
?我们的调查论文被计算机科学前沿 (FCS)接受。我们论文的最新版本已经发布;请检查一下!
如果您有任何问题或建议,请随时联系我们!
??请随时提出问题或提出拉取请求! ??
如果您发现我们的工作对您的研究有帮助,请引用我们的论文:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
最近,使用大型语言模型 (LLM) 进行工具学习已成为增强 LLM 解决高度复杂问题能力的有前景的范式。尽管该领域受到越来越多的关注并取得了迅速的进展,但现有的文献仍然支离破碎,缺乏系统的组织,给新人带来了进入障碍。这一差距促使我们对法学硕士工具学习的现有工作进行全面调查。在本次调查中,我们重点从两个主要方面回顾现有文献(1)为什么工具学习是有益的以及(2)如何实施工具学习,从而使法学硕士能够全面了解工具学习。我们首先从六个具体方面回顾工具集成的好处和工具学习范式的固有好处,来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程中四个关键阶段的分类系统地回顾了文献:任务规划、工具选择、工具调用和响应生成。此外,我们还对现有基准和评估方法进行了详细总结,并根据其与不同阶段的相关性对其进行了分类。最后,我们讨论当前的挑战并概述未来潜在的方向,旨在激励研究人员和工业开发人员进一步探索这个新兴且有前途的领域。
知识获取。
搜索引擎
互联网增强对话生成,ACL 2022。[论文]
WebGPT:带有人工反馈的浏览器辅助问答,预印本 2021。[论文]
通过少量提示进行开放域问答的互联网增强语言模型,预印本 2022。[论文]
REPLUG:检索增强黑盒语言模型,预印本 2023。[论文]
Toolformer:语言模型可以自学使用工具,NeurIPS 2023。[论文]
ART:大型语言模型的自动多步骤推理和工具使用,预印本 2023。[论文]
ToolCoder:教代码生成模型使用 API 搜索工具,预印本 2023。[论文]
CRITIC:大型语言模型可以通过工具交互式批评进行自我纠正,ICLR 2024。[论文]
数据库和知识图谱
Lamda:对话应用程序的语言模型,预印本 2022。[论文]
Gorilla:与海量 API 连接的大型语言模型,NeurIPS 2024。[论文]
ToolkenGPT:通过工具嵌入使用大量工具增强冻结语言模型,NeurIPS 2023。[论文]
ToolQA:使用外部工具进行 LLM 问答的数据集,NeurIPS 2023。[论文]
通过有限状态解码为法学硕士使用语法无错误且可推广的工具,NeurIPS 2023。[论文]
LLM 中间件:复杂环境中语言代理的工具很有用,EMNLP 2024。[论文]
天气或地图
论开源大语言模型的工具操控能力,NeurIPS 2023。[论文]
ToolAlpaca:通过 3000 个模拟案例进行语言模型的广义工具学习,预印本 2023 年。[论文]
使用基础模型进行工具学习,预印本 2023。[论文]
专业知识增强。
数学工具
培训验证者解决数学应用题,预印本 2021。[论文]
MRKL 系统:一种模块化的神经符号架构,结合了大型语言模型、外部知识源和离散推理,预印本 2021。[论文]
数字推理的链接同时思想,EMNLP 2022。[论文]
Calc-X 和 Calcformers:通过与符号系统的交互增强算术思维链,EMNLP 2023。[论文]
通过将语言模型与符号求解器相结合来解决数学应用题,NeurIPS 2023。[论文]
评估和改进工具增强计算密集型数学推理,NeurIPS 2023。[论文]
ToRA:用于解决数学问题的工具集成推理代理,ICLR 2024。[论文]
MATHSENSEI:用于数学推理的工具增强大型语言模型,预印本 2024。[论文]
Calc-CMU at SemEval-2024 任务 7:预计算 - 学习使用计算器提高语言模型的计算能力,NAACL 2024。[论文]
MathViz-E:领域专用工具使用代理的案例研究,预印本 2024。[论文]
Python解释器
Pal:程序辅助语言模型,ICML 2023。[论文]
思路提示:将计算与数值推理任务的推理分开,TMLR 2023。[论文]
使用程序引导推理对复杂声明进行事实核查,ACL 2023。[论文]
Chameleon:使用大型语言模型进行即插即用的组合推理,NeurIPS 2023。[论文]
LeTI:学习从文本交互生成,NAACL 2024。[论文]
Mint:利用工具和语言反馈评估多轮交互中的 llms ,ICLR 2024。[论文]
可执行代码操作引发更好的 LLM 代理,ICML 2024。[论文]
CodeNav:超越工具使用,通过 LLM 代理使用真实世界的代码库,预印本 2024。[论文]
APPL:一种用于程序和大型语言模型提示和谐集成的提示编程语言,预印本 2024。[论文]
BigCodeBench:使用多样化函数调用和复杂指令对代码生成进行基准测试,预印本 2024。[论文]
CodeAgent:通过工具集成代理系统增强代码生成,应对现实世界的存储库级编码挑战,ACL 2024。[论文]
MuMath-Code:将工具使用的大型语言模型与多视角数据增强相结合进行数学推理,EMNLP 2024。[论文]
其他的
MultiTool-CoT:GPT-3 可以使用多个具有思想链提示的外部工具,ACL 2023。[论文]
ChemCrow:使用化学工具增强大语言模型,Nature Machine Intelligence 2024。[论文]
化学中的大型语言模型和自主代理综述,预印本 2024。[论文]
GeneGPT:使用领域工具增强大型语言模型以改善对生物医学信息的访问,ISMB 2024。[论文]
为语言模型配备金融表格数据分析工具使用功能,EACL 2024。[论文]
通过基于大型语言模型的代理模拟金融市场,预印本 2024。[论文]
金融交易的多模式基础代理:工具增强、多样化和通才,KDD 2024。[论文]
AgentMD:通过大规模临床工具学习增强语言代理的风险预测能力,预印本 2024 年。[论文]
SCIAGENT:用于科学推理的工具增强语言模型,EMNLP 2024。[论文]
MMedAgent:学习使用多模式代理的医疗工具,EMNLP 2024 年调查结果。 [纸]
让我为您做:通过工具学习迈向法学硕士授权推荐,SIGIR 2024。[论文]
用于物理集成迭代建模的特定领域 React:用于燃气轮机气体路径分析的 LLM 代理案例研究,预印本 2024 年。[论文]
WORLDAPIS:世界值多少 API?思想实验,ACL 2024 研讨会。 [纸]
现实场景中 SQL 检查和优化的工具辅助代理,预印本 2024。[论文]
HoneyComb:基于 LLM 的灵活材料科学代理系统,预印本 2024。[论文]
自动化和效率。
日程安排工具
ToolQA:使用外部工具进行 LLM 问答的数据集,NeurIPS 2023。[论文]
设置提醒
ToolLLM:促进大型语言模型掌握 16000 多个实际 API ,ICLR 2024。[论文]
过滤电子邮件
ToolLLM:促进大型语言模型掌握 16000 多个实际 API ,ICLR 2024。[论文]
项目管理
ToolLLM:促进大型语言模型掌握 16000 多个实际 API ,ICLR 2024。[论文]
网上购物助理
WebShop:通过接地语言代理实现可扩展的现实世界 Web 交互,NeurIPS 2022。[论文]
互动增强。
多模式工具
Vipergpt:通过 python 执行进行视觉推理进行推理,ICCV 2023。[论文]
MM-REACT:提示 ChatGPT 进行多模式推理和行动,预印本 2023。[论文]
InternGPT:通过与超越语言的 ChatGPT 交互来解决以视觉为中心的任务,预印本 2023。[论文]
AssistGPT:可以规划、执行、检查和学习的通用多模式助手,预印本 2023。[论文]
CLOVA:具有工具使用和更新的闭环视觉助手,CVPR 2024。[论文]
DiffAgent:使用大型语言模型快速准确地选择文本到图像 API ,CVPR 2024。[论文]
MLLM-Tool:用于工具代理学习的多模态大型语言模型,预印本 2024。[论文]
m&m's:评估多步骤多模式任务工具使用的基准,预印本 2024。[论文]
从最少到最多:通过数据合成构建即插即用的视觉推理机,预印本 2024。[论文]
机器翻译
Toolformer:语言模型可以自学使用工具,NeurIPS 2023。[论文]
使用基础模型进行工具学习,预印本 2023。[论文]
自然语言处理工具
HuggingGPT:在 Hugging Face 中使用 ChatGPT 及其朋友解决 AI 任务,NeurIPS 2023。[论文]
GitAgent:通过工具扩展使用 GitHub 促进自治代理,预印本 2023。[论文]
思想链提示引发大型语言模型中的推理,NeurIPS 2022。[论文]
ReAct:在语言模型中协同推理和行动,ICLR 2023。[论文]
ART:大型语言模型的自动多步骤推理和工具使用,预印本 2023。[论文]
HuggingGPT:在 Hugging Face 中使用 ChatGPT 及其朋友解决 AI 任务,NeurIPS 2023。[论文]
Graph-ToolFormer:通过 ChatGPT 增强的提示赋予 LLM 图形推理能力,预印本 2023 年。[论文]
作为工具制造商的大型语言模型,ICLR 2024。[论文]
创建者:用于解开大型语言模型的抽象和具体推理的工具创建,EMNLP 2023。[论文]
ChatCoT:基于聊天的大型语言模型的工具增强思想链推理,EMNLP 2023。[论文]
FacTool:生成式 AI 中的事实检测——用于多任务和多领域场景的工具增强框架,预印本 2023 年。[论文]
TPTU:用于任务规划和工具使用的基于大型语言模型的 AI 代理,预印本 2023。[论文]
ToolChain*:使用 A* 搜索在大型语言模型中进行高效动作空间导航,ICLR 2024。[论文]
强化最短的注意力:增强大型语言模型的上下文意识以有效使用工具,ACL 2024。[论文]
TroVE:引入可验证且高效的工具箱来解决编程任务,预印本 2024。[论文]
SwissNYF:用于黑盒设置的工具接地法学硕士代理,预印本 2024。[论文]
从总结到行动:使用开放世界 API 增强复杂任务的大型语言模型,预印本 2024。[论文]
预算有限的工具学习与规划,ACL 2024 研究结果。 [纸]
规划和编辑检索内容以增强工具学习,NAACL 2024。[论文]
大型语言模型可以使用形式验证工具严格规划您的旅行,预印本 2024。[论文]
Smurfs:利用具有情境效率的多个熟练代理进行工具规划,预印本 2024 年。[论文]
STRIDE:用于战略和交互式决策的工具辅助 LLM 代理框架,预印本 2024 年。[论文]
工具链:大型语言模型是一种自动多工具学习器,预印本 2024。[论文]
图学习可以改善基于 LLM 的代理的规划吗? ,NeurIPS 2024。[论文]
Tool-Planner:使用工具聚类的大型语言模型的动态解决方案树规划,预印本 2024。[论文]
工具失败:检测故障工具中的静默错误,EMNLP 2024。[论文]
是什么影响了工具学习的稳定性?关于工具学习框架稳健性的实证研究,预印本 2024。[论文]
Tulip Agent——启用基于 LLM 的代理使用大型工具库解决任务,预印本 2024。[论文]
Toolshed:使用高级 RAG 工具融合和工具知识库扩展配备工具的代理,预印本 2024 年。[论文]
从探索到掌握:法学硕士通过自我驱动的互动掌握工具,预印本 2024 年。[论文]
TaskMatrix.AI:通过将基础模型与数百万个 API 连接来完成任务,智能计算 2024。[论文]
OpenAGI:当法学硕士遇到领域专家时,Neurips 2023。[论文]
ToolLLM:促进大型语言模型掌握 16000 多个实际 API ,ICLR 2024。[论文]
Toollink:通过开源模型上的解决链将工具包的创建和使用联系起来,预印本 2023。[论文]
TPTU-v2:在现实系统中促进基于大型语言模型的代理的任务规划和工具使用,ICLR 2024。[论文]
应对不确定性:优化 API 依赖性以减少闭卷问答中的幻觉,ECIR 2024。[论文]
小型法学硕士是弱工具学习者:多法学硕士代理,EMNLP 2024。[论文]
通过抽象链推理实现高效工具的使用,预印本 2024。[论文]
三思而后行:面向大型语言模型的决策感知和可推广工具使用,预印本 2024。[论文]
基于解决方案的 LLM API 使用学术信息检索方法,预印本 2024。[论文]
推进工具增强型大型语言模型:整合推理树中错误的见解,NeurIPS 2024。[论文]
APIGen:用于生成可验证和多样化函数调用数据集的自动化管道,预印本 2024。[论文]
MetaTool:通过元任务增强促进大型语言模型掌握工具,预印本 2024。[论文]
ToolPlanner:用于具有路径规划和反馈的多粒度指令的工具增强法学硕士,EMNLP 2024。[论文]
术语特异性的统计解释及其在检索中的应用,文献杂志 1972 年。[论文]
概率相关性框架:BM25 及以后,2009 年信息检索的基础和趋势。[论文]
Sentence-bert:使用暹罗 bert 网络进行句子嵌入,EMNLP 2019。[论文]
用于密集文本检索的近似最近邻负对比学习,ICLR 2021。[论文]
通过平衡主题感知采样有效地教授有效的密集检索器,SIGIR 2021。[论文]
用于密集段落检索的无监督语料库感知语言模型预训练,ACL 2022。[论文]
使用对比学习的无监督密集信息检索,预印本 2021。[论文]
CRAFT:通过创建和检索专用工具集来定制法学硕士,ICLR 2024。[论文]
ProTIP:渐进式工具检索改进规划,预印本 2023。[论文]
ToolRerank:工具检索的自适应和层次结构感知重排序,COLING 2024。[论文]
通过大型语言模型的迭代反馈增强工具检索,EMNLP 2024 研究结果。 [纸]
重新调用:零次工具检索的工具调用重写,EMNLP 2024 研究结果。 [纸]
向量空间中工具表示的高效且可扩展的估计,预印本 2024。[论文]
Toolshed:使用高级 RAG 工具融合和工具知识库扩展配备工具的代理,预印本 2024 年。[论文]
COLT:面向大型语言模型的完整性导向工具检索,CIKM 2024。[论文]
论开源大语言模型的工具操纵能力,预印本 2023。 [论文]
通过执行反馈使语言模型成为更好的工具学习者,NAACL 2024。[论文]
ToolLLM:促进大型语言模型掌握 16000 多个实际 API ,ICLR 2024。[论文]
孔子:从易到难的课程内省反馈中的迭代工具学习,AAAI 2024。[论文]
AnyTool:用于大规模 API 调用的自我反思、分层代理,预印本 2024。[论文]
TOOLVERIFIER:通过自我验证推广新工具,EMNLP 2024 年调查结果。 [纸]
ToolNet:通过工具图连接大型语言模型与海量工具,预印本 2024。[论文]
GeckOpt:通过基于意图的工具选择提高 LLM 系统效率,GLSVLSI 2024。[论文]
AvaTaR:优化 LLM 代理以实现工具辅助知识检索,NeurIPS 2024。[论文]
小代理也能摇滚!授权小语言模型作为幻觉检测器,预印本 2024。[论文]
同质工具的自适应选择:RAG 场景中的实例,EMNLP 2024 研究结果。 [纸]
从探索到掌握:法学硕士通过自我驱动的互动掌握工具,预印本 2024 年。[论文]
RestGPT:将大型语言模型与现实世界的 RESTful API 连接起来,预印本 2023 年。[论文]
反向链:法学硕士掌握多 API 规划的通用规则,预印本 2023 年。[论文]
GEAR:通过可泛化且高效的工具解析增强语言模型,EACL 2023。[论文]
工具文档支持大型语言模型的零次工具使用,预印本 2023。[论文]
ControlLLM:通过搜索图来使用工具增强语言模型,预印本 2023。[论文]
EASYTOOL:通过简洁的工具指令增强基于 LLM 的代理,预印本 2024。[论文]
通过函数调用作为零样本对话状态跟踪器的大型语言模型,ACL 2024。[论文]
针对工具使用语言模型的简洁而精确的上下文压缩,ACL 2024 研究结果。 [纸]
Gorilla:与海量 API 连接的大型语言模型,NeurIPS 2024。[论文]
GPT4Tools:通过自学教授大型语言模型使用工具,NeurIPS 2023。[论文]
ToolkenGPT:通过工具嵌入使用大量工具增强冻结语言模型,NeurIPS 2023。[论文]
工具增强奖励模型,ICLR 2024。[论文]
Imaginarium 中的法学硕士:通过模拟试错进行工具学习,ACL 2024。[论文]
ToolACE:赢得 LLM 函数调用的要点,预印本 2024。[论文]
CITI:在不牺牲一般性能的情况下增强大型语言模型中的工具利用能力,预印本 2024。[论文]
质量很重要:评估使用工具的法学硕士的综合数据,EMNLP 2024。[论文]
TALM:工具增强语言模型,预印本 2022。[论文]
Toolformer:语言模型可以自学使用工具,NeurIPS 2023。[论文]
工具辅助生成策略的综合评估,EMNLP 2023。[论文]
TPE:通过多人协作实现比概念工具更好的组合推理,预印本 2023。[论文]
RECOMP:通过压缩和选择性增强改进检索增强 LM ,ICLR 2024。[论文]
通过合作和交互代理学习使用工具,EMNLP 2024 研究结果。 [纸]
基准 | 参考 | 描述 | #工具 | #实例 | 关联 | 发布时间 |
---|---|---|---|---|---|---|
API银行 | [纸] | 评估现有法学硕士在规划、检索和调用 API 方面的能力。 | 73 | 314 | [回购] | 2023年4月 |
API基准测试平台 | [纸] | 由 TorchHub、TensorHub 和 HuggingFace API 模型卡构建的综合基准测试。 | 1,645 | 16,450 | [回购] | 2023年5月 |
工具台1 | [纸] | 工具操作基准由用于实际任务的各种软件工具组成。 | 第232章 | 2,746 | [回购] | 2023年5月 |
工具羊驼 | [纸] | 评估法学硕士在未经特定培训的情况下使用以前未见过的工具的能力。 | 第426章 | 3,938 | [回购] | 2023年6月 |
休息凳 | [纸] | 一个高质量的基准,由两个真实场景和带有黄金解决方案路径的人工注释指令组成。 | 94 | 157 | [回购] | 2023年6月 |
工具台2 | [纸] | 供工具使用的指令调整数据集,使用 ChatGPT 自动构建。 | 16,464 | 126,486 | [回购] | 2023年7月 |
元工具 | [纸] | 旨在评估LLM是否具有工具使用意识并能够正确选择工具的基准。 | 199 | 21,127 | [回购] | 2023年10月 |
任务台 | [纸] | 旨在从不同方面评估法学硕士能力的基准,包括任务分解、工具调用和参数预测。 | 103 | 28,271 | [回购] | 2023年11月 |
T-评估 | [纸] | 逐步评估工具利用能力。 | 15 | 第533章 | [回购] | 2023年12月 |
工具眼 | [纸] | 专为评估法学硕士在真实场景中的工具学习能力而定制的细粒度系统。 | 第568章 | 第382章 | [回购] | 2024年01月 |
超工具 | [纸] | 一个新颖的基准,旨在提高和评估法学硕士在现实场景中使用工具的能力。 | 2,032 | 5,824 | [回购] | 2024年01月 |
API-混合 | [纸] | 用于工具增强法学硕士培训和系统测试的大型语料库。 | - | 189,040 | [回购] | 2024年02月 |
密封工具 | [纸] | Seal-Tools 包含调用多个工具来完成工作的硬实例,其中一些是嵌套的工具调用。 | 4,076 | 14,076 | [回购] | 2024年5月 |
工具质量保证 | [纸] | 它旨在忠实地评估法学硕士使用外部工具进行问答的能力。(QA) | 13 | 1,530 | [回购] | 2023年6月 |
工具Emu | [纸] | 一个使用 LM 模拟工具执行并支持针对各种工具和场景对 LM 代理进行可扩展测试的框架。(安全) | 311 | 144 | [回购] | 2023年9月 |
工具谈话 | [纸] | 由复杂的用户意图组成的基准,需要通过对话指定多步骤工具的使用。(对话) | 28 | 78 | [回购] | 2023年11月 |
车联网 | [纸] | 基准包括训练数据集和 11 个代表性视觉模型的既定性能指标,使用半自动注释将其分为三组。(VIoT) | 11 | 1,841 | [回购] | 2023年12月 |
罗特长凳 | [纸] | 用于评估法学硕士在工具学习中的稳健性的多级基准。(稳健性) | 第568章 | 105 | [回购] | 2024年01月 |
MLLM工具 | [纸] | 一个结合开源LLM和多模态编码器的系统,使学习的LLM能够意识到多模态输入指令,然后正确选择功能匹配的工具。(多模态) | 第932章 | 11,642 | [回购] | 2024年01月 |
工具剑 | [纸] | 一个全面的框架,致力于仔细调查与工具学习中的法学硕士相关的安全问题。(安全) | 100 | 第440章 | [回购] | 2024年02月 |
科学工具台 | [纸] | 跨越五个科学领域,通过工具协助评估法学硕士的能力。(科学推理) | 2,446 | 第856章 | [回购] | 2024年02月 |
注射剂 | [纸] | 旨在评估工具集成的 LLM 代理对 IPI 攻击的脆弱性的基准。(安全) | 17 号 | 1,054 人 | [回购] | 2024年02月 |
稳定工具台 | [纸] | 从ToolBench演变而来的基准测试,提出虚拟API服务器和稳定的评估系统。(稳定) | 16,464 | 126,486 | [回购] | 2024年3月 |
巧克力豆 | [纸] | 包含 4K+ 多步骤多模态任务的基准测试,涉及 33 个工具,包括多模态模型、公共 API 和图像处理模块。(多模态) | 33 | 4,427 | [回购] | 2024年3月 |
地质学质量保证 | [纸] | 1,000 个不同任务的新颖基准,旨在捕获复杂的 RS 工作流程,其中法学硕士处理复杂的数据结构、细致入微的推理以及与动态用户界面的交互。(遥感) | 117 | 1,000 | [回购] | 2024年4月 |
工具透镜 | [纸] | ToolLens 包含简洁但有意的多方面查询,可以更好地模拟现实世界的用户交互。 (工具检索) | 第464章 | 18,770 | [回购] | 2024年5月 |
SoAyBench | [纸] | 基于解决方案的 LLM API 使用学术信息检索方法 | 7 | 第792章 | [回购],[HF] | 2024年5月 |
工具BH | [纸] | 通过深度和广度两个角度评估法学硕士幻觉的基准。 | - | 700 | [回购] | 2024年6月 |
快捷方式长凳 | [纸] | 基于 API 的代理的大规模真实世界基准 | 1414 | 7627 | [回购] | 2024年7月 |
大多伦多地区 | [纸] | 通用工具代理的基准 | 14 | 229 | [回购] | 2024年7月 |
WTU-评估 | [纸] | 大型语言模型是否使用工具评估基准 | 4 | 916 | [回购] | 2024年7月 |
应用世界 | [纸] | 需要通过 API 调用进行交互式编码的复杂日常任务的集合 | 第457章 | 750 | [回购] | 2024年7月 |
工具沙箱 | [纸] | 一个有状态、对话式和交互式的工具使用基准。 | 34 | 1032 | [回购] | 2024年8月 |
CToolEval | [纸] | 旨在评估中国社会应用背景下的法学硕士的基准。 | 27 | 第398章 | [回购] | 2024年8月 |
嘈杂的工具台 | [纸] | 该基准包括一系列提供的 API、不明确的查询、需要澄清的预期问题以及相应的响应。 | - | 200 | [回购] | 2024年9月 |
任务规划
工具使用意识
MetaTool 基准:决定是否使用工具以及使用哪些工具,ICLR 2024。[论文]
工具增强的大型语言模型可以意识到不完整的条件吗? ,预印本 2024。[论文]
通过率和胜率
ToolLLM:促进大型语言模型掌握 16000 多个实际 API ,ICLR 2024。[论文]
准确性
T-Eval:逐步评估大型语言模型的工具利用能力,ACL 2024。[论文]
RestGPT:将大型语言模型与现实世界的 RESTful API 连接起来,预印本 2023。[论文]
基于解决方案的 LLM API 使用学术信息检索方法,预印本 2024。[论文]
工具选择
精确
ShortcutsBench:基于 API 的代理的大规模真实世界基准,预印本 2024。[论文]
记起
召回率、精度和平均精度,统计与精算学系,2004 年。[论文]
NDCG
基于累积增益的红外技术评估,TOIS 2002。[论文]
比较
COLT:面向大型语言模型的完整性导向工具检索,CIKM 2024。[论文]
工具调用
符合规定
T-Eval:逐步评估大型语言模型的工具利用能力,ACL 2024。[论文]
规划和编辑检索内容以增强工具学习,NAACL 2024。[论文]
ToolEyes:现实场景中大型语言模型工具学习能力的细粒度评估,预印本 2024。[论文 3]
ShortcutsBench:基于 API 的代理的大规模真实世界基准,预印本 2024。[论文]
响应生成
蓝线
Bleu:一种机器翻译自动评估方法,ACL 2002。[论文]
胭脂
Rouge:自动评估摘要的包,ACL 2004。[论文]
精确匹配
cem:Stata 中的粗化精确匹配,The Stata Journal 2009。 [论文]
参数填充
精确
ShortcutsBench:基于 API 的代理的大规模真实世界基准,预印本 2024。[论文]
工具学习论文。 [回购]
很棒的工具-LLM。 [回购]
很棒的LLM工具学习。 [回购]
增强语言模型:一项调查,TMLR 2024。[论文]
使用基础模型进行工具学习,预印本 2024。[论文]
到底什么是工具?从语言模型角度进行的调查,COLM 2024。[论文]