最近,使用大型語言模型(LLM)進行工具學習已成為增強 LLM 解決高度複雜問題能力的有前途的範例。
這是與法學碩士工具學習相關的論文集。這些論文是根據我們的調查論文「大型語言模型的工具學習:調查」進行組織的。
中文:我們注意到PaperAgent和旺知識分別提供了簡短和全面的中文介紹。我們非常感謝他們的幫助。
?我們的調查論文被電腦科學前沿 (FCS)接受。我們論文的最新版本已經發布;請檢查一下!
如果您有任何問題或建議,請隨時與我們聯繫!
??請隨時提出問題或提出拉取請求! ??
如果您發現我們的工作對您的研究有幫助,請引用我們的論文:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
最近,使用大型語言模型 (LLM) 進行工具學習已成為增強 LLM 解決高度複雜問題能力的有前景的範式。儘管該領域受到越來越多的關注並取得了迅速的進展,但現有的文獻仍然支離破碎,缺乏系統性的組織,為新人帶來了進入障礙。這一差距促使我們對法學碩士工具學習的現有工作進行全面調查。在本次調查中,我們將重點放在兩個主要方面回顧現有文獻(1)為什麼工具學習是有益的以及(2)如何實施工具學習,從而使法學碩士能夠全面了解工具學習。我們首先從六個具體方面回顧工具整合的好處和工具學習範式的固有好處,來探討「為什麼」。在「如何」方面,我們根據工具學習工作流程中四個關鍵階段的分類系統地回顧了文獻:任務規劃、工具選擇、工具呼叫和回應生成。此外,我們還對現有基準和評估方法進行了詳細總結,並根據其與不同階段的相關性對其進行了分類。最後,我們討論當前的挑戰並概述未來潛在的方向,旨在激勵研究人員和工業開發人員進一步探索這個新興且有前途的領域。
知識獲取。
搜尋引擎
網路增強對話生成,ACL 2022。
WebGPT:帶有人工回饋的瀏覽器輔助問答,預印本 2021。
透過少量提示進行開放域問答的網路增強語言模型,預印本 2022。
REPLUG:檢索增強黑盒語言模型,預印本 2023。
Toolformer:語言模型可以自學使用工具,NeurIPS 2023。
ART:大型語言模型的自動多步驟推理和工具使用,預印本 2023。
ToolCoder:教導程式碼產生模型使用 API 搜尋工具,預印本 2023。
CRITIC:大型語言模型可以透過工具互動批評進行自我修正,ICLR 2024。
資料庫和知識圖譜
Lamda:對話應用程式的語言模型,預印本 2022。
Gorilla:與海量 API 連接的大型語言模型,NeurIPS 2024。
ToolkenGPT:透過工具嵌入使用大量工具增強凍結語言模型,NeurIPS 2023。
ToolQA:使用外部工具進行 LLM 問答的資料集,NeurIPS 2023。
透過有限狀態解碼為法學碩士使用文法無錯誤且可推廣的工具,NeurIPS 2023。
LLM 中間件:複雜環境中語言代理的工具很有用,EMNLP 2024。
天氣或地圖
論開源大語言模型的工具操控能力,NeurIPS 2023。
ToolAlpaca:透過 3000 個模擬案例進行語言模型的廣義工具學習,預印本 2023 年。
使用基礎模型進行工具學習,預印本 2023。
專業知識增強。
數學工具
訓練驗證者解決數學應用題,預印本 2021。
MRKL 系統:一種模組化的神經符號架構,結合了大型語言模型、外部知識源和離散推理,預印本 2021。
數字推理的連結同時思想,EMNLP 2022。
Calc-X 和 Calcformers:透過與符號系統的交互增強算術思維鏈,EMNLP 2023。
透過將語言模型與符號求解器結合來解決數學應用題,NeurIPS 2023。
評估和改進工具增強計算密集型數學推理,NeurIPS 2023。
ToRA:用於解決數學問題的工具整合推理代理,ICLR 2024。
MATHSENSEI:用於數學推理的工具增強大型語言模型,預印本 2024。
Calc-CMU at SemEval-2024 任務 7:預計算 - 學習使用計算機提高語言模型的計算能力,NAACL 2024。
MathViz-E:領域專用工具使用代理的案例研究,預印本 2024。
Python直譯器
Pal:程序輔助語言模型,ICML 2023。
想法提示:將計算與數值推理任務的推理分開,TMLR 2023。
使用程式引導推理對複雜聲明進行事實查,ACL 2023。
Chameleon:使用大型語言模型進行即插即用的組合推理,NeurIPS 2023。
LeTI:學習從文字互動生成,NAACL 2024。
Mint:利用工具和語言回饋評估多輪互動中的 llms ,ICLR 2024。
可執行程式碼操作引發更好的 LLM 代理,ICML 2024。
CodeNav:超越工具使用,透過 LLM 代理程式使用真實世界的程式碼庫,預印本 2024。
APPL:一種用於程式和大型語言模型提示和諧整合的提示程式語言,預印本 2024。
BigCodeBench:使用多樣化函數呼叫和複雜指令對程式碼產生進行基準測試,預印本 2024。
CodeAgent:透過工具整合代理系統增強程式碼生成,應對現實世界的儲存庫級編碼挑戰,ACL 2024。
MuMath-Code:將工具使用的大型語言模型與多視角資料增強相結合進行數學推理,EMNLP 2024。
其他的
MultiTool-CoT:GPT-3 可以使用多個具有思想鏈提示的外部工具,ACL 2023。
ChemCrow:使用化學工具增強大語言模型,Nature Machine Intelligence 2024。
化學中的大型語言模型和自主代理綜述,預印本 2024。
GeneGPT:使用領域工具增強大型語言模型以改善對生物醫學資訊的訪問,ISMB 2024。
為語言模型配備金融表格資料分析工具使用功能,EACL 2024。
透過基於大型語言模型的代理模擬金融市場,預印本 2024。
金融交易的多模式基礎代理:工具增強、多樣化和通才,KDD 2024。
AgentMD:透過大規模臨床工具學習增強語言代理的風險預測能力,預印本 2024 年。
SCIAGENT:用於科學推理的工具增強語言模型,EMNLP 2024。
MMedAgent:學習使用多模式代理的醫療工具,EMNLP 2024 年調查結果。 [紙]
讓我為您做:透過工具學習邁向法學碩士授權推薦,SIGIR 2024。
用於物理整合迭代建模的特定領域 React:用於燃氣渦輪機氣體路徑分析的 LLM 代理案例研究,預印本 2024 年。
WORLDAPIS:世界值多少 API?思想實驗,ACL 2024 研討會。 [紙]
現實場景中 SQL 檢查和最佳化的工具輔助代理,預印本 2024。
HoneyComb:基於 LLM 的靈活材料科學代理系統,預印本 2024。
自動化和效率。
日程安排工具
ToolQA:使用外部工具進行 LLM 問答的資料集,NeurIPS 2023。
設定提醒
ToolLLM:促進大型語言模型掌握 16000 多個實際 API ,ICLR 2024。
過濾電子郵件
ToolLLM:促進大型語言模型掌握 16000 多個實際 API ,ICLR 2024。
專案管理
ToolLLM:促進大型語言模型掌握 16000 多個實際 API ,ICLR 2024。
網上購物助理
WebShop:透過接地語言代理實現可擴展的現實世界 Web 交互,NeurIPS 2022。
互動增強。
多模式工具
Vipergpt:透過 python 執行進行視覺推理進行推理,ICCV 2023。
MM-REACT:提示 ChatGPT 進行多模式推理和行動,預印本 2023。
InternGPT:透過與超越語言的 ChatGPT 互動來解決以視覺為中心的任務,預印本 2023。
AssistGPT:可以規劃、執行、檢查和學習的通用多模式助手,預印本 2023。
CLOVA:具有工具使用和更新的閉環視覺助手,CVPR 2024。
DiffAgent:使用大型語言模型快速且準確地選擇文字到圖像 API ,CVPR 2024。
MLLM-Tool:工具代理學習的多模態大型語言模型,預印本 2024。
m&m's:評估多步驟多模式任務工具使用的基準,預印本 2024。
從最少到最多:透過資料合成建構即插即用的視覺推理機,預印本 2024。
機器翻譯
Toolformer:語言模型可以自學使用工具,NeurIPS 2023。
使用基礎模型進行工具學習,預印本 2023。
自然語言處理工具
HuggingGPT:在 Hugging Face 中使用 ChatGPT 及其朋友解決 AI 任務,NeurIPS 2023。
GitAgent:透過工具擴充使用 GitHub 促進自治代理,預印本 2023。
思想鏈提示引發大型語言模型中的推理,NeurIPS 2022。
ReAct:在語言模型中協同推理和行動,ICLR 2023。
ART:大型語言模型的自動多步驟推理和工具使用,預印本 2023。
HuggingGPT:在 Hugging Face 中使用 ChatGPT 及其朋友解決 AI 任務,NeurIPS 2023。
Graph-ToolFormer:透過 ChatGPT 增強的提示賦予 LLM 圖形推理能力,預印本 2023 年。
作為工具製造商的大型語言模型,ICLR 2024。
創建者:用於解開大型語言模型的抽象和具體推理的工具創建,EMNLP 2023。
ChatCoT:基於聊天的大型語言模型的工具增強思想鏈推理,EMNLP 2023。
FacTool:生成式 AI 中的事實檢測——用於多任務和多領域場景的工具增強框架,預印本 2023 年。
TPTU:用於任務規劃和工具使用的基於大型語言模型的 AI 代理,預印本 2023。
ToolChain*:使用 A* 搜尋在大型語言模型中進行高效動作空間導航,ICLR 2024。
強化最短的注意力:增強大型語言模型的上下文意識以有效使用工具,ACL 2024。
TroVE:引入可驗證且高效的工具箱來解決程式設計任務,預印本 2024。
SwissNYF:黑盒子設定的工具接地法學碩士代理,預印本 2024。
從總結到行動:使用開放世界 API 增強複雜任務的大型語言模型,預印本 2024。
預算有限的工具學習與規劃,ACL 2024 研究成果。 [紙]
規劃和編輯檢索內容以增強工具學習,NAACL 2024。
大型語言模型可以使用形式驗證工具嚴格規劃您的旅行,預印本 2024。
Smurfs:利用具有情境效率的多個熟練代理進行工具規劃,預印本 2024 年。
STRIDE:用於策略和互動式決策的工具輔助 LLM 代理框架,預印本 2024 年。
工具鏈:大型語言模型是一種自動多工具學習器,預印本 2024。
圖學習可以改善基於 LLM 的代理程式的規劃嗎? ,NeurIPS 2024。
Tool-Planner:使用工具聚類的大型語言模型的動態解決方案樹規劃,預印本 2024。
工具失敗:偵測故障工具中的靜默錯誤,EMNLP 2024。
是什麼影響了工具學習的穩定性?關於工具學習架構穩健性的實證研究,預印本 2024。
Tulip Agent-啟用基於 LLM 的代理程式使用大型工具庫解決任務,預印本 2024。
Toolshed:使用高級 RAG 工具融合和工具知識庫擴展配備工具的代理,預印本 2024 年。
從探索到掌握:法學碩士透過自我驅動的互動掌握工具,預印本 2024 年。
TaskMatrix.AI:透過將基礎模型與數百萬個 API 連接來完成任務,智慧計算 2024。
OpenAGI:當法學碩士遇到領域專家時,Neurips 2023。
ToolLLM:促進大型語言模型掌握 16000 多個實際 API ,ICLR 2024。
Toollink:透過開源模型上的解決鏈將工具包的創建和使用聯繫起來,預印本 2023。
TPTU-v2:在現實系統中促進基於大型語言模型的代理的任務規劃和工具使用,ICLR 2024。
應對不確定性:優化 API 依賴性以減少閉卷問答中的幻覺,ECIR 2024。
小型法學碩士是弱工具學習者:多法學碩士代理,EMNLP 2024。
透過抽象鏈推理實現高效工具的使用,預印本 2024。
三思而後行:面向大型語言模型的決策感知和可推廣工具使用,預印本 2024。
基於解決方案的 LLM API 使用學術資訊檢索方法,預印本 2024。
推進工具增強型大型語言模式:整合推理樹中錯誤的見解,NeurIPS 2024。
APIGen:用於產生可驗證和多樣化函數呼叫資料集的自動化管道,預印本 2024。
MetaTool:透過後設任務增強促進大型語言模型掌握工具,預印本 2024。
ToolPlanner:用於具有路徑規劃和回饋的多粒度指令的工具增強法學碩士,EMNLP 2024。
術語特異性的統計解釋及其在檢索中的應用,文獻雜誌 1972 年。
機率相關性架構:BM25 及以後,2009 年資訊檢索的基礎與趨勢。
Sentence-bert:使用暹羅 bert 網路進行句子嵌入,EMNLP 2019。
用於密集文本檢索的近似最近鄰負對比學習,ICLR 2021。
透過平衡主題感知取樣有效地教導有效的密集檢索器,SIGIR 2021。
用於密集段落檢索的無監督語料庫感知語言模型預訓練,ACL 2022。
使用對比學習的無監督密集資訊檢索,預印本 2021。
CRAFT:透過創建和檢索專用工具集來定製法學碩士,ICLR 2024。
ProTIP:漸進式工具檢索改善規劃,預印本 2023。
ToolRerank:工具擷取的自適應和層次結構感知重排序,COLING 2024。
透過大型語言模型的迭代回饋增強工具檢索,EMNLP 2024 研究結果。 [紙]
重新呼叫:零次工具檢索的工具呼叫重寫,EMNLP 2024 研究結果。 [紙]
向量空間中工具表示的高效且可擴展的估計,預印本 2024。
Toolshed:使用高級 RAG 工具融合和工具知識庫擴展配備工具的代理,預印本 2024 年。
COLT:大型語言模型的完整性導向工具檢索,CIKM 2024。
論開源大語言模型的工具操縱能力,預印本 2023。
透過執行回饋使語言模型成為更好的工具學習者,NAACL 2024。
ToolLLM:促進大型語言模型掌握 16000 多個實際 API ,ICLR 2024。
孔子:從易到難的課程內省回饋中的迭代工具學習,AAAI 2024。
AnyTool:用於大規模 API 呼叫的自我反思、分層代理,預印本 2024。
TOOLVERIFIER:透過自我驗證推廣新工具,EMNLP 2024 年調查結果。 [紙]
ToolNet:透過工具圖連接大型語言模型與海量工具,預印本 2024。
GeckOpt:透過基於意圖的工具選擇提高 LLM 系統效率,GLSVLSI 2024。
AvaTaR:最佳化 LLM 代理程式以實現工具輔助知識檢索,NeurIPS 2024。
小代理也能搖滾!授權小語言模型作為幻覺偵測器,預印本 2024。
同質工具的自適應選擇:RAG 場景中的實例,EMNLP 2024 研究結果。 [紙]
從探索到掌握:法學碩士透過自我驅動的互動掌握工具,預印本 2024 年。
RestGPT:將大型語言模型與現實世界的 RESTful API 連接起來,預印本 2023。
反向鏈:法學碩士掌握多 API 規劃的通用規則,預印本 2023 年。
GEAR:透過可泛化且高效的工具解析增強語言模型,EACL 2023。
工具文件支援大型語言模型的零次工具使用,預印本 2023。
ControlLLM:透過搜尋圖來使用工具增強語言模型,預印本 2023。
EASYTOOL:透過簡潔的工具指令增強基於 LLM 的代理,預印本 2024。
透過函數呼叫作為零樣本對話狀態追蹤器的大型語言模型,ACL 2024。
針對工具使用語言模型的簡潔而精確的上下文壓縮,ACL 2024 研究結果。 [紙]
Gorilla:與海量 API 連接的大型語言模型,NeurIPS 2024。
GPT4Tools:透過自學教授大型語言模型使用工具,NeurIPS 2023。
ToolkenGPT:透過工具嵌入使用大量工具增強凍結語言模型,NeurIPS 2023。
工具增強獎勵模型,ICLR 2024。
Imaginarium 中的法學碩士:透過模擬試誤進行工具學習,ACL 2024。
ToolACE:贏得 LLM 函數呼叫的要點,預印本 2024。
CITI:在不犧牲一般表現的情況下增強大型語言模型中的工具利用能力,預印本 2024。
品質很重要:評估使用工具的法學碩士的綜合數據,EMNLP 2024。
TALM:工具增強語言模型,預印本 2022。
Toolformer:語言模型可以自學使用工具,NeurIPS 2023。
工具輔助生成策略的綜合評估,EMNLP 2023。
TPE:透過多人協作實現比概念工具更好的組合推理,預印本 2023。
RECOMP:透過壓縮和選擇性增強改進檢索增強 LM ,ICLR 2024。
透過合作和互動代理學習使用工具,EMNLP 2024 研究結果。 [紙]
基準 | 參考 | 描述 | #工具 | #實例 | 關聯 | 發佈時間 |
---|---|---|---|---|---|---|
API銀行 | [紙] | 評估現有法學碩士在規劃、檢索和呼叫 API 方面的能力。 | 73 | 314 | [回購] | 2023年4月 |
API基準測試平台 | [紙] | 由 TorchHub、TensorHub 和 HuggingFace API 模型卡建構的綜合基準測試。 | 1,645 | 16,450 | [回購] | 2023年5月 |
工具台1 | [紙] | 工具操作基準由用於實際任務的各種軟體工具組成。 | 第232章 | 2,746 | [回購] | 2023年5月 |
工具羊駝 | [紙] | 評估法學碩士在未經特定培訓的情況下使用以前未見過的工具的能力。 | 第426章 | 3,938 | [回購] | 2023年6月 |
休息凳 | [紙] | 一個高品質的基準,由兩個真實場景和帶有黃金解決方案路徑的人工註釋指令組成。 | 94 | 157 | [回購] | 2023年6月 |
工具台2 | [紙] | 供工具使用的指令調整資料集,使用 ChatGPT 自動建置。 | 16,464 | 126,486 | [回購] | 2023年7月 |
元工具 | [紙] | 旨在評估LLM是否具有工具使用意識並能夠正確選擇工具的基準。 | 199 | 21,127 | [回購] | 2023年10月 |
任務台 | [紙] | 旨在從不同方面評估法學碩士能力的基準,包括任務分解、工具調用和參數預測。 | 103 | 28,271 | [回購] | 2023年11月 |
T-評估 | [紙] | 逐步評估工具利用能力。 | 15 | 第533章 | [回購] | 2023年12月 |
工具眼 | [紙] | 專為評估法學碩士在真實場景中的工具學習能力而量身定制的細粒度系統。 | 第568章 | 第382章 | [回購] | 2024年01月 |
超工具 | [紙] | 一個新穎的基準,旨在提高和評估法學碩士在現實場景中使用工具的能力。 | 2,032 | 5,824 | [回購] | 2024年01月 |
API-混合 | [紙] | 用於工具增強法學碩士培訓和系統測試的大型語料庫。 | - | 189,040 | [回購] | 2024年02月 |
密封工具 | [紙] | Seal-Tools 包含呼叫多個工具來完成工作的硬實例,其中一些是巢狀的工具呼叫。 | 4,076 | 14,076 | [回購] | 2024年5月 |
工具品質保證 | [紙] | 它旨在忠實地評估法學碩士使用外部工具進行問答的能力。 | 13 | 1,530 | [回購] | 2023年6月 |
工具Emu | [紙] | 一個使用 LM 模擬工具執行並支援針對各種工具和場景對 LM 代理進行可擴展測試的框架。 | 311 | 144 | [回購] | 2023年9月 |
工具談話 | [紙] | 由複雜的使用者意圖組成的基準,需要透過對話指定多步驟工具的使用。 | 28 | 78 | [回購] | 2023年11月 |
車聯網 | [紙] | 基準包括訓練資料集和 11 個代表性視覺模型的既定效能指標,使用半自動註解將其分為三組。 | 11 | 1,841 | [回購] | 2023年12月 |
羅特長凳 | [紙] | 用於評估法學碩士在工具學習中的穩健性的多層基準。 | 第568章 | 105 | [回購] | 2024年01月 |
MLLM工具 | [紙] | 結合開源LLM和多模態編碼器的系統,使學習的LLM能夠意識到多模態輸入指令,然後正確選擇功能匹配的工具。 | 第932章 | 11,642 | [回購] | 2024年01月 |
工具劍 | [紙] | 一個全面的框架,致力於仔細調查與工具學習中的法學碩士相關的安全問題。 | 100 | 第440章 | [回購] | 2024年02月 |
科學工具台 | [紙] | 跨越五個科學領域,透過工具協助評估法學碩士的能力。 | 2,446 | 第856章 | [回購] | 2024年02月 |
注射劑 | [紙] | 旨在評估工具整合的 LLM 代理程式對 IPI 攻擊的脆弱性的基準。 | 17 號 | 1,054 人 | [回購] | 2024年02月 |
穩定工具台 | [紙] | 從ToolBench演變而來的基準測試,提出虛擬API伺服器和穩定的評估系統。 | 16,464 | 126,486 | [回購] | 2024年3月 |
巧克力豆 | [紙] | 包含 4K+ 多步驟多模態任務的基準測試,涉及 33 個工具,包括多模態模型、公共 API 和影像處理模組。 | 33 | 4,427 | [回購] | 2024年3月 |
地質學品質保證 | [紙] | 1,000 個不同任務的新穎基準,旨在捕獲複雜的 RS 工作流程,其中法學碩士處理複雜的數據結構、細緻入微的推理以及與動態用戶界面的交互。 | 117 | 1,000 | [回購] | 2024年4月 |
工具透鏡 | [紙] | ToolLens 包含簡潔但有意的多面向查詢,可更好地模擬現實世界的使用者互動。 (工具檢索) | 第464章 | 18,770 | [回購] | 2024年5月 |
SoAyBench | [紙] | 基於解決方案的 LLM API 使用學術資訊檢索方法 | 7 | 第792章 | [回購],[HF] | 2024年5月 |
工具BH | [紙] | 透過深度和廣度兩個角度評估法學碩士幻覺的基準。 | - | 700 | [回購] | 2024年6月 |
快捷方式長凳 | [紙] | 基於 API 的代理程式的大規模真實世界基準 | 1414 | 7627 | [回購] | 2024年7月 |
大多倫多地區 | [紙] | 通用工具代理的基準 | 14 | 229 | [回購] | 2024年7月 |
WTU-評估 | [紙] | 大型語言模型是否使用工具評估基準 | 4 | 916 | [回購] | 2024年7月 |
應用世界 | [紙] | 需要透過 API 呼叫進行互動式編碼的複雜日常任務的集合 | 第457章 | 750 | [回購] | 2024年7月 |
工具沙箱 | [紙] | 一個有狀態、對話式和互動式的工具使用基準。 | 34 | 1032 | [回購] | 2024年8月 |
CToolEval | [紙] | 旨在評估中國社會應用背景下的法學碩士的基準。 | 27 | 第398章 | [回購] | 2024年8月 |
吵雜的工具台 | [紙] | 該基準包括一系列提供的 API、不明確的查詢、需要澄清的預期問題以及相應的回應。 | - | 200 | [回購] | 2024年9月 |
任務規劃
工具使用意識
MetaTool 基準:決定是否使用工具以及使用哪些工具,ICLR 2024。
工具增強的大型語言模型可以意識到不完整的條件嗎? ,預印本 2024。
通過率和勝率
ToolLLM:促進大型語言模型掌握 16000 多個實際 API ,ICLR 2024。
準確性
T-Eval:逐步評估大型語言模型的工具利用能力,ACL 2024。
RestGPT:將大型語言模型與現實世界的 RESTful API 連接起來,預印本 2023。
基於解決方案的 LLM API 使用學術資訊檢索方法,預印本 2024。
工具選擇
精確
ShortcutsBench:基於 API 的代理的大規模真實世界基準,預印本 2024。
記起
召回率、精確度和平均精確度,統計與精算學系,2004 年。
NDCG
基於累積增益的紅外線技術評估,TOIS 2002。
比較
COLT:大型語言模型的完整性導向工具檢索,CIKM 2024。
工具調用
符合規定
T-Eval:逐步評估大型語言模型的工具利用能力,ACL 2024。
規劃和編輯檢索內容以增強工具學習,NAACL 2024。
ToolEyes:現實場景中大型語言模型工具學習能力的細微評估,預印本 2024。
ShortcutsBench:基於 API 的代理的大規模真實世界基準,預印本 2024。
響應生成
藍線
Bleu:一種機器翻譯自動評估方法,ACL 2002。
胭脂
Rouge:自動評估摘要的包,ACL 2004。
精確匹配
cem:Stata 中的粗化精確匹配,The Stata Journal 2009。
參數填充
精確
ShortcutsBench:基於 API 的代理的大規模真實世界基準,預印本 2024。
工具學習論文。 [回購]
很棒的工具-LLM。 [回購]
很棒的LLM工具學習。 [回購]
增強語言模式:一項調查,TMLR 2024。
使用基礎模型進行工具學習,預印本 2024。
到底什麼是工具?從語言模型角度進行的調查,COLM 2024。