最近、大規模言語モデル (LLM) を使用したツール学習が、LLM の機能を強化して非常に複雑な問題に取り組むための有望なパラダイムとして浮上しています。
これは、LLM によるツール学習に関連する論文のコレクションです。これらの論文は、調査論文「大規模言語モデルを使用したツール学習: 調査」に従って編成されています。
中文: PaperAgent と旺知识がそれぞれ中国語で簡単な紹介と包括的な紹介を提供していることに気付きました。ご協力に心より感謝申し上げます。
?私たちの調査論文がFrontiers of Computer Science (FCS)に受理されました。私たちの論文の最新版はすでにリリースされています。ぜひチェックしてみてください!
ご質問やご提案がございましたら、お気軽にお問い合わせください。
??お気軽にイシューを開いたりプルリクエストを行ってください。 ??
私たちの研究があなたの研究に役立つと思われる場合は、ぜひ論文を引用してください。
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
最近、大規模言語モデル (LLM) を使用したツール学習が、非常に複雑な問題に取り組むための LLM の機能を強化するための有望なパラダイムとして浮上しています。この分野での注目の高まりと急速な進歩にもかかわらず、既存の文献は依然として断片的で体系的な構成に欠けており、新規参入者にとって参入障壁となっています。このギャップにより、LLM を使用したツール学習に関する既存の研究の包括的な調査を実施する動機が生まれました。この調査では、(1) ツール学習がなぜ有益なのか、(2) ツール学習がどのように実装されるのかという 2 つの主要な側面から既存の文献をレビューすることに焦点を当て、LLM によるツール学習の包括的な理解を可能にします。まず、ツール統合の利点とツール学習パラダイムの固有の利点の両方を 6 つの特定の側面から検討することで、「理由」を探ります。 「方法」の観点からは、ツール学習ワークフローの 4 つの主要な段階 (タスク計画、ツール選択、ツール呼び出し、応答生成) の分類に従って文献を系統的にレビューします。さらに、既存のベンチマークと評価方法の詳細な概要を提供し、さまざまな段階との関連性に応じて分類します。最後に、研究者と産業開発者の両方がこの新興の有望な分野をさらに探究するよう促すことを目的として、現在の課題について議論し、潜在的な将来の方向性を概説します。
知識の獲得。
検索エンジン
インターネット拡張対話生成、ACL 2022. [論文]
WebGPT: 人間のフィードバックによるブラウザ支援の質問応答、プレプリント 2021。[論文]
オープンドメイン質問応答のための少数ショット プロンプトによるインターネット拡張言語モデル、プレプリント 2022。 [論文]
REPLUG: 検索拡張ブラックボックス言語モデル、プレプリント 2023。[論文]
Toolformer: 言語モデルはツールの使い方を自らに教えることができる、NeurIPS 2023。 [論文]
ART: 大規模言語モデルの自動マルチステップ推論とツールの使用、プレプリント 2023。 [論文]
ToolCoder: コード生成モデルに API 検索ツールの使用を教える、プレプリント 2023。 [論文]
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing 、ICLR 2024. [論文]
データベースとナレッジグラフ
Lamda: ダイアログ アプリケーションの言語モデル、プレプリント 2022。[論文]
Gorilla: 大規模な API に接続された大規模言語モデル、NeurIPS 2024。 [論文]
ToolkenGPT: ツール埋め込みによる大規模ツールによる凍結言語モデルの拡張、NeurIPS 2023。 [論文]
ToolQA: 外部ツールを使用した LLM 質問応答用のデータセット、NeurIPS 2023。 [論文]
有限状態デコードによる LLM の構文エラーがなく一般化可能なツールの使用、NeurIPS 2023。 [論文]
LLM のミドルウェア: 複雑な環境における言語エージェントにとってツールは有益です、EMNLP 2024。[論文]
天気または地図
オープンソースの大規模言語モデルのツール操作機能について、NeurIPS 2023。 [論文]
ToolAlpaca: 3000 のシミュレートされたケースを使用した言語モデルの一般化されたツール学習、プレプリント 2023。 [論文]
基礎モデルを使用したツール学習、プレプリント 2023。[論文]
専門知識の強化。
数学ツール
数学の文章題を解くための検証者のトレーニング、プレプリント 2021。[論文]
MRKL システム: 大規模な言語モデル、外部知識ソース、離散推論を組み合わせたモジュール式の神経記号アーキテクチャ、プレプリント 2021。 [論文]
数値推論のための同時思考の連鎖、EMNLP 2022。 [論文]
Calc-X および Calcformers: 記号システムとの相互作用を通じた算術思考連鎖の強化、EMNLP 2023。 [論文]
言語モデルとシンボリック ソルバーを組み合わせて数学の文章問題を解く、NeurIPS 2023。 [論文]
ツール拡張された計算集約型数学推論の評価と改善、NeurIPS 2023。 [論文]
ToRA: 数学的問題解決のためのツール統合推論エージェント、ICLR 2024. [論文]
MATHSENSEI: 数学的推論のためのツール拡張された大規模言語モデル、プレプリント 2024。 [論文]
Calc-CMU at SemEval-2024 タスク 7: Pre-Calc -- 電卓の使い方を学習することで言語モデルの数値計算能力が向上、NAACL 2024。 [論文]
MathViz-E: ドメインに特化したツールを使用するエージェントのケーススタディ、プレプリント 2024。[論文]
Python インタプリタ
Pal: プログラム支援言語モデル、ICML 2023. [論文]
Program of Thoughts Prompting: Disentangleing Computation from Reasoning for Numerical Reasoning Tasks 、TMLR 2023. [論文]
プログラムに基づいた推論による複雑なクレームの事実確認、ACL 2023。 [論文]
Chameleon: 大規模言語モデルを使用したプラグアンドプレイ構成推論、NeurIPS 2023。 [論文]
LeTI: テキスト インタラクションから生成する方法を学ぶ、NAACL 2024. [論文]
Mint: ツールと言語フィードバックを使用したマルチターン インタラクションにおける llms の評価、ICLR 2024。 [論文]
実行可能コードのアクションにより、より優れた LLM エージェントが導き出される、ICML 2024。 [論文]
CodeNav: ツールの使用を超えて、LLM エージェントを使用した現実世界のコードベースの使用へ、プレプリント 2024。 [論文]
APPL: プログラムと大規模言語モデル プロンプトの調和的な統合のためのプロンプト プログラミング言語、プレプリント 2024。 [論文]
BigCodeBench: 多様な関数呼び出しと複雑な命令によるコード生成のベンチマーク、プレプリント 2024。 [論文]
CodeAgent: 現実世界のリポジトリレベルのコーディング課題に対するツール統合エージェント システムによるコード生成の強化、ACL 2024。 [論文]
MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning 、EMNLP 2024. [論文]
その他
MultiTool-CoT: GPT-3 は思考連鎖プロンプトで複数の外部ツールを使用できます、ACL 2023。 [論文]
ChemCrow: 化学ツールを使用した大規模言語モデルの拡張、Nature Machine Intelligence 2024。 [論文]
化学における大規模言語モデルと自律エージェントのレビュー、プレプリント 2024。 [論文]
GeneGPT: 生体医療情報へのアクセスを改善するためのドメイン ツールによる大規模言語モデルの拡張、ISMB 2024。 [論文]
金融における表形式データ分析のためのツール使用機能を言語モデルに装備する、EACL 2024。 [論文]
大規模言語モデルベースのエージェントによる金融市場のシミュレーション、プレプリント 2024。 [論文]
金融取引のためのマルチモーダル財団エージェント: ツール強化、多様化、ジェネラリスト、KDD 2024。 [論文]
AgentMD: 大規模臨床ツール学習によるリスク予測のための言語エージェントの強化、プレプリント 2024。 [論文]
SCIAGENT: 科学的推論のためのツール拡張言語モデル、EMNLP 2024。 [論文]
MMedAgent: マルチモーダル エージェントによる医療ツールの使用方法の学習、EMNLP 2024 の調査結果。 [紙]
Let Me Do It For You: Towards LLM Empowered Recommendation via Tool Learning 、SIGIR 2024. [論文]
物理統合反復モデリングのためのドメイン固有の React: ガスタービンのガス経路解析のための LLM エージェントのケーススタディ、プレプリント 2024。 [論文]
WORLDAPIS: 世界には API の数の価値がある?思考実験、ACL 2024 ワークショップ。 [紙]
現実世界のシナリオにおける SQL 検査と改良に関するツール支援エージェント、プレプリント 2024。 [論文]
HoneyComb: 材料科学のための柔軟な LLM ベースのエージェント システム、プレプリント 2024。 [論文]
自動化と効率化。
スケジュールツール
ToolQA: 外部ツールを使用した LLM 質問応答用のデータセット、NeurIPS 2023。 [論文]
リマインダーを設定する
ToolLLM: 16000 以上の実世界 API をマスターするための大規模言語モデルの促進、ICLR 2024。 [論文]
メールのフィルタリング
ToolLLM: 16000 以上の実世界 API をマスターするための大規模言語モデルの促進、ICLR 2024。 [論文]
プロジェクト管理
ToolLLM: 16000 以上の実世界 API をマスターするための大規模言語モデルの促進、ICLR 2024。 [論文]
オンラインショッピングアシスタント
WebShop: グラウンデッド言語エージェントによるスケーラブルな現実世界 Web インタラクションに向けて、NeurIPS 2022。 [論文]
インタラクションの強化。
マルチモーダルツール
Vipergpt: 推論のための Python 実行による視覚的推論、ICCV 2023。 [論文]
MM-REACT: マルチモーダル推論とアクションのための ChatGPT のプロンプト、プレプリント 2023。 [論文]
InternGPT: 言語を超えた ChatGPT との対話によるビジョン中心のタスクの解決、プレプリント 2023。 [論文]
AssistGPT: 計画、実行、検査、学習できる汎用マルチモーダル アシスタント、2023 年プレプリント。 [論文]
CLOVA: ツールの使用法と更新を備えた閉ループのビジュアル アシスタント、CVPR 2024。 [論文]
DiffAgent: 大規模言語モデルを使用した高速かつ正確な Text-to-Image API の選択、CVPR 2024。 [論文]
MLLM-Tool: ツール エージェント学習のためのマルチモーダル大規模言語モデル、プレプリント 2024。 [論文]
m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks 、プレプリント 2024。 [論文]
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis 、プレプリント 2024。 [論文]
機械翻訳者
Toolformer: 言語モデルはツールの使い方を自らに教えることができる、NeurIPS 2023。 [論文]
基礎モデルを使用したツール学習、プレプリント 2023。[論文]
自然言語処理ツール
HuggingGPT: ChatGPT とその仲間たちによる Hugging Face での AI タスクの解決、NeurIPS 2023。 [論文]
GitAgent: ツール拡張機能による GitHub による自律エージェントの促進、プレプリント 2023。 [論文]
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 、NeurIPS 2022. [論文]
ReAct: 言語モデルにおける推論と行動の相乗化、ICLR 2023。 [論文]
ART: 大規模言語モデルの自動マルチステップ推論とツールの使用、プレプリント 2023。 [論文]
HuggingGPT: ChatGPT とその仲間たちによる Hugging Face での AI タスクの解決、NeurIPS 2023。 [論文]
Graph-ToolFormer: ChatGPT によって拡張されたプロンプトを介してグラフ推論能力を LLM に強化する、プレプリント 2023。 [論文]
ツール作成者としての大規模言語モデル、ICLR 2024。 [論文]
CREATOR: 大規模言語モデルの抽象的および具体的な推論を解きほぐすためのツールの作成、EMNLP 2023。 [論文]
ChatCoT: チャットベースの大規模言語モデルにおけるツール拡張思考連鎖推論、EMNLP 2023。[論文]
FacTool: 生成 AI における事実検出 -- マルチタスクおよびマルチドメイン シナリオのためのツール拡張フレームワーク、プレプリント 2023。[論文]
TPTU: タスク計画とツール使用のための大規模言語モデルベースの AI エージェント、プレプリント 2023。 [論文]
ToolChain*: A* 検索を使用した大規模言語モデルにおける効率的なアクション スペース ナビゲーション、ICLR 2024。 [論文]
「注意力の最短譜を強化する: ツールを効果的に使用するための大規模言語モデルのコンテキスト認識を強化する」 、ACL 2024。[論文]
TroVE: プログラムによるタスクを解決するための検証可能で効率的なツールボックスの導入、プレプリント 2024。 [論文]
SwissNYF: ブラック ボックス設定用のツール グラウンデッド LLM エージェント、プレプリント 2024。 [論文]
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs 、プレプリント 2024。 [論文]
予算に制約のあるツールの計画による学習、ACL 2024 の調査結果。 [紙]
強化されたツール学習のために取得した内容の計画と編集、NAACL 2024。 [論文]
大規模な言語モデルは、正式な検証ツールを使用して旅行を厳密に計画できます、プレプリント 2024。 [論文]
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning 、プレプリント 2024。 [論文]
STRIDE: 戦略的かつ対話型の意思決定のためのツール支援 LLM エージェント フレームワーク、プレプリント 2024。 [論文]
ツールの連鎖: 大規模言語モデルは自動マルチツール学習者、プレプリント 2024。 [論文]
グラフ学習は LLM ベースのエージェントの計画を改善できますか? 、NeurIPS 2024。[論文]
ツール プランナー: ツール クラスタリングを使用した大規模言語モデルの動的ソリューション ツリー プランニング、プレプリント 2024。[論文]
ツールの失敗: 欠陥のあるツールでのサイレント エラーの検出、EMNLP 2024。[論文]
何がツール学習の安定性に影響を与えるのでしょうか?ツール学習フレームワークの堅牢性に関する実証的研究、プレプリント 2024。[論文]
Tulip Agent -- LLM ベースのエージェントが大規模なツール ライブラリを使用してタスクを解決できるようにする、2024 年プレプリント。 [論文]
Toolsshed: 高度な RAG-Tool Fusion およびツールのナレッジ ベースを使用してツールを装備したエージェントを拡張する、プレプリント 2024。 [論文]
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions 、プレプリント 2024。 [論文]
TaskMatrix.AI: 基盤モデルを数百万の API に接続してタスクを完了する、インテリジェント コンピューティング 2024。[論文]
OpenAGI: LLM がドメイン専門家と出会うとき、Neurips 2023. [論文]
ToolLLM: 16000 以上の実世界 API をマスターするための大規模言語モデルの促進、ICLR 2024。 [論文]
Toollink: オープンソース モデルでの解決連鎖を介したツールキットの作成と使用のリンク、プレプリント 2023。 [論文]
TPTU-v2: 実世界システムにおける大規模言語モデルベースのエージェントのタスク プランニングとツール使用量の向上、ICLR 2024。[論文]
不確実性のナビゲート: クローズドブック質問応答における幻覚軽減のための API 依存関係の最適化、ECIR 2024。 [論文]
小規模 LLM はツール学習者に弱い: マルチ LLM エージェント、EMNLP 2024. [論文]
抽象化連鎖推論による効率的なツールの使用、プレプリント 2024。[論文]
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models 、プレプリント 2024。 [論文]
学術情報探索のためのソリューションベースの LLM API を使用した方法論、プレプリント 2024。 [論文]
Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees 、NeurIPS 2024. [論文]
APIGen: 検証可能で多様な関数呼び出しデータセットを生成するための自動パイプライン、プレプリント 2024。[論文]
MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation 、プレプリント 2024。 [論文]
ToolPlanner: パス計画とフィードバックを備えた複数粒度の命令のためのツール拡張 LLM 、EMNLP 2024。 [論文]
用語の特異性の統計的解釈と検索におけるその応用、Journal of Documentation 1972。 [論文]
確率的関連性フレームワーク: BM25 以降、情報検索の基礎と傾向 2009。[論文]
Sentence-bert: siamese bert-networks を使用した文埋め込み、EMNLP 2019。 [論文]
密なテキスト検索のための近似最近傍負対比学習、ICLR 2021。 [論文]
バランスのとれたトピック認識サンプリングによる効果的なデンス・レトリバーへの効率的な指導、SIGIR 2021。 [論文]
密なパッセージ検索のための教師なしコーパス認識言語モデルの事前トレーニング、ACL 2022。 [論文]
対照学習による教師なし高密度情報検索、プレプリント 2021。 [論文]
CRAFT: Customizing LLMs by Creation and Retrieving from Specialized Toolsets 、ICLR 2024. [論文]
ProTIP: プログレッシブツール検索による計画の改善、プレプリント 2023。 [論文]
ToolRerank: ツール取得のための適応的で階層を意識した再ランキング、COLING 2024。 [論文]
大規模言語モデルからの反復フィードバックによるツール検索の強化、EMNLP 2024 の調査結果。 [紙]
再呼び出し: ゼロショットツール取得のためのツール呼び出しの書き換え、EMNLP 2024 の調査結果。 [紙]
ベクトル空間におけるツール表現の効率的かつスケーラブルな推定、プレプリント 2024。 [論文]
Toolsshed: 高度な RAG-Tool Fusion およびツールのナレッジ ベースを使用してツールを装備したエージェントを拡張する、プレプリント 2024。 [論文]
COLT: 大規模言語モデルの完全性指向ツール検索に向けて、CIKM 2024。 [論文]
オープンソースの大規模言語モデルのツール操作機能について、プレプリント 2023。[論文]
実行フィードバックによる言語モデルの学習ツールの向上、NAACL 2024。 [論文]
ToolLLM: 16000 以上の実世界 API をマスターするための大規模言語モデルの促進、ICLR 2024。 [論文]
孔子: 簡単から難しいカリキュラムによる内省フィードバックからの反復ツール学習、AAAI 2024。 [論文]
AnyTool: 大規模 API 呼び出しのための自己反射型階層エージェント、プレプリント 2024。[論文]
TOOLVERIFIER: 自己検証による新しいツールへの一般化、EMNLP 2024 の調査結果。 [紙]
ToolNet: Connecting Large Language Models with Massive Tools via Tool Graph 、プレプリント 2024。 [論文]
GeckOpt: インテントベースのツール選択による LLM システム効率、GLSVLSI 2024。 [論文]
AvaTaR: ツール支援ナレッジ検索のための LLM エージェントの最適化、NeurIPS 2024。[論文]
小規模エージェントも活躍します! Empowering Small Language Models as Hallucination Detector 、プレプリント 2024。 [論文]
同種ツールの適応選択: RAG シナリオでのインスタンス化、EMNLP 2024 の調査結果。 [紙]
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions 、プレプリント 2024。 [論文]
RestGPT: 大規模言語モデルと現実世界の RESTful API の接続、プレプリント 2023。 [論文]
Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning 、プレプリント 2023。[論文]
GEAR: 一般化可能かつ効率的なツール解決による言語モデルの拡張、EACL 2023。 [論文]
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models 、プレプリント 2023。 [論文]
ControlLLM: Augment Language Models with Tools by Searching on Graphs 、プレプリント 2023。 [論文]
EASYTOOL: 簡潔なツール説明による LLM ベースのエージェントの強化、プレプリント 2024。 [論文]
関数呼び出しによるゼロショット対話状態トラッカーとしての大規模言語モデル、ACL 2024。[論文]
ツールを使用する言語モデルのための簡潔かつ正確なコンテキスト圧縮、ACL 2024 の調査結果。 [紙]
Gorilla: 大規模な API に接続された大規模言語モデル、NeurIPS 2024。[論文]
GPT4Tools: 自己指導によるツールの使用を大規模言語モデルに教える、NeurIPS 2023。 [論文]
ToolkenGPT: ツール埋め込みによる大規模ツールによる凍結言語モデルの拡張、NeurIPS 2023。 [論文]
ツール拡張報酬モデリング、ICLR 2024. [論文]
Imaginarium の LLM: シミュレートされた試行錯誤によるツールの学習、ACL 2024。[論文]
ToolACE: LLM 関数呼び出しのポイントを獲得、プレプリント 2024。[論文]
CITI: 一般的なパフォーマンスを犠牲にすることなく大規模言語モデルの機能を利用するツールの強化、プレプリント 2024。 [論文]
品質は重要です: ツールを使用する LLM の合成データの評価、EMNLP 2024。 [論文]
TALM: ツール拡張言語モデル、プレプリント 2022。[論文]
Toolformer: 言語モデルはツールの使い方を自らに教えることができる、NeurIPS 2023。 [論文]
ツール支援による生成戦略の包括的評価、EMNLP 2023。[論文]
TPE: 複数ペルソナのコラボレーションによる概念ツールを超えたより良い構成的推論に向けて、プレプリント 2023。 [論文]
RECOMP: 圧縮と選択的拡張による検索拡張 LM の改善、ICLR 2024。 [論文]
協力的で対話型のエージェントを介したツールの使用方法の学習、EMNLP 2024 の調査結果。 [紙]
ベンチマーク | 参照 | 説明 | #ツール | #インスタンス | リンク | リリースタイム |
---|---|---|---|---|---|---|
APIバンク | [紙] | API の計画、取得、呼び出しにおける既存の LLM の機能を評価します。 | 73 | 314 | 【レポ】 | 2023-04 |
APIベンチ | [紙] | TorchHub、TensorHub、および HuggingFace API モデル カードから構築された包括的なベンチマーク。 | 1,645 | 16,450 | 【レポ】 | 2023-05 |
ツールベンチ1 | [紙] | 現実世界のタスク用のさまざまなソフトウェア ツールで構成されるツール操作ベンチマーク。 | 232 | 2,746 | 【レポ】 | 2023-05 |
ツールアルパカ | [紙] | 特別なトレーニングなしで、これまで見たことのないツールを活用する LLM の能力を評価します。 | 426 | 3,938 | 【レポ】 | 2023-06 |
レストベンチ | [紙] | 2 つの現実世界のシナリオと、ゴールド ソリューション パスを使用した人間による注釈付きの指示で構成される高品質のベンチマーク。 | 94 | 157 | 【レポ】 | 2023-06 |
ツールベンチ2 | [紙] | ChatGPT を使用して自動的に構築される、ツール用の命令チューニング データセット。 | 16,464 | 126,486 | 【レポ】 | 2023-07 |
メタツール | [紙] | LLM がツールの使用状況を認識し、ツールを正しく選択できるかどうかを評価するために設計されたベンチマーク。 | 199 | 21,127 | 【レポ】 | 2023-10 |
タスクベンチ | [紙] | タスクの分解、ツールの呼び出し、パラメーターの予測など、さまざまな側面から LLM の機能を評価するように設計されたベンチマーク。 | 103 | 28,271 | 【レポ】 | 2023-11 |
T-評価 | [紙] | ツールの利用能力を段階的に評価します。 | 15 | 533 | 【レポ】 | 2023-12 |
ツールアイズ | [紙] | 本格的なシナリオにおける LLM のツール学習機能の評価に合わせて調整されたきめ細かいシステム。 | 568 | 382 | 【レポ】 | 2024-01 |
ウルトラツール | [紙] | 現実世界のシナリオ内でのツール利用における LLM の能力を向上および評価するように設計された新しいベンチマーク。 | 2,032 | 5,824 | 【レポ】 | 2024-01 |
APIブレンド | [紙] | ツール拡張 LLM のトレーニングと体系的なテストのための大規模なコーパス。 | - | 189,040 | 【レポ】 | 2024-02 |
シールツール | [紙] | Seal-Tools には、ジョブを完了するために複数のツールを呼び出すハード インスタンスが含まれており、その中にはネストされたツール呼び出しも含まれます。 | 4,076 | 14,076 | 【レポ】 | 2024-05 |
ツールQA | [紙] | これは、質問応答に外部ツールを使用する LLM の能力を忠実に評価するように設計されています。(QA) | 13 | 1,530 | 【レポ】 | 2023-06 |
ツールエミュ | [紙] | LM を使用してツールの実行をエミュレートし、さまざまなツールやシナリオに対する LM エージェントのスケーラブルなテストを可能にするフレームワーク。(安全性) | 311 | 144 | 【レポ】 | 2023-09 |
ツールトーク | [紙] | 対話を通じて指定された複数ステップのツールの使用を必要とする複雑なユーザーの意図で構成されるベンチマーク。(会話) | 28 | 78 | 【レポ】 | 2023-11 |
VIoT | [紙] | ベンチマークには、半自動アノテーションを使用して 3 つのグループに分類された 11 の代表的なビジョン モデルのトレーニング データセットと確立されたパフォーマンス メトリクスが含まれます。(VIoT) | 11 | 1,841 | 【レポ】 | 2023-12 |
ロットベンチ | [紙] | ツール学習における LLM の堅牢性を評価するためのマルチレベルのベンチマーク (堅牢性) | 568 | 105 | 【レポ】 | 2024-01 |
MLLM ツール | [紙] | オープンソースのLLMとマルチモーダルエンコーダを組み込んだシステムで、学習したLLMがマルチモーダル入力命令を意識し、機能に合ったツールを正しく選択できるようにします。(マルチモーダル) | 932 | 11,642 | 【レポ】 | 2024-01 |
ツールソード | [紙] | ツール学習における LLM に関連する安全性の問題を注意深く調査することに特化した包括的なフレームワーク。(安全性) | 100 | 440 | 【レポ】 | 2024-02 |
SciToolベンチ | [紙] | 5 つの科学領域にまたがり、ツール支援を使用して LLM の能力を評価します。(科学推論) | 2,446 | 856 | 【レポ】 | 2024-02 |
インジェクエージェント | [紙] | ツールに統合された LLM エージェントの IPI 攻撃に対する脆弱性を評価するために設計されたベンチマーク (安全性) | 17 | 1,054 | 【レポ】 | 2024-02 |
安定したツールベンチ | [紙] | ToolBenchを進化させた、仮想APIサーバーと安定した評価システムを提案するベンチマーク(安定版) | 16,464 | 126,486 | 【レポ】 | 2024-03 |
エム&エムズ | [紙] | マルチモーダル モデル、パブリック API、画像処理モジュールを含む 33 のツールを含む 4K+ マルチステップ マルチモーダル タスクを含むベンチマーク。(マルチモーダル) | 33 | 4,427 | 【レポ】 | 2024-03 |
GeoLLM-QA | [紙] | 1,000 の多様なタスクの新しいベンチマーク。LLM が複雑なデータ構造、微妙な推論、動的なユーザー インターフェイスとの対話を処理する複雑な RS ワークフローをキャプチャするように設計されています。(リモート センシング) | 117 | 1,000 | 【レポ】 | 2024-04 |
ツールレンズ | [紙] | ToolLens には、現実世界のユーザー インタラクションをよりよく模倣する、簡潔でありながら意図的に多面的なクエリが含まれています。 (工具の取り出し) | 464 | 18,770 | 【レポ】 | 2024-05 |
ソーアイベンチ | [紙] | 学術情報検索のためのソリューションベースの LLM API を使用した方法論 | 7 | 792 | [レポ]、[HF] | 2024-05 |
ツールBH | [紙] | LLM の幻覚を深さと幅という 2 つの観点から評価するベンチマーク。 | - | 700 | 【レポ】 | 2024-06 |
ショートカットベンチ | [紙] | API ベースのエージェントのための大規模な現実世界のベンチマーク | 1414 | 7627 | 【レポ】 | 2024-07 |
GTA | [紙] | 一般的なツールエージェントのベンチマーク | 14 | 229 | 【レポ】 | 2024-07 |
WTU-評価 | [紙] | 大規模言語モデルのツール使用の有無による評価ベンチマーク | 4 | 916 | 【レポ】 | 2024-07 |
AppWorld | [紙] | API 呼び出しによるインタラクティブなコーディングを必要とする複雑な日常タスクのコレクション | 457 | 750 | 【レポ】 | 2024-07 |
ツールサンドボックス | [紙] | ステートフル、会話型、対話型のツール使用ベンチマーク。 | 34 | 1032 | 【レポ】 | 2024-08 |
CToolEval | [紙] | 中国の社会アプリケーションのコンテキストで LLM を評価するために設計されたベンチマーク。 | 27 | 398 | 【レポ】 | 2024-08 |
ノイジーツールベンチ | [紙] | このベンチマークには、提供されている API、あいまいなクエリ、説明のための予想される質問、および対応する応答のコレクションが含まれています。 | - | 200 | 【レポ】 | 2024-09 |
タスクの計画
ツールの使用に関する意識
MetaTool ベンチマーク: ツールを使用するかどうか、およびどのツールを使用するかの決定、ICLR 2024。[論文]
ツールで拡張された大規模言語モデルは不完全な条件を認識できますか? 、プレプリント 2024。[論文]
合格率と勝率
ToolLLM: 16000 以上の実世界 API をマスターするための大規模言語モデルの促進、ICLR 2024。 [論文]
正確さ
T-Eval: 大規模言語モデルのツール利用能力を段階的に評価する、ACL 2024。 [論文]
RestGPT: 大規模言語モデルと実世界の RESTful API の接続、プレプリント 2023。 [論文]
学術情報探索のためのソリューションベースの LLM API を使用した方法論、プレプリント 2024。 [論文]
ツールの選択
精度
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents 、プレプリント 2024。 [論文]
想起
再現率、適合率、および平均適合率、統計・保険数理科学部、2004 年。 [論文]
NDCG
IR 技術の累積ゲインベース評価、TOIS 2002。 [論文]
コンプ
COLT: 大規模言語モデルの完全性指向ツール検索に向けて、CIKM 2024。 [論文]
ツール呼び出し
規定と一致している
T-Eval: 大規模言語モデルのツール利用能力を段階的に評価する、ACL 2024。 [論文]
強化されたツール学習のために取得した内容の計画と編集、NAACL 2024。 [論文]
ToolEyes: 現実世界のシナリオにおける大規模言語モデルのツール学習機能の詳細な評価、プレプリント 2024。[論文 3]
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents 、プレプリント 2024。 [論文]
応答の生成
ブルー
Bleu: 機械翻訳の自動評価方法、ACL 2002。[論文]
ルージュ
Rouge: 概要の自動評価用パッケージ、ACL 2004。 [論文]
完全一致
cem: Stata における粗い完全一致、The Stata Journal 2009。 [論文]
パラメータの入力
精度
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents 、プレプリント 2024。 [論文]
ツール学習論文。 【レポ】
素晴らしいツール-llm。 【レポ】
素晴らしい llm ツールの学習。 【レポ】
拡張言語モデル: 調査、TMLR 2024. [論文]
基礎モデルを使用したツール学習、プレプリント 2024。[論文]
そもそもツールとは何ですか?言語モデルの観点からの調査、COLM 2024。 [論文]