최근에는 LLM(대형 언어 모델)을 사용한 도구 학습이 매우 복잡한 문제를 해결하기 위해 LLM의 기능을 강화하기 위한 유망한 패러다임으로 등장했습니다.
LLM을 활용한 도구 학습과 관련된 논문 모음입니다. 이 문서는 설문 조사 문서 "대형 언어 모델을 사용한 도구 학습: 설문 조사"에 따라 구성되었습니다.
中文: PaperAgent와 旺知识가 각각 중국어로 간략한 소개와 포괄적인 소개를 제공한 것을 확인했습니다. 그들의 도움에 진심으로 감사드립니다.
? 우리의 설문조사 논문은 Frontiers of Computer Science(FCS) 에서 승인되었습니다. 우리 논문의 최신 버전이 이미 출시되었습니다. 확인해 주세요!
질문이나 제안 사항이 있으면 언제든지 문의해 주세요!
?? 자유롭게 이슈를 열거나 풀 요청을 해주세요! ??
저희 작업이 귀하의 연구에 도움이 된다면 저희 논문을 친절하게 인용해주세요:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
최근에는 LLM(대형 언어 모델)을 사용한 도구 학습이 매우 복잡한 문제를 해결하기 위해 LLM의 기능을 강화하기 위한 유망한 패러다임으로 등장했습니다. 이 분야에 대한 관심이 높아지고 급속한 발전에도 불구하고 기존 문헌은 여전히 단편화되어 있고 체계적인 구성이 부족하여 신규 이민자의 진입 장벽이 되고 있습니다. 이러한 격차는 우리가 LLM을 사용한 도구 학습에 대한 기존 작업에 대한 포괄적인 조사를 수행하도록 동기를 부여합니다. 이 설문 조사에서 우리는 (1) 도구 학습이 유익한 이유와 (2) 도구 학습이 구현되는 방법의 두 가지 주요 측면에서 기존 문헌을 검토하여 LLM을 통한 도구 학습에 대한 포괄적인 이해를 가능하게 하는 데 중점을 둡니다. 먼저 도구 통합의 이점과 도구 학습 패러다임의 고유한 이점을 6가지 특정 측면에서 검토하여 "이유"를 탐구합니다. "방법" 측면에서 우리는 도구 학습 작업 흐름의 4가지 주요 단계(작업 계획, 도구 선택, 도구 호출 및 응답 생성)의 분류에 따라 문헌을 체계적으로 검토합니다. 또한 기존 벤치마크 및 평가 방법에 대한 자세한 요약을 제공하고 이를 다양한 단계의 관련성에 따라 분류합니다. 마지막으로, 우리는 현재의 과제에 대해 논의하고 잠재적인 미래 방향을 개략적으로 설명하여 연구자와 산업 개발자 모두가 이 신흥 유망 영역을 더 탐구하도록 영감을 주기 위해 노력하고 있습니다.
지식 습득.
검색 엔진
인터넷 증강 대화 생성 , ACL 2022. [논문]
WebGPT: 사람의 피드백을 통한 브라우저 지원 질문 답변 , Preprint 2021. [논문]
오픈 도메인 질문 답변을 위한 몇 번의 프롬프트를 통한 인터넷 증강 언어 모델 , Preprint 2022. [논문]
REPLUG: 검색 증강 블랙박스 언어 모델 , Preprint 2023. [논문]
Toolformer: 언어 모델은 스스로 도구 사용 방법을 학습할 수 있음 , NeurIPS 2023. [논문]
ART: 대규모 언어 모델을 위한 자동 다단계 추론 및 도구 사용 , Preprint 2023. [논문]
ToolCoder: API 검색 도구를 사용하도록 코드 생성 모델 교육 , Preprint 2023. [논문]
비평가: 도구 대화형 비평을 사용하여 대규모 언어 모델을 자체 수정 가능 , ICLR 2024. [논문]
데이터베이스 및 지식 그래프
Lamda: 대화 상자 응용 프로그램을 위한 언어 모델 , Preprint 2022. [논문]
Gorilla: 대규모 API와 연결된 대규모 언어 모델 , NeurIPS 2024. [논문]
ToolkenGPT: 도구 임베딩을 통해 대규모 도구로 고정 언어 모델 강화 , NeurIPS 2023. [논문]
ToolQA: 외부 도구를 사용한 LLM 질문 답변용 데이터세트 , NeurIPS 2023. [논문]
유한 상태 디코딩을 통한 LLM을 위한 구문 오류가 없고 일반화 가능한 도구 사용 , NeurIPS 2023. [논문]
LLM용 미들웨어: 도구는 복잡한 환경의 언어 에이전트를 위한 도구입니다 . EMNLP 2024. [논문]
날씨 또는 지도
오픈 소스 대규모 언어 모델의 도구 조작 기능에 관한 NeurIPS 2023. [논문]
ToolAlpaca: 3000개의 시뮬레이션 사례를 사용한 언어 모델을 위한 일반화된 도구 학습 , 사전 인쇄 2023. [논문]
기초 모델을 이용한 도구 학습 , Preprint 2023. [논문]
전문성 강화.
수학 도구
수학 단어 문제를 해결하기 위한 훈련 검증기 , Preprint 2021. [논문]
MRKL 시스템: 대규모 언어 모델, 외부 지식 소스 및 이산 추론을 결합한 모듈식 신경 기호 아키텍처 , Preprint 2021. [논문]
수치 추론을 위한 동시적 사고 연결 , EMNLP 2022. [논문]
Calc-X 및 Calcformers: 기호 시스템과의 상호 작용을 통해 산술적 사고 사슬 강화 , EMNLP 2023. [논문]
언어 모델을 기호 솔버와 결합하여 수학 단어 문제 해결 , NeurIPS 2023. [논문]
도구 증강 계산 집약적 수학 추론 평가 및 개선 , NeurIPS 2023. [논문]
ToRA: 수학적 문제 해결을 위한 도구 통합 추론 에이전트 , ICLR 2024. [논문]
MATHSENSEI: 수학적 추론을 위한 도구 증강 대형 언어 모델 , 2024년 출판 전. [논문]
SemEval-2024의 Calc-CMU 작업 7: Pre-Calc - 계산기 사용 방법을 배우면 언어 모델의 수리 능력이 향상됩니다 . NAACL 2024. [논문]
MathViz-E: 에이전트를 사용하는 도메인 전문 도구에 대한 사례 연구 , 2024년 출판 전. [논문]
파이썬 인터프리터
Pal: 프로그램 지원 언어 모델 , ICML 2023. [논문]
사고 유도 프로그램: 수치 추론 작업을 위한 추론에서 계산 분리 , TMLR 2023. [논문]
프로그램 기반 추론을 통한 사실 확인 복잡한 주장 , ACL 2023. [논문]
카멜레온: 대규모 언어 모델을 사용한 플러그 앤 플레이 구성 추론 , NeurIPS 2023. [논문]
LeTI: 텍스트 상호 작용에서 생성하는 방법 학습 , NAACL 2024. [논문]
Mint: 도구 및 언어 피드백을 사용한 다중 회전 상호 작용에서 llms 평가 , ICLR 2024. [논문]
실행 가능한 코드 작업으로 더 나은 LLM 에이전트 유도 , ICML 2024. [논문]
CodeNav: 도구 사용을 넘어 LLM 에이전트와 함께 실제 코드베이스 사용까지 , Preprint 2024. [논문]
APPL: 프로그램 및 대규모 언어 모델 프롬프트의 조화로운 통합을 위한 프롬프트 프로그래밍 언어 , 사전 인쇄 2024. [논문]
BigCodeBench: 다양한 함수 호출 및 복잡한 명령을 사용한 벤치마킹 코드 생성 , 2024년 출판물. [논문]
CodeAgent: 실제 Repo 수준 코딩 문제를 위한 도구 통합 에이전트 시스템으로 코드 생성 향상 , ACL 2024. [논문]
MuMath-Code: 수학적 추론을 위한 도구 사용 대규모 언어 모델과 다관점 데이터 확대 결합 , EMNLP 2024. [논문]
기타
MultiTool-CoT: GPT-3는 사고 사슬 프롬프트와 함께 여러 외부 도구를 사용할 수 있음 , ACL 2023. [논문]
ChemCrow: 화학 도구를 사용하여 대규모 언어 모델 강화 , Nature Machine Intelligence 2024. [논문]
화학 분야의 대규모 언어 모델 및 자율 에이전트에 대한 검토 , 2024년 출판 전. [논문]
GeneGPT: 생물 의학 정보에 대한 접근성 향상을 위한 도메인 도구를 사용하여 대규모 언어 모델 강화 , ISMB 2024. [논문]
재무의 표 형식 데이터 분석을 위한 도구 사용 기능을 갖춘 언어 모델 장착 , EACL 2024. [논문]
대형 언어 모델 기반 에이전트를 통한 금융 시장 시뮬레이션 , Preprint 2024. [논문]
금융 거래를 위한 다중 모드 기반 에이전트: 도구 증강, 다양화 및 일반화 , KDD 2024. [논문]
AgentMD: 대규모 임상 도구 학습을 통해 위험 예측을 위한 언어 에이전트 역량 강화 , 사전 인쇄 2024. [논문]
SCIAGENT: 과학적 추론을 위한 도구 증강 언어 모델 , EMNLP 2024. [논문]
MMedAgent: 다중 모드 에이전트를 통한 의료 도구 사용 방법 학습 , EMNLP 2024 조사 결과. [종이]
Let Me Do It For You: 도구 학습을 통한 LLM 권한 부여 권장 사항 , SIGIR 2024. [논문]
물리학 통합 반복 모델링을 위한 도메인별 React: 가스 터빈의 가스 경로 분석을 위한 LLM 에이전트 사례 연구 , 사전 인쇄 2024. [논문]
WORLDAPIS: 세상은 얼마나 많은 API의 가치가 있나요? 사고 실험 , ACL 2024 워크숍. [종이]
실제 시나리오의 SQL 검사 및 개선에 대한 도구 지원 에이전트 , Preprint 2024. [논문]
HoneyComb: 재료 과학을 위한 유연한 LLM 기반 에이전트 시스템 , Preprint 2024. [논문]
자동화 및 효율성.
일정 도구
ToolQA: 외부 도구를 사용한 LLM 질문 답변용 데이터세트 , NeurIPS 2023. [논문]
알림 설정
ToolLLM: 16000개 이상의 실제 API를 마스터하기 위한 대규모 언어 모델 촉진 , ICLR 2024. [논문]
이메일 필터링
ToolLLM: 16000개 이상의 실제 API를 마스터하기 위한 대규모 언어 모델 촉진 , ICLR 2024. [논문]
프로젝트 관리
ToolLLM: 16000개 이상의 실제 API를 마스터하기 위한 대규모 언어 모델 촉진 , ICLR 2024. [논문]
온라인 쇼핑 도우미
WebShop: 기반 언어 에이전트를 사용한 확장 가능한 실제 웹 상호 작용을 향하여 , NeurIPS 2022. [논문]
상호 작용 향상.
다중 모드 도구
Vipergpt: 추론을 위한 Python 실행을 통한 시각적 추론 , ICCV 2023. [논문]
MM-REACT: 다중 모달 추론 및 작업을 위한 ChatGPT 프롬프트 , 사전 인쇄 2023. [논문]
InternGPT: 언어를 넘어 ChatGPT와 상호 작용하여 비전 중심 작업 해결 , Preprint 2023. [논문]
AssistGPT: 계획, 실행, 검사 및 학습이 가능한 일반 다중 모드 보조자 , 2023년 출판 예정. [논문]
CLOVA: 도구 사용 및 업데이트를 제공하는 폐쇄 루프 시각적 도우미 , CVPR 2024. [논문]
DiffAgent: 대규모 언어 모델을 사용한 빠르고 정확한 텍스트-이미지 API 선택 , CVPR 2024. [논문]
MLLM-도구: 도구 에이전트 학습을 위한 다중 모드 대형 언어 모델 , 2024년 출판 전. [논문]
m&m's: 다단계 다중 모달 작업에 대한 도구 사용을 평가하기 위한 벤치마크 , Preprint 2024. [논문]
최소에서 최대까지: 데이터 합성을 통한 플러그 앤 플레이 시각적 추론 구축 , Preprint 2024. [논문]
기계 번역기
Toolformer: 언어 모델은 스스로 도구 사용 방법을 학습할 수 있음 , NeurIPS 2023. [논문]
기초 모델을 사용한 도구 학습 , Preprint 2023. [논문]
자연어 처리 도구
HuggingGPT: Hugging Face에서 ChatGPT 및 친구들과 함께 AI 작업 해결 , NeurIPS 2023. [논문]
GitAgent: 도구 확장을 통해 GitHub를 통해 자율 에이전트 활성화 , 2023년 출판 전. [논문]
사고 사슬 프롬프트는 대규모 언어 모델에서 추론을 유도합니다 . NeurIPS 2022. [논문]
ReAct: 언어 모델에서 추론과 행동의 시너지 효과 , ICLR 2023. [논문]
ART: 대규모 언어 모델을 위한 자동 다단계 추론 및 도구 사용 , Preprint 2023. [논문]
HuggingGPT: Hugging Face에서 ChatGPT 및 친구들과 함께 AI 작업 해결 , NeurIPS 2023. [논문]
Graph-ToolFormer: ChatGPT로 강화된 프롬프트를 통해 그래프 추론 능력으로 LLM을 강화하려면 , 2023년 사전 인쇄. [논문]
도구 제작자로서의 대규모 언어 모델 , ICLR 2024. [논문]
작성자: 대규모 언어 모델의 추상적이고 구체적인 추론을 풀기 위한 도구 생성 , EMNLP 2023. [논문]
ChatCoT: 채팅 기반 대규모 언어 모델에 대한 도구로 강화된 사고 사슬 추론 , EMNLP 2023. [논문]
FacTool: 생성 AI의 사실성 감지 - 다중 작업 및 다중 도메인 시나리오를 위한 도구 증강 프레임워크 , 사전 인쇄 2023. [논문]
TPTU: 작업 계획 및 도구 사용을 위한 대형 언어 모델 기반 AI 에이전트 , Preprint 2023. [논문]
ToolChain*: A* 검색을 사용한 대규모 언어 모델의 효율적인 작업 공간 탐색 , ICLR 2024. [논문]
가장 짧은 주의 집중 강화: 효과적인 도구 사용을 위한 대규모 언어 모델의 상황 인식 강화 , ACL 2024. [논문]
TroVE: 프로그래밍 작업 해결을 위한 검증 가능하고 효율적인 도구 상자 유도 , 2024년 출판 전. [논문]
SwissNYF: 블랙박스 설정을 위한 도구 기반 LLM 에이전트 , 사전 인쇄 2024. [논문]
요약에서 실행까지: 오픈 월드 API를 사용하여 복잡한 작업을 위한 대규모 언어 모델 강화 , Preprint 2024. [논문]
계획을 통한 예산 제약이 있는 도구 학습 , ACL 2024 조사 결과. [종이]
향상된 도구 학습을 위해 검색하는 내용 계획 및 편집 , NAACL 2024. [논문]
대규모 언어 모델은 공식 검증 도구를 사용하여 여행을 엄격하게 계획할 수 있습니다 . 2024년 사전 인쇄. [논문]
스머프: 도구 계획을 위한 상황 효율성을 갖춘 여러 숙련 에이전트 활용 , 2024년 인쇄 전. [논문]
STRIDE: 전략적 및 대화형 의사결정을 위한 도구 지원 LLM 에이전트 프레임워크 , Preprint 2024. [논문]
도구 체인: 대규모 언어 모델은 자동 다중 도구 학습자입니다 . 2024년 출판 전. [논문]
그래프 학습이 LLM 기반 에이전트의 계획을 개선할 수 있습니까? , NeurIPS 2024. [논문]
도구 계획자: 도구 클러스터링을 사용한 대규모 언어 모델을 위한 동적 솔루션 트리 계획 , Preprint 2024. [논문]
도구 실패: 잘못된 도구에서 자동 오류 감지 , EMNLP 2024. [논문]
도구 학습의 안정성에 영향을 미치는 것은 무엇입니까? 도구 학습 프레임워크의 견고성에 관한 실증적 연구 , Preprint 2024. [논문]
튤립 에이전트 - 대형 도구 라이브러리를 사용하여 작업을 해결하기 위한 LLM 기반 에이전트 활성화 , 2024년 출판 전. [논문]
도구 창고: 고급 RAG 도구 융합 및 도구 기술 자료를 사용하여 도구 장착 에이전트 확장 , 2024년 출판 전. [논문]
탐색에서 숙달까지: 자기 주도 상호 작용을 통해 LLM을 마스터 도구로 활성화 , 2024년 출판 전. [논문]
TaskMatrix.AI: 기초 모델을 수백만 개의 API와 연결하여 작업 완료 , 지능형 컴퓨팅 2024. [논문]
OpenAGI: LLM이 도메인 전문가를 만날 때 , Neurips 2023. [논문]
ToolLLM: 16000개 이상의 실제 API를 마스터하기 위한 대규모 언어 모델 촉진 , ICLR 2024. [논문]
툴링크: 오픈 소스 모델의 해결 사슬을 통한 툴킷 생성 및 사용 연결 , Preprint 2023. [논문]
TPTU-v2: 실제 시스템에서 대규모 언어 모델 기반 에이전트의 작업 계획 및 도구 사용 촉진 , ICLR 2024. [논문]
불확실성 탐색: 비공개 질문 답변에서 환각 감소를 위한 API 종속성 최적화 , ECIR 2024. [논문]
소규모 LLM은 약한 도구 학습자입니다: 다중 LLM 에이전트 , EMNLP 2024. [논문]
추상화 연쇄 추론을 통한 효율적인 도구 사용 , Preprint 2024. [논문]
도약하기 전에 살펴보기: 대규모 언어 모델을 위한 의사결정 인식 및 일반화 가능한 도구 사용을 향하여 , 인쇄 전 2024. [논문]
학술 정보 검색을 위한 솔루션 기반 LLM API 사용 방법론 , Preprint 2024. [논문]
도구로 강화된 대규모 언어 모델 발전: 추론 트리의 오류로부터 통찰력 통합 , NeurIPS 2024. [논문]
APIGen: 검증 가능하고 다양한 함수 호출 데이터 세트 생성을 위한 자동화된 파이프라인 , 2024년 출판 전. [논문]
MetaTool: 메타 작업 확대를 통해 대규모 언어 모델을 마스터 도구로 활용 , Preprint 2024. [논문]
ToolPlanner: 경로 계획 및 피드백을 갖춘 다중 세분성 지침을 위한 도구 증강 LLM , EMNLP 2024. [논문]
용어 특이성의 통계적 해석 및 검색에서의 적용 , Journal of Documentation 1972. [논문]
확률적 관련성 프레임워크: BM25 이상 , 정보 검색의 기초 및 추세 2009. [논문]
Sentence-bert: siamese bert-networks를 사용한 문장 임베딩 , EMNLP 2019. [논문]
조밀한 텍스트 검색을 위한 대략적인 최근접 이웃 음성 대조 학습 , ICLR 2021. [논문]
균형 잡힌 주제 인식 샘플링을 통해 효과적인 밀도 리트리버를 효율적으로 교육하기 , SIGIR 2021. [논문]
조밀한 구절 검색을 위한 비지도 코퍼스 인식 언어 모델 사전 훈련 , ACL 2022. [논문]
대조 학습을 통한 비지도 밀도 정보 검색 , Preprint 2021. [논문]
CRAFT: 전문 도구 세트 생성 및 검색을 통한 LLM 사용자 정의 , ICLR 2024. [논문]
ProTIP: 점진적인 도구 검색으로 계획 개선 , 2023년 인쇄 전. [논문]
ToolRerank: 도구 검색을 위한 적응형 및 계층 인식 재순위 , COLING 2024. [논문]
대규모 언어 모델의 반복 피드백을 통한 도구 검색 향상 , EMNLP 2024 결과. [종이]
재호출: 제로샷 도구 검색을 위한 도구 호출 재작성 , EMNLP 2024 조사 결과. [종이]
벡터 공간에서 도구 표현의 효율적이고 확장 가능한 추정 , Preprint 2024. [논문]
도구 창고: 고급 RAG 도구 융합 및 도구 기술 자료를 사용하여 도구 장착 에이전트 확장 , 2024년 출판 전. [논문]
COLT: 대규모 언어 모델을 위한 완전성 지향 도구 검색을 향하여 , CIKM 2024. [논문]
오픈 소스 대형 언어 모델의 도구 조작 기능에 관해 , Preprint 2023. [논문]
실행 피드백을 통해 언어 모델을 더 나은 도구 학습자로 만들기 , NAACL 2024. [논문]
ToolLLM: 16000개 이상의 실제 API를 마스터하기 위한 대규모 언어 모델 촉진 , ICLR 2024. [논문]
공자: 쉬운-어려운 커리큘럼을 통한 성찰 피드백을 통한 반복 도구 학습 , AAAI 2024. [논문]
AnyTool: 대규모 API 호출을 위한 자기 반사적, 계층적 에이전트 , 2024년 출판 전. [논문]
TOOLVERIFIER: 자체 검증을 통한 새로운 도구 일반화 , EMNLP 2024 조사 결과. [종이]
ToolNet: 도구 그래프를 통해 대규모 도구와 대규모 언어 모델 연결 , Preprint 2024. [논문]
GeckOpt: 의도 기반 도구 선택을 통한 LLM 시스템 효율성 , GLSVLSI 2024. [논문]
AvaTaR: 도구 지원 지식 검색을 위한 LLM 에이전트 최적화 , NeurIPS 2024. [논문]
소규모 에이전트도 흔들릴 수 있습니다! 환각 탐지기로 작은 언어 모델에 권한 부여 , Preprint 2024. [논문]
동종 도구를 위한 적응형 선택: RAG 시나리오의 인스턴스화 , EMNLP 2024 조사 결과. [종이]
탐색에서 숙달까지: 자기 주도 상호 작용을 통해 LLM을 마스터 도구로 활성화 , 2024년 출판 전. [논문]
RestGPT: 실제 RESTful API와 대규모 언어 모델 연결 , 2023년 출판 전. [논문]
리버스 체인: LLM이 다중 API 계획을 마스터하기 위한 일반 규칙 , 2023년 출판 전. [논문]
GEAR: 일반화 가능하고 효율적인 도구 해상도로 언어 모델 강화 , EACL 2023. [논문]
도구 문서화를 통해 대규모 언어 모델에서 제로 샷 도구 사용 가능 , Preprint 2023. [논문]
ControlLLM: 그래프 검색을 통한 도구를 사용한 언어 모델 강화 , 2023년 출판 전. [논문]
EASYTOOL: 간결한 도구 지침으로 LLM 기반 에이전트 강화 , 2024년 출판 전. [논문]
함수 호출을 통한 제로샷 대화 상태 추적기로서의 대규모 언어 모델 , ACL 2024. [논문]
도구 사용 언어 모델을 위한 간결하고 정확한 컨텍스트 압축 , ACL 2024 조사 결과. [종이]
Gorilla: 대규모 API와 연결된 대규모 언어 모델 , NeurIPS 2024. [논문]
GPT4Tools: 자가 지시를 통해 도구를 사용하도록 대규모 언어 모델 교육 , NeurIPS 2023. [논문]
ToolkenGPT: 도구 임베딩을 통해 대규모 도구로 고정 언어 모델 강화 , NeurIPS 2023. [논문]
도구 증강 보상 모델링 , ICLR 2024. [논문]
Imaginarium의 LLM: 시뮬레이션된 시행착오를 통한 도구 학습 , ACL 2024. [논문]
ToolACE: LLM 함수 호출 포인트 획득 , 2024년 사전 인쇄. [논문]
CITI: 일반 성능을 저하시키지 않고 대규모 언어 모델의 기능을 활용하는 도구 강화 , 2024년 출판 전. [논문]
품질 문제: 도구 사용 LLM에 대한 합성 데이터 평가 , EMNLP 2024. [논문]
TALM: 도구 증강 언어 모델 , Preprint 2022. [논문]
Toolformer: 언어 모델은 스스로 도구 사용 방법을 학습할 수 있음 , NeurIPS 2023. [논문]
도구 기반 생성 전략의 종합 평가 , EMNLP 2023. [논문]
TPE: 다중 페르소나 협업을 통한 개념적 도구에 대한 더 나은 구성 추론을 향하여 , Preprint 2023. [논문]
RECOMP: 압축 및 선택적 증강을 통한 검색 증강 LM 개선 , ICLR 2024. [논문]
협력 및 대화형 에이전트를 통한 도구 사용 방법 학습 , EMNLP 2024 조사 결과. [종이]
기준 | 참조 | 설명 | #도구 | #인스턴스 | 링크 | 출시 시간 |
---|---|---|---|---|---|---|
API-뱅크 | [종이] | API 계획, 검색 및 호출에 대한 기존 LLM의 기능을 평가합니다. | 73 | 314 | [레포] | 2023-04 |
API벤치 | [종이] | TorchHub, TensorHub 및 HuggingFace API 모델 카드로 구성된 포괄적인 벤치마크입니다. | 1,645 | 16,450 | [레포] | 2023-05 |
툴벤치1 | [종이] | 실제 작업을 위한 다양한 소프트웨어 도구로 구성된 도구 조작 벤치마크입니다. | 232 | 2,746 | [레포] | 2023-05 |
도구알파카 | [종이] | 특별한 교육 없이도 이전에는 볼 수 없었던 도구를 활용할 수 있는 LLM의 능력을 평가합니다. | 426 | 3,938 | [레포] | 2023-06 |
레스트벤치 | [종이] | 두 가지 실제 시나리오와 최적의 솔루션 경로가 포함된 사람이 주석을 추가한 지침으로 구성된 고품질 벤치마크입니다. | 94 | 157 | [레포] | 2023-06 |
툴벤치2 | [종이] | ChatGPT를 사용하여 자동으로 구성되는 도구 사용을 위한 명령 조정 데이터세트입니다. | 16,464 | 126,486 | [레포] | 2023-07 |
메타툴 | [종이] | LLM이 도구 사용에 대한 인식을 갖고 있고 도구를 올바르게 선택할 수 있는지 평가하기 위해 설계된 벤치마크입니다. | 199 | 21,127 | [레포] | 2023-10 |
태스크벤치 | [종이] | 작업 분해, 도구 호출, 매개변수 예측 등 다양한 측면에서 LLM의 기능을 평가하도록 설계된 벤치마크입니다. | 103 | 28,271 | [레포] | 2023-11 |
T-평가 | [종이] | 도구 활용 능력을 단계별로 평가합니다. | 15 | 533 | [레포] | 2023-12 |
도구눈 | [종이] | 실제 시나리오에서 LLM의 도구 학습 기능을 평가하기 위해 맞춤화된 세분화된 시스템입니다. | 568 | 382 | [레포] | 2024-01 |
울트라툴 | [종이] | 실제 시나리오 내에서 LLM의 도구 활용 능력을 개선하고 평가하도록 설계된 새로운 벤치마크입니다. | 2,032 | 5,824 | [레포] | 2024-01 |
API-블렌드 | [종이] | 도구로 강화된 LLM의 교육 및 체계적인 테스트를 위한 대규모 자료입니다. | - | 189,040 | [레포] | 2024-02 |
씰 도구 | [종이] | Seal-Tools에는 작업을 완료하기 위해 여러 도구를 호출하는 하드 인스턴스가 포함되어 있으며 그 중 일부는 중첩된 도구 호출입니다. | 4,076 | 14,076 | [레포] | 2024-05 |
툴QA | [종이] | 질문 답변을 위해 외부 도구를 사용하는 LLM의 능력을 충실하게 평가하도록 설계되었습니다.(QA) | 13 | 1,530 | [레포] | 2023-06 |
도구Emu | [종이] | LM을 사용하여 도구 실행을 에뮬레이트하고 다양한 도구 및 시나리오에 대해 LM 에이전트의 확장 가능한 테스트를 가능하게 하는 프레임워크입니다.(안전) | 311 | 144 | [레포] | 2023-09 |
툴톡 | [종이] | 대화를 통해 지정된 다단계 도구 사용이 필요한 복잡한 사용자 의도로 구성된 벤치마크입니다.(대화) | 28 | 78 | [레포] | 2023-11 |
VIoT | [종이] | 벤치마크에는 반자동 주석을 사용하여 3개 그룹으로 분류된 11개의 대표 비전 모델에 대한 교육 데이터 세트와 확립된 성능 측정항목이 포함됩니다.(VIoT) | 11 | 1,841 | [레포] | 2023-12 |
로티벤치 | [종이] | 도구 학습에서 LLM의 견고성을 평가하기 위한 다단계 벤치마크입니다.(강건성) | 568 | 105 | [레포] | 2024-01 |
MLLM 도구 | [종이] | 학습된 LLM이 다중 모드 입력 명령을 인식하고 기능에 맞는 도구를 올바르게 선택할 수 있도록 오픈 소스 LLM과 다중 모드 인코더를 통합한 시스템입니다.(다중 모드) | 932 | 11,642 | [레포] | 2024-01 |
도구검 | [종이] | 도구 학습에서 LLM과 연결된 안전 문제를 꼼꼼하게 조사하는 데 전념하는 포괄적인 프레임워크입니다.(안전) | 100 | 440 | [레포] | 2024-02 |
SciTool벤치 | [종이] | 도구 지원을 통해 LLM의 능력을 평가하기 위해 5가지 과학 영역에 걸쳐 있습니다.(과학 추론) | 2,446 | 856 | [레포] | 2024-02 |
인젝에이전트 | [종이] | IPI 공격에 대한 도구 통합 LLM 에이전트의 취약성을 평가하기 위해 설계된 벤치마크입니다.(안전) | 17 | 1,054 | [레포] | 2024-02 |
StableToolBench | [종이] | ToolBench에서 진화한 벤치마크로 가상 API 서버와 안정적인 평가 시스템을 제안합니다.(Stable) | 16,464 | 126,486 | [레포] | 2024-03 |
M&M's | [종이] | 다중 모드 모델, 공개 API 및 이미지 처리 모듈을 포함하는 33개 도구가 포함된 4K+ 다단계 다중 모드 작업을 포함하는 벤치마크입니다.(다중 모드) | 33 | 4,427 | [레포] | 2024-03 |
GeoLLM-QA | [종이] | LLM이 복잡한 데이터 구조, 미묘한 추론 및 동적 사용자 인터페이스와의 상호 작용을 처리하는 복잡한 RS 워크플로를 캡처하도록 설계된 1,000개의 다양한 작업에 대한 새로운 벤치마크입니다.(원격 감지) | 117 | 1,000 | [레포] | 2024-04 |
툴렌즈 | [종이] | ToolLens에는 실제 사용자 상호 작용을 더 잘 모방하는 간결하면서도 의도적으로 다면적인 쿼리가 포함되어 있습니다. (도구 회수) | 464 | 18,770 | [레포] | 2024-05 |
SoAyBench | [종이] | 솔루션 기반 LLM API를 활용한 학술 정보 검색 방법론 | 7 | 792 | [레포], [HF] | 2024-05 |
툴BH | [종이] | 깊이와 폭이라는 두 가지 관점을 통해 LLM의 환각을 평가하는 벤치마크입니다. | - | 700 | [레포] | 2024-06 |
단축키벤치 | [종이] | API 기반 에이전트에 대한 대규모 실제 벤치마크 | 1414 | 7627 | [레포] | 2024-07 |
GTA | [종이] | 일반 도구 에이전트를 위한 벤치마크 | 14 | 229 | [레포] | 2024-07 |
WTU-평가 | [종이] | 대규모 언어 모델에 대한 도구 사용 여부 평가 벤치마크 | 4 | 916 | [레포] | 2024-07 |
앱월드 | [종이] | API 호출을 통한 대화형 코딩이 필요한 복잡한 일상 작업 모음 | 457 | 750 | [레포] | 2024-07 |
툴샌드박스 | [종이] | 상태 저장형, 대화형 및 대화형 도구 사용 벤치마크입니다. | 34 | 1032 | [레포] | 2024-08 |
CToolEval | [종이] | 중국 사회 응용 프로그램의 맥락에서 LLM을 평가하도록 설계된 벤치마크입니다. | 27 | 398 | [레포] | 2024-08 |
시끄러운도구벤치 | [종이] | 이 벤치마크에는 제공된 API, 모호한 쿼리, 설명을 위한 예상 질문 및 해당 응답 모음이 포함되어 있습니다. | - | 200 | [레포] | 2024-09 |
작업 계획
도구 사용 인식
MetaTool 벤치마크: 도구 사용 여부 및 사용할 도구 결정 , ICLR 2024. [논문]
도구로 강화된 대형 언어 모델이 불완전한 조건을 인식할 수 있습니까? , Preprint 2024. [논문]
합격률 및 승률
ToolLLM: 16000개 이상의 실제 API를 마스터하기 위한 대규모 언어 모델 촉진 , ICLR 2024. [논문]
정확성
T-Eval: 대규모 언어 모델의 도구 활용 능력을 단계별로 평가 , ACL 2024. [논문]
RestGPT: 실제 RESTful API와 대규모 언어 모델 연결 , 2023년 출판 전. [논문]
학술 정보 검색을 위한 솔루션 기반 LLM API 사용 방법론 , Preprint 2024. [논문]
도구 선택
정도
ShortcutsBench: API 기반 에이전트를 위한 대규모 실제 벤치마크 , 2024년 출판 전. [논문]
상기하다
재현율, 정밀도 및 평균 정밀도 , 통계계리과학과 2004. [논문]
NDCG
IR 기법의 누적 이득 기반 평가 , TOIS 2002. [논문]
COMP
COLT: 대규모 언어 모델을 위한 완전성 지향 도구 검색을 향하여 , CIKM 2024. [논문]
도구 호출
규정에 부합
T-Eval: 대규모 언어 모델의 도구 활용 능력을 단계별로 평가 , ACL 2024. [논문]
향상된 도구 학습을 위해 검색하는 내용 계획 및 편집 , NAACL 2024. [논문]
ToolEyes: 실제 시나리오에서 대규모 언어 모델의 도구 학습 기능에 대한 세밀한 평가 , Preprint 2024. [페이퍼3]
ShortcutsBench: API 기반 에이전트를 위한 대규모 실제 벤치마크 , 2024년 출판 전. [논문]
응답 생성
블루
Bleu: 기계 번역의 자동 평가 방법 , ACL 2002. [논문]
연지
Rouge: 요약 자동 평가용 패키지 , ACL 2004. [논문]
정확한 일치
cem: Stata의 대략적인 정확한 일치 , The Stata Journal 2009. [논문]
매개변수 채우기
정도
ShortcutsBench: API 기반 에이전트를 위한 대규모 실제 벤치마크 , 2024년 출판 전. [논문]
도구학습논문. [레포]
굉장한 도구 -llm. [레포]
멋진-llm-도구-학습. [레포]
증강 언어 모델: 설문조사 , TMLR 2024. [논문]
기초 모델을 사용한 도구 학습 , Preprint 2024. [논문]
도구란 무엇입니까? 언어 모델 관점에서 본 설문 조사 , COLM 2024. [논문]