Recentemente, a aprendizagem de ferramentas com grandes modelos de linguagem (LLMs) emergiu como um paradigma promissor para aumentar as capacidades dos LLMs para resolver problemas altamente complexos.
Esta é a coleção de artigos relacionados ao aprendizado de ferramentas com LLMs. Esses artigos são organizados de acordo com nosso artigo de pesquisa "Aprendizagem de ferramentas com modelos de linguagem grandes: uma pesquisa".
中文: Notamos que PaperAgent e 旺知识 forneceram uma introdução breve e abrangente em chinês, respectivamente. Agradecemos imensamente sua ajuda.
? Nosso trabalho de pesquisa é aceito pela Frontiers of Computer Science (FCS) . A última versão do nosso artigo já foi lançada; por favor confira!
Fique à vontade para entrar em contato conosco se tiver alguma dúvida ou sugestão!
?? Fique à vontade para abrir um problema ou fazer uma solicitação pull! ??
Se você acha que nosso trabalho ajuda sua pesquisa, por favor, cite nosso artigo:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
Recentemente, a aprendizagem de ferramentas com grandes modelos de linguagem (LLMs) emergiu como um paradigma promissor para aumentar as capacidades dos LLMs para resolver problemas altamente complexos. Apesar da crescente atenção e dos rápidos avanços neste campo, a literatura existente permanece fragmentada e carece de organização sistemática, colocando barreiras à entrada de recém-chegados. Esta lacuna nos motiva a realizar um levantamento abrangente dos trabalhos existentes sobre aprendizagem de ferramentas com LLMs. Nesta pesquisa, nos concentramos na revisão da literatura existente sobre os dois aspectos principais (1) por que o aprendizado de ferramentas é benéfico e (2) como o aprendizado de ferramentas é implementado, permitindo uma compreensão abrangente do aprendizado de ferramentas com LLMs. Primeiro exploramos o “porquê” revisando os benefícios da integração de ferramentas e os benefícios inerentes do paradigma de aprendizagem de ferramentas a partir de seis aspectos específicos. Em termos de “como”, revisamos sistematicamente a literatura de acordo com uma taxonomia de quatro estágios principais no fluxo de trabalho de aprendizagem de ferramentas: planejamento de tarefas, seleção de ferramentas, chamada de ferramentas e geração de respostas. Além disso, fornecemos um resumo detalhado dos benchmarks e métodos de avaliação existentes, categorizando-os de acordo com sua relevância para as diferentes etapas. Finalmente, discutimos os desafios actuais e delineamos possíveis direcções futuras, com o objectivo de inspirar investigadores e promotores industriais a explorar ainda mais esta área emergente e promissora.
Aquisição de Conhecimento.
Mecanismo de pesquisa
Geração de Diálogo Aumentado pela Internet , ACL 2022. [Artigo]
WebGPT: resposta a perguntas assistida por navegador com feedback humano , Preprint 2021. [Artigo]
Modelos de linguagem aumentados pela Internet por meio de solicitações rápidas para resposta a perguntas de domínio aberto , Preprint 2022. [Artigo]
REPLUG: Modelos de linguagem de caixa preta aumentada para recuperação , pré-impressão 2023. [Artigo]
Toolformer: Modelos de linguagem podem ensinar-se a usar ferramentas , NeurIPS 2023. [Artigo]
ART: Raciocínio automático em várias etapas e uso de ferramentas para modelos de linguagem grandes , Preprint 2023. [Artigo]
ToolCoder: Ensine modelos de geração de código para usar ferramentas de pesquisa de API , Preprint 2023. [Artigo]
CRÍTICO: Grandes modelos de linguagem podem ser autocorrigidos com crítica interativa de ferramentas , ICLR 2024. [Artigo]
Banco de dados e gráfico de conhecimento
Lamda: Modelos de linguagem para aplicações de diálogo , Preprint 2022. [Artigo]
Gorilla: modelo de linguagem grande conectado com APIs massivas , NeurIPS 2024. [Artigo]
ToolkenGPT: Aumentando modelos de linguagem congelada com ferramentas massivas por meio de embeddings de ferramentas , NeurIPS 2023. [Artigo]
ToolQA: um conjunto de dados para resposta a perguntas LLM com ferramentas externas , NeurIPS 2023. [Artigo]
Uso de ferramenta generalizável e livre de erros de sintaxe para LLMs via decodificação de estado finito , NeurIPS 2023. [Artigo]
Middleware para LLMs: Ferramentas são instrumentais para agentes de linguagem em ambientes complexos , EMNLP 2024. [Artigo]
Tempo ou mapa
Sobre a capacidade de manipulação de ferramentas de modelos de linguagem grande de código aberto , NeurIPS 2023. [Artigo]
ToolAlpaca: Aprendizado generalizado de ferramentas para modelos de linguagem com 3.000 casos simulados , pré-impressão 2023. [Artigo]
Aprendizado de ferramentas com modelos básicos , Preprint 2023. [Artigo]
Aprimoramento de experiência.
Ferramentas Matemáticas
Treinamento de verificadores para resolver problemas matemáticos com palavras , Preprint 2021. [Artigo]
Sistemas MRKL: Uma arquitetura modular neuro-simbólica que combina grandes modelos de linguagem, fontes externas de conhecimento e raciocínio discreto , Preprint 2021. [Artigo]
Encadeando pensamentos simultâneos para raciocínio numérico , EMNLP 2022. [Artigo]
Calc-X e Calcformers: Capacitando a Cadeia de Pensamento Aritmética por meio da Interação com Sistemas Simbólicos , EMNLP 2023. [Artigo]
Resolvendo problemas matemáticos com palavras combinando modelos de linguagem com solucionadores simbólicos , NeurIPS 2023. [Artigo]
Avaliando e melhorando o raciocínio matemático intensivo em computação aumentada por ferramenta , NeurIPS 2023. [Artigo]
ToRA: Um agente de raciocínio integrado a ferramentas para solução de problemas matemáticos , ICLR 2024. [Artigo]
MATHSENSEI: Um modelo de linguagem grande aumentado por ferramenta para raciocínio matemático , pré-impressão 2024. [Artigo]
Calc-CMU no SemEval-2024 Tarefa 7: Pré-Calc - Aprender a usar a calculadora melhora a numeracia em modelos de linguagem , NAACL 2024. [Artigo]
MathViz-E: Um estudo de caso em agentes usuários de ferramentas especializados em domínio , Preprint 2024. [Artigo]
Intérprete Python
Pal: Modelos de linguagem auxiliados por programa , ICML 2023. [Artigo]
Programa de solicitação de pensamentos: desembaraçando a computação do raciocínio para tarefas de raciocínio numérico , TMLR 2023. [Artigo]
Reivindicações complexas de verificação de fatos com raciocínio guiado por programa , ACL 2023. [Artigo]
Chameleon: Raciocínio Composicional Plug-and-Play com Grandes Modelos de Linguagem , NeurIPS 2023. [Artigo]
LeTI: Aprendendo a gerar a partir de interações textuais , NAACL 2024. [Artigo]
Mint: Avaliando llms em interação multi-turno com ferramentas e feedback de linguagem , ICLR 2024. [Artigo]
Ações de código executável provocam melhores agentes LLM , ICML 2024. [Artigo]
CodeNav: Além do uso de ferramentas para usar bases de código do mundo real com agentes LLM , Preprint 2024. [Artigo]
APPL: Uma linguagem de programação rápida para integração harmoniosa de programas e prompts de modelos de linguagem grande , pré-impressão 2024. [Artigo]
BigCodeBench: Benchmarking Code Generation com diversas chamadas de função e instruções complexas , pré-impressão 2024. [Artigo]
CodeAgent: Aprimorando a geração de código com sistemas de agentes integrados a ferramentas para desafios de codificação em nível de repositório do mundo real , ACL 2024. [Artigo]
Código MuMath: Combinando Modelos de Linguagem Grande de Uso de Ferramentas com Aumento de Dados Multiperspectivos para Raciocínio Matemático , EMNLP 2024. [Artigo]
Outros
MultiTool-CoT: GPT-3 pode usar várias ferramentas externas com solicitação de cadeia de pensamento , ACL 2023. [Artigo]
ChemCrow: Aumentando modelos de linguagem grande com ferramentas de química , Nature Machine Intelligence 2024. [Artigo]
UMA REVISÃO DE GRANDES MODELOS DE LÍNGUA E AGENTES AUTÔNOMOS EM QUÍMICA , Pré-impressão 2024. [Artigo]
GeneGPT: Aumentando modelos de linguagem grande com ferramentas de domínio para acesso aprimorado a informações biomédicas , ISMB 2024. [Artigo]
Equipando modelos de linguagem com capacidade de uso de ferramentas para análise de dados tabulares em finanças , EACL 2024. [Artigo]
Simulando o mercado financeiro por meio de agentes baseados em modelos de linguagem grande , Preprint 2024. [Artigo]
Um agente de base multimodal para negociação financeira: ferramenta aumentada, diversificada e generalista , KDD 2024. [Artigo]
AgentMD: Capacitando agentes de linguagem para previsão de risco com aprendizado de ferramentas clínicas em larga escala , Preprint 2024. [Artigo]
SCIAGENT: Modelos de linguagem aumentada por ferramentas para raciocínio científico , EMNLP 2024. [Artigo]
MMedAgent: Aprendendo a usar ferramentas médicas com agente multimodal , resultados do EMNLP 2024. [Papel]
Deixe-me fazer isso por você: Rumo à recomendação habilitada para LLM por meio de aprendizado de ferramentas , SIGIR 2024. [Artigo]
DOMAIN-SPECIFIC ReAct FOR PHYSICS-INTEGRATED ITERATIVE MODELING: A CASE STUDY OF LLM AGENTS FOR GAS PATH ANALYSIS OF GAS TURBINES , Preprint 2024. [Artigo]
WORLDAPIS: O mundo vale quantas APIs? Um experimento mental , Workshop ACL 2024. [Papel]
Agente assistido por ferramenta na inspeção e refinamento de SQL em cenários do mundo real , Preprint 2024. [Artigo]
HoneyComb: Um Sistema de Agente Flexível Baseado em LLM para Ciência de Materiais , Preprint 2024. [Artigo]
Automação e Eficiência.
Ferramentas de agendamento
ToolQA: um conjunto de dados para resposta a perguntas LLM com ferramentas externas , NeurIPS 2023. [Artigo]
Definir lembretes
ToolLLM: Facilitando grandes modelos de linguagem para dominar mais de 16.000 APIs do mundo real , ICLR 2024. [Artigo]
Filtrar e-mails
ToolLLM: Facilitando grandes modelos de linguagem para dominar mais de 16.000 APIs do mundo real , ICLR 2024. [Artigo]
Gerenciamento de projetos
ToolLLM: Facilitando grandes modelos de linguagem para dominar mais de 16.000 APIs do mundo real , ICLR 2024. [Artigo]
Assistentes de compras online
WebShop: Rumo à interação escalável da Web no mundo real com agentes de linguagem fundamentados , NeurIPS 2022. [Artigo]
Melhoria da interação.
Ferramentas multimodais
Vipergpt: Inferência visual via execução python para raciocínio , ICCV 2023. [Artigo]
MM-REACT: Solicitando ChatGPT para raciocínio e ação multimodal , pré-impressão 2023. [Artigo]
InternGPT: Resolvendo tarefas centradas na visão interagindo com ChatGPT além da linguagem , Preprint 2023. [Artigo]
AssistGPT: Um assistente multimodal geral que pode planejar, executar, inspecionar e aprender , pré-impressão 2023. [Artigo]
CLOVA: Um assistente visual de circuito fechado com uso e atualização de ferramentas , CVPR 2024. [Artigo]
DiffAgent: Seleção rápida e precisa de API de texto para imagem com modelo de linguagem grande , CVPR 2024. [Artigo]
Ferramenta MLLM: um modelo multimodal de linguagem grande para aprendizagem de agentes de ferramentas , Preprint 2024. [Artigo]
m&m's: um benchmark para avaliar o uso de ferramentas para tarefas multimodais de várias etapas , Preprint 2024. [Artigo]
Do mínimo ao máximo: Construindo um Raciocinador Visual Plug-and-Play via Síntese de Dados , Preprint 2024. [Artigo]
Tradutor automático
Toolformer: Modelos de linguagem podem ensinar-se a usar ferramentas , NeurIPS 2023. [Artigo]
Aprendizado de ferramentas com modelos básicos , Preprint 2023. [Artigo]
Ferramentas de processamento de linguagem natural
HuggingGPT: Resolvendo tarefas de IA com ChatGPT e seus amigos em Hugging Face , NeurIPS 2023. [Artigo]
GitAgent: Facilitando Agente Autônomo com GitHub por Tool Extension , Preprint 2023. [Artigo]
A solicitação de cadeia de pensamento provoca raciocínio em modelos de linguagem grande , NeurIPS 2022. [Artigo]
ReAct: Sinergizando raciocínio e atuação em modelos de linguagem , ICLR 2023. [Artigo]
ART: Raciocínio automático em várias etapas e uso de ferramentas para modelos de linguagem grandes , Preprint 2023. [Artigo]
HuggingGPT: Resolvendo tarefas de IA com ChatGPT e seus amigos em Hugging Face , NeurIPS 2023. [Artigo]
Graph-ToolFormer: Para capacitar LLMs com capacidade de raciocínio gráfico via prompt aumentado por ChatGPT , Preprint 2023. [Artigo]
Grandes modelos de linguagem como fabricantes de ferramentas , ICLR 2024. [Artigo]
CRIADOR: Criação de ferramenta para desemaranhar raciocínio abstrato e concreto de modelos de linguagem grande , EMNLP 2023. [Artigo]
ChatCoT: Raciocínio de cadeia de pensamento aumentado por ferramenta em modelos de linguagem grande baseados em bate-papo , EMNLP 2023. [Artigo]
FacTool: Detecção de factualidade em IA generativa - Uma estrutura aumentada de ferramenta para cenários multitarefas e multidomínios , Preprint 2023. [Artigo]
TPTU: Agentes de IA baseados em modelos de linguagem grande para planejamento de tarefas e uso de ferramentas , pré-impressão 2023. [Artigo]
ToolChain*: Navegação eficiente no espaço de ação em modelos de linguagem grande com pesquisa A* , ICLR 2024. [Artigo]
Fortaleça a menor escala de atenção: Melhorando a consciência do contexto de grandes modelos de linguagem para o uso eficaz de ferramentas , ACL 2024. [Artigo]
TroVE: Induzindo caixas de ferramentas verificáveis e eficientes para resolver tarefas programáticas , Preprint 2024. [Artigo]
SwissNYF: Tool Grounded LLM Agents for Black Box Setting , Preprint 2024. [Artigo]
Do Resumo à Ação: Aprimorando Modelos de Linguagem Grande para Tarefas Complexas com APIs de Mundo Aberto , Preprint 2024. [Artigo]
Aprendizado de ferramenta com restrição de orçamento com planejamento , resultados do ACL 2024. [Papel]
Planejando e editando o que você recupera para aprendizado aprimorado de ferramentas , NAACL 2024. [Artigo]
Grandes modelos de linguagem podem planejar suas viagens rigorosamente com ferramentas formais de verificação , Pré-impressão 2024. [Artigo]
Smurfs: Aproveitando Múltiplos Agentes de Proficiência com Eficiência de Contexto para Planejamento de Ferramentas , Pré-impressão 2024. [Artigo]
STRIDE: Uma estrutura de agente LLM assistida por ferramentas para tomada de decisões estratégicas e interativas , pré-impressão 2024. [Artigo]
Cadeia de ferramentas: o modelo de linguagem grande é um aluno automático de múltiplas ferramentas , Preprint 2024. [Artigo]
O Graph Learning pode melhorar o planejamento em agentes baseados em LLM? , NeurIPS 2024. [Artigo]
Planejador de ferramentas: planejamento de árvore de soluções dinâmicas para modelo de linguagem grande com cluster de ferramentas , pré-impressão 2024. [Artigo]
Falha nas ferramentas: detectando erros silenciosos em ferramentas com defeito , EMNLP 2024. [Artigo]
O que afeta a estabilidade do aprendizado de ferramentas? Um estudo empírico sobre a robustez das estruturas de aprendizagem de ferramentas , Preprint 2024. [Artigo]
Agente Tulip - Habilitando Agentes Baseados em LLM para Resolver Tarefas Usando Grandes Bibliotecas de Ferramentas , Pré-impressão 2024. [Artigo]
Toolshed: Dimensione agentes equipados com ferramentas com fusão avançada de ferramentas RAG e bases de conhecimento de ferramentas , pré-impressão 2024. [Artigo]
Da exploração ao domínio: capacitando LLMs para ferramentas mestres por meio de interações autodirigidas , Preprint 2024. [Artigo]
TaskMatrix.AI: Concluindo tarefas conectando modelos básicos com milhões de APIs , INTELLIGENT COMPUTING 2024. [Artigo]
OpenAGI: Quando LLM encontra especialistas em domínio , Neurips 2023. [Artigo]
ToolLLM: Facilitando grandes modelos de linguagem para dominar mais de 16.000 APIs do mundo real , ICLR 2024. [Artigo]
Toolink: Vinculando a criação e o uso do kit de ferramentas por meio de cadeia de solução no modelo de código aberto , Preprint 2023. [Artigo]
TPTU-v2: Impulsionando o planejamento de tarefas e o uso de ferramentas de agentes baseados em modelos de linguagem grande em sistemas do mundo real , ICLR 2024. [Artigo]
Navegando pela incerteza: otimizando a dependência da API para redução de alucinações em respostas a perguntas de livro fechado , ECIR 2024. [Artigo]
LLMs pequenos são alunos fracos em ferramentas: um agente multi-LLM , EMNLP 2024. [Artigo]
Uso eficiente de ferramentas com raciocínio de cadeia de abstração , Preprint 2024. [Artigo]
Olhe antes de saltar: Rumo ao uso de ferramentas com conhecimento de decisão e generalizável para modelos de linguagem grande , Pré-impressão 2024. [Artigo]
Uma metodologia de uso de API LLM baseada em solução para busca de informações acadêmicas , Preprint 2024. [Artigo]
Avançando modelos de linguagem grande aumentados por ferramentas: Integrando insights de erros em árvores de inferência , NeurIPS 2024. [Artigo]
APIGen: pipeline automatizado para gerar conjuntos de dados de chamada de função verificáveis e diversos , pré-impressão 2024. [Artigo]
MetaTool: Facilitando Grandes Modelos de Linguagem para Dominar Ferramentas com Aumento de Meta-tarefa , Pré-impressão 2024. [Artigo]
ToolPlanner: A Tool Augmented LLM para instruções de multi granularidade com planejamento de caminho e feedback , EMNLP 2024. [Artigo]
Uma interpretação estatística da especificidade do termo e sua aplicação na recuperação , Journal of Documentation 1972. [Artigo]
A estrutura de relevância probabilística: BM25 e além , Fundamentos e Tendências na Recuperação de Informação 2009. [Artigo]
Sentença-bert: Embeddings de frases usando redes siamesas bert , EMNLP 2019. [Artigo]
Aprendizagem contrastiva negativa aproximada do vizinho mais próximo para recuperação de texto denso , ICLR 2021. [Artigo]
Ensinando Eficientemente um Dense Retriever Eficaz com Amostragem Balanceada e Consciente de Tópicos , SIGIR 2021. [Artigo]
Pré-treinamento de modelo de linguagem sem supervisão Corpus Aware para recuperação de passagem densa , ACL 2022. [Artigo]
Recuperação de informação densa não supervisionada com aprendizagem contrastiva , Preprint 2021. [Artigo]
CRAFT: Personalizando LLMs criando e recuperando de conjuntos de ferramentas especializadas , ICLR 2024. [Artigo]
ProTIP: Recuperação progressiva de ferramentas melhora o planejamento , pré-impressão 2023. [Artigo]
ToolRerank: Reclassificação adaptativa e com reconhecimento de hierarquia para recuperação de ferramentas , COLING 2024. [Artigo]
Aprimorando a recuperação de ferramentas com feedback iterativo de modelos de linguagem grande , resultados do EMNLP 2024. [Papel]
Re-Invoke: Reescrita de invocação de ferramenta para recuperação de ferramenta Zero-Shot , resultados do EMNLP 2024. [Papel]
Estimativa eficiente e escalonável de representações de ferramentas no espaço vetorial , Preprint 2024. [Artigo]
Toolshed: Dimensione agentes equipados com ferramentas com fusão avançada de ferramentas RAG e bases de conhecimento de ferramentas , pré-impressão 2024. [Artigo]
COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models , CIKM 2024. [Artigo]
Sobre a capacidade de manipulação de ferramentas de modelos de linguagem grande de código aberto , Preprint 2023. [Artigo]
Tornando os modelos de linguagem melhores para alunos com feedback de execução , NAACL 2024. [Artigo]
ToolLLM: Facilitando grandes modelos de linguagem para dominar mais de 16.000 APIs do mundo real , ICLR 2024. [Artigo]
Confúcio: ferramenta iterativa aprendendo com feedback de introspecção por currículo fácil de difícil , AAAI 2024. [Artigo]
AnyTool: agentes auto-reflexivos e hierárquicos para chamadas de API em larga escala , pré-impressão 2024. [Artigo]
TOOLVERIFIER: Generalização para novas ferramentas por meio de autoverificação , resultados do EMNLP 2024. [Papel]
ToolNet: Conectando modelos de linguagem grande com ferramentas massivas via Tool Graph , Preprint 2024. [Artigo]
GeckOpt: Eficiência do sistema LLM via seleção de ferramenta baseada em intenção , GLSVLSI 2024. [Artigo]
AvaTaR: Otimizando Agentes LLM para Recuperação de Conhecimento Assistida por Ferramentas , NeurIPS 2024. [Artigo]
Pequeno agente também pode arrasar! Capacitando modelos de linguagem pequena como detector de alucinações , Preprint 2024. [Artigo]
Seleção adaptativa para ferramentas homogêneas: uma instanciação no cenário RAG , resultados do EMNLP 2024. [Papel]
Da exploração ao domínio: capacitando LLMs para ferramentas mestres por meio de interações autodirigidas , Preprint 2024. [Artigo]
RestGPT: Conectando grandes modelos de linguagem com APIs RESTful do mundo real , Preprint 2023. [Artigo]
Cadeia reversa: uma regra genérica para LLMs dominarem o planejamento multi-API , Preprint 2023. [Artigo]
GEAR: Aumentando Modelos de Linguagem com Resolução de Ferramenta Generalizável e Eficiente , EACL 2023. [Artigo]
A documentação da ferramenta permite o uso de ferramentas Zero-Shot com modelos de linguagem grande , pré-impressão 2023. [Artigo]
ControlLLM: Aumente modelos de linguagem com ferramentas pesquisando em gráficos , pré-impressão 2023. [Artigo]
EASYTOOL: Aprimorando agentes baseados em LLM com instruções de ferramentas concisas , pré-impressão 2024. [Artigo]
Modelos de linguagem grande como rastreador de estado de diálogo zero-shot por meio de chamada de função , ACL 2024. [Artigo]
Compressão de contexto concisa e precisa para modelos de linguagem que usam ferramentas , descobertas do ACL 2024. [Papel]
Gorilla: modelo de linguagem grande conectado com APIs massivas , NeurIPS 2024. [Artigo]
GPT4Tools: Ensinando modelo de linguagem grande para usar ferramentas por meio de autoinstrução , NeurIPS 2023. [Artigo]
ToolkenGPT: Aumentando modelos de linguagem congelada com ferramentas massivas por meio de embeddings de ferramentas , NeurIPS 2023. [Artigo]
Modelagem de recompensa aumentada por ferramenta , ICLR 2024. [Artigo]
LLMs no Imaginarium: Aprendizagem de ferramentas por meio de tentativa e erro simulado , ACL 2024. [Artigo]
ToolACE: Ganhando os pontos da chamada de função LLM , Preprint 2024. [Artigo]
CITI: Ferramenta de aprimoramento que utiliza capacidade em modelos de linguagem grande sem sacrificar o desempenho geral , Preprint 2024. [Artigo]
Qualidade é importante: avaliando dados sintéticos para LLMs de uso de ferramentas , EMNLP 2024. [Artigo]
TALM: Modelos de linguagem aumentada de ferramentas , pré-impressão 2022. [Artigo]
Toolformer: Modelos de linguagem podem ensinar-se a usar ferramentas , NeurIPS 2023. [Artigo]
Uma avaliação abrangente de estratégias de geração assistida por ferramentas , EMNLP 2023. [Artigo]
TPE: Rumo a um melhor raciocínio composicional sobre ferramentas conceituais com colaboração multipessoal , Preprint 2023. [Artigo]
RECOMP: Melhorando LMs aumentados por recuperação com compressão e aumento seletivo , ICLR 2024. [Artigo]
Aprendendo a usar ferramentas por meio de agentes cooperativos e interativos , resultados do EMNLP 2024. [Papel]
Referência | Referência | Descrição | #Ferramentas | #Instâncias | Link | Hora de lançamento |
---|---|---|---|---|---|---|
Banco API | [Papel] | Avaliar as capacidades dos LLMs existentes no planejamento, recuperação e chamada de APIs. | 73 | 314 | [Repositório] | 2023-04 |
APIBench | [Papel] | Um benchmark abrangente construído a partir de cartões de modelo de API TorchHub, TensorHub e HuggingFace. | 1.645 | 16.450 | [Repositório] | 2023-05 |
Banco de ferramentas1 | [Papel] | Um benchmark de manipulação de ferramentas que consiste em diversas ferramentas de software para tarefas do mundo real. | 232 | 2.746 | [Repositório] | 2023-05 |
FerramentaAlpaca | [Papel] | Avaliar a capacidade dos LLMs de utilizar ferramentas inéditas sem treinamento específico. | 426 | 3.938 | [Repositório] | 2023-06 |
Banco de descanso | [Papel] | Um benchmark de alta qualidade que consiste em dois cenários do mundo real e instruções anotadas por humanos com caminhos de solução ouro. | 94 | 157 | [Repositório] | 2023-06 |
ToolBench2 | [Papel] | Um conjunto de dados de ajuste de instruções para uso de ferramentas, que é construído automaticamente usando ChatGPT. | 16.464 | 126.486 | [Repositório] | 2023-07 |
MetaFerramenta | [Papel] | Um benchmark projetado para avaliar se os LLMs têm consciência do uso de ferramentas e podem escolher as ferramentas corretamente. | 199 | 21.127 | [Repositório] | 2023-10 |
Banco de tarefas | [Papel] | Um benchmark projetado para avaliar a capacidade dos LLMs de diferentes aspectos, incluindo decomposição de tarefas, invocação de ferramentas e previsão de parâmetros. | 103 | 28.271 | [Repositório] | 2023-11 |
Avaliação T | [Papel] | Avaliando passo a passo a capacidade de utilização da ferramenta. | 15 | 533 | [Repositório] | 2023-12 |
FerramentaEyes | [Papel] | Um sistema refinado adaptado para a avaliação das capacidades de aprendizagem de ferramentas dos LLMs em cenários autênticos. | 568 | 382 | [Repositório] | 2024-01 |
UltraTool | [Papel] | Um novo benchmark projetado para melhorar e avaliar a capacidade dos LLMs na utilização de ferramentas em cenários do mundo real. | 2.032 | 5.824 | [Repositório] | 2024-01 |
MISTURA DE API | [Papel] | Um grande corpora para treinamento e testes sistemáticos de LLMs aumentados por ferramentas. | - | 189.040 | [Repositório] | 2024-02 |
Ferramentas de vedação | [Papel] | Seal-Tools contém instâncias difíceis que chamam várias ferramentas para concluir o trabalho, entre as quais algumas são chamadas de ferramentas aninhadas. | 4.076 | 14.076 | [Repositório] | 2024-05 |
Ferramenta de controle de qualidade | [Papel] | Ele foi projetado para avaliar fielmente a capacidade dos LLMs de usar ferramentas externas para responder perguntas.(QA) | 13 | 1.530 | [Repositório] | 2023-06 |
FerramentaEmu | [Papel] | Uma estrutura que usa um LM para emular a execução de ferramentas e permite testes escalonáveis de agentes LM em uma ampla gama de ferramentas e cenários.(Segurança) | 311 | 144 | [Repositório] | 2023-09 |
FerramentaTalk | [Papel] | Um benchmark que consiste em intenções de usuário complexas que exigem o uso de ferramentas em várias etapas especificadas por meio de diálogo.(Conversa) | 28 | 78 | [Repositório] | 2023-11 |
VIoT | [Papel] | Um benchmark inclui um conjunto de dados de treinamento e métricas de desempenho estabelecidas para 11 modelos de visão representativos, categorizados em três grupos usando anotações semiautomáticas.(VIoT) | 11 | 1.841 | [Repositório] | 2023-12 |
RoTBench | [Papel] | Uma referência multinível para avaliar a robustez dos LLMs na aprendizagem de ferramentas.(Robustez) | 568 | 105 | [Repositório] | 2024-01 |
Ferramenta MLLM | [Papel] | Um sistema que incorpora LLMs de código aberto e codificadores multimodais para que os LLMs aprendidos possam estar conscientes da instrução de entrada multimodal e então selecionar corretamente a ferramenta com função correspondente. | 932 | 11.642 | [Repositório] | 2024-01 |
Ferramenta Espada | [Papel] | Uma estrutura abrangente dedicada a investigar meticulosamente questões de segurança vinculadas a LLMs no aprendizado de ferramentas.(Segurança) | 100 | 440 | [Repositório] | 2024-02 |
SciToolBench | [Papel] | Abrangendo cinco domínios científicos para avaliar as habilidades dos LLMs com assistência de ferramentas. (Raciocínio Científico) | 2.446 | 856 | [Repositório] | 2024-02 |
InjecAgente | [Papel] | Um benchmark projetado para avaliar a vulnerabilidade de agentes LLM integrados a ferramentas a ataques IPI.(Segurança) | 17 | 1.054 | [Repositório] | 2024-02 |
StableToolBench | [Papel] | Um benchmark evoluindo do ToolBench, propondo um servidor API virtual e um sistema de avaliação estável.(Estável) | 16.464 | 126.486 | [Repositório] | 2024-03 |
M&M's | [Papel] | Um benchmark contendo tarefas multimodais de várias etapas 4K+ envolvendo 33 ferramentas que incluem modelos multimodais, APIs públicas e módulos de processamento de imagem.(Multimodal) | 33 | 4.427 | [Repositório] | 2024-03 |
GeoLLM-QA | [Papel] | Um novo benchmark de 1.000 tarefas diversas, projetado para capturar fluxos de trabalho RS complexos onde LLMs lidam com estruturas de dados complexas, raciocínio diferenciado e interações com interfaces de usuário dinâmicas. | 117 | 1.000 | [Repositório] | 2024-04 |
ToolLens | [Papel] | ToolLens inclui consultas concisas, mas intencionalmente multifacetadas, que imitam melhor as interações do usuário no mundo real. (Recuperação de ferramenta) | 464 | 18.770 | [Repositório] | 2024-05 |
SoAyBench | [Papel] | Uma metodologia de uso de API LLM baseada em solução para busca de informações acadêmicas | 7 | 792 | [Repo], [HF] | 2024-05 |
FerramentaBH | [Papel] | Uma referência que avalia as alucinações do LLM através de duas perspectivas: profundidade e amplitude. | - | 700 | [Repositório] | 2024-06 |
AtalhosBanco | [Papel] | Um benchmark do mundo real em larga escala para agentes baseados em API | 1414 | 7627 | [Repositório] | 2024-07 |
GTA | [Papel] | Uma referência para agentes de ferramentas gerais | 14 | 229 | [Repositório] | 2024-07 |
Avaliação WTU | [Papel] | Uma referência de avaliação do uso de ferramentas para grandes modelos de linguagem | 4 | 916 | [Repositório] | 2024-07 |
AppWorld | [Papel] | Uma coleção de tarefas diárias complexas que exigem codificação interativa com chamadas de API | 457 | 750 | [Repositório] | 2024-07 |
FerramentaSandbox | [Papel] | Um benchmark de uso de ferramentas com estado, conversacional e interativo. | 34 | 1032 | [Repositório] | 2024-08 |
CToolEval | [Papel] | Uma referência projetada para avaliar LLMs no contexto das aplicações sociais chinesas. | 27 | 398 | [Repositório] | 2024-08 |
BarulhentoToolBench | [Papel] | Este benchmark inclui uma coleção de APIs fornecidas, consultas ambíguas, perguntas antecipadas para esclarecimento e as respostas correspondentes. | - | 200 | [Repositório] | 2024-09 |
Planejamento de Tarefas
Conscientização sobre o uso de ferramentas
Benchmark MetaTool: Decidindo se usar ferramentas e quais usar , ICLR 2024. [Artigo]
Os grandes modelos de linguagem aumentados por ferramentas podem estar cientes de condições incompletas? , Pré-impressão 2024. [Artigo]
Taxa de aprovação e taxa de vitórias
ToolLLM: Facilitando grandes modelos de linguagem para dominar mais de 16.000 APIs do mundo real , ICLR 2024. [Artigo]
Precisão
T-Eval: Avaliando a capacidade de utilização de ferramentas de modelos de linguagem grande, passo a passo , ACL 2024. [Artigo]
RestGPT: Conectando grandes modelos de linguagem com APIs RESTful do mundo real , Preprint 2023. [Artigo]
Uma metodologia de uso de API LLM baseada em solução para busca de informações acadêmicas , Preprint 2024. [Artigo]
Seleção de ferramentas
Precisão
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents , Preprint 2024. [Artigo]
Lembrar
Recall, precisão e precisão média , Departamento de Estatística e Ciências Atuariais 2004. [Artigo]
NDCG
Avaliação baseada em ganho acumulado de técnicas de IR , TOIS 2002. [Artigo]
COMP.
COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models , CIKM 2024. [Artigo]
Chamada de ferramenta
Consistente com as estipulações
T-Eval: Avaliando a capacidade de utilização de ferramentas de modelos de linguagem grande, passo a passo , ACL 2024. [Artigo]
Planejando e editando o que você recupera para aprendizado aprimorado de ferramentas , NAACL 2024. [Artigo]
ToolEyes: Avaliação refinada para capacidades de aprendizagem de ferramentas de grandes modelos de linguagem em cenários do mundo real , Preprint 2024. [Artigo3]
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents , Preprint 2024. [Artigo]
Geração de Resposta
AZUL
Bleu: um método para avaliação automática de tradução automática , ACL 2002. [Artigo]
ROUGE
Rouge: Um pacote para avaliação automática de resumos , ACL 2004. [Artigo]
Correspondência exata
cem: Correspondência exata grosseira em Stata , The Stata Journal 2009. [Artigo]
Preenchimento de parâmetros
Precisão
ShortcutsBench: um benchmark em grande escala do mundo real para agentes baseados em API , Preprint 2024. [Artigo]
ToolLearningPapers. [Repositório]
ferramenta incrível-llm. [Repositório]
incrível aprendizado de ferramenta llm. [Repositório]
Modelos de linguagem aumentada: uma pesquisa , TMLR 2024. [Artigo]
Aprendizado de ferramentas com modelos básicos , pré-impressão 2024. [Artigo]
Afinal, o que são ferramentas? Uma pesquisa da perspectiva do modelo de linguagem , COLM 2024. [Artigo]