Recientemente, el aprendizaje de herramientas con grandes modelos de lenguaje (LLM) ha surgido como un paradigma prometedor para aumentar las capacidades de los LLM para abordar problemas altamente complejos.
Esta es la colección de artículos relacionados con el aprendizaje de herramientas con LLM. Estos artículos están organizados de acuerdo con nuestro documento de encuesta "Aprendizaje de herramientas con modelos de lenguaje grandes: una encuesta".
中文: Hemos notado que PaperAgent y 旺知识 han proporcionado una introducción breve y completa en chino, respectivamente. Apreciamos mucho su ayuda.
? Nuestro trabajo de encuesta es aceptado por Frontiers of Computer Science (FCS) . La última versión de nuestro artículo ya ha sido publicada; ¡por favor compruébalo!
¡No dude en contactarnos si tiene alguna pregunta o sugerencia!
?? ¡No dude en abrir un problema o realizar una solicitud de extracción! ??
Si considera que nuestro trabajo le ayuda en su investigación, cite nuestro artículo:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
Recientemente, el aprendizaje de herramientas con grandes modelos de lenguaje (LLM) ha surgido como un paradigma prometedor para aumentar las capacidades de los LLM para abordar problemas altamente complejos. A pesar de la creciente atención y los rápidos avances en este campo, la literatura existente sigue fragmentada y carece de una organización sistemática, lo que plantea barreras de entrada para los recién llegados. Esta brecha nos motiva a realizar un estudio exhaustivo de los trabajos existentes sobre el aprendizaje de herramientas con LLM. En esta encuesta, nos centramos en revisar la literatura existente desde los dos aspectos principales (1) por qué el aprendizaje con herramientas es beneficioso y (2) cómo se implementa el aprendizaje con herramientas, lo que permite una comprensión integral del aprendizaje con herramientas con LLM. Primero exploramos el "por qué" revisando tanto los beneficios de la integración de herramientas como los beneficios inherentes del paradigma de aprendizaje de herramientas desde seis aspectos específicos. En términos de "cómo", revisamos sistemáticamente la literatura de acuerdo con una taxonomía de cuatro etapas clave en el flujo de trabajo de aprendizaje de herramientas: planificación de tareas, selección de herramientas, llamada de herramientas y generación de respuestas. Además, proporcionamos un resumen detallado de los puntos de referencia y métodos de evaluación existentes, categorizándolos según su relevancia para las diferentes etapas. Finalmente, analizamos los desafíos actuales y esbozamos posibles direcciones futuras, con el objetivo de inspirar tanto a investigadores como a desarrolladores industriales a explorar más a fondo esta área emergente y prometedora.
Adquisición de conocimientos.
Motor de búsqueda
Generación de diálogo aumentada por Internet , ACL 2022. [Artículo]
WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos , preimpresión 2021. [Artículo]
Modelos de lenguaje mejorados por Internet mediante indicaciones breves para responder preguntas en dominio abierto , Preimpresión 2022. [Artículo]
REPLUG: Modelos de lenguaje de caja negra con recuperación aumentada , preimpresión 2023. [Artículo]
Toolformer: Los modelos de lenguaje pueden aprender a usar herramientas por sí mismos , NeurIPS 2023. [Artículo]
ART: Razonamiento automático de varios pasos y uso de herramientas para modelos de lenguaje grandes , Preprint 2023. [Artículo]
ToolCoder: Enseñe modelos de generación de código a utilizar herramientas de búsqueda API , Preimpresión 2023. [Artículo]
CRÍTICA: Los modelos de lenguaje grandes pueden autocorregirse con críticas interactivas con herramientas , ICLR 2024. [Artículo]
Base de datos y gráfico de conocimiento
Lamda: modelos de lenguaje para aplicaciones de diálogo , preimpresión 2022. [Artículo]
Gorilla: modelo de lenguaje grande conectado con API masivas , NeurIPS 2024. [Artículo]
ToolkenGPT: Aumento de modelos de lenguaje congelados con herramientas masivas mediante incrustaciones de herramientas , NeurIPS 2023. [Artículo]
ToolQA: un conjunto de datos para responder preguntas de LLM con herramientas externas , NeurIPS 2023. [Artículo]
Uso de herramientas generalizables y sin errores de sintaxis para LLM mediante decodificación de estados finitos , NeurIPS 2023. [Artículo]
Middleware para LLM: las herramientas son fundamentales para los agentes lingüísticos en entornos complejos , EMNLP 2024. [Artículo]
Clima o mapa
Sobre la capacidad de manipulación de herramientas de modelos de lenguajes grandes de código abierto , NeurIPS 2023. [Artículo]
ToolAlpaca: aprendizaje de herramientas generalizadas para modelos de lenguaje con 3000 casos simulados , preimpresión 2023. [Artículo]
Aprendizaje de herramientas con modelos básicos , preimpresión 2023. [Artículo]
Mejora de la experiencia.
Herramientas matemáticas
Capacitación de verificadores para resolver problemas matemáticos planteados , Preprint 2021. [Artículo]
Sistemas MRKL: una arquitectura neurosimbólica modular que combina grandes modelos de lenguaje, fuentes de conocimiento externas y razonamiento discreto , Preprint 2021. [Artículo]
Encadenamiento de pensamientos simultáneos para el razonamiento numérico , EMNLP 2022. [Artículo]
Calc-X y Calcformers: potenciar la cadena de pensamiento aritmética mediante la interacción con sistemas simbólicos , EMNLP 2023. [Artículo]
Resolver problemas matemáticos escritos combinando modelos de lenguaje con solucionadores simbólicos , NeurIPS 2023. [Artículo]
Evaluación y mejora del razonamiento matemático intensivo en computación aumentada con herramientas , NeurIPS 2023. [Artículo]
ToRA: un agente de razonamiento integrado en herramientas para la resolución de problemas matemáticos , ICLR 2024. [Artículo]
MATHSENSEI: Un modelo de lenguaje grande mejorado con herramientas para el razonamiento matemático , preimpresión 2024. [Artículo]
Calc-CMU en SemEval-2024 Tarea 7: Pre-Calc: aprender a usar la calculadora mejora la aritmética en modelos de lenguaje , NAACL 2024. [Artículo]
MathViz-E: un estudio de caso sobre agentes que utilizan herramientas especializadas en dominios , preimpresión 2024. [Artículo]
Intérprete de Python
Pal: Modelos de lenguaje asistidos por programas , ICML 2023. [Artículo]
Programa de estimulación de pensamientos: desenredar la computación del razonamiento para tareas de razonamiento numérico , TMLR 2023. [Artículo]
Verificación de hechos de afirmaciones complejas con razonamiento guiado por programas , ACL 2023. [Artículo]
Chameleon: razonamiento compositivo plug-and-play con modelos de lenguaje grandes , NeurIPS 2023. [Artículo]
LeTI: Aprender a generar a partir de interacciones textuales , NAACL 2024. [Artículo]
Mint: Evaluación de películas en interacción de múltiples turnos con herramientas y retroalimentación del lenguaje , ICLR 2024. [Artículo]
Las acciones de código ejecutable generan mejores agentes LLM , ICML 2024. [Documento]
CodeNav: más allá del uso de herramientas para utilizar bases de código del mundo real con agentes LLM , Preprint 2024. [Artículo]
APPL: Un lenguaje de programación rápido para la integración armoniosa de programas y avisos de modelos de lenguaje grandes , preimpresión 2024. [Artículo]
BigCodeBench: Generación de código de evaluación comparativa con llamadas a funciones diversas e instrucciones complejas , preimpresión 2024. [Artículo]
CodeAgent: Mejora de la generación de código con sistemas de agentes integrados en herramientas para desafíos de codificación a nivel de repositorio del mundo real , ACL 2024. [Artículo]
MuMath-Code: Combinación de modelos de lenguaje grandes de uso de herramientas con aumento de datos de múltiples perspectivas para el razonamiento matemático , EMNLP 2024. [Artículo]
Otros
MultiTool-CoT: GPT-3 puede utilizar múltiples herramientas externas con cadena de pensamiento , ACL 2023. [Artículo]
ChemCrow: Aumento de modelos en lenguaje grande con herramientas químicas , Nature Machine Intelligence 2024. [Artículo]
UNA REVISIÓN DE MODELOS DE LENGUAJE GRANDE Y AGENTES AUTÓNOMOS EN QUÍMICA , Preimpresión 2024. [Artículo]
GeneGPT: Aumento de modelos de lenguaje grandes con herramientas de dominio para mejorar el acceso a la información biomédica , ISMB 2024. [Artículo]
Equipamiento de modelos de lenguaje con capacidad de uso de herramientas para el análisis de datos tabulares en finanzas , EACL 2024. [Artículo]
Simulación del mercado financiero mediante agentes basados en modelos de lenguaje grandes , preimpresión 2024. [Artículo]
Un agente básico multimodal para el comercio financiero: ampliado con herramientas, diversificado y generalista , KDD 2024. [Artículo]
AgentMD: Empoderar a los agentes lingüísticos para la predicción de riesgos con el aprendizaje de herramientas clínicas a gran escala , preimpresión 2024. [Artículo]
SCIAGENT: Modelos de lenguaje aumentados con herramientas para el razonamiento científico , EMNLP 2024. [Artículo]
MMedAgent: Aprender a utilizar herramientas médicas con un agente multimodal , Hallazgos de EMNLP 2024. [Papel]
Déjame hacerlo por ti: hacia una recomendación potenciada por LLM a través del aprendizaje con herramientas , SIGIR 2024. [Artículo]
ReAct ESPECÍFICO DE DOMINIO PARA EL MODELADO ITERATIVO INTEGRADO EN FÍSICA: UN ESTUDIO DE CASO DE AGENTES LLM PARA EL ANÁLISIS DE LA RUTA DEL GAS DE TURBINAS DE GAS , Preimpresión 2024. [Artículo]
WORLDAPIS: ¿Cuántas API vale el mundo? Un experimento mental , Taller ACL 2024. [Papel]
Agente asistido por herramientas sobre inspección y refinamiento de SQL en escenarios del mundo real , preimpresión 2024. [Artículo]
HoneyComb: un sistema de agentes flexible basado en LLM para ciencia de materiales , preimpresión 2024. [Artículo]
Automatización y Eficiencia.
Herramientas de programación
ToolQA: un conjunto de datos para responder preguntas de LLM con herramientas externas , NeurIPS 2023. [Artículo]
Establecer recordatorios
ToolLLM: Facilitación de modelos de lenguaje grandes para dominar más de 16000 API del mundo real , ICLR 2024. [Artículo]
Filtrar correos electrónicos
ToolLLM: Facilitación de modelos de lenguaje grandes para dominar más de 16000 API del mundo real , ICLR 2024. [Artículo]
Gestión de proyectos
ToolLLM: Facilitación de modelos de lenguaje grandes para dominar más de 16000 API del mundo real , ICLR 2024. [Artículo]
Asistentes de compras en línea
WebShop: Hacia una interacción web escalable en el mundo real con agentes de lenguaje fundamentados , NeurIPS 2022. [Artículo]
Mejora de la interacción.
Herramientas multimodales
Vipergpt: Inferencia visual mediante ejecución de Python para el razonamiento , ICCV 2023. [Artículo]
MM-REACT: Impulsando ChatGPT para el razonamiento y la acción multimodal , preimpresión 2023. [Artículo]
InternGPT: Resolución de tareas centradas en la visión interactuando con ChatGPT más allá del lenguaje , preimpresión 2023. [Artículo]
AssistGPT: un asistente general multimodal que puede planificar, ejecutar, inspeccionar y aprender , preimpresión 2023. [Artículo]
CLOVA: un asistente visual de circuito cerrado con uso y actualización de herramientas , CVPR 2024. [Artículo]
DiffAgent: Selección API de texto a imagen rápida y precisa con un modelo de lenguaje grande , CVPR 2024. [Artículo]
Herramienta MLLM: un modelo de lenguaje grande multimodal para el aprendizaje de agentes de herramientas , preimpresión 2024. [Artículo]
m&m's: Un punto de referencia para evaluar el uso de herramientas para tareas multimodales de varios pasos , Preprint 2024. [Artículo]
De menor a mayor: creación de un razonamiento visual plug-and-play mediante síntesis de datos , preimpresión 2024. [Artículo]
Traductor automático
Toolformer: Los modelos de lenguaje pueden aprender a usar herramientas por sí mismos , NeurIPS 2023. [Artículo]
Aprendizaje de herramientas con modelos básicos , preimpresión 2023. [Artículo]
Herramientas de procesamiento del lenguaje natural
HuggingGPT: Resolviendo tareas de IA con ChatGPT y sus amigos en Hugging Face , NeurIPS 2023. [Artículo]
GitAgent: Facilitación del agente autónomo con GitHub mediante Tool Extension , preimpresión 2023. [Artículo]
La cadena de pensamiento provoca el razonamiento en modelos de lenguaje grandes , NeurIPS 2022. [Artículo]
ReAct: Sinergia del razonamiento y la actuación en modelos lingüísticos , ICLR 2023. [Artículo]
ART: Razonamiento automático de varios pasos y uso de herramientas para modelos de lenguaje grandes , Preprint 2023. [Artículo]
HuggingGPT: Resolviendo tareas de IA con ChatGPT y sus amigos en Hugging Face , NeurIPS 2023. [Artículo]
Graph-ToolFormer: para capacitar a los LLM con la capacidad de razonamiento gráfico mediante indicaciones aumentadas por ChatGPT , preimpresión 2023. [Artículo]
Modelos de lenguaje grandes como creadores de herramientas , ICLR 2024. [Artículo]
CREADOR: Creación de herramientas para desenredar el razonamiento abstracto y concreto de modelos de lenguaje grandes , EMNLP 2023. [Artículo]
ChatCoT: razonamiento de cadena de pensamiento aumentado con herramientas en modelos de lenguaje grande basados en chat , EMNLP 2023. [Artículo]
FacTool: Detección de factualidad en IA generativa: un marco de trabajo mejorado con herramientas para escenarios multitarea y multidominio , preimpresión 2023. [Artículo]
TPTU: Agentes de IA basados en modelos de lenguaje grande para la planificación de tareas y el uso de herramientas , preimpresión 2023. [Artículo]
ToolChain*: Navegación eficiente en el espacio de acción en modelos de lenguaje grandes con búsqueda A* , ICLR 2024. [Artículo]
Fortalezca la atención más breve: mejora del conocimiento del contexto de modelos de lenguaje grandes para el uso eficaz de herramientas , ACL 2024. [Artículo]
TroVE: Inducción de cajas de herramientas verificables y eficientes para resolver tareas programáticas , preimpresión 2024. [Artículo]
SwissNYF: Agentes LLM con base en herramientas para la configuración de caja negra , preimpresión 2024. [Artículo]
Del resumen a la acción: mejora de modelos de lenguaje grandes para tareas complejas con API de mundo abierto , preimpresión 2024. [Artículo]
Aprendizaje con planificación con herramientas con presupuesto limitado , Hallazgos de ACL 2024. [Papel]
Planificación y edición de lo que se recupera para mejorar el aprendizaje de herramientas , NAACL 2024. [Artículo]
Los modelos de lenguaje grandes pueden planificar sus viajes rigurosamente con herramientas de verificación formal , preimpresión 2024. [Artículo]
Pitufos: Aprovechamiento de múltiples agentes competentes con eficiencia contextual para la planificación de herramientas , preimpresión 2024. [Artículo]
STRIDE: Un marco de agente de LLM asistido por herramientas para la toma de decisiones estratégica e interactiva , preimpresión 2024. [Artículo]
Cadena de herramientas: el modelo de lenguaje grande es un aprendizaje automático de múltiples herramientas , preimpresión 2024. [Artículo]
¿Puede Graph Learning mejorar la planificación en agentes basados en LLM? , NeurIPS 2024. [Artículo]
Planificador de herramientas: planificación de árbol de soluciones dinámicas para modelos de lenguaje grande con agrupación de herramientas , preimpresión 2024. [Artículo]
Fallo de herramientas: detección de errores silenciosos en herramientas defectuosas , EMNLP 2024. [Artículo]
¿Qué afecta la estabilidad del aprendizaje con herramientas? Un estudio empírico sobre la solidez de los marcos de aprendizaje de herramientas , preimpresión 2024. [Artículo]
Tulip Agent: permitir a los agentes basados en LLM resolver tareas utilizando grandes bibliotecas de herramientas , preimpresión 2024. [Artículo]
Cobertizo de herramientas: agentes equipados con herramientas de escala con bases de conocimiento de herramientas y fusión avanzada de herramientas RAG , preimpresión 2024. [Artículo]
De la exploración al dominio: permitir que los LLM dominen las herramientas mediante interacciones autónomas , preimpresión 2024. [Artículo]
TaskMatrix.AI: Completar tareas conectando modelos básicos con millones de API , COMPUTACIÓN INTELIGENTE 2024. [Artículo]
OpenAGI: Cuando LLM se encuentra con expertos en dominios , Neurips 2023. [Artículo]
ToolLLM: Facilitación de modelos de lenguaje grandes para dominar más de 16000 API del mundo real , ICLR 2024. [Artículo]
Enlace de herramientas: Vinculación de la creación y el uso del kit de herramientas a través de la cadena de resolución en un modelo de código abierto , preimpresión 2023. [Artículo]
TPTU-v2: Impulsar la planificación de tareas y el uso de herramientas de agentes basados en modelos de lenguaje grandes en sistemas del mundo real , ICLR 2024. [Artículo]
Navegando por la incertidumbre: optimización de la dependencia de API para la reducción de alucinaciones en la respuesta a preguntas a libro cerrado , ECIR 2024. [Artículo]
Los pequeños LLM son aprendices de herramientas débiles: un agente multi-LLM , EMNLP 2024. [Artículo]
Uso eficiente de herramientas con razonamiento en cadena de abstracción , preimpresión 2024. [Artículo]
Mire antes de dar el salto: hacia un uso de herramientas generalizable y consciente de las decisiones para modelos de lenguaje grandes , preimpresión 2024. [Artículo]
Una metodología de LLM basada en soluciones que utiliza API para la búsqueda de información académica , preimpresión 2024. [Artículo]
Avance de modelos de lenguaje grande mejorados con herramientas: integración de conocimientos a partir de errores en árboles de inferencia , NeurIPS 2024. [Artículo]
APIGen: canalización automatizada para generar conjuntos de datos de llamada de funciones diversos y verificables , preimpresión 2024. [Artículo]
MetaTool: Facilitación de modelos de lenguaje grandes para dominar herramientas con aumento de metatareas , preimpresión 2024. [Artículo]
ToolPlanner: una herramienta LLM aumentada para instrucciones de granularidad múltiple con retroalimentación y planificación de rutas , EMNLP 2024. [Artículo]
Una interpretación estadística de la especificidad del término y su aplicación en la recuperación , Journal of Documentation 1972. [Artículo]
El marco de relevancia probabilística: BM25 y más allá , Fundamentos y tendencias en la recuperación de información 2009. [Artículo]
Sentence-bert: incrustaciones de oraciones utilizando redes bert siamesas , EMNLP 2019. [Artículo]
Aprendizaje contrastivo negativo aproximado del vecino más cercano para la recuperación de texto denso , ICLR 2021. [Artículo]
Enseñanza eficiente de un recuperador denso eficaz con muestreo equilibrado consciente del tema , SIGIR 2021. [Artículo]
Entrenamiento previo del modelo de lenguaje consciente de corpus no supervisado para la recuperación de pasajes densos , ACL 2022. [Artículo]
Recuperación de información densa no supervisada con aprendizaje contrastivo , Preprint 2021. [Artículo]
CRAFT: Personalización de LLM mediante la creación y recuperación de conjuntos de herramientas especializados , ICLR 2024. [Artículo]
ProTIP: La recuperación progresiva de herramientas mejora la planificación , preimpresión 2023. [Artículo]
ToolRerank: reclasificación adaptable y consciente de la jerarquía para la recuperación de herramientas , COLING 2024. [Artículo]
Mejora de la recuperación de herramientas con retroalimentación iterativa de modelos de lenguaje grandes , hallazgos de EMNLP 2024. [Papel]
Re-Invoke: Reescritura de invocación de herramientas para la recuperación de herramientas Zero-Shot , Hallazgos de EMNLP 2024. [Papel]
Estimación eficiente y escalable de representaciones de herramientas en el espacio vectorial , preimpresión 2024. [Artículo]
Cobertizo de herramientas: agentes equipados con herramientas de escala con bases de conocimiento de herramientas y fusión avanzada de herramientas RAG , preimpresión 2024. [Artículo]
COLT: Hacia la recuperación de herramientas orientada a la integridad para modelos de lenguajes grandes , CIKM 2024. [Artículo]
Sobre la capacidad de manipulación de herramientas de modelos de lenguajes grandes de código abierto , preimpresión 2023. [Artículo]
Cómo hacer que los modelos de lenguaje sean mejores herramientas para los estudiantes con comentarios sobre la ejecución , NAACL 2024. [Artículo]
ToolLLM: Facilitación de modelos de lenguaje grandes para dominar más de 16000 API del mundo real , ICLR 2024. [Artículo]
Confucio: herramienta iterativa de aprendizaje a partir de la retroalimentación de la introspección mediante un plan de estudios fácil a difícil , AAAI 2024. [Artículo]
AnyTool: agentes jerárquicos autorreflexivos para llamadas API a gran escala , preimpresión 2024. [Artículo]
TOOLVERIFIER: Generalización a nuevas herramientas mediante autoverificación , hallazgos de EMNLP 2024. [Papel]
ToolNet: Conexión de modelos de lenguaje grandes con herramientas masivas a través de Tool Graph , Preprint 2024. [Artículo]
GeckOpt: Eficiencia del sistema LLM mediante la selección de herramientas basada en la intención , GLSVLSI 2024. [Artículo]
AvaTaR: Optimización de agentes LLM para la recuperación de conocimientos asistida por herramientas , NeurIPS 2024. [Artículo]
¡El agente pequeño también puede rockear! Potenciar modelos de lenguaje pequeño como detector de alucinaciones , preimpresión 2024. [Artículo]
Selección adaptativa para herramientas homogéneas: una instanciación en el escenario RAG , Hallazgos de EMNLP 2024. [Papel]
De la exploración al dominio: permitir que los LLM dominen las herramientas mediante interacciones autónomas , preimpresión 2024. [Artículo]
RestGPT: Conexión de modelos de lenguaje grandes con API RESTful del mundo real , preimpresión 2023. [Artículo]
Cadena inversa: una regla genérica para que los LLM dominen la planificación de múltiples API , preimpresión 2023. [Artículo]
GEAR: Aumento de modelos de lenguaje con resolución de herramientas eficiente y generalizable , EACL 2023. [Artículo]
La documentación de herramientas permite el uso cero de herramientas con modelos de lenguaje grandes , preimpresión 2023. [Artículo]
ControlLLM: Aumente los modelos de lenguaje con herramientas mediante la búsqueda en gráficos , preimpresión 2023. [Artículo]
EASYTOOL: Mejora de los agentes basados en LLM con instrucciones de herramientas concisas , preimpresión 2024. [Artículo]
Modelos de lenguaje grandes como rastreador de estado de diálogo de disparo cero mediante llamadas a funciones , ACL 2024. [Artículo]
Compresión de contexto concisa y precisa para modelos de lenguaje que utilizan herramientas , Hallazgos de ACL 2024. [Papel]
Gorilla: modelo de lenguaje grande conectado con API masivas , NeurIPS 2024. [Artículo]
GPT4Tools: Enseñanza de un modelo de lenguaje grande para utilizar herramientas mediante autoinstrucción , NeurIPS 2023. [Artículo]
ToolkenGPT: Aumento de modelos de lenguaje congelados con herramientas masivas mediante incrustaciones de herramientas , NeurIPS 2023. [Artículo]
Modelado de recompensas aumentado con herramientas , ICLR 2024. [Artículo]
LLM en el imaginario: aprendizaje de herramientas mediante prueba y error simulados , ACL 2024. [Artículo]
ToolACE: Ganar los puntos de las llamadas a funciones LLM , preimpresión 2024. [Artículo]
CITI: Herramienta de mejora que utiliza la capacidad en modelos de lenguaje grandes sin sacrificar el rendimiento general , preimpresión 2024. [Artículo]
La calidad importa: evaluación de datos sintéticos para LLM que utilizan herramientas , EMNLP 2024. [Artículo]
TALM: Herramienta de modelos de lenguaje aumentado , preimpresión 2022. [Artículo]
Toolformer: Los modelos de lenguaje pueden aprender a usar herramientas por sí mismos , NeurIPS 2023. [Artículo]
Una evaluación integral de estrategias de generación asistida por herramientas , EMNLP 2023. [Artículo]
TPE: Hacia un mejor razonamiento compositivo sobre herramientas conceptuales con colaboración multipersonal , preimpresión 2023. [Artículo]
RECOMP: Mejora de los LM con recuperación aumentada con compresión y aumento selectivo , ICLR 2024. [Artículo]
Aprender a utilizar herramientas a través de agentes cooperativos e interactivos , hallazgos de EMNLP 2024. [Papel]
Punto de referencia | Referencia | Descripción | #Herramientas | #Instancias | Enlace | Tiempo de lanzamiento |
---|---|---|---|---|---|---|
Banco API | [Papel] | Evaluar las capacidades de los LLM existentes en la planificación, recuperación y llamada de API. | 73 | 314 | [Repositorio] | 2023-04 |
APIBench | [Papel] | Un punto de referencia integral construido a partir de tarjetas modelo API de TorchHub, TensorHub y HuggingFace. | 1.645 | 16.450 | [Repositorio] | 2023-05 |
Banco de herramientas1 | [Papel] | Un punto de referencia de manipulación de herramientas que consta de diversas herramientas de software para tareas del mundo real. | 232 | 2,746 | [Repositorio] | 2023-05 |
HerramientaAlpaca | [Papel] | Evaluar la capacidad de los LLM para utilizar herramientas nunca antes vistas sin una formación específica. | 426 | 3.938 | [Repositorio] | 2023-06 |
banco de descanso | [Papel] | Un punto de referencia de alta calidad que consta de dos escenarios del mundo real e instrucciones anotadas por humanos con rutas de solución de oro. | 94 | 157 | [Repositorio] | 2023-06 |
Banco de herramientas2 | [Papel] | Un conjunto de datos de ajuste de instrucciones para el uso de herramientas, que se construye automáticamente utilizando ChatGPT. | 16.464 | 126.486 | [Repositorio] | 2023-07 |
Metaherramienta | [Papel] | Un punto de referencia diseñado para evaluar si los LLM tienen conocimiento del uso de herramientas y pueden elegir herramientas correctamente. | 199 | 21,127 | [Repositorio] | 2023-10 |
Banco de tareas | [Papel] | Un punto de referencia diseñado para evaluar la capacidad de los LLM desde diferentes aspectos, incluida la descomposición de tareas, la invocación de herramientas y la predicción de parámetros. | 103 | 28.271 | [Repositorio] | 2023-11 |
Evaluación T | [Papel] | Evaluar la capacidad de utilización de la herramienta paso a paso. | 15 | 533 | [Repositorio] | 2023-12 |
herramientaojos | [Papel] | Un sistema detallado diseñado para la evaluación de las capacidades de aprendizaje de herramientas de los LLM en escenarios auténticos. | 568 | 382 | [Repositorio] | 2024-01 |
Ultraherramienta | [Papel] | Un punto de referencia novedoso diseñado para mejorar y evaluar la capacidad de los LLM en la utilización de herramientas en escenarios del mundo real. | 2.032 | 5.824 | [Repositorio] | 2024-01 |
MEZCLA API | [Papel] | Un gran corpus para la formación y prueba sistemática de LLM mejorados con herramientas. | - | 189.040 | [Repositorio] | 2024-02 |
Herramientas de sellado | [Papel] | Seal-Tools contiene instancias difíciles que llaman a múltiples herramientas para completar el trabajo, entre las cuales algunas son llamadas a herramientas anidadas. | 4.076 | 14.076 | [Repositorio] | 2024-05 |
HerramientaQA | [Papel] | Está diseñado para evaluar fielmente la capacidad de los LLM para utilizar herramientas externas para responder preguntas. (QA) | 13 | 1.530 | [Repositorio] | 2023-06 |
HerramientaEmu | [Papel] | Un marco que utiliza un LM para emular la ejecución de herramientas y permite pruebas escalables de agentes de LM frente a una amplia gama de herramientas y escenarios. (Seguridad) | 311 | 144 | [Repositorio] | 2023-09 |
Charla sobre herramientas | [Papel] | Un punto de referencia que consta de intenciones complejas del usuario que requieren el uso de herramientas de varios pasos especificadas a través del diálogo. (Conversación) | 28 | 78 | [Repositorio] | 2023-11 |
VIOT | [Papel] | Un punto de referencia incluye un conjunto de datos de entrenamiento y métricas de rendimiento establecidas para 11 modelos de visión representativos, categorizados en tres grupos mediante anotaciones semiautomáticas (VIoT). | 11 | 1.841 | [Repositorio] | 2023-12 |
Banco RoTBench | [Papel] | Un punto de referencia de varios niveles para evaluar la solidez de los LLM en el aprendizaje de herramientas (Robustez). | 568 | 105 | [Repositorio] | 2024-01 |
Herramienta MLLM | [Papel] | Un sistema que incorpora LLM de código abierto y codificadores multimodales para que los LLM aprendidos puedan ser conscientes de las instrucciones de entrada multimodal y luego seleccionar correctamente la herramienta de función correspondiente. (Multimodal) | 932 | 11.642 | [Repositorio] | 2024-01 |
herramientaespada | [Papel] | Un marco integral dedicado a investigar meticulosamente los problemas de seguridad relacionados con los LLM en el aprendizaje de herramientas. (Seguridad) | 100 | 440 | [Repositorio] | 2024-02 |
Banco de herramientas de ciencia | [Papel] | Abarcando cinco dominios científicos para evaluar las habilidades de los LLM con asistencia de herramientas (Sci-Reasoning). | 2,446 | 856 | [Repositorio] | 2024-02 |
Agente de inyección | [Papel] | Un punto de referencia diseñado para evaluar la vulnerabilidad de los agentes LLM integrados en herramientas a los ataques de IPI. (Seguridad) | 17 | 1.054 | [Repositorio] | 2024-02 |
Banco De Herramientas Estable | [Papel] | Un punto de referencia que evoluciona a partir de ToolBench y propone un servidor API virtual y un sistema de evaluación estable. (Estable) | 16.464 | 126.486 | [Repositorio] | 2024-03 |
m&m's | [Papel] | Un punto de referencia que contiene tareas multimodales de varios pasos 4K+ que involucran 33 herramientas que incluyen modelos multimodales, API públicas y módulos de procesamiento de imágenes. (Multimodal) | 33 | 4,427 | [Repositorio] | 2024-03 |
GeoLLM-QA | [Papel] | Un nuevo punto de referencia de 1000 tareas diversas, diseñado para capturar flujos de trabajo de RS complejos donde los LLM manejan estructuras de datos complejas, razonamiento matizado e interacciones con interfaces de usuario dinámicas. (Detección remota) | 117 | 1.000 | [Repositorio] | 2024-04 |
Lente de herramienta | [Papel] | ToolLens incluye consultas concisas pero intencionalmente multifacéticas que imitan mejor las interacciones de los usuarios del mundo real. (Recuperación de herramientas) | 464 | 18.770 | [Repositorio] | 2024-05 |
SoAyBench | [Papel] | Una metodología LLM basada en soluciones que utiliza API para la búsqueda de información académica | 7 | 792 | [Repositorio], [HF] | 2024-05 |
HerramientaBH | [Papel] | Un referente que evalúa las alucinaciones del LLM a través de dos perspectivas: profundidad y amplitud. | - | 700 | [Repositorio] | 2024-06 |
AtajosBanco | [Papel] | Un punto de referencia del mundo real a gran escala para agentes basados en API | 1414 | 7627 | [Repositorio] | 2024-07 |
GTA | [Papel] | Un punto de referencia para agentes de herramientas generales | 14 | 229 | [Repositorio] | 2024-07 |
Evaluación WTU | [Papel] | Un punto de referencia de evaluación del uso de herramientas para modelos de lenguaje grandes | 4 | 916 | [Repositorio] | 2024-07 |
Mundo de aplicaciones | [Papel] | Una colección de tareas cotidianas complejas que requieren codificación interactiva con llamadas API | 457 | 750 | [Repositorio] | 2024-07 |
HerramientaCaja de arena | [Papel] | Un punto de referencia de uso de herramientas interactivo, conversacional y con estado. | 34 | 1032 | [Repositorio] | 2024-08 |
CToolEval | [Papel] | Un punto de referencia diseñado para evaluar los LLM en el contexto de las aplicaciones sociales chinas. | 27 | 398 | [Repositorio] | 2024-08 |
ruidosoherramientabanco | [Papel] | Este punto de referencia incluye una colección de API proporcionadas, consultas ambiguas, preguntas anticipadas para aclaración y las respuestas correspondientes. | - | 200 | [Repositorio] | 2024-09 |
Planificación de tareas
Concientización sobre el uso de herramientas
MetaTool Benchmark: Decidir si utilizar herramientas y cuáles utilizar , ICLR 2024. [Artículo]
¿Pueden los modelos de lenguajes grandes aumentados con herramientas ser conscientes de las condiciones incompletas? , Preimpresión 2024. [Artículo]
Tasa de aprobación y tasa de victorias
ToolLLM: Facilitación de modelos de lenguaje grandes para dominar más de 16000 API del mundo real , ICLR 2024. [Artículo]
Exactitud
T-Eval: Evaluación de la capacidad de utilización de herramientas de modelos de lenguaje grandes paso a paso , ACL 2024. [Artículo]
RestGPT: Conexión de modelos de lenguaje grandes con API RESTful del mundo real , preimpresión 2023. [Artículo]
Una metodología de LLM basada en soluciones que utiliza API para la búsqueda de información académica , preimpresión 2024. [Artículo]
Selección de herramientas
Precisión
ShortcutsBench: un punto de referencia del mundo real a gran escala para agentes basados en API , preimpresión 2024. [Artículo]
Recordar
Recuerdo, precisión y precisión promedio , Departamento de Estadística y Ciencias Actuariales 2004. [Artículo]
NDCG
Evaluación de técnicas de IR basada en ganancia acumulada , TOIS 2002. [Artículo]
COMP
COLT: Hacia la recuperación de herramientas orientada a la integridad para modelos de lenguajes grandes , CIKM 2024. [Artículo]
Llamada de herramientas
Consistente con lo estipulado
T-Eval: Evaluación de la capacidad de utilización de herramientas de modelos de lenguaje grandes paso a paso , ACL 2024. [Artículo]
Planificación y edición de lo que se recupera para mejorar el aprendizaje de herramientas , NAACL 2024. [Artículo]
ToolEyes: Evaluación detallada de las capacidades de aprendizaje de herramientas de modelos de lenguaje grandes en escenarios del mundo real , preimpresión 2024. [Paper3]
ShortcutsBench: un punto de referencia del mundo real a gran escala para agentes basados en API , preimpresión 2024. [Artículo]
Generación de respuesta
AZUL
Bleu: un método para la evaluación automática de la traducción automática , ACL 2002. [Artículo]
COLORETE
Rouge: Un paquete para la evaluación automática de resúmenes , ACL 2004. [Artículo]
Coincidencia exacta
cem: Coincidencia exacta ampliada en Stata , The Stata Journal 2009. [Artículo]
Llenado de parámetros
Precisión
ShortcutsBench: un punto de referencia del mundo real a gran escala para agentes basados en API , preimpresión 2024. [Artículo]
HerramientaPapeles de aprendizaje. [Repositorio]
impresionante-herramienta-llm. [Repositorio]
impresionante-llm-herramienta-aprendizaje. [Repositorio]
Modelos de lenguaje aumentado: una encuesta , TMLR 2024. [Artículo]
Aprendizaje de herramientas con modelos básicos , preimpresión 2024. [Artículo]
¿Qué son las herramientas de todos modos? Una encuesta desde la perspectiva del modelo lingüístico , COLM 2024. [Artículo]