В последнее время обучение инструментам с использованием больших языковых моделей (LLM) стало многообещающей парадигмой для расширения возможностей LLM для решения весьма сложных проблем.
Это сборник статей, посвященных изучению инструментов с помощью LLM. Эти статьи организованы в соответствии с нашим обзором «Инструментальное обучение с помощью больших языковых моделей: опрос».
中文: Мы заметили, что PaperAgent и 旺知识 предоставили краткое и подробное введение на китайском языке соответственно. Мы очень ценим их помощь.
? Наш обзорный доклад принят Frontiers of Computer Science (FCS) . Последняя версия нашей статьи уже выпущена; пожалуйста, проверьте это!
Пожалуйста, не стесняйтесь обращаться к нам, если у вас есть какие-либо вопросы или предложения!
?? Пожалуйста, не стесняйтесь открыть проблему или сделать запрос на включение! ??
Если вы считаете, что наша работа помогает вашим исследованиям, пожалуйста, процитируйте нашу статью:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
В последнее время обучение инструментам с помощью больших языковых моделей (LLM) стало многообещающей парадигмой для расширения возможностей LLM для решения очень сложных проблем. Несмотря на растущее внимание и быстрый прогресс в этой области, существующая литература остается фрагментированной и лишенной систематической организации, что создает барьеры для входа новичков. Этот пробел мотивирует нас провести комплексное исследование существующих работ по инструментальному обучению с помощью LLM. В этом обзоре мы концентрируемся на обзоре существующей литературы по двум основным аспектам (1) почему обучение инструментам полезно и (2) как реализуется обучение инструментам, что позволяет получить всестороннее понимание обучения инструментам с помощью LLM. Сначала мы исследуем «почему», рассматривая как преимущества интеграции инструментов, так и неотъемлемые преимущества парадигмы инструментального обучения с шести конкретных аспектов. Что касается «как», мы систематически просматриваем литературу в соответствии с таксономией четырех ключевых этапов рабочего процесса изучения инструментов: планирование задач, выбор инструментов, вызов инструментов и генерация ответов. Кроме того, мы предоставляем подробный обзор существующих критериев и методов оценки, классифицируя их в соответствии с их актуальностью для различных этапов. Наконец, мы обсуждаем текущие проблемы и намечаем потенциальные будущие направления, стремясь вдохновить как исследователей, так и промышленных разработчиков на дальнейшее изучение этой новой и многообещающей области.
Приобретение знаний.
Поисковая система
Генерация расширенного Интернет-диалога , ACL 2022. [Документ]
WebGPT: ответы на вопросы с помощью браузера и обратной связью от людей , препринт 2021 г. [Статья]
Языковые модели, дополненные Интернетом, с помощью подсказок из нескольких шагов для ответа на вопросы в открытой области , Препринт 2022 г. [Статья]
REPLUG: Языковые модели черного ящика с расширенным поиском , Препринт 2023 г. [Статья]
Toolformer: Языковые модели могут научить себя использовать инструменты , NeurIPS 2023. [Статья]
ИСКУССТВО: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей , Препринт 2023 г. [Статья]
ToolCoder: Обучение моделей генерации кода использованию инструментов поиска API , препринт 2023 г. [Документ]
КРИТИК: Большие языковые модели могут самокорректироваться с помощью интерактивной инструментальной критики , ICLR 2024. [Статья]
База данных и граф знаний
Lamda: Языковые модели для диалоговых приложений , Препринт 2022. [Статья]
Gorilla: большая языковая модель, связанная с массивными API , NeurIPS 2024. [Статья]
ToolkenGPT: расширение замороженных языковых моделей с помощью массивных инструментов с помощью встраивания инструментов , NeurIPS 2023. [Документ]
ToolQA: набор данных для ответов на вопросы LLM с помощью внешних инструментов , NeurIPS 2023. [Документ]
Синтаксическое безошибочное и обобщенное использование инструментов для LLM посредством декодирования конечных состояний , NeurIPS 2023. [Документ]
Промежуточное программное обеспечение для LLM: инструменты являются инструментом для языковых агентов в сложных средах , EMNLP, 2024. [Документ]
Погода или карта
О возможностях манипулирования инструментами моделей большого языка с открытым исходным кодом , NeurIPS 2023. [Документ]
ToolAlpaca: Обобщенное обучение инструментам для языковых моделей с 3000 смоделированными случаями , препринт 2023 г. [Документ]
Инструментальное обучение с использованием базовых моделей , Препринт 2023 г. [Статья]
Повышение экспертности.
Математические инструменты
Обучение верификаторов решению математических словесных задач , Препринт 2021 г. [Статья]
Системы MRKL: модульная нейро-символическая архитектура, сочетающая в себе большие языковые модели, внешние источники знаний и дискретные рассуждения , Препринт 2021 г. [Статья]
Объединение одновременных мыслей в числовые рассуждения , EMNLP, 2022. [Статья]
Calc-X и Calcformers: расширение возможностей арифметической цепочки мышления посредством взаимодействия с символическими системами , EMNLP 2023. [Статья]
Решение математических словесных задач путем объединения языковых моделей с символьными решателями , NeurIPS 2023. [Статья]
Оценка и улучшение математических рассуждений с интенсивными вычислениями , NeurIPS 2023. [Документ]
ToRA: агент рассуждения с интегрированными инструментами для решения математических задач , ICLR 2024. [Документ]
MATHSENSEI: расширенная инструментальная модель большого языка для математического рассуждения , препринт 2024 г. [Статья]
Calc-CMU на SemEval-2024, задание 7: Pre-Calc — обучение использованию калькулятора улучшает навыки счета в языковых моделях , NAACL 2024. [Документ]
MathViz-E: Тематическое исследование агентов, использующих специализированные инструменты , препринт 2024 г. [Документ]
Интерпретатор Python
Pal: Программные языковые модели , ICML 2023. [Статья]
Программа подсказки мыслей: отделение вычислений от рассуждений для задач численного рассуждения , TMLR 2023. [Статья]
Проверка фактов сложных утверждений с помощью программно-ориентированного рассуждения , ACL 2023. [Документ]
Хамелеон: композиционное рассуждение «подключи и работай» с большими языковыми моделями , NeurIPS 2023. [Статья]
LeTI: Обучение генерации на основе текстовых взаимодействий , NAACL 2024. [Документ]
Mint: Evaluating llms в многоходовом взаимодействии с инструментами и языковой обратной связью , ICLR 2024. [Документ]
Действия исполняемого кода повышают эффективность агентов LLM , ICML 2024. [Документ]
CodeNav: от использования инструментов до использования реальных кодовых баз с агентами LLM , препринт 2024 г. [Статья]
APPL: язык быстрого программирования для гармоничной интеграции программ и подсказок большой языковой модели , препринт 2024 г. [Статья]
BigCodeBench: Сравнительный анализ генерации кода с помощью разнообразных вызовов функций и сложных инструкций , Препринт 2024 г. [Документ]
CodeAgent: улучшение генерации кода с помощью интегрированных с инструментами агентских систем для решения реальных задач кодирования на уровне репозитория , ACL 2024. [Документ]
MuMath-Code: сочетание больших языковых моделей с использованием инструментов с многоперспективным увеличением данных для математического рассуждения , EMNLP, 2024. [Статья]
Другие
MultiTool-CoT: GPT-3 может использовать несколько внешних инструментов с подсказками цепочки мыслей , ACL 2023. [Документ]
ChemCrow: Дополнение моделей на большом языке с помощью химических инструментов , Nature Machine Intelligence 2024. [Документ]
ОБЗОР БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ И АВТОНОМНЫХ АГЕНТОВ В ХИМИИ , Препринт 2024 г. [Статья]
GeneGPT: дополнение больших языковых моделей инструментами предметной области для улучшения доступа к биомедицинской информации , ISMB 2024. [Документ]
Оснащение языковых моделей возможностью использования инструментов для анализа табличных данных в финансах , EACL 2024. [Документ]
Моделирование финансового рынка с помощью агентов на основе большой языковой модели , препринт 2024 г. [Статья]
Агент мультимодального фонда для финансовой торговли: расширенный инструментами, диверсифицированный и универсальный , KDD 2024. [Документ]
AgentMD: Расширение возможностей языковых агентов для прогнозирования рисков с помощью крупномасштабного обучения клиническим инструментам , препринт 2024 г. [Документ]
SCIAGENT: Языковые модели для научных рассуждений, дополненные инструментами , EMNLP, 2024. [Статья]
MMedAgent: Обучение использованию медицинских инструментов с мультимодальным агентом , Результаты EMNLP 2024. [Бумага]
Позвольте мне сделать это за вас: к рекомендациям LLM через инструментальное обучение , SIGIR 2024. [Документ]
ОБЛАСТЬ СПЕЦИФИЧЕСКОГО ReAct ДЛЯ ФИЗИЧЕСКОГО ИНТЕГРИРОВАННОГО ИТЕРАЦИОННОГО МОДЕЛИРОВАНИЯ: ПРИМЕР АГЕНТОВ LLM ДЛЯ АНАЛИЗА ГАЗОВОГО ПУТИ ГАЗОВЫХ ТУРБИН , Препринт 2024 г. [Документ]
WORLDAPIS: Сколько API стоит в мире? Мысленный эксперимент , семинар ACL 2024. [Бумага]
Агент с помощью инструментов для проверки и уточнения SQL в реальных сценариях , препринт 2024 г. [Документ]
HoneyComb: гибкая агентская система на основе LLM для материаловедения , препринт 2024 г. [статья]
Автоматизация и эффективность.
Инструменты расписания
ToolQA: набор данных для ответов на вопросы LLM с помощью внешних инструментов , NeurIPS 2023. [Документ]
Установить напоминания
ToolLLM: содействие использованию больших языковых моделей для освоения более 16000 реальных API , ICLR 2024. [Документ]
Фильтровать электронные письма
ToolLLM: содействие использованию больших языковых моделей для освоения более 16000 реальных API , ICLR 2024. [Документ]
Управление проектом
ToolLLM: содействие использованию больших языковых моделей для освоения более 16000 реальных API , ICLR 2024. [Документ]
Интернет-помощники по покупкам
WebShop: На пути к масштабируемому реальному веб-взаимодействию с агентами заземленного языка , NeurIPS 2022. [Документ]
Улучшение взаимодействия.
Мультимодальные инструменты
Vipergpt: Визуальный вывод с помощью выполнения Python для рассуждений , ICCV 2023. [Документ]
MM-REACT: Побуждение ChatGPT к мультимодальному рассуждению и действию , препринт 2023 г. [Статья]
InternGPT: Решение задач, ориентированных на зрение, путем взаимодействия с ChatGPT Beyond Language , препринт 2023 г. [Статья]
AssistGPT: универсальный мультимодальный помощник, который может планировать, выполнять, проверять и обучаться , препринт 2023 г. [Документ]
CLOVA: Визуальный помощник замкнутого цикла с использованием и обновлением инструментов , CVPR 2024. [Документ]
DiffAgent: быстрый и точный выбор API преобразования текста в изображение с помощью большой языковой модели , CVPR 2024. [Документ]
MLLM-Tool: мультимодальная модель большого языка для обучения агентов инструментов , препринт 2024 г. [Статья]
m&m's: Контрольный показатель для оценки использования инструментов для многоэтапных мультимодальных задач , препринт 2024 г. [Статья]
От наименьшего к самому большому: создание готового к использованию визуального средства рассуждения с помощью синтеза данных , препринт 2024 г. [Статья]
Машинный переводчик
Toolformer: Языковые модели могут научить себя использовать инструменты , NeurIPS 2023. [Статья]
Инструментальное обучение с использованием базовых моделей , Препринт 2023 г. [Статья]
Инструменты обработки естественного языка
HuggingGPT: Решение задач искусственного интеллекта с помощью ChatGPT и его друзей в Hugging Face , NeurIPS 2023. [Статья]
GitAgent: упрощение работы автономного агента с помощью GitHub с помощью Tool Extension , препринт 2023 г. [Документ]
Подсказки по цепочке мыслей вызывают рассуждения в больших языковых моделях , NeurIPS 2022. [Статья]
ReAct: Синергизация рассуждений и действий в языковых моделях , ICLR 2023. [Документ]
ИСКУССТВО: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей , Препринт 2023 г. [Документ]
HuggingGPT: Решение задач искусственного интеллекта с помощью ChatGPT и его друзей в Hugging Face , NeurIPS 2023. [Статья]
Graph-ToolFormer: расширить возможности LLM с помощью графических рассуждений с помощью подсказок, дополненных ChatGPT , препринт 2023 г. [Статья]
Большие языковые модели как производители инструментов , ICLR 2024. [Документ]
СОЗДАТЕЛЬ: Создание инструмента для разделения абстрактных и конкретных рассуждений больших языковых моделей , EMNLP, 2023. [Статья]
ChatCoT: Цепочка мыслей, дополненная инструментами, на основе моделей большого языка на основе чата , EMNLP, 2023. [Документ]
FacTool: Обнаружение фактов в генеративном искусственном интеллекте — расширенная платформа инструментов для многозадачных и многодоменных сценариев , препринт 2023 г. [Документ]
TPTU: Агенты искусственного интеллекта на основе больших языковых моделей для планирования задач и использования инструментов , препринт 2023 г. [Документ]
ToolChain*: Эффективная навигация в пространстве действий в больших языковых моделях с поиском A* , ICLR 2024. [Документ]
Укрепите внимание к самому короткому посоху: повышение контекстной осведомленности о больших языковых моделях для эффективного использования инструментов , ACL 2024. [Документ]
TroVE: Создание проверяемых и эффективных наборов инструментов для решения программных задач , препринт 2024 г. [Документ]
SwissNYF: Агенты LLM, основанные на инструментах, для установки черного ящика , препринт 2024 г. [Статья]
От резюме к действию: улучшение больших языковых моделей для сложных задач с помощью API-интерфейсов открытого мира , препринт 2024 г. [Документ]
Инструментальное обучение с ограниченным бюджетом и планированием , результаты ACL 2024. [Бумага]
Планирование и редактирование получаемых данных для расширенного инструментального обучения , NAACL 2024. [Документ]
Большие языковые модели могут тщательно планировать ваши путешествия с помощью формальных инструментов проверки , препринт 2024 г. [Статья]
Смурфики: использование нескольких профессиональных агентов с контекстной эффективностью для планирования инструментов , препринт 2024 г. [бумага]
STRIDE: Агентская платформа LLM с помощью инструментов для стратегического и интерактивного принятия решений , препринт 2024 г. [Документ]
Цепочка инструментов: большая языковая модель — автоматическое многофункциональное обучение , препринт 2024 г. [статья]
Может ли обучение на основе графов улучшить планирование в агентах на основе LLM? , NeurIPS 2024. [Статья]
Tool-Planner: Динамическое планирование дерева решений для большой языковой модели с кластеризацией инструментов , препринт 2024 г. [Документ]
Инструменты не работают: обнаружение скрытых ошибок в неисправных инструментах , EMNLP, 2024. [Документ]
Что влияет на стабильность обучения инструментам? Эмпирическое исследование устойчивости рамок инструментального обучения , препринт 2024 г. [Статья]
Агент Tulip — предоставление агентам на основе LLM возможности решать задачи с использованием больших библиотек инструментов , препринт 2024 г. [бумага]
Toolshed: масштабируйте агентов, оснащенных инструментами, с помощью Advanced RAG-Tool Fusion и баз знаний инструментов , препринт 2024 г. [бумага]
От исследования к мастерству: от специалистов LLM к освоению инструментов посредством самостоятельного взаимодействия , препринт 2024 г. [Документ]
TaskMatrix.AI: выполнение задач путем соединения базовых моделей с миллионами API , ИНТЕЛЛЕКТУАЛЬНЫЕ ВЫЧИСЛЕНИЯ 2024. [Документ]
OpenAGI: Когда LLM встречает экспертов в предметной области , Neurips 2023. [Статья]
ToolLLM: содействие использованию больших языковых моделей для освоения более 16000 реальных API , ICLR 2024. [Документ]
Toolink: Связывание создания и использования набора инструментов посредством цепочки решения модели с открытым исходным кодом , препринт 2023 г. [Документ]
TPTU-v2: Повышение эффективности планирования задач и использования инструментов агентами на основе больших языковых моделей в реальных системах , ICLR 2024. [Документ]
Навигация по неопределенности: оптимизация зависимости API для уменьшения галлюцинаций при ответах на вопросы в закрытой книге , ECIR 2024. [Документ]
Маленькие LLM — слабые ученики инструментов: агент Multi-LLM , EMNLP, 2024. [Статья]
Эффективное использование инструментов с помощью цепочки абстракций , препринт 2024 г. [Статья]
Посмотрите, прежде чем прыгать: на пути к принятию решений и обобщению использования инструментов для больших языковых моделей , препринт 2024 г. [Статья]
Методика поиска академической информации на основе решений LLM API , препринт 2024 г. [Документ]
Развитие моделей большого языка, дополненных инструментами: интеграция результатов ошибок в деревьях вывода , NeurIPS 2024. [Документ]
APIGen: автоматизированный конвейер для создания проверяемых и разнообразных наборов данных для вызова функций , препринт 2024 г. [бумага]
MetaTool: Помощь в освоении больших языковых моделей для освоения инструментов с помощью расширения метазадач , препринт 2024 г. [Статья]
ToolPlanner: расширенный инструмент LLM для инструкций с многоуровневой структурой, планированием пути и обратной связью , EMNLP, 2024. [Документ]
Статистическая интерпретация специфичности термина и ее применение при поиске , Journal of Documentation, 1972. [Статья]
Структура вероятностной релевантности: BM25 и далее , Основы и тенденции в области поиска информации, 2009. [Документ]
Sentence-bert: встраивание предложений с использованием сиамских bert-сетей , EMNLP 2019. [Статья]
Приблизительное отрицательное контрастивное обучение ближайшего соседа для плотного поиска текста , ICLR 2021. [Статья]
Эффективное обучение густого ретривера с помощью сбалансированной тематической выборки , SIGIR 2021. [Документ]
Предварительное обучение языковой модели с учетом корпуса без учителя для поиска с плотным проходом , ACL 2022. [Документ]
Неконтролируемый плотный поиск информации с контрастным обучением , Препринт 2021 г. [Статья]
CRAFT: Настройка LLM путем создания и извлечения из специализированных наборов инструментов , ICLR 2024. [Документ]
ProTIP: Прогрессивный поиск инструментов улучшает планирование , препринт 2023 г. [Документ]
ToolRerank: адаптивное и учитывающее иерархию переранжирование для поиска инструментов , COLING 2024. [Документ]
Улучшение поиска инструментов с помощью итеративной обратной связи из больших языковых моделей , выводы EMNLP 2024. [Бумага]
Повторный вызов: перезапись вызова инструмента для нулевого извлечения инструмента , выводы EMNLP 2024. [Бумага]
Эффективная и масштабируемая оценка представлений инструментов в векторном пространстве , Препринт 2024 г. [Статья]
Toolshed: Масштабируйте агентов, оснащенных инструментами, с помощью Advanced RAG-Tool Fusion и баз знаний инструментов , препринт 2024 г. [бумага]
COLT: На пути к полноте поиска инструментов для больших языковых моделей , CIKM 2024. [Документ]
О возможностях манипулирования инструментами моделей большого языка с открытым исходным кодом , препринт 2023 г. [Статья]
Создание языковых моделей для более эффективного обучения с помощью обратной связи по выполнению , NAACL 2024. [Документ]
ToolLLM: содействие использованию больших языковых моделей для освоения более 16000 реальных API , ICLR 2024. [Документ]
Конфуций: итеративный инструмент обучения на основе обратной связи самоанализа по учебной программе «От простого к сложному» , AAAI 2024. [Документ]
AnyTool: саморефлексивные иерархические агенты для крупномасштабных вызовов API , препринт 2024 г. [бумага]
ИНСТРУМЕНТАЛЬНЫЙ ВЕРИФИКАТОР: Обобщение новых инструментов посредством самопроверки , Результаты EMNLP 2024. [Бумага]
ToolNet: Соединение больших языковых моделей с массивными инструментами с помощью Tool Graph , препринт 2024 г. [Документ]
GeckOpt: Эффективность системы LLM посредством выбора инструмента на основе намерений , GLSVLSI 2024. [Документ]
AvaTaR: Оптимизация агентов LLM для извлечения знаний с помощью инструментов , NeurIPS 2024. [Документ]
Маленький агент тоже может круто! Расширение возможностей моделей малого языка как детектора галлюцинаций , препринт 2024 г. [Статья]
Адаптивный отбор для однородных инструментов: реализация сценария RAG , выводы EMNLP 2024. [Бумага]
От исследования к мастерству: от специалистов LLM к освоению инструментов посредством самостоятельного взаимодействия , препринт 2024 г. [Документ]
RestGPT: Соединение больших языковых моделей с реальными API-интерфейсами RESTful , препринт 2023 г. [Статья]
Обратная цепочка: общее правило для студентов магистратуры по освоению планирования с использованием нескольких API , препринт 2023 г. [Статья]
GEAR: Дополнение языковых моделей с помощью обобщаемых и эффективных инструментов , EACL 2023. [Документ]
Документация по инструментам обеспечивает беспрецедентное использование инструментов с моделями на большом языке , препринт 2023 г. [бумага]
ControlLLM: расширение языковых моделей с помощью инструментов путем поиска по графикам , препринт 2023 г. [статья]
EASYTOOL: Улучшение агентов на основе LLM с помощью краткой инструкции по инструменту , препринт 2024 г. [бумага]
Большие языковые модели как средство отслеживания состояния диалога с нулевым выстрелом посредством вызова функций , ACL 2024. [Документ]
Краткое и точное сжатие контекста для языковых моделей с использованием инструментов , результаты ACL 2024. [Бумага]
Gorilla: большая языковая модель, связанная с массивными API , NeurIPS 2024. [Статья]
GPT4Tools: Обучение большой языковой модели использованию инструментов посредством самообучения , NeurIPS 2023. [Документ]
ToolkenGPT: расширение замороженных языковых моделей с помощью массивных инструментов с помощью встроенных инструментов , NeurIPS 2023. [Документ]
Моделирование вознаграждения с помощью инструментов , ICLR 2024. [Документ]
LLM в воображариуме: обучение инструментам посредством моделирования проб и ошибок , ACL 2024. [Документ]
ToolACE: Winning the Points of LLM Function Calling , препринт 2024 г. [Статья]
CITI: Расширение возможностей использования инструментов в больших языковых моделях без ущерба для общей производительности , препринт 2024 г. [Статья]
Качество имеет значение: оценка синтетических данных для программ LLM, использующих инструменты , EMNLP, 2024. [Документ]
TALM: Языковые модели, дополненные инструментами , Препринт 2022 г. [Документ]
Toolformer: Языковые модели могут научить себя использовать инструменты , NeurIPS 2023. [Статья]
Комплексная оценка стратегий генерации с помощью инструментов , EMNLP, 2023. [Документ]
TPE: На пути к лучшему композиционному рассуждению по сравнению с концептуальными инструментами с многопользовательской совместной работой , Препринт 2023 г. [Статья]
RECOMP: Улучшение LM с расширенным поиском с помощью сжатия и выборочного увеличения , ICLR 2024. [Документ]
Обучение использованию инструментов с помощью кооперативных и интерактивных агентов , результаты EMNLP 2024. [Бумага]
Контрольный показатель | Ссылка | Описание | #Инструменты | #Экземпляры | Связь | Время выпуска |
---|---|---|---|---|---|---|
АПИ-Банк | [Бумага] | Оценка возможностей существующих LLM в планировании, получении и вызове API. | 73 | 314 | [Репо] | 2023-04 |
APIBench | [Бумага] | Комплексный тест, созданный на основе карт моделей API TorchHub, TensorHub и HuggingFace. | 1645 | 16 450 | [Репо] | 2023-05 |
ИнструментBench1 | [Бумага] | Тест манипуляции инструментами, состоящий из разнообразных программных инструментов для решения реальных задач. | 232 | 2746 | [Репо] | 2023-05 |
ИнструментАльпака | [Бумага] | Оценка способности LLM использовать ранее невиданные инструменты без специальной подготовки. | 426 | 3938 | [Репо] | 2023-06 |
ОтдыхСкамейка | [Бумага] | Высококачественный тест, состоящий из двух реальных сценариев и аннотированных человеком инструкций с золотыми путями решения. | 94 | 157 | [Репо] | 2023-06 |
ИнструментBench2 | [Бумага] | Набор данных для настройки инструкций для использования инструментов, который создается автоматически с помощью ChatGPT. | 16 464 | 126 486 | [Репо] | 2023-07 |
МетаИнструмент | [Бумага] | Тест, предназначенный для оценки того, знают ли LLM об использовании инструментов и могут ли они правильно выбирать инструменты. | 199 | 21 127 | [Репо] | 2023-10 |
TaskBench | [Бумага] | Тест, предназначенный для оценки возможностей LLM с различных аспектов, включая декомпозицию задач, вызов инструментов и прогнозирование параметров. | 103 | 28 271 | [Репо] | 2023-11 |
Т-Оценка | [Бумага] | Поэтапная оценка возможностей использования инструмента. | 15 | 533 | [Репо] | 2023-12 |
ИнструментГлаза | [Бумага] | Детализированная система, предназначенная для оценки возможностей обучения LLM инструментам в реальных сценариях. | 568 | 382 | [Репо] | 2024-01 |
УльтраИнструмент | [Бумага] | Новый тест, предназначенный для улучшения и оценки возможностей LLM в использовании инструментов в реальных сценариях. | 2032 | 5,824 | [Репо] | 2024-01 |
API-СМЕСЬ | [Бумага] | Крупный корпус для обучения и систематического тестирования программ LLM, дополненных инструментами. | - | 189 040 | [Репо] | 2024-02 |
Инструменты для уплотнений | [Бумага] | Seal-Tools содержит жесткие экземпляры, которые вызывают несколько инструментов для выполнения задания, среди которых есть вложенные вызовы инструментов. | 4076 | 14 076 | [Репо] | 2024-05 |
ИнструментQA | [Бумага] | Он предназначен для достоверной оценки способности LLM использовать внешние инструменты для ответа на вопросы (QA). | 13 | 1530 | [Репо] | 2023-06 |
ИнструментEmu | [Бумага] | Платформа, которая использует LM для эмуляции выполнения инструментов и обеспечивает масштабируемое тестирование агентов LM с использованием широкого спектра инструментов и сценариев. (Безопасность) | 311 | 144 | [Репо] | 2023-09 |
ToolTalk | [Бумага] | Тест, состоящий из сложных намерений пользователя, требующих многоэтапного использования инструмента, указанного в диалоге. (Разговор) | 28 | 78 | [Репо] | 2023-11 |
ВИоТ | [Бумага] | Тест включает в себя набор обучающих данных и установленные показатели производительности для 11 репрезентативных моделей машинного зрения, разделенных на три группы с использованием полуавтоматических аннотаций (VIoT). | 11 | 1841 | [Репо] | 2023-12 |
РоТБенч | [Бумага] | Многоуровневый тест для оценки надежности LLM в обучении инструментам. (Надежность) | 568 | 105 | [Репо] | 2024-01 |
MLLM-Инструмент | [Бумага] | Система, включающая LLM с открытым исходным кодом и мультимодальные кодировщики, чтобы обученные LLM могли осознавать мультимодальные входные инструкции, а затем правильно выбирать инструмент, соответствующий функциям. (Мультимодальный) | 932 | 11 642 | [Репо] | 2024-01 |
ИнструментМеч | [Бумага] | Комплексная структура, предназначенная для тщательного изучения проблем безопасности, связанных с получением степени магистра права при обучении инструментам. (Безопасность) | 100 | 440 | [Репо] | 2024-02 |
НаучныйИнструментСкамейка | [Бумага] | Охват пяти научных областей для оценки способностей LLM с помощью инструментов. (Научное рассуждение) | 2446 | 856 | [Репо] | 2024-02 |
ИнжекАгент | [Бумага] | Тест, предназначенный для оценки уязвимости агентов LLM, интегрированных в инструменты, к атакам IPI. (Безопасность) | 17 | 1054 | [Репо] | 2024-02 |
СтабильныйИнструментСкамейка | [Бумага] | Тест, созданный на основе ToolBench, предлагающий виртуальный сервер API и стабильную систему оценки. (Стабильная) | 16 464 | 126 486 | [Репо] | 2024-03 |
m&m's | [Бумага] | Тест, содержащий многоэтапные мультимодальные задачи 4K+ с использованием 33 инструментов, включающих мультимодальные модели, общедоступные API и модули обработки изображений. (Мультимодальный) | 33 | 4,427 | [Репо] | 2024-03 |
ГеоLLM-QA | [Бумага] | Новый эталонный тест из 1000 разнообразных задач, предназначенный для захвата сложных рабочих процессов RS, в которых LLM обрабатывают сложные структуры данных, тонкие рассуждения и взаимодействие с динамическими пользовательскими интерфейсами (дистанционное зондирование). | 117 | 1000 | [Репо] | 2024-04 |
ИнструментЛинза | [Бумага] | ToolLens включает краткие, но намеренно многогранные запросы, которые лучше имитируют взаимодействие с пользователем в реальном мире. (Извлечение инструмента) | 464 | 18 770 | [Репо] | 2024-05 |
СоАйСкамейка | [Бумага] | Методология LLM API на основе решений для поиска академической информации | 7 | 792 | [Репо], [HF] | 2024-05 |
ИнструментBH | [Бумага] | Эталон, который оценивает галлюцинации LLM с двух точек зрения: глубины и широты. | - | 700 | [Репо] | 2024-06 |
ЯрлыкиСкамейка | [Бумага] | Масштабный реальный тест для агентов на основе API | 1414 | 7627 | [Репо] | 2024-07 |
ГТА | [Бумага] | Эталон для агентов инструментов общего назначения | 14 | 229 | [Репо] | 2024-07 |
WTU-Eval | [Бумага] | Тест оценки использования инструмента «ли или нет» для больших языковых моделей | 4 | 916 | [Репо] | 2024-07 |
AppWorld | [Бумага] | Коллекция сложных повседневных задач, требующих интерактивного программирования с вызовами API. | 457 | 750 | [Репо] | 2024-07 |
ИнструментПесочница | [Бумага] | Диалоговый и интерактивный эталон использования инструментов с отслеживанием состояния. | 34 | 1032 | [Репо] | 2024-08 |
CToolEval | [Бумага] | Эталон, предназначенный для оценки LLM в контексте китайских социальных приложений. | 27 | 398 | [Репо] | 2024-08 |
ШумныйИнструментСкамейка | [Бумага] | Этот тест включает в себя набор предоставленных API, неоднозначных запросов, ожидаемых уточняющих вопросов и соответствующих ответов. | - | 200 | [Репо] | 2024-09 |
Планирование задач
Осведомленность об использовании инструментов
Тест MetaTool: решение, использовать ли инструменты и какие использовать , ICLR 2024. [Документ]
Могут ли модели большого языка, дополненные инструментами, учитывать неполные условия? , Препринт 2024 г. [Статья]
Процент проходимости и процент побед
ToolLLM: содействие использованию больших языковых моделей для освоения более 16000 реальных API , ICLR 2024. [Документ]
Точность
T-Eval: шаг за шагом оценка возможности использования инструментов больших языковых моделей , ACL 2024. [Документ]
RestGPT: Соединение больших языковых моделей с реальными RESTful API , препринт 2023 г. [Статья]
Методология LLM API для поиска академической информации на основе решений , препринт 2024 г. [Статья]
Выбор инструмента
Точность
ShortcutsBench: крупномасштабный реальный тест для агентов на основе API , препринт 2024 г. [бумага]
Отзывать
Напомним, точность и средняя точность , Департамент статистики и актуарных наук, 2004 г. [Документ]
НДЦГ
Оценка IR-методов на основе совокупного выигрыша , TOIS 2002. [Документ]
КОМП
COLT: На пути к полноте поиска инструментов для больших языковых моделей , CIKM 2024. [Документ]
Вызов инструмента
В соответствии с положениями
T-Eval: шаг за шагом оценка возможности использования инструментов больших языковых моделей , ACL 2024. [Документ]
Планирование и редактирование получаемых данных для расширенного инструментального обучения , NAACL 2024. [Документ]
ToolEyes: Детальная оценка возможностей обучения инструментам больших языковых моделей в реальных сценариях , Препринт 2024 г. [Документ 3]
ShortcutsBench: крупномасштабный реальный тест для агентов на основе API , препринт 2024 г. [бумага]
Генерация ответа
БЛЕУ
Bleu: метод автоматической оценки машинного перевода , ACL 2002. [Статья]
РУЖА
Rouge: Пакет для автоматической оценки резюме , ACL 2004. [Статья]
Точное совпадение
cem: Грубое точное соответствие в Stata , The Stata Journal, 2009. [Статья]
Заполнение параметров
Точность
ShortcutsBench: крупномасштабный реальный тест для агентов на основе API , препринт 2024 г. [бумага]
Инструмент «Обучающие документы». [Репо]
потрясающий инструмент-llm. [Репо]
потрясающий инструмент для обучения llm. [Репо]
Модели расширенного языка: обзор , TMLR 2024. [Статья]
Инструментальное обучение с использованием базовых моделей , препринт 2024 г. [Статья]
Что такое инструменты? Опрос с точки зрения языковой модели , COLM 2024. [Статья]