Потрясающая совещательная подсказка
Как попросить модели большого языка (LLM) производить надежные рассуждения и принимать решения, отвечающие разумным соображениям.
обсуждение , н.
Действие, заключающееся в тщательном обдумывании чего-либо, особенно. для принятия решения; внимательное рассмотрение; действие или пример этого. (ОД)
Содержание
- Истории успеха
- Подсказки и стратегии
- За пределами «Давайте думать шаг за шагом»
- Мультиагентное обсуждение
- Рефлексия и метапознание
- Методы генерации текста
- Самокоррекция
- Аналитика рассуждений
- Ограничения, неудачи, загадки
- Наборы данных
- Инструменты и фреймворки
- Другие ресурсы
Истории успеха
Яркие доказательства эффективности совещательного побуждения.
- ? Оригинальный документ «Цепочка мыслей» (ЦП), впервые давший четкие доказательства того, что совещательное побуждение работает. «Подсказки по цепочке мыслей вызывают рассуждения в больших языковых моделях». 28 января 2022 г. [>бумага]
- ? Сознательные подсказки улучшают способность LLM от Google решать невидимые сложные проблемы, а модели с точной настройкой инструкций (Flan-) справляются с этим гораздо лучше.
- «Масштабирование языковых моделей с точной настройкой инструкций». 06.12.2022. [>бумага]
- «Технический отчет PaLM 2». 17 мая 2023 г. [>бумага]
- ? Совещательные подсказки очень эффективны для моделей OpenAI (Text-Davinci-003, ChatGPT, GPT-4), повышая точность многих (но не всех) задач рассуждения в тесте EvalAGI. «AGIEval: человекоориентированный тест для оценки моделей фундамента». 13 апреля 2023 г. [>бумага]
- ? Сознательные подсказки раскрывают скрытые когнитивные навыки и более эффективны для более крупных моделей. «Сложные задачи BIG-Bench и может ли их решить цепочка мыслей». 17 октября 2022 г. [>бумага]
- ? Экспериментальное введение ошибок в следы рассуждений ЦТ снижает точность решений, что косвенно свидетельствует о способности LLM реагировать на причины. «Цепочка мыслей стресс-тестирования, подсказывающая большие языковые модели». 28 сентября 2023 г. [>бумага]
- ? Рассуждения (о кандидатах на поиск) улучшают RAG. «Само-ТРЯПКА: учимся извлекать, генерировать и критиковать посредством саморефлексии». 17 октября 2023 г. [>бумага]
- ? Конспекты совещательного чтения улучшают RAG. «Цепочка замечаний: повышение надежности языковых моделей с расширенным поиском». 15 ноября 2023 г. [>бумага]
- ? Хорошее рассуждение (CoT) приводит к хорошим ответам (т. е. LLM реагирует на причины). «Каузальная абстракция для цепочки мыслей в арифметических задачах со словами». 07.12.2023. [>бумага]
- ? Логическая интерпретация внутренней послойной обработки задач рассуждения дает дополнительные доказательства способности реагировать на разум. «К механистической интерпретации возможностей многоэтапного рассуждения языковой модели». 07.12.2023. [>бумага]
- ? Рассуждения об альтернативных черновиках улучшают генерацию текста. «Самооценка улучшает выборочную генерацию в больших языковых моделях». 14 декабря 2023 г. [>бумага]
- ? CoT с тщательно подобранными и разнообразными демонстрациями рассуждений способствует развитию мультимодальных LLM. «Рассуждения о мультимодальной цепочке мыслей с расширенным поиском для больших языковых моделей». 04.12.2023. [>бумага]
- ? Эффективный многоскачковый CoT для визуального ответа на вопросы. «II-MMR: выявление и улучшение мультимодального многошагового рассуждения при визуальном ответе на вопрос». 16 февраля 2024 г. [>бумага]
- ? ? DPO на синтетических следах CoT повышает оперативность реагирования на причины небольших LLM. «Придание рассуждениям значения: измерение и повышение достоверности цепочки мыслей» 23 февраля 2024 г. [>бумага] [>код]
Подсказки и стратегии
Подсказка стратегий и моделей, позволяющих сделать LLM обдуманным.
За пределами «Давайте думать шаг за шагом»
Поручение LLM рассуждать (особым образом).
- ? Попросите GPT-4 предоставить правильные и неправильные ответы, что повысит точность. «Большие языковые модели являются контрастными рассуждениями». 13 марта 2024 г. [>бумага]
- ? Управляемые динамические подсказки повышают производительность GPT-4 CoT до 30 процентных пунктов. «Подсказка с указанием структуры: обучение большой языковой модели многоэтапному рассуждению путем изучения графовой структуры текста» 20 февраля 2024 г. [>бумага]
- ? Предоставление LLM возможности выбирать и комбинировать стратегии рассуждения экономически эффективно и повышает производительность. «САМОТКРЫТИЕ: большие языковые модели самостоятельно составляют структуры рассуждения». 06.02.2024. [>бумага]
- ? CoA: сначала создайте абстрактную цепочку рассуждений, а затем заполните детали (с помощью инструментов). «Эффективное использование инструментов с помощью цепочки абстракций». 30 января 2024 г. [>бумага]
- ? Рассуждайте снова и снова, пока проверочный тест не будет пройден. «Планируйте, проверяйте и переключайтесь: интегрированное рассуждение с разнообразными идеями». 2023-10-23. [>бумага]
- ? Вызывайте множество разнообразных рассуждений, а затем синтезируйте их в едином пути рассуждений. «Спросите еще раз: самосогласие улучшает обоснование языковых моделей (почти) во всех сценариях». 14 ноября 2023 г. [>бумага]
- ? Исследование CoT относительно типов задач, подсказок и показателей качества рассуждений. «На пути к лучшим стратегиям подсказки цепочки мыслей: опрос». 08.10.2023. [>бумага]
- ? Если задать LLM вопрос о более широком контексте проблемы, можно получить лучшие ответы. «Сделайте шаг назад: вызывая рассуждения посредством абстракции в больших языковых моделях». 09.10.2023. [>бумага]
- Взвешивание «за» и «против». Эта универсальная парадигма обсуждения может быть реализована с помощью программ LLM.
- ? Программа {{guidance}} , которая: 1. Определить варианты → 2. Сформировать плюсы и минусы → 3. Взвесить причины → 4. Принять решение. [>код]
- ? ? Подсказка «Планируй и решай». «Подсказки по планированию и решению: улучшение цепочки мыслей с нулевым выстрелом с помощью больших языковых моделей». 06.05.2023. [>бумага] [>код]
- ? Ведение заметок. «Учимся рассуждать и запоминать с помощью самозаметок». 01.05.2023. [>бумага]
- ? Функция «Обдумать, затем сгенерировать» улучшает качество текста. «Обдумай, затем сгенерируй: расширенная система подсказок для генерации текста». 31 мая 2023 г. [>бумага]
- ? Заставьте LLM спонтанно чередовать рассуждения и вопросы/ответы. «ReAct: синергия рассуждений и действий в языковых моделях». 06.10.2022. [>бумага]
- ? Инструкции «разделяй и властвуй» существенно превосходят стандартные CoT. «Подсказки от наименьшего к наибольшему позволяют проводить сложные рассуждения в больших языковых моделях» 21 мая 2022 г. [>бумага]
Мультиагентное обсуждение
Пусть один (или несколько) LLM имитируют свободную полемику.
- ? ? Тщательно отобранные открытые LLM, которые итеративно проверяют и улучшают свои ответы, превосходят GPT4-o. «Смесь агентов расширяет возможности больших языковых моделей». 10.06.2024. [>бумага] [>код]
- ? Согласно этому обзору, более сложные и дорогостоящие конструкции мультиагентных систем обычно более эффективны: «Сходим ли мы с ума? Сравнительный анализ многоагентных дебатов между языковыми моделями для медицинских вопросов и ответов». 2023-11-19. [>бумага]
- ? Систематическая экспертная оценка даже лучше, чем дебаты с участием нескольких агентов. «На пути к рассуждению в моделях большого языка посредством многоагентного сотрудничества по экспертной оценке». 14 ноября 2023 г. [>бумага]
- ? Коллективная критика и размышление уменьшают фактические галлюцинации и токсичность. «N-критики: самоуточнение больших языковых моделей с помощью ансамбля критиков». 2023-10-28. [>бумага]
- ? ? Delphi-процесс с различными LLM действительно более ценен, чем простые дебаты. «ReConcile: конференция за круглым столом улучшает рассуждения посредством консенсуса между различными магистратурами». 22 сентября 2023 г. [>бумага] [>код]
- ? Многоагентные дебаты увеличивают когнитивное разнообразие, повышают производительность. «Поощрение дивергентного мышления в больших языковых моделях посредством многоагентных дебатов». 2023-05-30. [>бумага]
- ? Используйте мудрость эффекта толпы посредством моделирования дебатов. «Улучшение фактов и рассуждений в языковых моделях посредством многоагентных дебатов». 2023-05-23. [>бумага]
- ? ? Подражайте сократовскому диалогу для совместного решения проблем с помощью нескольких агентов ИИ. «Сократический метод самопознания в больших языковых моделях». 05.05.2023. [>блог] [>код]
Рефлексия и метапознание
Стратегии рассуждения более высокого порядка, которые могут улучшить мышление первого порядка.
- ? ? Отслеживание общей информации, полученной в результате решения проблем CoT, повышает точность и эффективность в будущем. «Буфер мыслей: мышление, дополненное большими языковыми моделями». 06.06.2024. [>бумага] [>код]
- ? ? Обработка задачи в зависимости от самооценки сложности повышает эффективность CoT. «Разделяй и властвуй для рассуждений на больших языковых моделях». 10 января 2024 г. [>бумага] [>код]
- ? ? Размышление над задачей позволяет LLM автоматически генерировать более эффективные инструкции, демонстрации и рассуждения. «Meta-CoT: обобщенные подсказки по цепочке мыслей в сценариях смешанных задач с большими языковыми моделями». 11 октября 2023 г. [>бумага] [>код]
- ? ? Инструктор по искусственному интеллекту на базе LLM разрабатывает эффективные CoT-инструкции первого порядка (улучшение моделей с открытым исходным кодом достигает до 20%). «Агент инструктирует большие языковые модели быть общими рассуждениями с нулевым выстрелом». 05.10.2023. [>бумага] [>код]
- ? ? Уточнить→Судить→Оценить→Подтвердить→Квалифицировать парадигму. «Метакогнитивные подсказки улучшают понимание больших языковых моделей». 10 августа 2023 г. [>бумага] [>код]
- ? ? Стратегия «Найди и смоделируй эксперта для решения этой проблемы». «Быстрое программирование для больших языковых моделей: за пределами парадигмы нескольких кадров». 15 февраля 2021 г. [>бумага] [>lmql]
Методы генерации текста
Техники генерации текста, которые можно сочетать с шаблонами и стратегиями подсказок.
- ? Итеративный пересмотр рассуждений в свете предыдущих трассировок ЦТ повышает точность на 10-20%. «RAT: поиск дополненных мыслей вызывает контекстно-зависимое мышление при генерации долгосрочных планов». 08.03.2024. [>бумага]
- ? Конвейер для самостоятельного создания и выбора эффективных демонстраций CoT из нескольких кадров. «Универсальное самоадаптирующееся подсказка». 24 мая 2023 г. [>бумага]
- ? Чем больше рассуждений (= более длинные следы рассуждений), тем лучше. «Влияние длины шага рассуждения на модели большого языка». 10 января 2024 г. [>бумага]
- ? Наличие (соответственно маркированных) правильных и ошибочных (немногочисленных) демонстраций рассуждений улучшает ЦТ. «Контрастная цепочка мыслей». 17.11.2023. [>бумага]
- ? Лучшее решение проблем и обсуждение посредством нескольких попыток проб и ошибок (контекстное RL). «Рефлексия: языковые агенты с вербальным подкреплением». 20 марта 2023 г. [>бумага]
- ? Внешние направляющие, ограничивающие выработку рассуждений, повышают точность выполнения выбранных задач до 35 %. «Сертифицированное рассуждение с использованием языковых моделей». 06.06.2023. [>бумага]
- ? ? Высокоэффективный лучевой поиск для создания сложных, многоэтапных эпизодов рассуждения. «Древо мыслей: преднамеренное решение проблем с помощью больших языковых моделей». 17 мая 2023 г. [>бумага] [>код]
- ? Минималистичная реализация Древа мыслей в виде простой подсказки. [>код]
- ? Экспериментальная реализация «Древа мыслей» на LMQL. [>код]
- ? ? LLM автоматически генерирует разнообразные демонстрации рассуждений, которые можно использовать в совещательных подсказках. «Автоматическая цепочка мыслей в моделях большого языка». 07.10.2022. [>бумага] [>код]
Самокоррекция
Позвольте магистрам права самостоятельно корректировать свои размышления.
- ? Согласованность между несколькими трассировками CoT является показателем надежности рассуждений, который можно использовать для самопроверки/агрегирования. «Можем ли мы проверить шаг за шагом на предмет обнаружения неправильного ответа?» 16 февраля 2024 г. [>бумага]
- ? Превратите LLM во встроенные средства самопроверки, добавив шаги самокоррекции к стандартным трассировкам CoT для точной настройки. «Модель малого языка может самокорректироваться». 14 января 2024 г. [>бумага]
- ? Усиленное самообучение улучшает многоскачковые вопросы/ответы с расширенным поиском. «ReST встречает ReAct: самосовершенствование для агента LLM по многоэтапному рассуждению». 15 декабря 2023 г. [>бумага]
- ? Условная самокоррекция в зависимости от того, затронуты ли в трассировке рассуждений критические вопросы. «ИСКУССТВО совершенствования LLM: спрашивайте, совершенствуйте и доверяйте». 14 ноября 2023 г. [>бумага]
- ? Итеративное уточнение рассуждений с учетом разнообразной обратной связи увеличивает точность почти на 10 % (ChatGPT). «MAF: многоаспектная обратная связь для улучшения рассуждений в моделях большого языка». 19 октября 2023 г. [>бумага]
- ? Поручение модели просто «проверить» свой ответ и «найти проблемы» не приводит к эффективной самокоррекции. «Большие языковые модели пока не могут самостоятельно корректировать рассуждения». 25 сентября 2023 г. [>бумага]
- ? LLM могут придумывать и решать важные вопросы для улучшения своих проектов. «Цепочка проверок уменьшает галлюцинации в больших языковых моделях». 25 сентября 2023 г. [>бумага]
- ? LogiCoT: самопроверка и доработка после каждого шага CoT повышает производительность (для выбранных задач и моделей). «Улучшение цепочки мыслей с нулевым выстрелом в больших языковых моделях с помощью логики». 2023-09-23. [>бумага]
- ? Отличный обзор о самокорректирующихся LLM с применением к неверным рассуждениям. «Автоматическая коррекция больших языковых моделей: обзор разнообразных стратегий самокоррекции». 06.08.2023. [>бумага]
Аналитика рассуждений
Методы анализа размышлений LLM и оценки качества рассуждений.
- ?? Комплексная аналитика рассуждений на основе LLM, которая разбивает тексты на отдельные причины. «DCR-Согласованность: рассуждения «разделяй-властвуй» для оценки согласованности и улучшения больших языковых моделей». 04.01.2024. [>бумага] [>код]
- ?? Высокопроизводительный открытый LLM (на основе T5) для проверки умозаключений. «Разум против машин: переосмысление проверки следствия с помощью языковых моделей». 06.02.2024. [>бумага] [>модель]
- ?? Набор тестовых данных для оценщиков CoT. «Цепочка мыслей так же сильна, как и ее самое слабое звено: ориентир для проверяющих цепочки рассуждений». 2023-11-23. [>бумага] [>набор данных]
- ?? Структура для оценки цепочек рассуждений, рассматривая их как неформальные доказательства, из которых выводится окончательный ответ. «ReCEval: оценка цепочек рассуждений через корректность и информативность». 2023-11-23. [>бумага] [>код]
- ? GPT-4 в 5 раз лучше предсказывает правильность математических рассуждений, чем GPT-3.5. «Предложите магистрам права рассуждать о рассуждениях: ориентир для выявления глубины познания в магистратурах». 2023-12-28. [>бумага]
- ? Минималистичный GPT-4 предлагает оценить качество рассуждений. «SocREval: большие языковые модели с сократовским методом для оценки рассуждений без ссылок». 29 сентября 2023 г. [>бумага] [>код]
- ?? Автоматические метрики на основе семантического сходства для оценки трассировок CoT (избыточность, достоверность, согласованность и т. д.). «ROSCOE: набор показателей для пошаговой оценки». 12 сентября 2023 г. [>бумага]
Ограничения, неудачи, головоломки
Вещи, которые не работают или плохо понимаются.
- ? Структурированная генерация рискует ухудшить качество рассуждений и эффективность CoT. «Позвольте мне говорить свободно? Исследование влияния ограничений формата на производительность больших языковых моделей». 05.08.2024. [>бумага]
- ? Жетоны-заполнители могут быть столь же эффективными, как и следы здравого рассуждения, для получения правильных ответов. «Давайте подумаем точка за точкой: скрытые вычисления в языковых моделях трансформаторов». 24 апреля 2024 г. [>бумага]
- ? Причинно-следственный анализ показывает, что LLM иногда игнорирует следы CoT, но скорость реагирования на причины увеличивается с размером модели и формируется путем тонкой настройки. «Магисты с цепочкой мыслей — это беспричинные рассуждения» 25 февраля 2024 г. [>бумага]
- ? Плохие рассуждения могут привести к правильным выводам, поэтому необходимы более совершенные методы оценки ЦТ. «ОЦЕНКА: основа для оценки противоречивых рассуждений». 16 ноября 2023 г. [>бумага]
- ? LLM могут генерировать «закодированные рассуждения», непонятные людям, что может свести на нет любые преимущества XAI от совещательных подсказок. «Предотвращаем, чтобы языковые модели скрывали свои рассуждения». 27 октября 2023 г. [>бумага]
- ? LLM судят и принимают решения в зависимости от имеющихся аргументов (реакция на разум), но на них сильнее влияют ошибочные и вводящие в заблуждение причины, чем веские. «Насколько студенты LLM подвержены логическим ошибкам?» 18 августа 2023 г. [>бумага]
- ? Неправильное рассуждение повышает точность ответа (почти) так же, как и правильное. «Неверная логика, эквивалентные выгоды: причудливость рассуждений при подсказке языковой модели». 20 июля 2023 г. [>бумага]
- ? Рассуждения Zeroshot CoT в чувствительных областях повышают вероятность того, что LLM выдаст вредные или нежелательные результаты. «Подумав, давайте не будем думать шаг за шагом! Предвзятость и токсичность в рассуждениях с нулевым выстрелом». 2023-06-23. [>бумага]
- ? LLM могут систематически фабриковать ошибочные обоснования неправильных ответов CoT, считает команда Нью-Йоркского университета / Anthropic. «Языковые модели не всегда говорят то, что думают: неверные объяснения в цепочке мыслей». 07.05.2023. [>бумага]
- ? Практическое обсуждение LLM не является надежным, но его легко сбить с пути, переформулировав сценарии. «Несмотря на «сверхчеловеческие» результаты, нынешние программы магистратуры не подходят для принятия решений по вопросам этики и безопасности» 13 декабря 2022 г. [>бумага]
Наборы данных
Наборы данных, содержащие примеры совещательных подсказок, потенциально полезные для обучения моделей/оценки их навыков обдумывания.
- Набор данных по инструкциям, дополненный «следами рассуждений», генерируемыми LLM.
- ? ORCA — оригинальная бумага Microsoft. «Косатка: прогрессивное обучение на основе сложных объяснительных следов GPT-4». 05.06.2023. [>бумага]
- ? OpenOrca — репликация наборов данных ORCA с открытым исходным кодом. [>набор данных]
- ? Dolphin — репликация наборов данных ORCA с открытым исходным кодом. [>набор данных]
- ? ORCA 2 — улучшенная Orca от Microsoft, например, с мета-рассуждениями. «Косатка 2: Обучение моделей малого языка рассуждению». 18 ноября 2023 г. [>бумага]
- ?? Коллекция CoT — 1,84 миллиона трасс рассуждений для 1060 задач. «Коллекция CoT: улучшение нулевого и малократного изучения языковых моделей посредством точной настройки цепочки мыслей». [>бумага] [>код]
- ? OASST1 - содержит более 200 инструкций для формирования плюсов и минусов (по карте nomic.ai). [>набор данных]
- ? LegalBench — эталон юридического обоснования в программах LLM [>бумага]
- ?? ThoughtSource — открытый ресурс данных и инструментов, связанных с логическими рассуждениями в больших языковых моделях. [>бумага] [>код]
- ?? Обзор с множеством подсказок по соответствующим наборам данных CoT. «Наборы данных для больших языковых моделей: комплексное исследование» [>документ] [>код]
- ? Список наборов данных LLM Максима Лабонна [github]
Инструменты и фреймворки
Инструменты и структуры для реализации совещательных подсказок.
- ? LMQL — язык программирования для взаимодействия языковых моделей. [>сайт]
- ? Интерактивная площадка LMQL [>сайт]
- ? «Подсказка — это программирование: язык запросов для больших языковых моделей». 2022-12-12. [>бумага]
- ? {{guidance}} — язык управления большими языковыми моделями. [>код]
- ? контуры ~ — язык для управляемой генерации текста. [>код]
- ? DSPy — программный интерфейс для LLM. [>код]
- ? llm-reasoners – библиотека для расширенного рассуждения на основе моделей большого языка. [>код]
- ? ThinkGPT — основа и строительные блоки для цепочки рабочих процессов. [>код]
- ? LangChain — библиотека Python для построения цепочек и агентов LLM. [>код]
- ? PromptBench - единая библиотека для оценки LLMS, в том числе эффективности подсказок CoT. [>код]
- ? SymbolicAI — библиотека для композиционно-дифференцируемого программирования с использованием LLM. [>код]
Другие ресурсы
Еще больше интересных и полезных материалов.
- Обзор автономных агентов LLM (постоянно обновляется). [>сайт]
- ? Панель управления LLM — исследуйте эффективность рассуждений для конкретных задач в открытых LLM [>приложение]
- Быстрое инженерное руководство, созданное DAIR. [>сайт]
- ATLAS — принципы и ориентиры для систематических подсказок [>код]
- Руководство по совещательным подсказкам, созданное Logikon. [>сайт]
- Спорить с помощью аргументов – недавняя замечательная статья Х. Сигела, в которой обсуждается, что на самом деле означает оценивать аргумент. [>бумага]