Трое сапожников по своему умению равняются Чжугэ Ляну как вдохновителю. --- старая поговорка в Китае.
Мы представляем новые волшебные слова-подсказки с нулевым выстрелом, которые улучшают способность рассуждения языковых моделей: Панельная дискуссия !
На конференциях и семинарах среди экспертов всегда происходят криминальные дискуссии , и люди обмениваются мнениями по заданной теме, улучшая понимание новых концепций, меняя точки зрения и достигая более полного понимания преобладающих дебатов или дискуссий.
Рисунок 1. Панельная дискуссия Джека Ма и Илона Маска, WAIC, 2019 г.:
Эта идея связана с работой по самосогласованности (Ванг, Сюэчжи и др.) (поскольку несколько экспертов могут не согласиться друг с другом во время групповой дискуссии).
Мы оцениваем эффективность предлагаемого метода подсказки на наборе данных GSM8K, используя API gpt-3.5-turbo.
Стоимость оценки каждого запроса в тестовом наборе данных 1 тыс. GSM8k составляет менее 2 долларов США.
Наше групповое обсуждение показало наилучшую производительность , а исследования абляции показывают важность преимуществ каждого элемента. Второй лучший и «Третий лучший» обозначаются подчеркиванием и курсивом соответственно.
Набор данных метода | GSM8K (тест 1к) | Подскажите контент | Ссылка |
---|---|---|---|
Без запроса | 0,789 | Ответ: | - |
ЦТ с нулевым выстрелом | 0,854 | Давайте думать поэтапно: | (Кодзима, Такеши и др., 2022 г.) |
APE Улучшенный CoT | 0,845 | Давайте разберемся с этим шаг за шагом, чтобы убедиться, что у нас есть правильный ответ: | (Чжоу, Юнчао и др., 2023 г.) |
Подсказки ТоТ | 0,842 | Представьте, что на этот вопрос отвечают три разных эксперта. Все эксперты запишут один шаг своего размышления, а затем поделятся им с группой. Затем все эксперты перейдут к следующему шагу и т. д. Если какой-либо эксперт в какой-то момент поймет, что он не прав, он уйдет. | (Репо Дэйва Халберта, 2023 г.) |
ПанельGPT | 0,899 | 3 эксперта обсуждают вопрос в рамках групповой дискуссии, стараются решить его шаг за шагом, убедиться в правильности результата и избежать штрафных санкций : | (Это репо, 18 июля 2023 г.) |
PanelGPT без AE и EA | 0,878 | 3 эксперта дискуссией обсуждают вопрос, стараются решить его шаг за шагом и убедиться в правильности результата: | (Наше исследование абляции) |
ПанельGPT без AE | 0,84 | 3 эксперта дискуссией обсуждают вопрос, стараются решить его шаг за шагом, убедиться в правильности результата и избежать штрафа: | (Наше исследование абляции) |
ПанельGPT без советника | 0,894 | 3 эксперта обсуждают вопрос в рамках групповой дискуссии, стараются решить его шаг за шагом и убедиться в правильности результата: | (Наше исследование абляции) |
П е н а LGPT (ошибка написания) | 0,883 | 3 эксперта обсуждают вопрос штрафной дискуссией, стараются решить его шаг за шагом и убедиться в правильности результата: | (Наше исследование абляции) |
Возможность нулевых подсказок проявляется в языковых моделях, обученных на больших объемах данных, таких как GPT-3 и GPT-4 (Ouyang et al., 2022; OpenAI, 2023). И это было показано Wei et al. (2021) считают, что точная настройка инструкций улучшает способность языковых моделей к обучению с нуля.
Несмотря на впечатляющую производительность с нулевым выстрелом, демонстрируемую большими языковыми моделями, эти модели часто демонстрируют неоптимальную производительность при выполнении более сложных задач в условиях нулевого выстрела. Использование подсказок из нескольких шагов представляет собой жизнеспособный подход для облегчения контекстного обучения (Brown et al., 2020; Min et al., 2022). Этот метод требует включения демонстраций в подсказку, эффективно направляя модель к повышению производительности. Эти демонстрации действуют как механизмы подготовки последующих примеров, заставляя модель генерировать лучшие ответы.
Показано, что в некоторых более сложных задачах, таких как сложная арифметика, задачи здравого смысла и символические рассуждения, подсказки цепочки мыслей (ЦП) более эффективны, помогая языковым моделям получать правильные ответы (Wei et al., 2022). CoT включает дополнительные этапы рассуждения в примерах с несколькими подсказками. Кодзима и др. (2022) далее представляет CoT с нулевым выстрелом, показывая, что добавление инструкций, не зависящих от задачи, может улучшить производительность модели в конкретных задачах. В Чжан и др. (2022b), Auto-CoT сочетает в себе универсальность ЦТ с нулевым выстрелом и возможности исходного ЦТ, основанного на демонстрациях, и предлагает автоматически создавать демонстрации на основе кластеризации и выборки на основе разнообразия, которые полезны для рассуждений ЦТ.
Ван и др. (2022) улучшили метод нескольких шагов ЦТ, выбрав несколько различных путей рассуждения и исключив эти пути, выбрав наиболее последовательные ответы среди всех выбранных путей рассуждения. Генерируемые знания, побуждающие Liu et al. (2021) улучшает рассуждения, основанные на здравом смысле, путем включения знаний или информации, связанных с вопросами, для более точных прогнозов. Методы «дерева мыслей» (ToT) (Long, 2023; Yao et al., 2023) сочетают в себе методы древовидного планирования с навыками рассуждения языковых моделей и шаг за шагом решают сложные задачи рассуждения посредством нескольких раундов бесед. Халберт (2023) также выдвинул похожую идею, которая объединяет несколько мыслей о языковой модели в одной подсказке. Расширенная генерация памяти и извлечения (RAG) (Льюис и др., 2020), которая способна сочетать параметрическую и непараметрическую память, такую как Википедия, при выполнении наукоемких задач. MoT (Li & Qiu, 2023): Предварительное обдумывание на основе внешнего немаркированного набора данных и последующий вызов соответствующих знаний во время вывода.
Prompt-OIRL представляет идею использования автономного обучения с обратным подкреплением для выполнения автономной оценки и оптимизации подсказок. Метод действенный и действенный. Обучение Prompt-OIRL на MacBook Air с чипом M2 занимает всего 1 час, однако производительность различных LLM при выполнении арифметических задач можно повысить до 24%.
Если вы используете наш код и подсказку, пожалуйста, рассмотрите возможность цитирования нашей статьи:
@inproceedings{sun2023query, title={Быстрая оценка и оптимизация в зависимости от запроса с помощью автономного обратного RL}, автор={Сан, Хао и Х{"u}y{"u}k, Алихан и ван дер Шаар, Михаэла}, booktitle ={Двенадцатая Международная конференция по обучению представлений}, year={2023}}@article{sun2023reinforcement, title={Укрепление обучения в эпоху LLM: что важно? Что необходимо? Взгляд RL на RLHF, подсказку и не только}, автор={Сун, Хао}, журнал={препринт arXiv arXiv:2310.06147}, год={2023}}