Três sapateiros com sua inteligência combinada equivalem a Zhuge Liang, o mentor. --- um velho ditado na China.
Introduzimos novas palavras mágicas que melhoram a capacidade de raciocínio dos modelos de linguagem: Painel de discussão !
Em conferências e workshops, sempre há discussões penais entre especialistas, e as pessoas trocam opiniões sobre determinado tema, melhorando a compreensão de novos conceitos, mudando perspectivas de pensamento e alcançando uma compreensão mais abrangente dos debates ou discussões prevalecentes.
Figura 1: Painel de discussão entre Jack Ma e Elon Musk, WAIC, 2019:
Esta ideia está relacionada com o trabalho de autoconsistência (Wang, Xuezhi, et al.) (já que vários especialistas podem discordar entre si durante o painel de discussão).
Avaliamos a eficácia do método prompt proposto no conjunto de dados GSM8K, usando a API gpt-3.5-turbo.
O custo para avaliar cada prompt no conjunto de dados de teste 1k GSM8k é inferior a 2 USD.
Nosso painel de discussão alcança o melhor desempenho e os estudos de ablação mostram a importância do benefício de cada elemento. Segundo melhor e Terceiro melhor são indicados pelos formatos sublinhado e itálico , respectivamente.
MétodoDataset | GSM8K (teste 1k) | Conteúdo imediato | Referência |
---|---|---|---|
Sem aviso | 0,789 | A resposta é: | - |
CoT de tiro zero | 0,854 | Vamos pensar passo a passo: | (Kojima, Takeshi, et al. 2022) |
CoT melhorado pela APE | 0,845 | Vamos resolver isso passo a passo para ter certeza de que temos a resposta certa: | (Zhou, Yongchao, et al. 2023) |
Solicitação de ToT | 0,842 | Imagine que três especialistas diferentes estejam respondendo a essa pergunta. Todos os especialistas anotarão uma etapa do seu pensamento e depois a compartilharão com o grupo. Em seguida, todos os especialistas passarão para a próxima etapa, etc. Se algum especialista perceber que está errado a qualquer momento, ele irá embora. | (Repositório de Dave Hulbert 2023) |
PainelGPT | 0,899 | 3 especialistas estão discutindo a questão em um painel de discussão, tentando resolvê-la passo a passo, garantindo que o resultado esteja correto e evitando penalidades : | (Este repositório, 18 de julho de 2023) |
PainelGPT sem AE e EA | 0,878 | 3 especialistas estão discutindo a questão com uma discussão, tentando resolvê-la passo a passo e certificando-se de que o resultado está correto: | (Nosso, Estudo de Ablação) |
PainelGPT sem AE | 0,84 | 3 especialistas estão discutindo a questão com uma discussão, tentando resolvê-la passo a passo, e garantir que o resultado esteja correto e evitar penalidades: | (Nosso, Estudo de Ablação) |
PainelGPT sem EA | 0,894 | 3 especialistas estão discutindo a questão em um painel de discussão, tentando resolvê-la passo a passo e garantindo que o resultado esteja correto: | (Nosso, Estudo de Ablação) |
P e n um LGPT (escrito incorretamente) | 0,883 | 3 especialistas estão discutindo a questão com uma discussão penal, tentando resolvê-la passo a passo e garantir que o resultado esteja correto: | (Nosso, Estudo de Ablação) |
A capacidade de solicitação Zero-shot emerge nos modelos de linguagem treinados em grandes quantidades de dados como GPT-3 e GPT-4 (Ouyang et al., 2022; OpenAI, 2023). E foi mostrado em Wei et al. (2021) que o ajuste fino da instrução melhora a capacidade de aprendizagem zero-shot dos modelos de linguagem.
Apesar do impressionante desempenho de disparo zero exibido por modelos de linguagem grandes, esses modelos geralmente apresentam desempenho abaixo do ideal na execução de tarefas mais complexas sob uma configuração de disparo zero. Aproveitar a solicitação de poucos disparos apresenta uma abordagem viável para facilitar a aprendizagem no contexto (Brown et al., 2020; Min et al., 2022). Essa técnica exige a inclusão de demonstrações no prompt, orientando efetivamente o modelo em direção a um desempenho aprimorado. Essas demonstrações atuam como mecanismos condicionantes para exemplos sucessivos, levando o modelo a gerar melhores respostas.
Em algumas tarefas mais desafiadoras, como tarefas complexas de aritmética, senso comum e raciocínio simbólico, o estímulo da cadeia de pensamento (CoT) mostra-se mais eficaz para ajudar os modelos de linguagem a obter respostas corretas (Wei et al., 2022). CoT inclui etapas de raciocínio adicionais nos exemplos de sugestões de poucas tentativas. Kojima et al. (2022) introduz ainda o CoT zero-shot, mostrando que adicionar instrução independente de tarefa pode melhorar o desempenho do modelo em tarefas específicas. Em Zhang et al. (2022b), Auto-CoT combina a universalidade do CoT zero-shot e a capacidade do CoT original impulsionado por demonstrações e propõe construir automaticamente demonstrações baseadas em agrupamento e amostragem baseada em diversidade que são benéficas para o raciocínio CoT.
Wang et al. (2022) melhoram o método CoT de poucas tentativas amostrando vários caminhos de raciocínio diversos e marginalizando esses caminhos, escolhendo as respostas mais consistentes entre todos os caminhos de raciocínio amostrados. O conhecimento gerado que estimula Liu et al. (2021) melhora o raciocínio de bom senso ao incorporar conhecimento ou informações relacionadas às questões para fazer previsões mais precisas. Os métodos de árvore de pensamentos (ToT) (Long, 2023; Yao et al., 2023) combinam métodos de planejamento baseados em árvore com habilidades de raciocínio de modelos de linguagem e resolvem problemas difíceis de raciocínio passo a passo por meio de múltiplas conversas redondas. Hulbert (2023) também apresentou uma ideia relacionada que aproveita vários pensamentos de um modelo de linguagem em um único prompt. Geração Aumentada de Memória e Recuperação (RAG) (Lewis et al., 2020), que é capaz de combinar memória paramétrica e memória não paramétrica como a Wikipedia para completar tarefas que exigem muito conhecimento. MoT (Li & Qiu, 2023): Pré-pensamento com base no conjunto de dados externo não rotulado e, em seguida, recordação do conhecimento relacionado durante a inferência.
Prompt-OIRL apresenta a ideia de usar aprendizagem por reforço inverso offline para realizar avaliação e otimização imediata offline. O método é eficiente e eficaz. O Training Prompt-OIRL em um MacBook Air com chip M2 leva apenas 1 hora, mas o desempenho de diferentes LLMs em tarefas de raciocínio aritmético pode ser melhorado em até 24%.
Se você usar nosso código e prompt, considere citar nosso artigo:
@inproceedings{sun2023query, title={Avaliação e otimização de prompt dependente de consulta com RL inverso offline}, autor={Sun, Hao e H{"u}y{"u}k, Alihan e van der Schaar, Mihaela}, título do livro ={A Décima Segunda Conferência Internacional sobre Representações de Aprendizagem}, year={2023}}@article{sun2023reinforcement, title={Aprendizagem por reforço na era dos LLMs: o que é essencial? O que é necessário? Uma perspectiva RL sobre RLHF, Prompting e Beyond}, autor={Sun, Hao}, diário={arXiv preprint arXiv:2310.06147}, ano={2023}}