Incrível solicitação deliberativa
Como pedir aos Large Language Models (LLMs) que produzam raciocínios confiáveis e tomem decisões que respondam à razão.
deliberação , n.
A ação de pensar cuidadosamente sobre algo, esp. para chegar a uma decisão; consideração cuidadosa; um ato ou instância disso. (OED)
Conteúdo
- Histórias de sucesso
- Padrões e estratégias de estímulo
- Além de "Vamos pensar passo a passo"
- Deliberação Multiagente
- Reflexão e Meta-Cognição
- Técnicas de geração de texto
- Autocorreção
- Análise de raciocínio
- Limitações, falhas, quebra-cabeças
- Conjuntos de dados
- Ferramentas e Estruturas
- Outros recursos
Histórias de sucesso
Evidências impressionantes da eficácia da solicitação deliberativa.
- ? O artigo original da "cadeia de pensamento" (CoT), primeiro a fornecer evidências claras de que a orientação deliberativa funciona. "A solicitação de cadeia de pensamento provoca raciocínio em grandes modelos de linguagem." 2022-01-28. [>papel]
- ? A solicitação deliberativa melhora a capacidade dos LLMs do Google de resolver problemas difíceis invisíveis, e os modelos ajustados por instrução (Flan-) são muito melhores nisso.
- "Escalonando modelos de linguagem ajustados por instrução." 2022-12-06. [>papel]
- "Relatório Técnico PaLM 2." 17/05/2023. [>papel]
- ? A solicitação deliberativa é altamente eficaz para os modelos OpenAI (Text-Davinci-003, ChatGPT, GPT-4), aumentando a precisão em muitas (mas não todas) tarefas de raciocínio no benchmark EvalAGI. "AGIEval: uma referência centrada no ser humano para avaliar modelos básicos." 13/04/2023. [>papel]
- ? A solicitação deliberativa desbloqueia habilidades cognitivas latentes e é mais eficaz para modelos maiores. "Desafiando tarefas do BIG-Bench e se a cadeia de pensamento pode resolvê-las." 17/10/2022. [>papel]
- ? A introdução experimental de erros nos traços de raciocínio do CoT diminui a precisão da decisão, o que fornece evidência indireta para a capacidade de resposta dos LLMs. "Solicitação de cadeia de pensamento para testes de estresse para grandes modelos de linguagem." 2023-09-28. [>papel]
- ? O raciocínio (sobre candidatos à recuperação) melhora o RAG. "Auto-RAG: Aprendendo a recuperar, gerar e criticar por meio da autorreflexão." 17/10/2023. [>papel]
- ? Notas de leitura deliberativa melhoram o RAG. "Cadeia de Notas: Aumentando a Robustez em Modelos de Linguagem Aumentada por Recuperação." 15/11/2023. [>papel]
- ? O bom raciocínio (CoT) causa boas respostas (ou seja, os LLMs respondem à razão). "Abstração causal para raciocínio de cadeia de pensamento em problemas aritméticos de palavras." 2023-12-07. [>papel]
- ? A interpretação lógica do processamento interno de tarefas de raciocínio em camadas produz mais evidências de capacidade de resposta à razão. "Rumo a uma interpretação mecanística das capacidades de raciocínio em várias etapas do modelo de linguagem." 2023-12-07. [>papel]
- ? Raciocinar sobre rascunhos alternativos melhora a geração de texto. "A autoavaliação melhora a geração seletiva em grandes modelos de linguagem." 14/12/2023. [>papel]
- ? CoT com demonstrações de raciocínio diversas e cuidadosamente recuperadas impulsiona LLMs multimodais. "Raciocínio de cadeia de pensamentos multimodal aumentado por recuperação para grandes modelos de linguagem." 2023-12-04. [>papel]
- ? CoT multi-hop eficaz para respostas visuais a perguntas. "II-MMR: Identificando e melhorando o raciocínio multimodal multi-hop na resposta visual a perguntas." 16/02/2024. [>papel]
- ? ? DPO em traços sintéticos de CoT aumenta a capacidade de resposta à razão de pequenos LLMs. "Tornando o raciocínio importante: medindo e melhorando a fidelidade do raciocínio da cadeia de pensamento" 23/02/2024. [>papel] [>código]
Padrões e estratégias de estímulo
Promovendo estratégias e padrões para tornar os LLMs deliberados.
Além de "Vamos pensar passo a passo"
Instruir LLMs a raciocinar (de uma maneira específica).
- ? Pedir ao GPT-4 para fornecer respostas corretas e erradas aumenta a precisão. "Grandes modelos de linguagem são raciocinadores contrastivos." 13/03/2024. [>papel]
- ? A solicitação dinâmica guiada aumenta o desempenho do GPT-4 CoT em até 30 pontos percentuais. "Prompt guiado por estrutura: instruindo o modelo de linguagem grande no raciocínio em várias etapas, explorando a estrutura gráfica do texto" 2024-02-20. [>papel]
- ? Permitir que os LLMs escolham e combinem estratégias de raciocínio é econômico e melhora o desempenho. "AUTO-DESCOBERTA: Grandes modelos de linguagem autocompõem estruturas de raciocínio." 06/02/2024. [>papel]
- ? CoA: Produza primeiro um traço de raciocínio abstrato e preencha os detalhes (usando ferramentas) posteriormente. "Uso eficiente de ferramentas com raciocínio de cadeia de abstração." 30/01/2024. [>papel]
- ? Raciocine repetidamente até que o teste de verificação seja aprovado. "Planejar, verificar e mudar: raciocínio integrado com diversos X-of-Thoughts." 23/10/2023. [>papel]
- ? Gere múltiplas deliberações diversas e depois sintetize-as em um único caminho de raciocínio. "Pergunte mais uma vez: o autoacordo melhora o raciocínio dos modelos de linguagem em (quase) todos os cenários." 14/11/2023. [>papel]
- ? Levantamento do CoT sobre tipos de tarefas, designs de prompts e métricas de qualidade de raciocínio. "Rumo a melhores estratégias de estímulo à cadeia de pensamento: uma pesquisa." 08/10/2023. [>papel]
- ? Perguntar a um LLM sobre o contexto mais amplo de um problema leva a melhores respostas. "Dê um passo para trás: evocando o raciocínio por meio da abstração em grandes modelos de linguagem." 2023-10-09. [>papel]
- Pesando Prós e Contras: Este paradigma de deliberação universal pode ser implementado com LLMs.
- ? Um programa de {{guidance}} que faz: 1. Identificar opções → 2. Gerar prós e contras → 3. Pesar motivos → 4. Decidir. [>código]
- ? ? Solicitação de planejar e resolver. "Avisos de planejar e resolver: melhorando o raciocínio da cadeia de pensamento zero-shot por meio de grandes modelos de linguagem." 06/05/2023. [>papel] [>código]
- ? Tomando notas. "Aprendendo a raciocinar e memorizar com anotações próprias." 01/05/2023. [>papel]
- ? Deliberar e então gerar melhora a qualidade do texto. "Deliberar e depois gerar: estrutura de solicitação aprimorada para geração de texto." 31/05/2023. [>papel]
- ? Faça com que o LLM intercale espontaneamente o raciocínio e as perguntas/respostas. "ReAct: Sinergizando raciocínio e atuação em modelos de linguagem." 2022-10-06. [>papel]
- ? As instruções 'dividir e conquistar' superam substancialmente o CoT padrão. "A solicitação do mínimo para o máximo permite raciocínio complexo em modelos de linguagem grandes" 2022-05-21. [>papel]
Deliberação Multiagente
Deixe um (ou muitos) LLMs simularem uma controvérsia livre.
- ? ? LLMs abertos cuidadosamente selecionados que revisam e melhoram iterativamente suas respostas superam o GPT4-o. "Mistura de agentes aprimora grandes capacidades de modelos de linguagem." 10/06/2024. [>papel] [>código]
- ? Projetos de sistemas multiagentes mais elaborados e caros são normalmente mais eficazes, de acordo com esta revisão: "Vamos MAD? Comparando o debate multiagente entre modelos de linguagem para perguntas e respostas médicas." 2023-11-19. [>papel]
- ? A revisão sistemática por pares é ainda melhor do que o debate multiagente. "Rumo ao raciocínio em grandes modelos de linguagem por meio da colaboração de revisão por pares multiagente." 14/11/2023. [>papel]
- ? A crítica e a reflexão coletivas reduzem as alucinações factuais e a toxicidade. "N-Critics: Auto-refinamento de grandes modelos de linguagem com conjunto de críticos." 2023-10-28. [>papel]
- ? ? O processo Delphi com diversos LLMs é veristicamente mais valioso do que o simples debate. "ReConcile: Mesa Redonda Melhora o Raciocínio por meio do Consenso entre Diversos LLMs." 2023-09-22. [>papel] [>código]
- ? O debate multiagente aumenta a diversidade cognitiva e aumenta o desempenho. "Incentivando o pensamento divergente em grandes modelos de linguagem por meio do debate multiagente." 30/05/2023. [>papel]
- ? Aproveite a sabedoria dos efeitos da multidão por meio da simulação de debates. "Melhorando a factualidade e o raciocínio em modelos de linguagem por meio do debate multiagente." 23/05/2023. [>papel]
- ? ? Emular o diálogo socrático para resolver problemas de forma colaborativa com vários agentes de IA. "O método socrático para autodescoberta em grandes modelos de linguagem." 05/05/2023. [>blog] [>código]
Reflexão e Meta-Cognição
Estratégias de raciocínio de ordem superior que podem melhorar a deliberação de primeira ordem.
- ? ? Acompanhar os insights gerais obtidos na resolução de problemas do CoT melhora a precisão e a eficiência futuras. "Buffer de pensamentos: raciocínio aumentado de pensamento com grandes modelos de linguagem." 06/06/2024. [>papel] [>código]
- ? ? O processamento da tarefa em função da dificuldade autoavaliada aumenta a eficácia do CoT. "Dividir e conquistar para o raciocínio de grandes modelos de linguagem." 10/01/2024. [>papel] [>código]
- ? ? Refletir sobre a tarefa permite que o LLM gere automaticamente instruções, demonstrações e traços de raciocínio mais eficazes. "Meta-CoT: Solicitação de cadeia de pensamento generalizável em cenários de tarefas mistas com grandes modelos de linguagem." 11/10/2023. [>papel] [>código]
- ? ? O AI Instructor baseado em LLM desenvolve instruções CoT eficazes de primeira ordem (modelos de código aberto melhoram em até 20%). "Agente instrui grandes modelos de linguagem a serem raciocinadores gerais de tiro zero." 05/10/2023. [>papel] [>código]
- ? ? Esclarecer→Julgar→Avaliar→Confirmar→Qualificar Paradigma. "A solicitação metacognitiva melhora a compreensão em grandes modelos de linguagem." 10/08/2023. [>papel] [>código]
- ? ? Estratégia Encontre-e-simule-um-especialista-para-este-problema. "Programação rápida para grandes modelos de linguagem: além do paradigma de poucas tentativas." 15/02/2021. [>papel] [>lmql]
Técnicas de geração de texto
Técnicas de geração de texto, que podem ser combinadas com padrões e estratégias de estímulo.
- ? A revisão iterativa do raciocínio à luz dos traços anteriores do CoT melhora a precisão em 10-20%. "RAT: Pensamentos aumentados de recuperação provocam raciocínio consciente do contexto na geração de longo horizonte" . 08/03/2024. [>papel]
- ? Pipeline para autogeração e escolha de demonstrações CoT eficazes de poucas tentativas. "Aviso Auto-adaptativo Universal" . 2023-05-24. [>papel]
- ? Mais raciocínio (= traços de raciocínio mais longos) é melhor. "O impacto da extensão da etapa de raciocínio em grandes modelos de linguagem". 10/01/2024. [>papel]
- ? Ter (de acordo com o rótulo) demonstrações de raciocínio corretas e errôneas (poucas tentativas) melhora o CoT. "Solicitação de cadeia de pensamento contrastiva." 17/11/2023. [>papel]
- ? Melhor resolução de problemas e deliberação por meio de tentativa e erro de poucas tentativas (RL no contexto). "Reflexão: Agentes Linguísticos com Aprendizagem por Reforço Verbal." 2023-03-20. [>papel]
- ? Guias externos que restringem a geração de raciocínio melhoram a precisão em até 35% em tarefas selecionadas. "Raciocínio certificado com modelos de linguagem." 06/06/2023. [>papel]
- ? ? Pesquisa de feixe altamente eficaz para gerar episódios de raciocínio complexos e em várias etapas. "Árvore de pensamentos: solução deliberada de problemas com grandes modelos de linguagem." 17/05/2023. [>papel] [>código]
- ? Uma implementação minimalista da Árvore de Pensamentos como um prompt simples. [>código]
- ? Uma implementação experimental LMQL de Árvore de Pensamentos. [>código]
- ? ? LLM gera automaticamente diversas demonstrações de raciocínio para serem usadas em solicitações deliberativas. "Alerta automática de cadeia de pensamento em modelos de linguagem grande." 2022-10-07. [>papel] [>código]
Autocorreção
Deixe os LLMs autocorrigirem sua deliberação.
- ? A consistência entre vários traços CoT é um indicador de confiabilidade do raciocínio, que pode ser explorado para autoverificação/agregação. "Podemos verificar passo a passo a detecção de respostas incorretas?" 16/02/2024. [>papel]
- ? Transforme LLMs em autoverificadores intrínsecos, anexando etapas de autocorreção aos traços CoT padrão para ajuste fino. "Modelo de linguagem pequena pode se autocorrigir." 14/01/2024. [>papel]
- ? O autotreinamento reforçado melhora as perguntas e respostas de vários saltos aumentadas na recuperação. "ReST encontra ReAct: Autoaperfeiçoamento para Multi-Step Reasoning LLM Agent." 15/12/2023. [>papel]
- ? Autocorreção condicional dependendo se as questões críticas foram abordadas no rastreamento de raciocínio. "A ARTE do Refinamento LLM: Pergunte, Refine e Confie." 14/11/2023. [>papel]
- ? O refinamento iterativo do raciocínio com base em feedback diversificado aumenta a precisão em até 10% (ChatGPT). "MAF: Feedback multiaspecto para melhorar o raciocínio em modelos de linguagem grande." 2023-10-19. [>papel]
- ? Instruir um modelo apenas para “revisar” sua resposta e “encontrar problemas” não leva a uma autocorreção eficaz. "Grandes modelos de linguagem ainda não conseguem autocorrigir o raciocínio." 2023-09-25. [>papel]
- ? Os LLMs podem apresentar e abordar questões críticas para melhorar seus rascunhos. "Cadeia de verificação reduz alucinações em grandes modelos de linguagem." 2023-09-25. [>papel]
- ? LogiCoT: A autoverificação e a revisão após cada etapa do CoT melhoram o desempenho (para tarefas e modelos selecionados). "Aprimorando o raciocínio de cadeia de pensamento zero-shot em grandes modelos de linguagem por meio da lógica." 23/09/2023. [>papel]
- ? Excelente revisão sobre LLMs autocorretivos, com aplicação ao raciocínio infiel. "Corrigindo automaticamente grandes modelos de linguagem: examinando o cenário de diversas estratégias de autocorreção." 06/08/2023. [>papel]
Análise de raciocínio
Métodos para analisar a deliberação do LLM e avaliar a qualidade do raciocínio.
- ?? Análise de raciocínio abrangente baseada em LLM que divide os textos em motivos individuais. "Consistência DCR: Raciocínio de Divisão-Conquista para Avaliação de Consistência e Melhoria de Grandes Modelos de Linguagem." 04/01/2024. [>papel] [>código]
- ?? LLM aberto e de alto desempenho (baseado em T5) para verificação de inferência. "Mentes versus Máquinas: Repensando a Verificação de Atribuições com Modelos de Linguagem." 06/02/2024. [>papel] [>modelo]
- ?? Conjunto de dados de teste para avaliadores CoT. "Uma cadeia de pensamento é tão forte quanto seu elo mais fraco: uma referência para verificadores de cadeias de raciocínio." 23/11/2023. [>papel] [>conjunto de dados]
- ?? Estrutura para avaliar cadeias de raciocínio, vendo-as como provas informais que derivam a resposta final. "ReCEval: Avaliando cadeias de raciocínio por meio de correção e informatividade." 23/11/2023. [>papel] [>código]
- ? O GPT-4 é 5x melhor em prever se o raciocínio matemático está correto do que o GPT-3.5. "Desafie os LLMs a raciocinar sobre o raciocínio: uma referência para revelar a profundidade cognitiva nos LLMs." 2023-12-28. [>papel]
- ? Solicitações minimalistas do GPT-4 para avaliar a qualidade do raciocínio. "SocREval: Grandes Modelos de Linguagem com o Método Socrático para Avaliação de Raciocínio Livre de Referências." 2023-09-29. [>papel] [>código]
- ?? Métricas automáticas baseadas em similaridade semântica para avaliar traços de CoT (redundância, fidelidade, consistência, etc.). "ROSCOE: um conjunto de métricas para pontuação de raciocínio passo a passo." 12/09/2023. [>papel]
Limitações, falhas, quebra-cabeças
Coisas que não funcionam ou são mal compreendidas.
- ? A geração estruturada corre o risco de degradar a qualidade do raciocínio e a eficácia do CoT. "Let Me Speak Freely? Um estudo sobre o impacto das restrições de formato no desempenho de grandes modelos de linguagem." 05/08/2024. [>papel]
- ? Os tokens de preenchimento podem ser tão eficazes quanto traços de raciocínio sólidos para obter respostas corretas. "Vamos pensar ponto por ponto: computação oculta em modelos de linguagem de transformadores." 24/04/2024. [>papel]
- ? A análise causal mostra que os LLMs às vezes ignoram os traços do CoT, mas a razão pela qual a capacidade de resposta aumenta com o tamanho do modelo e é moldada pelo ajuste fino. "LLMs com cadeia de pensamento são raciocinadores não causais" 2024-02-25. [>papel]
- ? O mau raciocínio pode levar a conclusões corretas, pelo que são necessários melhores métodos para a avaliação do CoT. "SCORE: Uma estrutura para avaliação de raciocínio autocontraditório." 16/11/2023. [>papel]
- ? Os LLMs podem produzir “raciocínio codificado” que é ininteligível para os humanos, o que pode anular quaisquer ganhos de XAI provenientes de estímulos deliberativos. "Evitando que modelos de linguagem escondam seu raciocínio." 2023-10-27. [>papel]
- ? Os LLMs julgam e decidem em função dos argumentos disponíveis (responsividade à razão), mas são mais fortemente influenciados por razões falaciosas e enganosas do que por razões sólidas. "Quão suscetíveis são os LLMs às falácias lógicas?" 18/08/2023. [>papel]
- ? O raciocínio incorreto melhora a precisão da resposta (quase) tanto quanto o raciocínio correto. "Lógica inválida, ganhos equivalentes: a estranheza do raciocínio na solicitação de modelos de linguagem." 2023-07-20. [>papel]
- ? O raciocínio Zeroshot CoT em domínios sensíveis aumenta a probabilidade de um LLM produzir resultados prejudiciais ou indesejáveis. "Pensando bem, não vamos pensar passo a passo! Preconceito e toxicidade no raciocínio de tiro zero." 23/06/2023. [>papel]
- ? Os LLMs podem fabricar sistematicamente justificativas errôneas do CoT para respostas erradas, conclui a equipe da NYU/Anthropic. "Os modelos de linguagem nem sempre dizem o que pensam: explicações infiéis na estimulação da cadeia de pensamento." 07/05/2023. [>papel]
- ? A deliberação prática dos LLMs não é robusta, mas facilmente desviada pela reformulação dos cenários. “Apesar do desempenho 'sobre-humano', os LLMs atuais são inadequados para decisões sobre ética e segurança” 2022-12-13. [>papel]
Conjuntos de dados
Conjuntos de dados contendo exemplos de estímulos deliberativos, potencialmente úteis para treinar modelos/avaliar suas habilidades de deliberação.
- Conjunto de dados de acompanhamento de instruções aumentado com "traços de raciocínio" gerados por LLMs.
- ? ORCA – artigo original da Microsoft. "Orca: aprendizagem progressiva a partir de traços de explicação complexa do GPT-4." 05/06/2023. [>papel]
- ? OpenOrca - Replicação de código aberto de conjuntos de dados ORCA. [>conjunto de dados]
- ? Dolphin - Replicação de código aberto de conjuntos de dados ORCA. [>conjunto de dados]
- ? ORCA 2 - Orca melhorado pela Microsoft, por exemplo, com meta-raciocínio. "Orca 2: Ensinando modelos de pequenas línguas como raciocinar." 18/11/2023. [>papel]
- ?? Coleção CoT - 1,84 milhão de traços de raciocínio para 1.060 tarefas. "A coleção CoT: melhorando o aprendizado de modelos de linguagem de disparo zero e de poucos disparos por meio do ajuste fino da cadeia de pensamento." [>papel] [>código]
- ? OASST1 - contém mais de 200 instruções para gerar prós e contras (de acordo com o mapa do nomic.ai). [>conjunto de dados]
- ? LegalBench - uma referência para raciocínio jurídico em LLMs [>artigo]
- ?? ThoughtSource - um recurso aberto para dados e ferramentas relacionadas ao raciocínio de cadeia de pensamento em grandes modelos de linguagem. [>papel] [>código]
- ?? Revisão com muitas dicas sobre conjuntos de dados relevantes do CoT. "Conjuntos de dados para modelos de linguagem grande: uma pesquisa abrangente" [>artigo] [>código]
- ? Lista de conjuntos de dados LLM de Maxime Labonne [github]
Ferramentas e Estruturas
Ferramentas e estruturas para implementar a solicitação deliberativa.
- ? LMQL - uma linguagem de programação para interação de modelos de linguagem. [>site]
- ? Playground LMQL interativo [>site]
- ? "Prompting é programação: uma linguagem de consulta para grandes modelos de linguagem." 2022-12-12. [>papel]
- ? {{guidance}} - uma linguagem para controlar grandes modelos de linguagem. [>código]
- ? descreve ~ - uma linguagem para geração guiada de texto. [>código]
- ? DSPy - uma interface programática para LLMs. [>código]
- ? llm-reasoners – Uma biblioteca para raciocínio avançado de modelos de linguagem grande. [>código]
- ? ThinkGPT - estrutura e blocos de construção para fluxos de trabalho de cadeia de pensamento. [>código]
- ? LangChain - uma biblioteca python para construir cadeias e agentes LLM. [>código]
- ? PromptBench -uma biblioteca unificada para avaliar LLMS, entre outras coisas, a eficácia dos prompts CoT. [>código]
- ? SymbolicAI - uma biblioteca para programação composicional diferenciável com LLMs. [>código]
Outros recursos
Mais material incrível e útil.
- Pesquisa de Agentes Autônomos LLM (atualizado continuamente). [>site]
- ? LLM Dashboard - explore o desempenho do raciocínio específico da tarefa de LLMs abertos [>app]
- Guia de engenharia imediato criado pelo DAIR. [>site]
- ATLAS - princípios e referência para prompts sistemáticos [>código]
- Guia de solicitação deliberativa criado pela Logikon. [>site]
- Argumentando com Argumentos – artigo recente e maravilhoso de H. Siegel discutindo o que realmente significa avaliar um argumento. [>papel]