Inspiración deliberativa impresionante
Cómo pedir a los modelos de lenguaje grande (LLM) que produzcan un razonamiento confiable y tomen decisiones que respondan a la razón.
deliberación , n.
La acción de pensar detenidamente en algo, esp. para llegar a una decisión; consideración cuidadosa; un acto o instancia de este. (DEO)
Contenido
- Historias de éxito
- Patrones y estrategias de estímulo
- Más allá del "Pensemos paso a paso"
- Deliberación entre múltiples agentes
- Reflexión y metacognición
- Técnicas de generación de texto
- Autocorrección
- Análisis de razonamiento
- Limitaciones, fracasos, acertijos
- Conjuntos de datos
- Herramientas y marcos
- Otros recursos
Historias de éxito
Evidencia sorprendente de la eficacia de la motivación deliberativa.
- ? El artículo original sobre la "cadena de pensamiento" (CoT), el primero en brindar evidencia clara de que la motivación deliberativa funciona. "La cadena de pensamiento provoca el razonamiento en modelos de lenguaje grandes". 2022-01-28. [>papel]
- ? Las indicaciones deliberadas mejoran la capacidad de los LLM de Google para resolver problemas difíciles invisibles, y los modelos de instrucción ajustada (Flan) son mucho mejores en eso.
- "Ampliación de modelos de lenguaje perfeccionados de instrucción". 2022-12-06. [>papel]
- "Informe técnico de PaLM 2". 2023-05-17. [>papel]
- ? Las indicaciones deliberativas son muy efectivas para los modelos de OpenAI (Text-Davinci-003, ChatGPT, GPT-4), lo que aumenta la precisión en muchas (aunque no todas) tareas de razonamiento en el punto de referencia EvalAGI. "AGIEval: un punto de referencia centrado en el ser humano para evaluar modelos de cimientos". 2023-04-13. [>papel]
- ? Las indicaciones deliberativas desbloquean habilidades cognitivas latentes y son más efectivas para modelos más grandes. "Las tareas desafiantes de BIG-Bench y si la cadena de pensamiento puede resolverlas". 2022-10-17. [>papel]
- ? La introducción experimental de errores en los rastros de razonamiento de CoT disminuye la precisión de las decisiones, lo que proporciona evidencia indirecta de la capacidad de respuesta de los LLM a la razón. "Pruebas de estrés que incitan a la cadena de pensamiento para modelos de lenguaje grandes". 2023-09-28. [>papel]
- ? El razonamiento (sobre los candidatos a recuperación) mejora RAG. "Self-RAG: aprender a recuperar, generar y criticar a través de la autorreflexión". 2023-10-17. [>papel]
- ? Las notas de lectura deliberativa mejoran el RAG. "Cadena de notas: mejora de la solidez de los modelos de lenguaje de recuperación aumentada". 2023-11-15. [>papel]
- ? El buen razonamiento (CoT) genera buenas respuestas (es decir, los LLM responden a la razón). "Abstracción causal para el razonamiento en cadena de pensamientos en problemas verbales aritméticos". 2023-12-07. [>papel]
- ? La interpretación lógica del procesamiento interno por capas de las tareas de razonamiento proporciona más evidencia de la capacidad de respuesta de la razón. "Hacia una interpretación mecanicista de las capacidades de razonamiento de varios pasos del modelo del lenguaje". 2023-12-07. [>papel]
- ? El razonamiento sobre borradores alternativos mejora la generación de texto. "La autoevaluación mejora la generación selectiva en modelos de lenguaje grandes". 2023-12-14. [>papel]
- ? CoT con demostraciones de razonamiento diversas y cuidadosamente recuperadas impulsa los LLM multimodales. "Razonamiento de cadena de pensamientos multimodal con recuperación aumentada para modelos de lenguaje grandes". 2023-12-04. [>papel]
- ? CoT eficaz de múltiples saltos para responder preguntas visualmente. "II-MMR: Identificación y mejora del razonamiento multimodal de múltiples saltos en la respuesta visual a preguntas". 2024-02-16. [>papel]
- ? ? El DPO en trazas CoT sintéticas aumenta la capacidad de respuesta de los pequeños LLM. "Hacer que el razonamiento importe: medir y mejorar la fidelidad del razonamiento en cadena de pensamientos" 2024-02-23. [>papel] [>código]
Patrones y estrategias de estímulo
Impulsar estrategias y patrones para que los LLM sean deliberados.
Más allá del "Pensemos paso a paso"
Instruir a los LLM a razonar (de una manera específica).
- ? Pedirle a GPT-4 que proporcione respuestas correctas e incorrectas aumenta la precisión. "Los modelos de lenguaje grandes son razonadores contrastivos". 2024-03-13. [>papel]
- ? Las indicaciones dinámicas guiadas aumentan el rendimiento de GPT-4 CoT hasta en 30 puntos porcentuales. "Mensaje guiado por estructura: instrucción de un modelo de lenguaje grande en razonamiento de varios pasos mediante la exploración de la estructura gráfica del texto" 2024-02-20. [>papel]
- ? Permitir que los LLM elijan y combinen estrategias de razonamiento es rentable y mejora el rendimiento. "AUTODESCUBRIMIENTO: Grandes modelos de lenguaje autocomponen estructuras de razonamiento". 2024-02-06. [>papel]
- ? CoA: primero produzca un rastreo de razonamiento abstracto y luego complete los detalles (usando herramientas). "Uso eficiente de herramientas con razonamiento en cadena de abstracción". 2024-01-30. [>papel]
- ? Razone una y otra vez hasta pasar la prueba de verificación. "Planificar, verificar y cambiar: razonamiento integrado con diversos pensamientos". 2023-10-23. [>papel]
- ? Generar múltiples deliberaciones diversas y luego sintetizarlas en un único camino de razonamiento. "Pregunte una vez más: el autoacuerdo mejora el razonamiento de los modelos lingüísticos en (casi) todos los escenarios". 2023-11-14. [>papel]
- ? Encuesta de CoT sobre tipos de tareas, diseños de indicaciones y métricas de calidad del razonamiento. "Hacia mejores estrategias que impulsen la cadena de pensamiento: una encuesta". 2023-10-08. [>papel]
- ? Preguntar a un LLM sobre el contexto más amplio de un problema conduce a mejores respuestas. "Da un paso atrás: evoca el razonamiento mediante la abstracción en modelos de lenguaje grandes". 2023-10-09. [>papel]
- Sopesar los pros y los contras: este paradigma de deliberación universal se puede implementar con LLM.
- ? Un programa de {{orientación}} que hace: 1. Identificar opciones → 2. Generar pros y contras → 3. Sopesar razones → 4. Decidir. [>código]
- ? ? Indicaciones para planificar y resolver. "Planificar y resolver indicaciones: mejorar el razonamiento de cadena de pensamiento de disparo cero mediante modelos de lenguaje grandes". 2023-05-06. [>papel] [>código]
- ? Toma de notas. "Aprender a razonar y memorizar con notas propias". 2023-05-01. [>papel]
- ? Deliberar y luego generar mejora la calidad del texto. "Deliberar y luego generar: marco de indicaciones mejorado para la generación de texto". 2023-05-31. [>papel]
- ? Haga que LLM intercale espontáneamente razonamiento y preguntas y respuestas. "ReAct: sinergia entre el razonamiento y la actuación en modelos lingüísticos". 2022-10-06. [>papel]
- ? Las instrucciones de 'Divide y vencerás' superan sustancialmente el rendimiento del CoT estándar. "Las indicaciones de menor a mayor permiten un razonamiento complejo en modelos de lenguaje grandes" 2022-05-21. [>papel]
Deliberación entre múltiples agentes
Dejemos que uno (o muchos) LLM simulen una controversia libre.
- ? ? Los LLM abiertos cuidadosamente seleccionados que revisan y mejoran iterativamente sus respuestas superan a GPT4-o. "La mezcla de agentes mejora las capacidades de los modelos de lenguaje grandes". 2024-06-10. [>papel] [>código]
- ? Los diseños de sistemas de múltiples agentes más elaborados y costosos suelen ser más efectivos, según esta revisión: "¿Nos estamos volviendo locos? Evaluación comparativa del debate de múltiples agentes entre modelos de lenguaje para preguntas y respuestas médicas". 2023-11-19. [>papel]
- ? La revisión sistemática por pares es incluso mejor que el debate entre múltiples agentes. "Hacia el razonamiento en modelos de lenguaje grandes mediante la colaboración de revisión por pares de múltiples agentes". 2023-11-14. [>papel]
- ? La crítica y la reflexión colectivas reducen las alucinaciones y la toxicidad objetivas. "N-Critics: Autorefinamiento de grandes modelos de lenguaje con un conjunto de críticos". 2023-10-28. [>papel]
- ? ? El proceso Delphi con diversos LLM es verísticamente más valioso que el simple debate. "ReConcile: la conferencia de mesa redonda mejora el razonamiento a través del consenso entre diversos LLM". 2023-09-22. [>papel] [>código]
- ? El debate entre múltiples agentes aumenta la diversidad cognitiva y aumenta el rendimiento. "Fomentar el pensamiento divergente en modelos lingüísticos amplios mediante el debate entre múltiples agentes". 2023-05-30. [>papel]
- ? Aproveche la sabiduría de los efectos de la multitud mediante la simulación de debates. "Mejora de la factualidad y el razonamiento en modelos lingüísticos mediante el debate entre múltiples agentes". 2023-05-23. [>papel]
- ? ? Emular el diálogo socrático para resolver problemas de forma colaborativa con múltiples agentes de IA. "El método socrático para el autodescubrimiento en modelos de lenguaje grandes". 2023-05-05. [>blog] [>código]
Reflexión y metacognición
Estrategias de razonamiento de orden superior que pueden mejorar la deliberación de primer orden.
- ? ? Realizar un seguimiento de los conocimientos generales obtenidos de la resolución de problemas de CoT mejora la precisión y la eficiencia futuras. "Búfer de pensamientos: razonamiento aumentado por el pensamiento con modelos de lenguaje grandes". 2024-06-06. [>papel] [>código]
- ? ? Procesar la tarea en función de la dificultad autoevaluada aumenta la eficacia de CoT. "Divide y vencerás para el razonamiento de modelos de lenguaje grandes". 2024-01-10. [>papel] [>código]
- ? ? Reflexionar sobre la tarea permite que LLM genere automáticamente instrucciones, demostraciones y rastros de razonamiento más efectivos. "Meta-CoT: cadena de pensamiento generalizable en escenarios de tareas mixtas con modelos de lenguaje grandes". 2023-10-11. [>papel] [>código]
- ? ? El instructor de IA basado en LLM diseña instrucciones CoT efectivas de primer orden (los modelos de código abierto mejoran hasta en un 20%). "El agente instruye a modelos de lenguaje grandes para que sean razonadores generales de tiro cero". 2023-10-05. [>papel] [>código]
- ? ? Aclarar → Juzgar → Evaluar → Confirmar → Calificar paradigma. "La estimulación metacognitiva mejora la comprensión en modelos de lenguaje grandes". 2023-08-10. [>papel] [>código]
- ? ? Estrategia de encontrar-luego-simular-un-experto-para-este-problema. "Programación rápida para modelos de lenguaje grandes: más allá del paradigma de pocas posibilidades". 2021-02-15. [>papel] [>lmql]
Técnicas de generación de texto
Técnicas de generación de texto, que pueden combinarse con patrones y estrategias de estimulación.
- ? La revisión iterativa del razonamiento a la luz de los rastros anteriores de CoT mejora la precisión entre un 10% y un 20%. "RAT: la recuperación de pensamientos aumentados provoca un razonamiento consciente del contexto en la generación de horizontes a largo plazo". 2024-03-08. [>papel]
- ? Canal para autogenerar y elegir demostraciones efectivas de pocos disparos de CoT. "Instigadores autoadaptativos universales". 2023-05-24. [>papel]
- ? Más razonamiento (= rastros de razonamiento más largos) es mejor. "El impacto de la longitud de los pasos de razonamiento en modelos de lenguaje grandes". 2024-01-10. [>papel]
- ? Tener demostraciones de razonamiento correctas y erróneas (pocas veces) (etiquetadas en consecuencia) mejora la CoT. "Instigación contrastiva de la cadena de pensamiento". 2023-11-17. [>papel]
- ? Mejor resolución de problemas y deliberación mediante prueba y error en pocas ocasiones (RL en contexto). "Reflexión: Agentes del lenguaje con aprendizaje por refuerzo verbal". 2023-03-20. [>papel]
- ? Las guías externas que limitan la generación de razonamiento mejoran la precisión hasta en un 35 % en tareas seleccionadas. "Razonamiento Certificado con Modelos de Lenguaje". 2023-06-06. [>papel]
- ? ? Búsqueda de rayos altamente eficaz para generar episodios de razonamiento complejos de varios pasos. "Árbol de pensamientos: resolución deliberada de problemas con modelos de lenguaje grandes". 2023-05-17. [>papel] [>código]
- ? Una implementación minimalista del Árbol de los Pensamientos como mensaje simple. [>código]
- ? Una implementación LMQL experimental de Tree-of-Thoughts. [>código]
- ? ? LLM genera automáticamente una demostración de razonamiento diverso que se utilizará en indicaciones deliberativas. "Cadena automática de estimulación del pensamiento en modelos de lenguaje grandes". 2022-10-07. [>papel] [>código]
Autocorrección
Deje que los LLM autocorrijan sus deliberaciones.
- ? La coherencia entre múltiples trazas CoT es un indicador de la confiabilidad del razonamiento, que puede aprovecharse para la autoverificación/agregación. "¿Podemos verificar paso a paso la detección de respuestas incorrectas?" 2024-02-16. [>papel]
- ? Convierta los LLM en autoverificadores intrínsecos agregando pasos de autocorrección a los seguimientos CoT estándar para realizar ajustes. "El modelo de lenguaje pequeño puede autocorregirse". 2024-01-14. [>papel]
- ? El autoentrenamiento reforzado mejora las preguntas y respuestas de múltiples saltos con recuperación aumentada. "ReST se encuentra con ReAct: superación personal para un agente LLM de razonamiento de varios pasos". 2023-12-15. [>papel]
- ? Autocorrección condicional en función de si se han abordado cuestiones críticas en el rastreo de razonamiento. "El ARTE del refinamiento de LLM: preguntar, refinar y confiar". 2023-11-14. [>papel]
- ? Refinar iterativamente el razonamiento a partir de comentarios diversos aumenta la precisión hasta en un 10 % (ChatGPT). "MAF: retroalimentación de múltiples aspectos para mejorar el razonamiento en modelos de lenguaje grandes". 2023-10-19. [>papel]
- ? Instruir a un modelo simplemente para que "revise" su respuesta y "encuentre problemas" no conduce a una autocorrección efectiva. "Los modelos de lenguaje grandes todavía no pueden autocorregir el razonamiento". 2023-09-25. [>papel]
- ? Los LLM pueden plantear y abordar preguntas críticas para mejorar sus borradores. "La cadena de verificación reduce las alucinaciones en modelos de lenguaje grandes". 2023-09-25. [>papel]
- ? LogiCoT: la autocomprobación y revisión después de cada paso de CoT mejora el rendimiento (para tareas y modelos seleccionados). "Mejora del razonamiento de cadena de pensamiento de disparo cero en modelos de lenguaje grandes a través de la lógica". 2023-09-23. [>papel]
- ? Excelente reseña sobre LLM autocorregibles, con aplicación a razonamientos infieles. "Corrección automática de modelos de lenguaje grandes: estudio del panorama de diversas estrategias de autocorrección". 2023-08-06. [>papel]
Análisis de razonamiento
Métodos para analizar la deliberación de LLM y evaluar la calidad del razonamiento.
- ?? Análisis de razonamiento integral basado en LLM que divide los textos en motivos individuales. "DCR-Consistencia: dividir-conquistar-razonamiento para la evaluación de la coherencia y la mejora de modelos de lenguaje grandes". 2024-01-04. [>papel] [>código]
- ?? LLM abierto y de alto rendimiento (basado en T5) para verificación de inferencias. "Mentes versus máquinas: repensar la verificación de vinculación con modelos de lenguaje". 2024-02-06. [>papel] [>modelo]
- ?? Conjunto de datos de prueba para evaluadores de CoT. "Una cadena de pensamiento es tan fuerte como su eslabón más débil: un punto de referencia para los verificadores de cadenas de razonamiento". 2023-11-23. [>papel] [>conjunto de datos]
- ?? Marco para evaluar cadenas de razonamiento viéndolas como pruebas informales que derivan la respuesta final. "ReCEval: Evaluación de cadenas de razonamiento mediante la corrección y la informatividad". 2023-11-23. [>papel] [>código]
- ? GPT-4 es 5 veces mejor para predecir si el razonamiento matemático es correcto que GPT-3.5. "Desafíe a los LLM a razonar sobre el razonamiento: un punto de referencia para revelar la profundidad cognitiva en los LLM". 2023-12-28. [>papel]
- ? Mensajes minimalistas de GPT-4 para evaluar la calidad del razonamiento. "SocREval: modelos de lenguaje grandes con el método socrático para la evaluación del razonamiento sin referencias". 2023-09-29. [>papel] [>código]
- ?? Métricas automáticas basadas en similitud semántica para evaluar los rastros de CoT (redundancia, fidelidad, coherencia, etc.). "ROSCOE: un conjunto de métricas para calificar el razonamiento paso a paso". 2023-09-12. [>papel]
Limitaciones, fracasos, acertijos
Cosas que no funcionan o no se entienden bien.
- ? La generación estructurada corre el riesgo de degradar la calidad del razonamiento y la eficacia de la CoT. "¿Déjame hablar libremente? Un estudio sobre el impacto de las restricciones de formato en el rendimiento de modelos de lenguaje grandes". 2024-08-05. [>papel]
- ? Las fichas de relleno pueden ser tan efectivas como las pistas de razonamiento sólidas para obtener respuestas correctas. "Pensemos punto por punto: computación oculta en modelos de lenguaje transformador". 2024-04-24. [>papel]
- ? El análisis causal muestra que los LLM a veces ignoran los rastros de CoT, pero la capacidad de respuesta de la razón aumenta con el tamaño del modelo y se moldea mediante ajustes. "Los LLM con cadena de pensamiento son razonadores no causales" 2024-02-25. [>papel]
- ? Un mal razonamiento puede llevar a conclusiones correctas, por lo que se necesitan mejores métodos para la evaluación de CoT. "SCORE: Un marco para la evaluación del razonamiento autocontradictorio". 2023-11-16. [>papel]
- ? Los LLM pueden producir un "razonamiento codificado" que es ininteligible para los humanos, lo que puede anular cualquier ganancia de XAI a partir de indicaciones deliberativas. "Evitar que los modelos lingüísticos oculten su razonamiento". 2023-10-27. [>papel]
- ? Los LLM juzgan y deciden en función de los argumentos disponibles (capacidad de respuesta a la razón), pero están más influenciados por razones falaces y engañosas que por razones sólidas. "¿Qué tan susceptibles son los LLM a las falacias lógicas?" 2023-08-18. [>papel]
- ? El razonamiento incorrecto mejora la precisión de las respuestas (casi) tanto como el correcto. "Lógica no válida, ganancias equivalentes: lo extraño del razonamiento en las indicaciones del modelo de lenguaje". 2023-07-20. [>papel]
- ? El razonamiento Zeroshot CoT en dominios sensibles aumenta la probabilidad de que un LLM produzca resultados dañinos o indeseables. "Pensándolo bien, ¡no pensemos paso a paso! Sesgo y toxicidad en el razonamiento de disparo cero". 2023-06-23. [>papel]
- ? Los LLM pueden fabricar sistemáticamente fundamentos erróneos de CoT para respuestas incorrectas, según encuentra el equipo de NYU/Anthropic. "Los modelos de lenguaje no siempre dicen lo que piensan: explicaciones infieles en indicaciones de cadena de pensamiento". 2023-05-07. [>papel]
- ? La deliberación práctica de los LLM no es sólida, pero se desvía fácilmente al reformular los escenarios. "A pesar del desempeño 'sobrehumano', los LLM actuales no son aptos para tomar decisiones sobre ética y seguridad" 2022-12-13. [>papel]
Conjuntos de datos
Conjuntos de datos que contienen ejemplos de estímulos deliberativos, potencialmente útiles para entrenar modelos/evaluar sus habilidades de deliberación.
- Conjunto de datos de seguimiento de instrucciones aumentado con "rastros de razonamiento" generados por LLM.
- ? ORCA : artículo original de Microsoft. "Orca: aprendizaje progresivo a partir de rastros explicativos complejos de GPT-4". 2023-06-05. [>papel]
- ? OpenOrca : replicación de código abierto de conjuntos de datos ORCA. [>conjunto de datos]
- ? Dolphin : replicación de código abierto de conjuntos de datos ORCA. [>conjunto de datos]
- ? ORCA 2 - Orca mejorado por Microsoft, por ejemplo con meta razonamiento. "Orca 2: Enseñar a razonar a modelos de lenguajes pequeños". 2023-11-18. [>papel]
- ?? Colección CoT : 1,84 millones de rastros de razonamiento para 1.060 tareas. "La colección CoT: mejora del aprendizaje de modelos lingüísticos de pocas posibilidades y cero posibilidades mediante el ajuste de la cadena de pensamiento". [>papel] [>código]
- ? OASST1 : contiene más de 200 instrucciones para generar pros y contras (según el mapa de nomic.ai). [>conjunto de datos]
- ? LegalBench : un punto de referencia para el razonamiento jurídico en LLM [>artículo]
- ?? ThoughtSource : un recurso abierto para datos y herramientas relacionados con el razonamiento en cadena de pensamiento en modelos de lenguaje grandes. [>papel] [>código]
- ?? Revisión con muchas sugerencias sobre conjuntos de datos relevantes de CoT. "Conjuntos de datos para modelos de lenguaje grandes: una encuesta completa" [>artículo] [>código]
- ? Lista de conjuntos de datos LLM de Maxime Labonne [github]
Herramientas y marcos
Herramientas y marcos para implementar indicaciones deliberativas.
- ? LMQL : un lenguaje de programación para la interacción de modelos de lenguaje. [>sitio]
- ? Zona de juegos interactiva LMQL [>sitio]
- ? "La indicación es programación: un lenguaje de consulta para modelos de lenguaje grandes". 2022-12-12. [>papel]
- ? {{guidance}} : un lenguaje para controlar modelos de lenguaje grandes. [>código]
- ? describe ~ - un lenguaje para la generación de texto guiado. [>código]
- ? DSPy : una interfaz programática para LLM. [>código]
- ? llm-reasoners : una biblioteca para el razonamiento avanzado con modelos de lenguaje grande. [>código]
- ? ThinkGPT : marco y componentes básicos para flujos de trabajo de cadena de pensamiento. [>código]
- ? LangChain : una biblioteca de Python para crear cadenas y agentes LLM. [>código]
- ? PromptBench : una biblioteca unificada para evaluar LLMS, entre otras cosas, la efectividad de las indicaciones de CoT. [>código]
- ? SymbolicAI : una biblioteca para programación diferenciable de composición con LLM. [>código]
Otros recursos
Más material impresionante y útil.
- Encuesta de Agentes Autónomos LLM (actualizada continuamente). [>sitio]
- ? Panel de LLM : explore el rendimiento del razonamiento de tareas específicas de LLM abiertos [>aplicación]
- Guía de ingeniería rápida creada por DAIR. [>sitio]
- ATLAS : principios y puntos de referencia para indicaciones sistemáticas [>código]
- Guía de estímulos deliberativos creada por Logikon. [>sitio]
- Arguing with Arguments : artículo reciente y maravilloso de H. Siegel que analiza lo que realmente significa evaluar un argumento. [>papel]