Impressionnante incitation délibérative
Comment demander aux grands modèles linguistiques (LLM) de produire un raisonnement fiable et de prendre des décisions sensibles à la raison.
délibération , n.
L'action de réfléchir attentivement à quelque chose, en particulier. afin de parvenir à une décision ; un examen attentif ; un acte ou un exemple de cela. (OED)
Contenu
- Histoires de réussite
- Modèles d'incitation et stratégies
- Au-delà de « Pensons étape par étape »
- Délibération multi-agents
- Réflexion et méta-cognition
- Techniques de génération de texte
- Auto-correction
- Raisonnement analytique
- Limitations, échecs, énigmes
- Ensembles de données
- Outils et cadres
- Autres ressources
Histoires de réussite
Preuve frappante de l’efficacité de l’incitation délibérative.
- ? L'article original sur la « chaîne de pensée » (CoT), premier à fournir la preuve claire que l'incitation délibérative fonctionne. "L'incitation à la chaîne de pensée suscite un raisonnement dans de grands modèles de langage." 2022-01-28. [>papier]
- ? L'incitation délibérative améliore la capacité des LLM de Google à résoudre des problèmes difficiles invisibles, et les modèles Flan (instructions affinées) sont bien meilleurs dans ce domaine.
- «Mise à l'échelle des modèles de langage affinés par les instructions». 2022-12-06. [>papier]
- «Rapport technique PaLM 2». 2023-05-17. [>papier]
- ? L'incitation délibérative est très efficace pour les modèles OpenAI (Text-Davinci-003, ChatGPT, GPT-4), augmentant la précision dans de nombreuses tâches de raisonnement (mais pas toutes) dans le benchmark EvalAGI. "AGIEval : une référence centrée sur l'humain pour évaluer les modèles de fondation." 2023-04-13. [>papier]
- ? L’incitation délibérative débloque les compétences cognitives latentes et est plus efficace pour les modèles plus grands. "Tâches difficiles de BIG-Bench et question de savoir si la chaîne de pensée peut les résoudre." 2022-10-17. [>papier]
- ? L'introduction expérimentale d'erreurs dans les traces de raisonnement CoT diminue la précision des décisions, ce qui fournit une preuve indirecte de la réactivité raisonnelle des LLM. « Chaîne de pensée des tests de résistance pour les grands modèles de langage ». 2023-09-28. [>papier]
- ? Le raisonnement (sur les candidats à la récupération) améliore le RAG. "Self-RAG : apprendre à récupérer, générer et critiquer grâce à l'auto-réflexion." 2023-10-17. [>papier]
- ? Les notes de lecture délibérative améliorent RAG. "Chaîne de notes : amélioration de la robustesse des modèles de langage augmentés par récupération." 2023-11-15. [>papier]
- ? Un bon raisonnement (CoT) entraîne de bonnes réponses (c'est-à-dire que les LLM sont sensibles à la raison). "Abstraction causale pour le raisonnement en chaîne de pensée dans les problèmes de mots arithmétiques." 2023-12-07. [>papier]
- ? L'interprétation logique du traitement interne par couche des tâches de raisonnement fournit des preuves supplémentaires de la réactivité à la raison. "Vers une interprétation mécaniste des capacités de raisonnement en plusieurs étapes du modèle linguistique." 2023-12-07. [>papier]
- ? Raisonner sur des versions alternatives améliore la génération de texte. "L'auto-évaluation améliore la génération sélective dans les grands modèles de langage." 2023-12-14. [>papier]
- ? CoT avec des démonstrations de raisonnement diverses et soigneusement récupérées stimule les LLM multimodaux. « Raisonnement en chaîne de pensées multimodale augmenté par récupération pour les grands modèles de langage ». 2023-12-04. [>papier]
- ? CoT multi-sauts efficace pour la réponse visuelle aux questions. "II-MMR : identification et amélioration du raisonnement multimodal à sauts multiples dans la réponse visuelle aux questions." 2024-02-16. [>papier]
- ? ? Le DPO sur les traces CoT synthétiques augmente la réactivité raisonnelle des petits LLM. « Donner de l'importance au raisonnement : mesurer et améliorer la fidélité du raisonnement en chaîne de pensée » 23/02/2024. [>papier] [>code]
Modèles d'incitation et stratégies
Inviter des stratégies et des modèles pour rendre les LLM délibérés.
Au-delà de « Pensons étape par étape »
Demander aux LLM de raisonner (d'une manière spécifique).
- ? Demander à GPT-4 de fournir des réponses correctes et erronées augmente la précision. "Les grands modèles de langage sont des raisonneurs contrastés." 2024-03-13. [>papier]
- ? Les invites dynamiques guidées augmentent les performances de GPT-4 CoT jusqu'à 30 points de pourcentage. "Invite guidée par la structure : enseignement d'un grand modèle de langage dans un raisonnement en plusieurs étapes en explorant la structure graphique du texte" 20/02/2024. [>papier]
- ? Laisser les LLM choisir et combiner des stratégies de raisonnement est rentable et améliore les performances. "AUTO-DÉCOUVERTE : grands modèles de langage qui composent eux-mêmes des structures de raisonnement." 2024-02-06. [>papier]
- ? CoA : produisez d'abord une trace de raisonnement abstrait, puis remplissez les détails (à l'aide d'outils) plus tard. "Utilisation efficace des outils avec raisonnement en chaîne d'abstraction." 2024-01-30. [>papier]
- ? Raisonnez encore et encore jusqu'à ce que le test de vérification soit réussi. « Planifier, vérifier et changer : raisonnement intégré avec diverses pensées X. » 2023-10-23. [>papier]
- ? Générez plusieurs délibérations diverses, puis synthétisez-les en un seul chemin de raisonnement. "Demandez encore une fois : l'auto-accord améliore le raisonnement des modèles de langage dans (presque) tous les scénarios." 2023-11-14. [>papier]
- ? Enquête sur CoT concernant les types de tâches, les conceptions d'invites et les mesures de qualité du raisonnement. "Vers de meilleures stratégies d'incitation à la chaîne de pensée : une enquête." 2023-10-08. [>papier]
- ? Interroger un LLM sur le contexte plus large d'un problème conduit à de meilleures réponses. "Prenez du recul : évoquer le raisonnement via l'abstraction dans de grands modèles de langage." 2023-10-09. [>papier]
- Peser le pour et le contre : ce paradigme de délibération universel peut être mis en œuvre avec les LLM.
- ? Un programme {{guidance}} qui fait : 1. Identifier les options → 2. Générer des avantages et des inconvénients → 3. Peser les raisons → 4. Décider. [>code]
- ? ? Invite de planification et de résolution. "Invite de planifier et de résoudre : améliorer le raisonnement en chaîne de pensée sans tir grâce à de grands modèles de langage." 2023-05-06. [>papier] [>code]
- ? Prise de notes. "Apprendre à raisonner et à mémoriser avec des notes personnelles." 2023-05-01. [>papier]
- ? Délibérer puis générer améliore la qualité du texte. « Délibérez puis générez : cadre d'invite amélioré pour la génération de texte. » 2023-05-31. [>papier]
- ? Faites en sorte que le LLM entremêle spontanément le raisonnement et les questions/réponses. "ReAct : mettre en synergie le raisonnement et l'action dans les modèles linguistiques." 2022-10-06. [>papier]
- ? Les instructions « Diviser pour régner » surpassent considérablement les performances du CoT standard. "Les invites du moins au plus permettent un raisonnement complexe dans de grands modèles de langage" 2022-05-21. [>papier]
Délibération multi-agents
Laissez un (ou plusieurs) LLM simuler une controverse libre.
- ? ? Les LLM ouverts soigneusement sélectionnés qui examinent et améliorent de manière itérative leurs réponses surpassent GPT4-o. "Le mélange d'agents améliore les capacités des grands modèles de langage." 2024-06-10. [>papier] [>code]
- ? Les conceptions de systèmes multi-agents plus élaborées et plus coûteuses sont généralement plus efficaces, selon cette revue : "Are we go MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A." 2023-11-19. [>papier]
- ? L’examen systématique par les pairs est encore meilleur qu’un débat multi-agents. "Vers le raisonnement dans de grands modèles de langage via une collaboration multi-agents d'évaluation par les pairs." 2023-11-14. [>papier]
- ? La critique et la réflexion collectives réduisent les hallucinations factuelles et la toxicité. "N-Critics : auto-raffinement de grands modèles de langage avec un ensemble de critiques." 2023-10-28. [>papier]
- ? ? Le processus Delphi avec divers LLM est vraiment plus précieux qu'un simple débat. "ReConcile : la table ronde améliore le raisonnement grâce au consensus entre les divers LLM." 2023-09-22. [>papier] [>code]
- ? Le débat multi-agents augmente la diversité cognitive et augmente les performances. "Encourager la pensée divergente dans les grands modèles linguistiques grâce au débat multi-agents." 2023-05-30. [>papier]
- ? Tirez parti de la sagesse des effets de foule grâce à la simulation de débats. "Améliorer la réalité et le raisonnement dans les modèles linguistiques grâce au débat multi-agents." 2023-05-23. [>papier]
- ? ? Émulez le dialogue socratique pour résoudre des problèmes en collaboration avec plusieurs agents d'IA. "La méthode socratique pour la découverte de soi dans les grands modèles linguistiques." 2023-05-05. [>blog] [>code]
Réflexion et méta-cognition
Stratégies de raisonnement d’ordre supérieur susceptibles d’améliorer la délibération de premier ordre.
- ? ? Garder une trace des informations générales tirées de la résolution des problèmes CoT améliore la précision et l'efficacité futures. "Tampon de pensées : raisonnement augmenté par la pensée avec de grands modèles de langage." 2024-06-06. [>papier] [>code]
- ? ? La tâche de traitement en fonction de la difficulté auto-évaluée augmente l'efficacité du CoT. "Diviser pour mieux régner pour le raisonnement sur de grands modèles de langage." 2024-01-10. [>papier] [>code]
- ? ? La réflexion sur la tâche permet à LLM de générer automatiquement des instructions, des démonstrations et des traces de raisonnement plus efficaces. "Meta-CoT : invite de chaîne de pensée généralisable dans des scénarios de tâches mixtes avec de grands modèles de langage." 2023-10-11. [>papier] [>code]
- ? ? L'instructeur d'IA basé sur LLM conçoit des instructions CoT efficaces de premier ordre (les modèles open source s'améliorent jusqu'à 20 %). "L'agent demande aux grands modèles de langage d'être des raisonneurs généraux Zero-Shot." 2023-10-05. [>papier] [>code]
- ? ? Clarifier → Juger → Évaluer → Confirmer → Qualifier le paradigme. "Les invites métacognitives améliorent la compréhension des grands modèles de langage." 2023-08-10. [>papier] [>code]
- ? ? Stratégie de recherche puis de simulation d'un expert pour ce problème. "Programmation rapide pour les grands modèles de langage : au-delà du paradigme de quelques coups." 2021-02-15. [>papier] [>lmql]
Techniques de génération de texte
Techniques de génération de texte, qui peuvent être combinées avec des modèles et des stratégies d'incitation.
- ? La révision itérative du raisonnement à la lumière des traces CoT précédentes améliore la précision de 10 à 20 %. "RAT : la récupération des pensées augmentées suscite un raisonnement contextuel dans la génération à long horizon". 2024-03-08. [>papier]
- ? Pipeline pour l'auto-génération et le choix de démonstrations CoT efficaces en quelques plans. "Invite universelle auto-adaptative". 2023-05-24. [>papier]
- ? Plus de raisonnement (= des traces de raisonnement plus longues), c'est mieux. "L'impact de la longueur des étapes de raisonnement sur les grands modèles de langage". 2024-01-10. [>papier]
- ? Avoir (étiquetés en conséquence) des démonstrations de raisonnement correctes et erronées (en quelques coups) améliore le CoT. «Invite à une chaîne de pensée contrastée». 2023-11-17. [>papier]
- ? Meilleure résolution de problèmes et délibération grâce à quelques essais et erreurs (RL en contexte). "Réflexion : agents linguistiques avec apprentissage par renforcement verbal." 2023-03-20. [>papier]
- ? Les guides externes qui limitent la génération du raisonnement améliorent la précision jusqu'à 35 % sur les tâches sélectionnées. "Raisonnement certifié avec des modèles de langage." 2023-06-06. [>papier]
- ? ? Recherche de faisceaux très efficace pour générer des épisodes de raisonnement complexes en plusieurs étapes. "Arbre de pensées : résolution délibérée de problèmes avec de grands modèles de langage." 2023-05-17. [>papier] [>code]
- ? Une implémentation minimaliste de l'Arbre des Pensées comme invite simple. [>code]
- ? Une implémentation expérimentale LMQL de Tree-of-Thoughts. [>code]
- ? ? LLM génère automatiquement diverses démonstrations de raisonnement à utiliser dans l'incitation délibérative. "Chaîne de pensée automatique dans les grands modèles linguistiques." 2022-10-07. [>papier] [>code]
Auto-correction
Laissez les LLM auto-corriger leurs délibérations.
- ? La cohérence entre plusieurs traces CoT est un indicateur de fiabilité du raisonnement, qui peut être exploité pour l'auto-vérification/l'agrégation. « Pouvons-nous vérifier étape par étape la détection de réponses incorrectes ? » 2024-02-16. [>papier]
- ? Transformez les LLM en auto-vérificateurs intrinsèques en ajoutant des étapes d'auto-correction aux traces CoT standard pour un réglage fin. "Un petit modèle de langage peut s'auto-corriger." 2024-01-14. [>papier]
- ? L'auto-formation renforcée améliore les questions/réponses multi-sauts augmentées par la récupération. "ReST rencontre ReAct : auto-amélioration pour l'agent LLM de raisonnement en plusieurs étapes." 2023-12-15. [>papier]
- ? Autocorrection conditionnelle selon que des questions critiques ont été abordées dans la trace du raisonnement. "L'ART du raffinement LLM : demander, affiner et faire confiance." 2023-11-14. [>papier]
- ? Affiner de manière itérative le raisonnement compte tenu de divers commentaires augmente la précision jusqu'à 10 % (ChatGPT). "MAF : commentaires multi-aspects pour améliorer le raisonnement dans les grands modèles de langage." 2023-10-19. [>papier]
- ? Demander à un modèle simplement de « réviser » sa réponse et de « trouver des problèmes » ne conduit pas à une autocorrection efficace. "Les grands modèles de langage ne peuvent pas encore corriger eux-mêmes le raisonnement." 2023-09-25. [>papier]
- ? Les LLM peuvent proposer et répondre à des questions critiques pour améliorer leurs ébauches. "La chaîne de vérification réduit les hallucinations dans les grands modèles de langage." 2023-09-25. [>papier]
- ? LogiCoT : l'auto-vérification et la révision après chaque étape CoT améliorent les performances (pour les tâches et les modèles sélectionnés). "Amélioration du raisonnement en chaîne de pensée Zero-Shot dans les grands modèles de langage grâce à la logique." 2023-09-23. [>papier]
- ? Excellente revue sur les LLM autocorrectifs, avec application au raisonnement infidèle. "Correction automatique des grands modèles linguistiques : étude du paysage de diverses stratégies d'autocorrection." 2023-08-06. [>papier]
Raisonnement analytique
Méthodes d'analyse des délibérations LLM et d'évaluation de la qualité du raisonnement.
- ?? Analyse complète du raisonnement basée sur LLM qui décompose les textes en raisons individuelles. "DCR-Cohérence : Diviser-Conquérir-Raisonnement pour l'évaluation de la cohérence et l'amélioration des grands modèles de langage." 2024-01-04. [>papier] [>code]
- ?? LLM ouvert et hautement performant (basé sur T5) pour la vérification des inférences. "Esprits contre machines : repenser la vérification des implications avec des modèles de langage." 2024-02-06. [>papier] [>modèle]
- ?? Ensemble de données de test pour les évaluateurs CoT. "Une chaîne de pensée est aussi forte que son maillon le plus faible : une référence pour les vérificateurs des chaînes de raisonnement." 2023-11-23. [>papier] [>ensemble de données]
- ?? Cadre pour évaluer les chaînes de raisonnement en les considérant comme des preuves informelles qui dérivent la réponse finale. "ReCEval : évaluation des chaînes de raisonnement via l'exactitude et le caractère informatif." 2023-11-23. [>papier] [>code]
- ? GPT-4 est 5 fois plus efficace pour prédire si le raisonnement mathématique est correct que GPT-3.5. "Défiez les LLM à raisonner sur le raisonnement : une référence pour dévoiler la profondeur cognitive dans les LLM." 2023-12-28. [>papier]
- ? GPT-4 minimaliste invite à évaluer la qualité du raisonnement. "SocREval : grands modèles de langage avec la méthode socratique pour l'évaluation du raisonnement sans référence." 2023-09-29. [>papier] [>code]
- ?? Métriques automatiques basées sur la similarité sémantique pour évaluer les traces CoT (redondance, fidélité, cohérence, etc.). «ROSCOE : une suite de mesures pour évaluer le raisonnement étape par étape." 2023-09-12. [>papier]
Limitations, échecs, énigmes
Des choses qui ne fonctionnent pas, ou qui sont mal comprises.
- ? La génération structurée risque de dégrader la qualité du raisonnement et l’efficacité du CoT. "Laissez-moi parler librement ? Une étude sur l'impact des restrictions de format sur les performances des grands modèles de langage." 2024-08-05. [>papier]
- ? Les jetons de remplissage peuvent être aussi efficaces que des traces de raisonnement solides pour obtenir des réponses correctes. "Pensons point par point : calcul caché dans les modèles de langage Transformer." 2024-04-24. [>papier]
- ? L'analyse causale montre que les LLM ignorent parfois les traces CoT, mais que la réactivité de la raison augmente avec la taille du modèle et est façonnée par un réglage fin. "Les LLM avec chaîne de pensée sont des raisonneurs non causals" 2024-02-25. [>papier]
- ? Un mauvais raisonnement peut conduire à des conclusions correctes, d'où la nécessité de meilleures méthodes d'évaluation du CoT. "SCORE : Un cadre pour l'évaluation du raisonnement auto-contradictoire." 2023-11-16. [>papier]
- ? Les LLM peuvent produire un « raisonnement codé » inintelligible pour les humains, ce qui peut annuler tout gain XAI résultant de l'incitation délibérative. "Empêcher les modèles linguistiques de cacher leur raisonnement." 2023-10-27. [>papier]
- ? Les LLM jugent et décident en fonction des arguments disponibles (raison-réactivité), mais sont plus fortement influencés par des raisons fallacieuses et trompeuses que par des raisons valables. « Dans quelle mesure les LLM sont-ils sensibles aux erreurs logiques ? » 2023-08-18. [>papier]
- ? Un raisonnement incorrect améliore (presque) autant la précision des réponses qu’un raisonnement correct. "Logique invalide, gains équivalents : la bizarrerie du raisonnement dans l'invite du modèle de langage." 2023-07-20. [>papier]
- ? Le raisonnement Zeroshot CoT dans des domaines sensibles augmente la probabilité qu'un LLM produise des résultats nuisibles ou indésirables. "En y réfléchissant bien, ne réfléchissons pas étape par étape ! Biais et toxicité dans le raisonnement Zero-Shot." 2023-06-23. [>papier]
- ? Les LLM peuvent systématiquement fabriquer des justifications erronées du CoT pour de mauvaises réponses, selon l'équipe NYU/Anthropic. "Les modèles linguistiques ne disent pas toujours ce qu'ils pensent : des explications infidèles dans une chaîne de pensée." 2023-05-07. [>papier]
- ? Les délibérations pratiques des LLM ne sont pas solides, mais se laissent facilement égarer par la reformulation des scénarios. "Malgré des performances" surhumaines ", les LLM actuels ne sont pas adaptés aux décisions en matière d'éthique et de sécurité" 2022-12-13. [>papier]
Ensembles de données
Ensembles de données contenant des exemples d'incitations délibératives, potentiellement utiles pour former des modèles/évaluer leurs compétences de délibération.
- Ensemble de données de suivi des instructions augmenté de « traces de raisonnement » générées par les LLM.
- ? ORCA - Le document original de Microsoft. "Orca : apprentissage progressif à partir de traces d'explications complexes de GPT-4." 2023-06-05. [>papier]
- ? OpenOrca - Réplication open source des ensembles de données ORCA. [>ensemble de données]
- ? Dolphin - Réplication open source des ensembles de données ORCA. [>ensemble de données]
- ? ORCA 2 - Orca amélioré par Microsoft, par exemple avec un méta-raisonnement. "Orca 2 : Enseigner à de petits modèles de langage comment raisonner." 2023-11-18. [>papier]
- ?? CoT Collection - 1,84 millions de traces de raisonnement pour 1 060 tâches. "La collection CoT : améliorer l'apprentissage zéro et peu de modèles de langage via un réglage fin de la chaîne de pensée." [>papier] [>code]
- ? OASST1 - contient plus de 200 instructions pour générer des avantages et des inconvénients (selon la carte de nomic.ai). [>ensemble de données]
- ? LegalBench - une référence pour le raisonnement juridique dans les LLM [> article]
- ?? ThoughtSource - une ressource ouverte pour les données et les outils liés au raisonnement en chaîne de pensée dans les grands modèles de langage. [>papier] [>code]
- ?? Revue avec de nombreux conseils sur les ensembles de données pertinents pour CoT. "Ensembles de données pour les grands modèles linguistiques : une enquête complète" [> article] [> code]
- ? Liste des jeux de données LLM de Maxime Labonne [github]
Outils et cadres
Outils et cadres pour mettre en œuvre l’incitation délibérative.
- ? LMQL - un langage de programmation pour l'interaction des modèles de langage. [>site]
- ? Terrain de jeu interactif LMQL [>site]
- ? "L'invite, c'est la programmation : un langage de requête pour les grands modèles de langage." 2022-12-12. [>papier]
- ? {{guidance}} - un langage pour contrôler de grands modèles de langage. [>code]
- ? décrit ~ - un langage pour la génération de texte guidée. [>code]
- ? DSPy - une interface de programmation pour les LLM. [>code]
- ? llm-reasoners – Une bibliothèque pour le raisonnement avancé sur de grands modèles de langage. [>code]
- ? ThinkGPT - cadre et éléments de base pour les flux de travail de chaîne de pensée. [>code]
- ? LangChain - une bibliothèque python pour créer des chaînes et des agents LLM. [>code]
- ? PromptBench - une bibliothèque unifiée pour évaluer LLMS, entre autres l'efficacité des invites CoT. [>code]
- ? SymbolicAI - une bibliothèque pour la programmation compositionnelle différentiable avec des LLM. [>code]
Autres ressources
Du matériel plus génial et utile.
- Enquête auprès des agents LLM autonomes (mise à jour en permanence). [>site]
- ? Tableau de bord LLM - explorez les performances de raisonnement spécifiques à une tâche des LLM ouverts [> application]
- Guide d'ingénierie rapide mis en place par DAIR. [>site]
- ATLAS - principes et référence pour l'invite systématique [>code]
- Guide d'incitation délibérative mis en place par Logikon. [>site]
- Arguing with Arguments – article récent et merveilleux de H. Siegel expliquant ce que signifie réellement évaluer un argument. [>papier]