Trois cordonniers avec leurs esprits combinés égalent Zhuge Liang, le cerveau. --- un vieux dicton en Chine.
Nous introduisons de nouveaux mots magiques d'invite zéro qui améliorent la capacité de raisonnement des modèles de langage : Panel Discussion !
Dans les conférences et les ateliers, il y a toujours des discussions pénales entre experts, et les gens échangent leurs opinions sur un sujet donné, améliorant ainsi la compréhension de nouveaux concepts, changeant les perspectives de pensée et parvenant à une compréhension plus complète des débats ou discussions dominants.
Figure 1 : Une table ronde entre Jack Ma et Elon Musk, WAIC, 2019 :
Cette idée est liée au travail d'auto-cohérence (Wang, Xuezhi, et al.) (car plusieurs experts peuvent être en désaccord les uns avec les autres au cours de la table ronde.)
Nous évaluons l'efficacité de la méthode d'invite proposée sur l'ensemble de données GSM8K, en utilisant l'API gpt-3.5-turbo.
Le coût de l'évaluation de chaque invite sur l'ensemble de données de test 1k GSM8k est inférieur à 2 USD.
Notre table ronde invite à atteindre la meilleure performance et les études d'ablation montrent l'importance des avantages de chaque élément. Deuxième meilleur , et Third Best sont désignés respectivement par les formats souligné et italique .
MéthodeDataset | GSM8K (test 1k) | Contenu rapide | Référence |
---|---|---|---|
Aucune invite | 0,789 | La réponse est : | - |
Lit d'enfant Zero-Shot | 0,854 | Réfléchissons étape par étape : | (Kojima, Takeshi et al.2022) |
CoT amélioré par APE | 0,845 | Voyons cela étape par étape pour être sûrs d'avoir la bonne réponse : | (Zhou, Yongchao et al.2023) |
Invite ToT | 0,842 | Imaginez que trois experts différents répondent à cette question. Tous les experts écriront 1 étape de leur réflexion, puis la partageront avec le groupe. Ensuite, tous les experts passeront à l'étape suivante, etc. Si un expert se rend compte qu'il a tort à un moment donné, il s'en va. | (Repo 2023 de Dave Hulbert) |
PanneauGPT | 0,899 | 3 experts discutent de la question lors d'une table ronde , essayant de la résoudre étape par étape, et s'assurent que le résultat est correct et évite les pénalités : | (Ce dépôt, 18 juillet 2023) |
PanelGPT sans AE et EA | 0,878 | 3 experts discutent de la question avec une discussion, tentent de la résoudre étape par étape et s'assurent que le résultat est correct : | (La nôtre, étude sur l'ablation) |
PanelGPT sans AE | 0,84 | 3 experts discutent de la question avec une discussion, essayant de la résoudre étape par étape, et s'assurent que le résultat est correct et évitent les pénalités : | (La nôtre, étude sur l'ablation) |
PanelGPT sans EA | 0,894 | 3 experts discutent de la question lors d'une table ronde, tentent de la résoudre étape par étape et s'assurent que le résultat est correct : | (La nôtre, étude sur l'ablation) |
P. e n un lGPT (mal orthographié) | 0,883 | 3 experts discutent de la question avec une discussion pénale, essayant de la résoudre étape par étape, et s'assurent que le résultat est correct : | (La nôtre, étude sur l'ablation) |
La capacité d'invite Zero-shot émerge dans les modèles de langage formés sur de grandes quantités de données comme GPT-3 et GPT-4 (Ouyang et al., 2022 ; OpenAI, 2023). Et cela a été montré dans Wei et al. (2021) que le réglage fin de l'instruction améliore la capacité d'apprentissage zéro des modèles de langage.
Malgré les impressionnantes performances zéro-shot présentées par les grands modèles de langage, ces modèles affichent souvent des performances sous-optimales dans l'exécution de tâches plus complexes dans un paramètre zéro-shot. Tirer parti des incitations en quelques étapes présente une approche viable pour faciliter l'apprentissage en contexte (Brown et al., 2020 ; Min et al., 2022). Cette technique nécessite l'inclusion de démonstrations dans l'invite, guidant efficacement le modèle vers des performances améliorées. Ces démonstrations agissent comme des mécanismes de conditionnement pour les exemples réussis, conduisant le modèle à générer de meilleures réponses.
Dans certaines tâches plus difficiles telles que les tâches complexes d'arithmétique, de bon sens et de raisonnement symbolique, l'incitation de la chaîne de pensée (CoT) s'avère plus efficace pour aider les modèles de langage à obtenir des réponses correctes (Wei et al., 2022). CoT inclut des étapes de raisonnement supplémentaires dans les exemples d'invite en quelques étapes. Kojima et coll. (2022) introduit en outre le CoT zéro tir, montrant que l'ajout d'instructions indépendantes des tâches peut améliorer les performances du modèle dans des tâches spécifiques. Dans Zhang et coll. (2022b), Auto-CoT combine l'universalité du CoT zéro tir et la capacité du CoT original piloté par des démonstrations et propose de construire automatiquement des démonstrations basées sur le clustering et l'échantillonnage basé sur la diversité qui sont bénéfiques pour le raisonnement CoT.
Wang et coll. (2022) améliorent la méthode CoT en quelques coups en échantillonnant plusieurs chemins de raisonnement divers et en marginalisant ces chemins, en choisissant les réponses les plus cohérentes parmi tous les chemins de raisonnement échantillonnés. Les connaissances générées qui incitent Liu et al. (2021) améliore le raisonnement de bon sens en incorporant des connaissances ou des informations liées aux questions pour faire des prédictions plus précises. Les méthodes d'arbre de pensées (ToT) (Long, 2023 ; Yao et al., 2023) combinent des méthodes de planification arborescentes avec des capacités de raisonnement de modèles de langage et résolvent des problèmes de raisonnement difficiles étape par étape via plusieurs conversations rondes. Hulbert (2023) a également avancé une idée connexe qui exploite plusieurs pensées d'un modèle de langage dans une seule invite. Memory and Retrieval Augmented Generation (RAG) (Lewis et al., 2020), qui est capable de combiner la mémoire paramétrique et la mémoire non paramétrique comme Wikipédia pour accomplir des tâches à forte intensité de connaissances. MoT (Li & Qiu, 2023) : pré-réflexion basée sur l'ensemble de données externes non étiquetées, puis rappel des connaissances associées lors de l'inférence.
Prompt-OIRL introduit l'idée d'utiliser l'apprentissage par renforcement inverse hors ligne pour effectuer une évaluation et une optimisation des invites hors ligne. La méthode est efficace et efficiente. La formation Prompt-OIRL sur un MacBook Air à puce M2 ne prend qu'une heure, mais les performances de différents LLM sur les tâches de raisonnement arithmétique peuvent être améliorées jusqu'à 24 %.
Si vous utilisez notre code et notre invite, pensez à citer notre article :
@inproceedings{sun2023query, title={Évaluation et optimisation des invites dépendantes de la requête avec RL inverse hors ligne}, author={Sun, Hao et H{"u}y{"u}k, Alihan et van der Schaar, Mihaela}, titre du livre ={La douzième Conférence internationale sur les représentations de l'apprentissage}, année={2023}}@article{sun2023reinforcement, title={L'apprentissage par renforcement à l'ère des LLM : qu'est-ce qui est essentiel ? Que faut-il ? Une perspective RL sur RLHF, Prompting et au-delà}, author={Sun, Hao}, journal={arXiv preprint arXiv:2310.06147}, year={2023}}