Drei Schuster mit vereintem Verstand sind Zhuge Liang, dem Mastermind, ebenbürtig. --- ein altes Sprichwort in China.
Wir stellen neue Zero-Shot-Prompting-Zauberwörter vor, die die Denkfähigkeit von Sprachmodellen verbessern: Podiumsdiskussion !
Bei Konferenzen und Workshops kommt es immer wieder zu abschließenden Diskussionen unter Experten, bei denen Menschen ihre Meinungen zu einem bestimmten Thema austauschen, wodurch das Verständnis neuer Konzepte verbessert, Denkperspektiven geändert und ein umfassenderes Verständnis der vorherrschenden Debatten oder Diskussionen erreicht werden.
Abbildung 1: Eine Podiumsdiskussion zwischen Jack Ma und Elon Musk, WAIC, 2019:
Diese Idee hängt mit der Arbeit der Selbstkonsistenz zusammen (Wang, Xuezhi et al.) (da mehrere Experten während der Podiumsdiskussion möglicherweise anderer Meinung sind).
Wir bewerten die Wirksamkeit der vorgeschlagenen Eingabeaufforderungsmethode für den GSM8K-Datensatz mithilfe der gpt-3.5-turbo-API.
Die Kosten für die Auswertung jeder Eingabeaufforderung anhand des 1k-GSM8k-Testdatensatzes betragen weniger als 2 USD.
Unsere Podiumsdiskussion erzielt die beste Leistung und Ablationsstudien zeigen, wie wichtig der Nutzen jedes einzelnen Elements ist. Zweitbeste , und Third Best werden durch Unterstreichung bzw. Kursivschrift gekennzeichnet.
MethodDataset | GSM8K (Test 1k) | Prompt-Inhalt | Referenz |
---|---|---|---|
Keine Aufforderung | 0,789 | Die Antwort lautet: | - |
Zero-Shot CoT | 0,854 | Denken wir Schritt für Schritt: | (Kojima, Takeshi, et al. 2022) |
APE Verbessertes CoT | 0,845 | Lassen Sie uns dies Schritt für Schritt durchgehen, um sicherzustellen, dass wir die richtige Antwort haben: | (Zhou, Yongchao, et al. 2023) |
ToT-Eingabeaufforderung | 0,842 | Stellen Sie sich vor, drei verschiedene Experten beantworten diese Frage. Alle Experten schreiben einen Schritt ihrer Überlegungen auf und teilen ihn dann mit der Gruppe. Dann machen alle Experten mit dem nächsten Schritt weiter usw. Wenn ein Experte zu irgendeinem Zeitpunkt merkt, dass er falsch liegt, verlässt er das Projekt | (Dave Hulberts Repo 2023) |
PanelGPT | 0,899 | 3 Experten diskutieren die Frage in einer Podiumsdiskussion und versuchen, sie Schritt für Schritt zu lösen, um sicherzustellen, dass das Ergebnis korrekt ist und Strafen vermieden werden : | (Dieses Repo, 18. Juli 2023) |
PanelGPT ohne AE und EA | 0,878 | 3 Experten besprechen die Fragestellung in einer Diskussion, versuchen sie Schritt für Schritt zu lösen und stellen sicher, dass das Ergebnis stimmt: | (Unsere Ablationsstudie) |
PanelGPT ohne AE | 0,84 | 3 Experten besprechen die Frage mit einer Diskussion und versuchen, sie Schritt für Schritt zu lösen, um sicherzustellen, dass das Ergebnis korrekt ist und Strafen vermieden werden: | (Unsere Ablationsstudie) |
PanelGPT ohne EA | 0,894 | 3 Experten diskutieren in einer Podiumsdiskussion über die Frage, versuchen sie Schritt für Schritt zu lösen und stellen sicher, dass das Ergebnis stimmt: | (Unsere Ablationsstudie) |
P e N A lGPT (falsch geschrieben) | 0,883 | 3 Experten besprechen die Frage mit einem Strafgespräch, versuchen sie Schritt für Schritt zu lösen und stellen sicher, dass das Ergebnis stimmt: | (Unsere Ablationsstudie) |
Die Fähigkeit der Zero-Shot-Eingabeaufforderung zeigt sich in den Sprachmodellen, die auf großen Datenmengen wie GPT-3 und GPT-4 trainiert werden (Ouyang et al., 2022; OpenAI, 2023). Und es wurde in Wei et al. gezeigt. (2021) zufolge verbessert die Feinabstimmung von Anweisungen die Zero-Shot-Lernfähigkeit von Sprachmodellen.
Ungeachtet der beeindruckenden Zero-Shot-Leistung großer Sprachmodelle weisen diese Modelle bei der Ausführung komplexerer Aufgaben unter einer Zero-Shot-Einstellung häufig eine suboptimale Leistung auf. Die Nutzung von Wenig-Schuss-Prompting stellt einen praktikablen Ansatz zur Erleichterung des kontextbezogenen Lernens dar (Brown et al., 2020; Min et al., 2022). Diese Technik erfordert die Einbeziehung von Demonstrationen in die Eingabeaufforderung, um das Modell effektiv zu einer verbesserten Leistung zu führen. Diese Demonstrationen fungieren als Konditionierungsmechanismen für erfolgreiche Beispiele und führen dazu, dass das Modell bessere Antworten generiert.
Bei einigen anspruchsvolleren Aufgaben wie komplexer Arithmetik, gesundem Menschenverstand und symbolischen Argumentationsaufgaben hat sich gezeigt, dass die Gedankenkettenaufforderung (CoT) den Sprachmodellen effektiver dabei hilft, richtige Antworten zu erhalten (Wei et al., 2022). CoT enthält zusätzliche Argumentationsschritte in den Beispielen für die Eingabeaufforderung mit wenigen Schüssen. Kojima et al. (2022) führt Zero-Shot-CoT weiter ein und zeigt, dass das Hinzufügen aufgabenunabhängiger Anweisungen die Modellleistung bei bestimmten Aufgaben verbessern kann. Bei Zhang et al. (2022b) kombiniert Auto-CoT die Universalität von Zero-Shot-CoT und die Fähigkeit von Original-CoT, die durch Demonstrationen angetrieben wird, und schlägt vor, automatisch Demonstrationen auf der Grundlage von Clustering und diversitätsbasierter Stichprobe zu erstellen, die für CoT-Argumentation von Vorteil sind.
Wang et al. (2022) verbessern die Fow-Shot-CoT-Methode, indem sie mehrere unterschiedliche Argumentationspfade abtasten und diese Pfade marginalisieren und die konsistentesten Antworten aus allen untersuchten Argumentationspfaden auswählen. Das generierte Wissen veranlasst Liu et al. (2021) verbessert das vernünftige Denken, indem es Wissen oder Informationen im Zusammenhang mit den Fragen einbezieht, um genauere Vorhersagen zu treffen. Tree-of-Thinks (ToT)-Methoden (Long, 2023; Yao et al., 2023) kombinieren baumbasierte Planungsmethoden mit Argumentationsfähigkeiten von Sprachmodellen und lösen schwierige Argumentationsprobleme Schritt für Schritt über mehrere Gesprächsrunden. Hulbert (2023) brachte auch eine verwandte Idee vor, die mehrere Gedanken eines Sprachmodells in einer einzigen Eingabeaufforderung nutzt. Memory and Retrieval Augmented Generation (RAG) (Lewis et al., 2020), das in der Lage ist, parametrisches Gedächtnis und nichtparametrisches Gedächtnis wie Wikipedia bei der Erledigung wissensintensiver Aufgaben zu kombinieren. MoT (Li & Qiu, 2023): Vordenken auf der Grundlage des externen, unbeschrifteten Datensatzes und anschließendes Abrufen des zugehörigen Wissens während der Schlussfolgerung.
Prompt-OIRL führt die Idee ein, offline inverses Verstärkungslernen zu verwenden, um eine Offline-Promptbewertung und -optimierung durchzuführen. Die Methode ist effizient und effektiv. Das Training von Prompt-OIRL auf einem MacBook Air mit M2-Chip dauert nur 1 Stunde, dennoch kann die Leistung verschiedener LLMs bei Aufgaben zum arithmetischen Denken um bis zu 24 % verbessert werden.
Wenn Sie unseren Code und unsere Eingabeaufforderung verwenden, denken Sie bitte darüber nach, unser Papier zu zitieren:
@inproceedings{sun2023query, title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL}, Autor={Sun, Hao und H{"u}y{"u}k, Alihan und van der Schaar, Mihaela}, Buchtitel ={Die zwölfte internationale Konferenz über lernende Repräsentationen}, Jahr={2023}}@article{sun2023reinforcement, title={Reinforcement Learning in the Era of LLMs: What is Essential? Was wird benötigt? Eine RL-Perspektive auf RLHF, Prompting und darüber hinaus}, Autor={Sun, Hao}, Zeitschrift={arXiv preprint arXiv:2310.06147}, Jahr={2023}}