Tolle Beratungsaufforderung
Wie man Large Language Models (LLMs) auffordert, verlässliche Argumente zu liefern und begründete Entscheidungen zu treffen.
Überlegung , n.
Der Vorgang, sorgfältig über etwas nachzudenken, insb. um eine Entscheidung zu treffen; sorgfältige Überlegung; eine Handlung oder ein Beispiel davon. (OED)
Inhalt
- Erfolgsgeschichten
- Anregende Muster und Strategien
- Jenseits von „Lasst uns Schritt für Schritt denken“
- Multi-Agent-Beratung
- Reflexion und Metakognition
- Techniken zur Textgenerierung
- Selbstkorrektur
- Argumentationsanalytik
- Einschränkungen, Fehler, Rätsel
- Datensätze
- Tools und Frameworks
- Andere Ressourcen
Erfolgsgeschichten
Schlagende Beweise für die Wirksamkeit deliberativer Aufforderungen.
- ? Das ursprüngliche „Chain of Though“ (CoT)-Papier lieferte zunächst klare Beweise dafür, dass deliberatives Auffordern funktioniert. „Die Aufforderung zur Gedankenkette löst Argumentation in großen Sprachmodellen aus.“ 28.01.2022. [>Papier]
- ? Deliberatives Prompting verbessert die Fähigkeit von Googles LLMs, unsichtbare schwierige Probleme zu lösen, und anweisungsfein abgestimmte (Flan-)Modelle sind dabei viel besser.
- „Skalierung von anweisungsfein abgestimmten Sprachmodellen.“ 06.12.2022. [>Papier]
- „Technischer Bericht zu PaLM 2.“ 17.05.2023. [>Papier]
- ? Deliberative Eingabeaufforderungen sind für die Modelle von OpenAI (Text-Davinci-003, ChatGPT, GPT-4) äußerst effektiv und erhöhen die Genauigkeit bei vielen (jedoch nicht allen) Argumentationsaufgaben im EvalAGI-Benchmark. „AGIEval: Ein menschenzentrierter Benchmark zur Bewertung von Stiftungsmodellen.“ 13.04.2023. [>Papier]
- ? Deliberatives Prompting setzt latente kognitive Fähigkeiten frei und ist für größere Modelle effektiver. „Anspruchsvolle BIG-Bench-Aufgaben und ob die Gedankenkette sie lösen kann.“ 17.10.2022. [>Papier]
- ? Die experimentelle Einführung von Fehlern in CoT-Argumentationsspuren verringert die Entscheidungsgenauigkeit, was indirekte Beweise für die Begründungsreaktionsfähigkeit von LLMs liefert. „Stresstest-Gedankenaufforderung für große Sprachmodelle.“ 28.09.2023. [>Papier]
- ? Argumentation (über Retrieval-Kandidaten) verbessert die RAG. „Selbst-RAG: Lernen, durch Selbstreflexion abzurufen, zu erzeugen und Kritik zu üben.“ 17.10.2023. [>Papier]
- ? Deliberative Lesenotizen verbessern den RAG. „Chain-of-Note: Verbesserung der Robustheit in abrufgestützten Sprachmodellen.“ 15.11.2023. [>Papier]
- ? Gutes Denken (CoT) führt zu guten Antworten (dh LLMs reagieren auf Gründe). „Kausale Abstraktion für das Kettendenken bei arithmetischen Wortproblemen.“ 07.12.2023. [>Papier]
- ? Die logische Interpretation der internen schichtweisen Verarbeitung von Argumentationsaufgaben liefert weitere Beweise für die Reaktionsfähigkeit auf Gründe. „Auf dem Weg zu einer mechanistischen Interpretation der mehrstufigen Argumentationsfähigkeiten des Sprachmodells.“ 07.12.2023. [>Papier]
- ? Das Nachdenken über alternative Entwürfe verbessert die Textgenerierung. „Selbstevaluierung verbessert die selektive Generierung in großen Sprachmodellen.“ 14.12.2023. [>Papier]
- ? CoT mit sorgfältig abgerufenen, vielfältigen Argumentationsdemonstrationen fördert multimodale LLMs. „Retrieval-erweiterte multimodale Gedankenkettenbegründung für große Sprachmodelle.“ 04.12.2023. [>Papier]
- ? Effektives Multi-Hop-CoT für die visuelle Beantwortung von Fragen. „II-MMR: Identifizierung und Verbesserung multimodaler Multi-Hop-Argumentation bei der visuellen Beantwortung von Fragen.“ 16.02.2024. [>Papier]
- ? ? DPO auf synthetischen CoT-Spuren erhöht die Grundreaktivität kleiner LLMs. „Making Reasoning Matter: Messen und Verbessern der Treue des Kettendenkens“ 23.02.2024. [>Papier] [>Code]
Anregende Muster und Strategien
Anregende Strategien und Muster, um LLMs bewusst zu gestalten.
Jenseits von „Lasst uns Schritt für Schritt denken“
LLMs anweisen, zu argumentieren (auf eine bestimmte Art und Weise).
- ? Wenn Sie GPT-4 bitten, eine richtige und eine falsche Antwort zu geben, erhöht sich die Genauigkeit. „Große Sprachmodelle sind kontrastive Denkmodelle.“ 13.03.2024. [>Papier]
- ? Geführte dynamische Eingabeaufforderungen steigern die GPT-4 CoT-Leistung um bis zu 30 Prozentpunkte. „Strukturgesteuerte Eingabeaufforderung: Anleiten eines großen Sprachmodells zum mehrstufigen Denken durch Erkunden der Diagrammstruktur des Textes“ 20.02.2024. [>Papier]
- ? LLMs die Auswahl und Kombination von Argumentationsstrategien zu überlassen, ist kosteneffizient und verbessert die Leistung. „SELBSTENTDECKUNG: Große Sprachmodelle komponieren selbst Argumentationsstrukturen.“ 06.02.2024. [>Papier]
- ? CoA: Erstellen Sie zunächst eine abstrakte Argumentationsspur und ergänzen Sie die Details später (mithilfe von Tools). „Effizienter Werkzeugeinsatz mit Chain-of-Abstraction Reasoning.“ 30.01.2024. [>Papier]
- ? Begründung immer wieder, bis der Verifizierungstest bestanden ist. „Planen, überprüfen und wechseln: Integriertes Denken mit vielfältigen X-of-Thoughts.“ 23.10.2023. [>Papier]
- ? Generieren Sie mehrere unterschiedliche Überlegungen und fassen Sie diese dann in einem einzigen Argumentationspfad zusammen. „Fragen Sie noch einmal: Selbsteinigung verbessert die Argumentation von Sprachmodellen in (fast) allen Szenarien.“ 14.11.2023. [>Papier]
- ? Befragung von CoT hinsichtlich Aufgabentypen, Prompt-Designs und Argumentationsqualitätsmetriken. „Auf dem Weg zu besseren Strategien zur Denkanregung: Eine Umfrage.“ 08.10.2023. [>Papier]
- ? Wenn man einen LLM nach dem breiteren Kontext eines Problems fragt, erhält man bessere Antworten. „Machen Sie einen Schritt zurück: Hervorrufen des Denkens durch Abstraktion in großen Sprachmodellen.“ 09.10.2023. [>Papier]
- Vor- und Nachteile abwägen: Dieses universelle Deliberationsparadigma kann mit LLMs umgesetzt werden.
- ? Ein {{guidance}}- Programm, das Folgendes tut: 1. Optionen identifizieren → 2. Vor- und Nachteile generieren → 3. Gründe abwägen → 4. Entscheiden. [>Code]
- ? ?Plan-and-Solve-Eingabeaufforderung. „Plan-and-Solve-Eingabeaufforderung: Verbesserung der Zero-Shot-Gedankenkette durch große Sprachmodelle.“ 06.05.2023. [>Papier] [>Code]
- ? Notizen machen. „Mit Selbstnotizen schlussfolgern und auswendig lernen.“ 01.05.2023. [>Papier]
- ? Deliberate-then-Generate verbessert die Textqualität. „Deliberate then Generate: Enhanced Prompting Framework for Text Generation.“ 31.05.2023. [>Papier]
- ? Sorgen Sie dafür, dass LLM Argumentation und Fragen/Antworten spontan verzahnt. „ReAct: Synergie zwischen Denken und Handeln in Sprachmodellen.“ 06.10.2022. [>Papier]
- ? „Teile-und-Herrsche“-Anweisungen übertreffen Standard-CoT erheblich. „Least-to-Most-Prompting ermöglicht komplexes Denken in großen Sprachmodellen“ 21.05.2022. [>Papier]
Multi-Agent-Beratung
Lassen Sie einen (oder mehrere) LLMs eine freie Kontroverse simulieren.
- ? ? Sorgfältig ausgewählte offene LLMs, die ihre Antworten iterativ überprüfen und verbessern, übertreffen GPT4-o. „Mixture-of-Agents verbessert die Fähigkeiten großer Sprachmodelle.“ 10.06.2024. [>Papier] [>Code]
- ? Laut dieser Rezension sind aufwändigere und kostspieligere Multi-Agenten-Systemdesigns in der Regel effektiver: „Werden wir verrückt? Benchmarking der Multi-Agenten-Debatte zwischen Sprachmodellen für medizinische Fragen und Antworten.“ 19.11.2023. [>Papier]
- ? Systematische Peer-Reviews sind sogar noch besser als Multi-Agenten-Debatten. „Auf dem Weg zum Denken in großen Sprachmodellen durch Peer-Review-Zusammenarbeit mit mehreren Agenten.“ 14.11.2023. [>Papier]
- ? Kollektive Kritik und Reflexion reduzieren sachliche Halluzinationen und Toxizität. „N-Kritiker: Selbstverfeinerung großer Sprachmodelle mit einem Ensemble von Kritikern.“ 28.10.2023. [>Papier]
- ? ? Der Delphi-Prozess mit diversen LLMs ist veristisch gesehen wertvoller als einfaches Debattieren. „ReConcile: Round-Table-Konferenz verbessert die Argumentation durch Konsens zwischen verschiedenen LLMs.“ 22.09.2023. [>Papier] [>Code]
- ? Die Multi-Agenten-Debatte erhöht die kognitive Vielfalt und steigert die Leistung. „Förderung divergenten Denkens in großen Sprachmodellen durch Multi-Agenten-Debatte.“ 30.05.2023. [>Papier]
- ? Nutzen Sie „Wisness of the Crowd“-Effekte durch Debattensimulation. „Verbesserung der Faktizität und Argumentation in Sprachmodellen durch Multiagentendebatte.“ 23.05.2023. [>Papier]
- ? ? Emulieren Sie den sokratischen Dialog, um Probleme gemeinsam mit mehreren KI-Agenten zu lösen. „Die sokratische Methode zur Selbstfindung in großen Sprachmodellen.“ 05.05.2023. [>Blog] [>Code]
Reflexion und Metakognition
Argumentationsstrategien höherer Ordnung, die die Überlegung erster Ordnung verbessern können.
- ? ? Die Verfolgung allgemeiner Erkenntnisse aus der Lösung von CoT-Problemen verbessert die zukünftige Genauigkeit und Effizienz. „Gedankenpuffer: Gedankengestütztes Denken mit großen Sprachmodellen.“ 06.06.2024. [>Papier] [>Code]
- ? ? Die Bearbeitung der Aufgabe in Abhängigkeit von der selbst eingeschätzten Schwierigkeit steigert die CoT-Effektivität. „Teile und herrsche für die Argumentation großer Sprachmodelle.“ 10.01.2024. [>Papier] [>Code]
- ? ? Das Nachdenken über die Aufgabe ermöglicht es LLM, automatisch effektivere Anweisungen, Demonstrationen und Argumentationsspuren zu generieren. „Meta-CoT: Verallgemeinerbare Gedankenkettenaufforderung in Szenarios mit gemischten Aufgaben und großen Sprachmodellen.“ 11.10.2023. [>Papier] [>Code]
- ? ?LLM-basierter KI-Instruktor entwickelt effektive CoT-Anweisungen erster Ordnung (Open-Source-Modelle verbessern sich um bis zu 20 %). „Agent weist große Sprachmodelle an, allgemeine Zero-Shot-Reasonatoren zu sein.“ 05.10.2023. [>Papier] [>Code]
- ? ? Klären → Beurteilen → Bewerten → Bestätigen → Paradigma qualifizieren. „Metakognitive Eingabeaufforderung verbessert das Verständnis in großen Sprachmodellen.“ 10.08.2023. [>Papier] [>Code]
- ? ? Einen Experten für dieses Problem finden und dann simulieren Strategie. „Prompte Programmierung für große Sprachmodelle: Jenseits des Few-Shot-Paradigmas.“ 15.02.2021. [>Papier] [>lmql]
Techniken zur Textgenerierung
Textgenerierungstechniken, die mit Aufforderungsmustern und -strategien kombiniert werden können.
- ? Eine iterative Überarbeitung der Argumentation im Lichte früherer CoT-Spuren verbessert die Genauigkeit um 10–20 %. „RAT: Retrieval Augmented Thoughts lösen kontextbewusstes Denken bei der Long-Horizon-Generierung aus“. 08.03.2024. [>Papier]
- ? Pipeline für die Selbstgenerierung und Auswahl effektiver CoT-Few-Shot-Demonstrationen. „Universelle selbstadaptive Eingabeaufforderung“. 24.05.2023. [>Papier]
- ? Mehr Argumentation (= längere Argumentationsspuren) ist besser. „Der Einfluss der Argumentationsschrittlänge auf große Sprachmodelle“. 10.01.2024. [>Papier]
- ? Das Vorhandensein (entsprechend gekennzeichneter) richtiger und fehlerhafter (weniger Stichproben) Argumentationsdemonstrationen verbessert CoT. „Kontrastive Gedankenkettenaufforderung.“ 17.11.2023. [>Papier]
- ? Bessere Problemlösung und Überlegungen durch Versuch und Irrtum in wenigen Schritten (kontextbezogenes RL). „Reflexion: Sprachagenten mit verbalem Verstärkungslernen.“ 20.03.2023. [>Papier]
- ? Externe Anleitungen, die die Generierung von Argumenten einschränken, verbessern die Genauigkeit bei ausgewählten Aufgaben um bis zu 35 %. „Zertifiziertes Denken mit Sprachmodellen.“ 06.06.2023. [>Papier]
- ? ? Hocheffektive Strahlsuche zur Generierung komplexer, mehrstufiger Argumentationsepisoden. „Gedankenbaum: Bewusste Problemlösung mit großen Sprachmodellen.“ 17.05.2023. [>Papier] [>Code]
- ? Eine minimalistische Umsetzung von Tree-of-Thoughts als einfache Eingabeaufforderung. [>Code]
- ? Eine experimentelle LMQL-Implementierung von Tree-of-Thoughts. [>Code]
- ? ? LLM generiert automatisch vielfältige Argumentationsdemonstrationen, die bei deliberativen Aufforderungen verwendet werden können. „Automatische Gedankenkette in großen Sprachmodellen.“ 07.10.2022. [>Papier] [>Code]
Selbstkorrektur
Lassen Sie LLMs ihre Überlegungen selbst korrigieren.
- ? Die Konsistenz zwischen mehreren CoT-Spuren ist ein Indikator für die Zuverlässigkeit der Argumentation, der zur Selbstprüfung/Aggregation genutzt werden kann. „Können wir die Erkennung falscher Antworten Schritt für Schritt überprüfen?“ 16.02.2024. [>Papier]
- ? Verwandeln Sie LLMs in intrinsische Selbstprüfer, indem Sie zur Feinabstimmung Selbstkorrekturschritte an Standard-CoT-Traces anhängen. „Kleines Sprachmodell kann sich selbst korrigieren.“ 14.01.2024. [>Papier]
- ? Verstärktes Selbsttraining verbessert abrufgestützte Multi-Hop-Fragen und Antworten. „ReST trifft auf ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent.“ 15.12.2023. [>Papier]
- ? Bedingte Selbstkorrektur abhängig davon, ob kritische Fragen im Argumentationspfad behandelt wurden. „Die KUNST der LLM-Verfeinerung: Fragen, verfeinern und vertrauen.“ 14.11.2023. [>Papier]
- ? Die iterative Verfeinerung der Argumentation angesichts unterschiedlichen Feedbacks erhöht die Genauigkeit um bis zu 10 % (ChatGPT). „MAF: Multi-Aspekt-Feedback zur Verbesserung des Denkens in großen Sprachmodellen.“ 19.10.2023. [>Papier]
- ? Ein Modell nur anzuweisen, seine Antwort zu „überprüfen“ und „Probleme zu finden“, führt nicht zu einer wirksamen Selbstkorrektur. „Große Sprachmodelle können das Denken noch nicht selbst korrigieren.“ 25.09.2023. [>Papier]
- ? LLMs können kritische Fragen entwickeln und beantworten, um ihre Entwürfe zu verbessern. „Chain-of-Verification reduziert Halluzinationen in großen Sprachmodellen.“ 25.09.2023. [>Papier]
- ? LogiCoT: Selbstprüfung und Überarbeitung nach jedem CoT-Schritt verbessern die Leistung (für ausgewählte Aufgaben und Modelle). „Verbesserung des Zero-Shot-Chain-of-Thought-Denkens in großen Sprachmodellen durch Logik.“ 23.09.2023. [>Papier]
- ? Hervorragende Rezension über selbstkorrigierende LLMs, mit Anwendung auf untreues Denken. „Automatische Korrektur großer Sprachmodelle: Untersuchung der Landschaft verschiedener Selbstkorrekturstrategien.“ 06.08.2023. [>Papier]
Argumentationsanalytik
Methoden zur Analyse der LLM-Deliberation und zur Beurteilung der Argumentationsqualität.
- ?? Umfassende LLM-basierte Reasoning-Analyse, die Texte in einzelne Begründungen zerlegt. „DCR-Konsistenz: Divide-Conquer-Reasoning zur Konsistenzbewertung und Verbesserung großer Sprachmodelle.“ 04.01.2024. [>Papier] [>Code]
- ?? Hochleistungsfähiges, offenes LLM (T5-basiert) zur Inferenzüberprüfung. „Geist versus Maschine: Entailment-Verifizierung mit Sprachmodellen neu denken.“ 06.02.2024. [>Papier] [>Modell]
- ?? Testdatensatz für CoT-Evaluatoren. „Eine Gedankenkette ist so stark wie ihr schwächstes Glied: Ein Maßstab für Prüfer von Argumentationsketten.“ 23.11.2023. [>Papier] [>Datensatz]
- ?? Rahmen zur Bewertung von Argumentationsketten, indem man sie als informelle Beweise betrachtet, die die endgültige Antwort ableiten. „ReCEval: Bewertung von Argumentationsketten anhand von Korrektheit und Aussagekraft.“ 23.11.2023. [>Papier] [>Code]
- ? GPT-4 kann 5x besser vorhersagen, ob mathematisches Denken korrekt ist, als GPT-3.5. „Fordern Sie LLM-Studenten dazu heraus, über das Denken nachzudenken: Ein Maßstab zur Enthüllung der kognitiven Tiefe in LLMs.“ 28.12.2023. [>Papier]
- ? Minimalistische GPT-4-Eingabeaufforderungen zur Beurteilung der Argumentationsqualität. „SocREval: Große Sprachmodelle mit der sokratischen Methode zur referenzfreien Argumentationsbewertung.“ 29.09.2023. [>Papier] [>Code]
- ?? Automatische, auf semantischer Ähnlichkeit basierende Metriken zur Bewertung von CoT-Spuren (Redundanz, Treue, Konsistenz usw.). „ROSCOE: Eine Reihe von Metriken zur Bewertung des schrittweisen Denkens.“ 12.09.2023. [>Papier]
Einschränkungen, Fehler, Rätsel
Dinge, die nicht funktionieren oder schlecht verstanden werden.
- ? Bei der strukturierten Generierung besteht die Gefahr, dass sich die Argumentationsqualität und die CoT-Effektivität verschlechtern. „Lassen Sie mich frei sprechen? Eine Studie über die Auswirkungen von Formatbeschränkungen auf die Leistung großer Sprachmodelle.“ 05.08.2024. [>Papier]
- ? Füllmarker können genauso effektiv sein wie fundierte Argumentationsspuren, um richtige Antworten zu ermitteln. „Denken wir Punkt für Punkt: Versteckte Berechnungen in Transformer-Sprachmodellen.“ 24.04.2024. [>Papier]
- ? Die Kausalanalyse zeigt, dass LLMs manchmal CoT-Spuren ignorieren, aber die Reaktionsfähigkeit des Grundes nimmt mit der Modellgröße zu und wird durch Feinabstimmung geformt. „LLMs mit Chain-of-Thought sind nicht-kausale Denker“ 25.02.2024. [>Papier]
- ? Schlechte Argumentation kann zu korrekten Schlussfolgerungen führen, daher sind bessere Methoden zur CoT-Bewertung erforderlich. „SCORE: Ein Rahmen für die Bewertung widersprüchlichen Denkens.“ 16.11.2023. [>Papier]
- ? LLMs können zu „verschlüsselten Überlegungen“ führen, die für Menschen unverständlich sind, wodurch jegliche XAI-Gewinne aus deliberativen Eingabeaufforderungen zunichte gemacht werden können. „Verhindern, dass Sprachmodelle ihre Argumentation verbergen.“ 27.10.2023. [>Papier]
- ? LLMs urteilen und entscheiden auf der Grundlage verfügbarer Argumente (Reaktion auf Gründe), werden jedoch stärker von trügerischen und trügerischen Gründen beeinflusst als von fundierten. „Wie anfällig sind LLMs für logische Irrtümer?“ 18.08.2023. [>Papier]
- ? Eine falsche Argumentation verbessert die Antwortgenauigkeit (fast) genauso stark wie eine richtige. „Ungültige Logik, gleichwertige Gewinne: Die Bizarrheit des Denkens bei der Eingabe von Sprachmodellen.“ 20.07.2023. [>Papier]
- ? Zeroshot CoT-Argumentation in sensiblen Bereichen erhöht die Wahrscheinlichkeit, dass ein LLM schädliche oder unerwünschte Ergebnisse erzeugt. „Lass uns beim zweiten Gedanken nicht Schritt für Schritt denken! Voreingenommenheit und Toxizität im Zero-Shot-Denken.“ 23.06.2023. [>Papier]
- ? Laut NYU/Anthropic-Team können LLMs systematisch falsche CoT-Begründungen für falsche Antworten erfinden. „Sprachmodelle sagen nicht immer, was sie denken: Untreue Erklärungen bei der Aufforderung zur Gedankenkette.“ 07.05.2023. [>Papier]
- ? Die praktischen Überlegungen von LLMs sind nicht robust, können aber durch Umformulierungen von Szenarien leicht in die Irre geführt werden. „Trotz ‚übermenschlicher‘ Leistung sind aktuelle LLMs für Entscheidungen über Ethik und Sicherheit ungeeignet“ 13.12.2022. [>Papier]
Datensätze
Datensätze mit Beispielen für deliberative Aufforderungen, die möglicherweise für das Training von Modellen/die Bewertung ihrer Deliberationsfähigkeiten nützlich sind.
- Datensatz zur Anweisungsbefolgung, ergänzt durch von LLMs generierte „Begründungsspuren“.
- ? ORCA – Originalpapier von Microsoft. „Orca: Progressives Lernen aus komplexen Erklärungsspuren von GPT-4.“ 05.06.2023. [>Papier]
- ? OpenOrca – Open-Source-Replikation von ORCA-Datensätzen. [>Datensatz]
- ? Dolphin – Open-Source-Replikation von ORCA-Datensätzen. [>Datensatz]
- ? ORCA 2 – Verbessertes Orca von Microsoft, zB mit Meta-Argumentation. „Orca 2: Kleinen Sprachmodellen das Denken beibringen.“ 18.11.2023. [>Papier]
- ?? CoT-Sammlung – 1,84 Millionen Argumentationsspuren für 1.060 Aufgaben. „Die CoT-Sammlung: Verbesserung des Zero-Shot- und Few-Shot-Lernens von Sprachmodellen durch Feinabstimmung der Gedankenkette.“ [>Papier] [>Code]
- ? OASST1 – enthält mehr als 200 Anweisungen zum Generieren von Vor- und Nachteilen (gemäß der Karte von nomic.ai). [>Datensatz]
- ? LegalBench – ein Maßstab für juristisches Denken in LLMs [>Papier]
- ?? ThoughtSource – eine offene Ressource für Daten und Tools im Zusammenhang mit der Gedankenkette in großen Sprachmodellen. [>Papier] [>Code]
- ?? Rezension mit vielen Hinweisen zu CoT-relevanten Datensätzen. „Datensätze für große Sprachmodelle: Eine umfassende Übersicht“ [>Artikel] [>Code]
- ? Maxime Labonnes LLM-Datensatzliste [github]
Tools und Frameworks
Tools und Frameworks zur Implementierung deliberativer Eingabeaufforderungen.
- ? LMQL – eine Programmiersprache für die Interaktion mit Sprachmodellen. [>Website]
- ? Interaktiver LMQL-Spielplatz [>Site]
- ? „Eingabeaufforderung ist Programmierung: Eine Abfragesprache für große Sprachmodelle.“ 12.12.2022. [>Papier]
- ? {{guidance}} – eine Sprache zur Steuerung großer Sprachmodelle. [>Code]
- ? Outlines ~ – eine Sprache zur geführten Textgenerierung. [>Code]
- ? DSPy – eine programmatische Schnittstelle zu LLMs. [>Code]
- ? llm-reasoners – Eine Bibliothek für fortgeschrittenes Denken in großen Sprachmodellen. [>Code]
- ? ThinkGPT – Framework und Bausteine für Chain-of-Thought-Workflows. [>Code]
- ? LangChain – eine Python-Bibliothek zum Aufbau von LLM-Ketten und -Agenten. [>Code]
- ? PromptBench – eine einheitliche Bibliothek zur Bewertung von LLMS, unter anderem der Wirksamkeit von CoT-Eingabeaufforderungen. [>Code]
- ? SymbolicAI – eine Bibliothek für kompositorisch differenzierbare Programmierung mit LLMs. [>Code]
Andere Ressourcen
Noch mehr tolles und nützliches Material.
- Umfrage unter autonomen LLM-Agenten (kontinuierlich aktualisiert). [>Website]
- ? LLM-Dashboard – Erkunden Sie die aufgabenspezifische Argumentationsleistung offener LLMs [>App]
- Von DAIR erstellter Prompt Engineering Guide . [>Website]
- ATLAS – Prinzipien und Maßstab für systematisches Prompting [>Code]
- Deliberative Prompting Guide, erstellt von Logikon. [>Website]
- Mit Argumenten argumentieren – aktuelles und wunderbares Stück von H. Siegel, in dem es darum geht, was es eigentlich bedeutet, ein Argument zu bewerten. [>Papier]