Reading_groups Download - Reading_groups Quellcode herunterladen

Reading_groups

Anderer Quellcode

1.0.0

Herunterladen

Ressourcen für heiße Themen im Zusammenhang mit groß angelegten Sprachmodellen in großem Maßstab

Die Kraft des Computers : Viele Beweise zeigen, dass Fortschritte beim maschinellen Lernen weitgehend durch Computer und nicht durch Forschung angetrieben werden, bitte beziehen Sie sich auf "die bittere Lektion", und es gibt häufig Aufträge und Homogenisierungsphänomene. Studien haben gezeigt, dass sich der Einsatz von künstlichen Intelligence Computing etwa 3,4 Monate verdoppelt, während sich die Effizienzverbesserung nur alle 16 Monate verdoppelt. Unter ihnen wird die Berechnung hauptsächlich durch die Rechenleistung gesteuert, während die Effizienz von der Forschung angetrieben wird. Dies bedeutet, dass das Computerwachstum in der Vergangenheit Fortschritte im maschinellen Lernen und seiner Unterfelder dominiert hat. Dies wird durch die Entstehung von GPT-4 weiter nachgewiesen. Trotzdem müssen wir immer noch darauf achten, ob es in Zukunft eine unterwanderte Architektur wie S4 geben wird. Die meisten aktuellen NLP -Forschungs -Hotspots basieren auf fortgeschrittenerem LLM (~ 100b, $ 10^{23} $ Flops). Insbesondere verwendet ChatGPT weniger als die Berechnungen vor dem Training (4,9+60 PETAFLOPS/SAGE VS 3640 PETAFLOPS/SAGE) und menschliches Feedback (500.000 US-Dollar, 20.000 Stunden, 13+33+31K-Daten, verglichen mit dem GPT- 3's $ 12.000.000 veröffentlichte seine GPT -Dialog -Funktionen der GPT -Modelle und wurde populär. Daher verfolgt und klassifiziert diese Bibliothek Artikel im Zusammenhang mit großem Maßstab vorgebliebenem Sprachmodell LLM, mit dem wir die Grenze erfassen und die Richtung klar sehen können. Natürlich gibt es zusätzlich zu [Big Computing Power Technology Foundation] andere Aspekte: [Durchbruch in der Big -Model -Technologie], [Verbessert in Big Data Quality], [Open Innovation Ecological Environment], [Zusammenarbeit des engen Teams], [stark Engineering -Fähigkeiten] usw.

Weitere LLM -Themenpapiere finden Sie hier und hier.

Papiere ( grobe Kategorie )

Modelltraining, Test und Optimierung
Anwendungen und LLM+
Prinzipanalyse
Technologieverbesserungen
Umfrage und Datensätze

Ressource

LLM -Kurse
Wichtige Bilder
LLM -Demo
Wichtige Blogs und selbst ausgewählte Artikel
Training, Argumentation, Anwendungswerkzeuge (nicht zusammengestellt)

Großes Modelltraining und Optimierung

【Tests an GPT-4, Begrenzung】 Funken künstlicher allgemeiner Intelligenz: frühe Experimente mit GPT-4

Modellkarte
Video

【InstructGPT -Papiere, einschließlich SFT, PPO usw., eines der wichtigsten Artikel】 Schulungssprachmodelle für die Befolgung von Anweisungen mit menschlichem Feedback

【Skalierbare Aufsicht: Wie können Menschen ihre Modelle weiter verbessern, nachdem ihre Modelle ihre eigenen Aufgaben übertreffen können? 】 Messung der Fortschritte bei skalierbarer Aufsicht für Großsprachmodelle

Selbstkritische Modelle zur Unterstützung menschlicher Bewerter
Definition: Die Fähigkeit, dem Modell in Form von Etiketten, Belohnungssignalen oder Kritik, die nach Beginn des Modells eine breite Palette von Leistung auf menschlicher Ebene zu erreichen, zuverlässige Überwachung für das Modell bereitzustellen.
Die skalierbare Aufsichtstechnologie kann die Kapazität und Ausrichtung von Modellen verbessern (d. H. Ziele anwenden und Ziele in der Art und Weise erreichen, wie es den Menschen erwartet).
Wenn wir ein überwachtes Lernparadigma finden können, das auf dem vorhandenen Modell (Stufe über Nicht-Experten, unter Experten) basiert, das die Richtigkeit der Antworten des Modells verbessern kann, können wir das Modell ein besseres Verständnis des Modells erhalten, das keineswegs auf Experten angewiesen ist. Expertensystem.
Eine andere Perspektividee besteht darin, das Modell durch die Verwendung mehrerer Hinweise und Strategien zu fordern und nur die vom Modell auf konsistenten und angemessenen Beweisgründen angegebenen Antworten zu akzeptieren. Die Technologie aus diesem Blickwinkel ist jedoch möglicherweise nicht ausreichend skalierbar. Natürlich kann jede Technologie, die solche Herausforderungen mit hoher Zuverlässigkeit lösen kann, wichtige Fortschritte bei der skalierbaren Aufsicht darstellen.
Vorhandene Lösungen: Lassen Sie vorhandenen Modellen Menschen dabei unterstützen, Wissen zu ermöglichen, um den Menschen eine qualitativ hochwertige Überwachung zu erzeugen.

【Definition der Ausrichtung, erzeugt von DeepMind】 Ausrichtung von Sprachagenten

Ein allgemeiner Sprachassistent als Labor für die Ausrichtung

[Retro -Papier, Modell mit CCA+] Verbesserung der Sprachmodelle durch Abrufen von Billionen Token

Feinabstimmungssprachmodelle aus menschlichen Vorlieben

Training eines hilfsbereiten und harmlosen Assistenten mit Verstärkungslernen durch menschliches Feedback

【Großes Modell in Chinesisch und Englisch, überschreitet GPT-3】 GLM-130B: Ein offenes zweisprachiges vorgebreitendes Modell

°

【Alignments neuen Benchmarks, Modellbibliotheken und neuen Methoden】 Ist Verstärkungslernen (nicht) für die Verarbeitung natürlicher Sprache?

【MLM ohne [Maske] -Tags durch Technologie】 Repräsentationsmangel bei maskierter Sprachmodellierung

【Text zum Bildtraining lindert die Bedürfnisse des Vokabulars und widersteht bestimmte Angriffe】 Sprachmodellierung mit Pixel

Lexmae: Lexikonboden-Vorbereitung für das groß angelegte Abruf

Incoder: Ein generatives Modell für Code -Infischen und Synthese

[Suchtext-bezogene Bilder für das Sprachmodell vor dem Training] Visuell ausgelöste Sprachmodellierung

Ein nicht-monotones Selbstsektor-Sprachmodell

【Vergleich und Feinabstimmung von negativem Feedback durch ProPT-Design】 Kette der Nachhinein übereinstimmen Sprachmodelle mit Feedback

Verwandte Artikel: Die Weisheit der Nachhineinheit macht Sprachmodelle zu besser

【Sparrow -Modell】 Verbesserung der Ausrichtung der Dialogmittel durch gezielte menschliche Urteile

[Verwenden Sie kleine Modellparameter, um den Trainingsprozess des großen Modells zu beschleunigen (nicht von vorne anfangen)] Lernen, vorgezogene Modelle für ein effizientes Transformatortraining zu erweitern

[MOE Semi-parametrisches Wissensfusionsmodell für mehrere Wissensquellen] Wissenskenntnisse: Auf dem Weg zu sachkundigen semi-parametrischen Sprachmodellen

[Merge -Methode zum Zusammenführen mehrerer geschulter Modelle auf verschiedenen Datensätzen] Dataless Knowledge Fusion durch Zusammenführen von Gewichten von Sprachmodellen

[Es ist sehr inspirierend, dass der Suchmechanismus die allgemeine Architektur von FFN im Transformator (× 2,54 Zeit) ersetzt, um das in Modellparametern gespeicherte Sprachmodell mit Plug-in Knowldge-Speicher zu entkoppeln

【Generieren Sie automatisch Anweisungsabstimmungsdaten für GPT-3-Training】 Selbstrestruktion: Sprachmodell mit selbstgenerierten Anweisungen ausrichten

【Ähnliche Daten ähnlich Yizhong Wang, die automatisch Anweisungen erzeugen, die auf T0】 unnatürliche Anweisungen abzielen: Stimmen von Sprachmodellen mit (fast) ohne menschlichen Arbeit
Die Beurteilung von Sprachmodellakzeptanz ist nicht immer robust im Kontext
Super-naturalinstructions: Verallgemeinerung durch deklarative Anweisungen zu über 1600 NLP-Aufgaben
(Flan-T5-COT) 【Cot-Fine-Tuning】 Skalierung von Anweisungen-Finetun-Sprachmodellen

- - Bild

Auf bedingungsabhängige maskierte Sprachmodelle

【Iterativ kalibrieren Sie unvollständig erzeugte unabhängige Korrektoren, Sean Wellecks Follow-up-Artikel】 Erzeugen von Sequenzen, indem Sie sich selbst korrigieren lernen

Vorhersage: KI -Feedback wird bald das Feedback des menschlichen Benutzers für Modellaktualisierungen ersetzen
Um den Open-Domain-Chatbot mit menschlichem Feedback zu steigern
Ähnliche Ideen 1. Konstitutionelle KI: Harmlosigkeit durch KI -Feedback
Ähnliche Ideen, 2. Entdeckung des Sprachmodellverhaltens mit modellgeschriebenen Bewertungen
Anwendung: [OpenAI] Zusammenfassung von Büchern mit menschlichem Feedback rekursiv

[Kontinuierliches Lernen: Fügen Sie ein EPPT für die neue Aufgabe hinzu, und die Progressive der vorherigen Aufgabe und das große Modell bleiben unverändert.

[EMNLP 2022, Kontinuierliche Aktualisierung des Modells] Memprompt: Speicherunterstützte Eingabeaufforderung mit Benutzerfeedback

°

GANLM: Encoder-Decoder Pre-Training mit einem Hilfsdiskriminator

【Vorab-Sprachmodell basierend auf Staats-Raum

[Betrachten Sie das menschliche Feedback während der Vorausbildung.

[METAs Open-Source-Lama-Modell, 7B-65B, zeichnet mehr markierte kleine Modelle als üblich und erzielte unter verschiedenen Inferenzbudgets eine optimale Leistung

[Unterrichten von großsprachigen Modellen, um den generierten Code anhand einer kleinen Anzahl von Beispielen selbst zu entfernen und zu erklären, aber sie wurden jetzt so verwendet] Lehre große Sprachmodelle für Selbstentwicklung beigebracht

Eine Reihe von Papieren und Tools, die zur Selbstkorrekturfähigkeit von großsprachigen Modellen, Babyagi, Auto-GPT, veröffentlicht wurden
Ähnliche Ideen: 0. [Das Modell zeichnet und reflektiert die Fehler, die Sie gemacht haben] Reflexion: Ein autonomer Agent mit dynamischem Gedächtnis und Selbstreflexion
Ähnliche Ideen: 1. [Modelle durch Kommunikation und iterative Korrektur der Ausgabe des anderen iterieren] Dera: Verbesserung der Vervollständigung des Großsprachenmodells mit Dialog-fähigen Auflösungsagenten

Wie weit können Kamele gehen?

Lima: Weniger ist mehr für die Ausrichtung

【Baum des Gedankens, immer mehr wie Alphago】 bewusste Problemlösung mit großen Sprachmodellen

Anwendungen und LLM+

【Mehrstufige Argumentationsmethode zur Anwendung von ICL ist sehr inspirierend.

【Die Verwendung von LLM allein reicht nicht aus, um eine wirklich leistungsstarke App zu erstellen, und die eigentliche Kraft wird angezeigt, wenn LLM mit anderen Rechen- oder Wissensquellen kombiniert wird.
【Werkzeuge】 Langchain - Gebäudeanwendungen mit LLMs durch Komposition aufbauen
【Umfrage】 Erweiterte Sprachmodelle: Eine Umfrage
Toolformer
Ähnliche Ideen 0. Talm: Tool erweiterte Sprachmodelle
Ähnliche Ideen 1. Demonstrate-Forschung-Vorhilfe: Verfassen von Abruf- und Sprachmodellen für wissensintensives NLP
Ähnliche Gedanken 2. Lambada: Rückwärtskettung für automatisierte Argumentation in der natürlichen Sprache
Ähnliche Ideen 3. [Auswahl und Argumentation] Auswahlinterferenz
Ähnliche Ideen 4. Sprachmodelle als Agentenmodelle
Ähnliche Gedanken 5. Aufforderung ist Programmierung: Eine Abfragesprache für große Sprachmodelle
Ähnliche Ideen 6. 【Neurips 22 '】 Sprachmodell Kaskaden
Ähnliche Ideen 7. Kunst: Automatisches Multi-Step-Denken und Werkzeugnutzung für große Sprachmodelle
Generative Agents: Interaktive Simulacra des menschlichen Verhaltens

【COT generiert direkt den Programmcode und lässt dann Python -Interpreter】 Gedankenprogramm fordern: Entlastung der Berechnung von Argumentation für numerische Argumentationsaufgaben

Verwandte Artikel: [EMNLP 22 '] Sprachmodelle von Code sind nur wenige Lernende von Commonsens-Lernenden
【Heng Ji Group】 Code4struct: Codegenerierung für wenige schmeckende strukturierte Vorhersage von natürlicher Sprache PAL: Programm-Sided-Sprachmodelle
【Qing Lyu, Chris Callison-Burch Group】 Gläubige Argumentationskette der Gedanken

[Big Model generiert direkt Evidenzkontext] Erzeugen Sie eher als abzurufen: Großsprachenmodelle sind starke Kontextgeneratoren

【Schreibmodell mit 4 spezifischen Operationen】 Peer: Ein kollaboratives Sprachmodell

【Kombinieren Sie Python, SQL -Testamentszeiten und große Modelle】 Bindungssprachmodelle in symbolischen Sprachen

[Abzahlen Sie den Code für Dokumentengenerierung] Dokumente

[In der nächsten Serie wird es viele Artikel in der Bodenung+LLM geben

Tun wie ich kann, nicht wie ich sage: Erdungssprache bei Robotergründen
https://say-can.github.io/

【Trainingsdaten der Selbstbereitschaft (verifiziert mit Python)】 Sprachmodelle können sich beibringen, besser zu programmieren

Verwandte Artikel: Spezialisierte kleinere Sprachmodelle auf mehrstufige Argumentation
STAR: Bootstrapping-Argumentation mit Argumentation, aus Neurips 22 (generieren Sie COT-Daten für die Feinabstimmung) und verursachen eine Reihe von COT-Artikeln, die kleine Modelle lehren.
Ähnliche Ideen [Wissensdestillation] Unterrichten kleiner Sprachmodelle zur Vernunft und Lernen durch Destillationskontext
Ähnliche Ideen Kaist und Xiang Ren-Gruppen ([Cots Begründung der Feinabstimmung (Professor)] Pinto: Treue Sprachgelände mit rationalen Rationalen von prompt erzeugten usw.) und große Sprachmodelle Argumenting Lehrer
ETH [COT Data Trains Problem-Zersetzung und Problemlösungsmodelle separat] Destillieren mehrstufige Argumentationsfunktionen großer Sprachmodelle in kleineren Modellen über semantische Zerlegung

【Lassen Sie kleine Modelle Lernen von COT-Fähigkeiten lernen.】 In-Kontext-Lerndestillation: Übertragung der Lernfähigkeit vor ausgebildeten Sprachmodellen mit wenigen Schichten

【Big Model Lehren kleiner Modell COT】 Großsprachige Modelle argumentieren Lehrer

[Big Model generiert Evidenz (Rezitation) und führt dann eine kleine Musterfragelie und Antwort aus.

[Natürliche Sprachmethoden induktiver Vernunft] Sprachmodelle als induktive Vernunft als induktive Vernunft

[GPT-3 wird für Datenanmerkungen verwendet (z. B. emotionale Klassifizierung)] Ist GPT-3 ein guter Datenannotator?

【Modelle für die Datenerweiterung basierend auf Multitasking-Training für weniger Beispieldatenvergrößerung】 Knowda: All-in-One-Wissensmischungsmodell für die Datenerweiterung in NLP mit niedrigem Ressourcen

【Verfahrensplanungsarbeit, nicht an der Zeit interessiert】 neurosymbolische Verfahrensplanung mit gesunden Menschenverständnis

[Ziel: Erzeugen Sie sachlich korrekte Artikel für Abfragen, indem Sie auf großen Webkorpus begründet

【Kombinieren Sie die Ergebnisse des externen Physiksimulators im Kontext】 Mind's Eye: Großen -Sprachmodells durch Simulation

[Abrufen der Aufgabe, das COT zu verbessern, um wissensintensives Abruf mit der Kette der Gedanken für wissensintensive mehrstufige Fragen zu verschieben

【Kontrast das potenzielle (binäre) Wissen im unbeaufsichtigten Erkennungssprachmodell】 Latentwissen in Sprachmodellen ohne Aufsicht entdecken

[Percy Liang Group, vertrauenswürdige Suchmaschine, nur 51,5% der generierten Sätze werden vollständig durch Zitate unterstützt] Bewertung der Überprüfbarkeit in generativen Suchmaschinen

Progressive-Hint-Aufforderung verbessert das Denken in großen Sprachmodellen

Prinzipiengesteuerte Selbstausrichtung von Sprachmodellen von Grund auf mit minimaler menschlicher Überwachung

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena

Prinzipanalyse

[Meiner Meinung nach ist es einer der wichtigsten Artikel. Training und die Breite und Tiefe der Architekturdetails wie Breite und Tiefe.

[Einer der anderen wichtigsten Artikel, Chinchilla, unter begrenztem Computer, ist das optimale Modell nicht das größte Modell, sondern ein kleineres Modell, das mit mehr Daten (60-70b) trainiert wurde.

[Welche Architektur- und Optimierungsziele helfen, die Verallgemeinerung der Nullprobe zu unterstützen] Welche Sprachmodellarchitektur und die Ziele der Vorderseite eignen sich am besten für die Verallgemeinerung von Null-Shot?

【Schnäppchen „Epiphany“ Lernprozess-Auswendiglernen-> Schaltungsbildung-> Reinigung】 Fortschrittsmaßnahmen für das Gewinkel durch mechanistische Interpretation

[Untersuchen Sie die Eigenschaften des suchbasierten Modells und stellen Sie fest, dass beide begrenzte Argumente sind.

Die Idee der Suche + LLM ist die nächste Richtung, aber nicht die einzige Antwort.
[Analyse und Forschung darüber, wann externe Wissen, dh das Wechsel zwischen externem Wissen und Parameterwissen, verwendet werden soll.] Großsprachige Modelle mit kontrollierbarem Arbeitsgedächtnis
Überdenken Sie die Suche: Domänenexperten aus Dilettanten machen
Zugeschriebene Frage Beantwortung: Bewertung und Modellierung für zugeschriebene Großsprachenmodelle

[Human-AI-Sprachinteraktionsbewertungsrahmen] Bewertung der Interaktion zwischen Menschensprachenmodell

Ähnliche Artikel, die den menschlichen Nutzen von Free-Text-Rationals in der Zusammenarbeit von Human-AI messen

Welcher Lernalgorithmus lernt in Kontext?

[Verwenden Sie die ICL, um Aktionsvorhersage nach Verstärkungslernen zu lernen, wirklich clever] In-Context-Reformer-Lernen mit Algorithmus Destillation

【Modellbearbeitung, dies ist ein heißes Thema】 Massenbearbeitungsgedächtnis in einem Transformator

[Die Empfindlichkeit des Modells gegenüber irrelevantem Kontext, Hinzufügen irrelevanter Informationen zu den Beispielen in der Eingabeaufforderung und Hinzufügen von Anweisungen, die irrelevante Kontext ignorieren.

【Null-Shot-Cot wird unter sensiblen Problemen Tendenz und Toxizität zeigen.

°

[Je niedriger die Verwirrung verschiedener Eingabeaufforderungen ist, desto besser die Leistung] entmystifizierende Aufforderungen in Sprachmodellen durch Verwirrungsschätzung

[Binäre Implicity-Auflösungsaufgabe großer Modelle, dieser Vorschlag ist schwierig und es gibt keine Skalierungsphänomene] Großsprachenmodelle sind keine Null-Shot-Kommunikatoren (https://github.com/google/big-ohn Benchmark_tasks/ Implicity)

【Komplexitätsbasierte Aufforderung zur mehrstufigen Argumentation

Ziel: Die Verbesserung der Nützlichkeit von COT selbst hängt eng mit der Analyse des Kinderbetreuungsunternehmens zusammen
[Wählen Sie nach der Generation ein einzelnes Beispiel aus und wählen Sie dann eine Kombination aus] Erläuterungsauswahl unter Verwendung von unbezeichneten Daten zum In-Kontext-Lernen
【Automatische Denkkette in Großsprachenmodellen
[Verwenden Sie eine sekundäre Anpassung an die Erläuterung der COT -Erzeugung und verwenden Sie ein Raffinermodul mit Parametern + Informations -Entropie -Optimierung] Erläuterungsregeneration über Information Engpass

Was zählt bei der strukturierten Beschneidung generativer Sprachmodelle?

[Ambibiben -Datensatz, Aufgabenmehr Mehrdeutigkeit: Das Skalierungs -RLHF -Modell bietet am besten die Aufgaben. Feinabstimmung ist hilfreicher als wenige Schüsse, die die Unklarheit bei Menschen und Sprachmodellen veranlassen.

【GPT-3-Test, einschließlich Speicher, Kalibrierung, Verzerrung usw.】】 Aufer zuverlässig zu GPT-3

[OSU-Studie, welcher Teil von COT für die Leistung wirksam ist] für das Verständnis der Kette des Gedankens: Eine empirische Untersuchung dessen, worauf es ankommt

Ähnliche Gedanken1 Komplementäre Erklärungen für ein effektives In-Kontext-Lernen (UT Austin, Xi Ye, Greg Durrett)
Ähnliches Gedanken 2 Text und Muster: Für eine effektive Denkkette braucht es zwei bis Tango

[Erforschung des Cross-Sprach-Modells diskreter Eingabeaufforderungen] Können diskrete Informationen zur Extraktion über Sprachmodelle hinweg verallgemeinert?

°

【Es ist sehr inspirierend, das Problem durch GPT-Iteration in Unterfragen zerlegt und beantworte es.】 Messung und Verengung der Kompositionalitätslücke in Sprachmodellen

[Ob oder wann die Forschung zum Lesen in Schritt-für-Schritt-Antworten wirksam ist, sind keine Proben und niedrigen Ressourcen wirksam] Wann helfen Zerlegungen beim Lesen von Maschinen?
Ähnliche Ideen ermöglichen das am wenigsten zu meistversteigende komplexe Denken in großen Sprachmodellen
Ähnliche Ideen aufeinanderfolgende Aufforderung zum Zerlegen komplexer Fragen

[Analoge Test von GPT-3 ähnlich wie bei Fragen der Intelligenz der Beamten] aufstrebende analoge Argumentation in großen Sprachmodellen

【Kurzes Texttraining, lange Texttests, Bewertung der Anpassungsfähigkeit der Modell variabler Länge】 Ein längenauslösbarer Transformator

[Wenn nicht Sprachmodelle vertrauen: Untersuchung der Wirksamkeit und Einschränkungen parametrischer und nichtparametrischer Erinnerungen

【ICL ist eine andere Form von Gradienten-Update】 Warum kann GPT in Kontexten lernen?

Verwandte Artikel: Transformatoren lernen im Kontext durch Gradientenabstieg

Bewertet GPT-3 ein Psychopath?

[Erforschung des Trainings des OPT -Modells in verschiedenen Größen und festgestellt, dass Verwirrung ein Indikator für ICL ist.

[EMNLP 2022, vorgebildetes reines englisches Corpus enthält andere Sprachen, und die Kreuzsprachenfunktionen des Modells können aus Datenleckagen stammen.] Sprachkontamination erklärt die Kreuzungsfunktionen englischer vorbereiteter Modelle

[Übergeordnete semantische Priors und die Verwendung von Informationen in ProPT ist eine Überspannungsfähigkeit.

【EMNLP 2022 Erkenntnisse】 Welches Sprachmodell zum Training, wenn Sie eine Million GPU -Stunden haben?

Technologieverbesserungen (wie Generationstechnologie, sofortige Engineering, Indikatoren, Glaubwürdigkeit usw.)

[Die Einführung der CFG-Technologie während der Argumentation verbessert die Fähigkeit der Anweisungen der Anleitung von kleinen Modellen erheblich.

【Trainieren Sie Ihr eigenes Lama-Modell mit OpenAIs GPT-4, und ich kann nur sagen, dass ich Sie bewundere.】 Unterrichtsstimmung mit GPT-4

Reflexion: Ein autonomer Agent mit dynamischem Gedächtnis und Selbstreflexion

【Personalisierter Stil promptes Lernen, Opt】 Erweiterbare Eingabeaufforderungen für Sprachmodelle

[Beschleunigung großer Modelldecodieren unter Verwendung des direkten Konsens zwischen kleinen Modellen und großen Modellen, die mehrmals verwendet werden sollen

[Verwenden Sie die weiche Eingabeaufforderung, um den Rückgang der ICL

【Semantische Parsingaufgaben, Probenauswahlmethoden von ICL, Codex und T5-Large】 verschiedene Demonstrationen verbessern die Verallgemeinerung der Kontext-Zusammensetzung

【Eine neue Optimierungsmethode für die Textgenerierung】 Anpassungsmodelle der Sprachgenerierung unter Gesamtvariationsentfernung

[Unsicherheitsschätzung der bedingten Erzeugung unter Verwendung der semantischen Clusterbildung in Kombination mit mehreren Stichprobenausgängen, um die Entropie von Clustern abzuschätzen] Semantische Unsicherheit: Sprachinvarianzen zur Unsicherheitsschätzung in der Erzeugung der natürlichen Sprache

Verwandte Artikel: 1. Sprachmodelle (meistens) wissen, was sie wissen
Verwandte Artikel: 2. Lehrmodelle, um ihre Unsicherheit in Worten auszudrücken
Verwandte Artikel: 3. [Wie wirkt sich der Sprachausdruck die Kalibrierung und Genauigkeit aus und welche Expressionsmethode ist die beste? 】 Navigation in der Grauzone: Ausdrücke von Überbewusstsein und Unsicherheit in Sprachmodellen
Verwandte Artikel: 4. Reduzierung der Überbewusstsein der Konversationsmittel durch sprachliche Kalibrierung
Kalibrierungsmeta-Analyse: Ändert sich die Kalibrierung eines großen Modells aufgrund der Größe des Modells, der Architektur des Modells, der verschiedenen Anweisungen, der verschiedenen Kontexte und der Task-Domäne?
Was ist die optimale Kalibrierungsmethode für die Erzeugung der offenen Domänendialoge? Wie verbessert man die Kalibrierungsleistung des Modells, der Feinabstimmung, des RLHF, der Anweisungsstimmung?
Sind die großen Modelle wirklich kalibriert, um das Problem zu verstehen, anstatt eine gute Glaubwürdigkeit zu bewerten durch statistische Vorurteile? Ist es wie Menschen, dass es Täuschungen gibt, die wissen, dass Sie nicht verstehen, aber so tun, als ob Sie es wissen? Wie bewerten ich das?
Wenn das große Modell eine gute Kalibrierung hat, was können wir dann als nächstes tun, wie können wir es dann auf Anwendungen wie Dialoggenerierung anwenden?

GO-TUNing: Verbesserung der Lernfähigkeit von Zero-Shot-Lernfähigkeit kleinerer Sprachmodelle

【Sehr inspirierende Textgenerierungsmethode unter freien Textbeschränkungen】 kontrollierbare Textgenerierung mit Sprachbeschränkungen

[Verwenden Sie bei der Generierung von Vorhersagen die Ähnlichkeit, um die Phrase anstelle von Softmax -Token auszuwählen] Nichtparametrische maskierte Sprachmodellierung

[ICL-Methode für Long Text] Paralleler Kontext Windows verbessern das Lernen von Großsprachenmodellen in Kontext

【Probe des InstructGPT-Modells erzeugt ICL für sich selbst】 Selbstverdünnung großer Sprachmodelle für die Open-Domain-QA

【Übertragungs- und Aufmerksamkeitsmechanismen ermöglichen es ICL, weitere Annotationsproben einzugeben.】 Strukturierte Aufforderung: Skalierung des Kontextlernens auf 1.000 Beispiele

Impulskalibrierung für die Textgenerierung

【Zwei ICL-Probenauswahlmethoden, Experimente basierend auf OPT und GPTJ】 Sorgfältige Datenkuration stabilisiert das Lernen des Kontextes

【Analyse der Bewertungsindikatoren von Mauve (Pillutla et al.)】 Über die Nützlichkeit von Einbettungen, Clustern und Zeichenfolgen für die Bewertung der Textgenerierung

Promptagator: Ein paar Schussdichte Abruf von 8 Beispielen

[Drei Kopfsteinpflaster, Zhuge Liang] Selbstkonsistenz verbessert die Kette des Denkens in Sprachmodellen

【Verwenden Sie Wissen als Referenz für Kopfsteinpflaster.

[Invertier, Eingabe und Etikett generieren Anweisungen für die Bedingungen] Erraten Sie die Anweisung!

【LLMs Reverse Derivation Selbstverifizierung】 Großspracher Modelle sind Gründe bei der Selbstverifizierung

【Methoden zum Suchen - Sicherheitsszenarien unter dem Prozess der Erzeugung von Beweisen】 Foveate, Attribut und Rationalisierung: Auf dem Weg zu sicheren und vertrauenswürdigen KI

[Konfidenzschätzung von Fragmenten, die durch auf Text erstellte Informationen basierend auf der Strahlsuche extrahiert werden] Wie verbessert die Schätzung der Vertrauensebene auf der Generativsequenz in der Generativsequenz-Kennzeichnung?

SPT: Semi-Parametric Socond Tuning für Multitasking veranlasste das Lernen

°

【OOD-Erkennungsmethode basierend auf Marsentfernung】 Erkennung außerhalb der Verteilung und selektive Erzeugung für bedingte Sprachmodelle

[Aufmerksamkeitsmodul integriert die Eingabeaufforderung zur Vorhersage von Probeneben

【Eingabeaufforderung für mehrere Aufgaben durch Zerlegung und Destillation in eine Eingabeaufforderung】 Multitask-Eingabeaufforderung Ermöglicht das Parameter-effiziente Transferlernen

[Die Bewertungsindikatoren für Schritt-für-Schritt-Argumentation, generierter Text, können als Thema zum nächsten Mal verwendet werden] Roscoe: Eine Reihe von Metriken für die schrittweise Bewertung

[Kalibrierungssequenzwahrscheinlichkeit verbessert die bedingte Sprachgenerierung]

【Textangriffsmethode basierend auf der Gradientenoptimierung】 Textgrad: Fortschritt der Robustheitsbewertung in NLP durch gradientengetriebene Optimierung

[GMM-Modellierung der ICL-Entscheidungsklassifizierungsgrenzen zum Kalibrieren] Prototypische Kalibrierung für wenige Schüsse Lernen von Sprachmodellen

【Problem des Problems umschreiben und eine graphbasierte ICL-Aggregationsmethode】 Fragen Sie mich an: Eine einfache Strategie, um Sprachmodelle aufzunehmen

[Datenbank zur Auswahl guter Kandidaten als ICLs aus unanbieternden Beispielpools] Selektive Annotation macht Sprachmodelle besser wenige Schusslerner

Promptboosting: Black-Box-Textklassifizierung mit zehn Vorwärtskarten

Aufmerksamkeitsstarke Backdoor-Angriffe gegen Transformatoren

°

[Komprimieren Sie die Länge des FID-Eingangsvektors und ordnen Sie ihn bei Ausgabe für das Ausgangsdokument-Ranking neu.

【Erläuterung zur Erzeugung großer Modelle】 Pinto: Treue Sprachgelände mithilfe von Rationschen mit der Erzeugung von Angaben erzeugt

【Finden Sie eine Untergruppe von Auswirkungen vor der Ausbildung】 Orca: Die Interpretation hat Sprachmodelle über Ort, der Beweise im Ozean der Vorabendaten unterstützt, veranlasst

[Promptes Projekt, das auf Anweisungen abzielt, erzeugt die erste Stufe und zweistufige Sortierfilterung] Große Sprachmodelle sind Schall-

Wissen, das sich für die Minderung von Datenschutzrisiken in Sprachmodellen entlasten lässt

Bearbeitungsmodelle mit Aufgabenarithmetik

[Geben Sie nicht jedes Mal Anweisungen und Proben ein, konvertieren Sie sie in parametereffiziente Module,] Hinweis: Hyperetwork-Befehlsabstimmung für eine effiziente Verallgemeinerung von Null-Shot-Verallgemeinern

[ICL Display-Erzeugungsmethode ohne manuelle Beispielauswahl] Z-ICL: Null-Shot-In-Kontext-Lernen mit Pseudo-Demonstrationen

[Aufgabenanweisung und Text generieren ein Einbettung zusammen] Ein Einbetter, jede Aufgabe: Anweisungsfinetuned Text-Einbettungen

【Großes Modell Unterricht kleines Modell COT】 Messer: Wissensdestillation mit freien Textrationaten

[Problem der Inkonsistenz zwischen Quellen- und Zielwortsegmentierung des Modells zur Erzeugung von Informationen zum Erzeugnis der Informationsextraktion] Tokenisierung Konsistenz ist wichtig für generative Modelle zu extraktiven NLP -Aufgaben

Parsel: Ein einheitlicher natürlicher Sprachrahmen für algorithmische Argumentation

[ICL-Probenauswahl, Auswahl der ersten Phasen und Sortierung der zweiten Phase] Selbstverwaltetes In-Kontext-Lernen

[Intensives Lesen, lesbare Eingabeaufforderung unbeaufsichtigte Auswahlmethode, GPT-2] In Richtung des lesbaren Einstellungsstimmens des Menschen: Kubricks The Shining ist ein guter Film und auch eine gute Eingabeaufforderung

Umfrage und Datensätze

【Prontoqa-Datensatz-Tests Cot-Inferenzfähigkeiten und stellt fest, dass die Planungsfähigkeit immer noch begrenzt ist.

【Argumentation des Datensatz

【Argumentationsdatensatz】 Straße: Ein multi-Task-strukturiertes Denken und Erläuterungs-Benchmark

°

[Zusammenfassung des jüngsten Denkens von Zhang Ningyu Team der Zhejiang University] Argumentation mit Sprachmodell forderte: eine Umfrage

[Zusammenfassung der Technologie und Richtung der Textgenerierung von Xiao Yanghuas Team in Fudan] Wissen und Argumentation für menschliche natürliche Sprachgenerierung nutzen: Eine kurze Übersicht

[Zusammenfassung der jüngsten Argumentationsartikel, Jie Huang von UIUC] In Bezug auf die Argumentation in Großsprachenmodellen: Eine Umfrage

【Überprüfung von Aufgaben, Datensätzen und Methoden des mathematischen Denkens und DL】 Eine Umfrage zum Deep -Lernen für mathematische Argumentation

Eine Umfrage zur Verarbeitung natürlicher Sprache zur Programmierung

Belohnungsmodellierungsdatensatz:

Dieser Datensatz wird von Stieennon et al. Dieser Datensatz hat zwei Teile: Vergleich und Achse. Im Vergleichsabschnitt wurde der manuelle Annotator gebeten, das Beste aus der beiden Zusammenfassung auszuwählen. Im Achsenabschnitt bewertet der manuelle Annotator die zusammenfassende Qualität auf der Basis der Likert -Skala. Der Vergleichsteil hat nur Trainings- und Überprüfungsspalten, während der Achseteil nur Test- und Verifizierungsaufteilungen aufweist. Das zur Ausbildung von Belohnungsmodellen im Papier verwendete Zusammenfassung stammt aus dem TL; DR -Datensatz. Andere Validierungs- und Testdaten stammen aus TL; DR -Datensätzen, CNN -Artikeln und Daily Mail -Artikeln. https://huggingface.co/datasets/openai/summarize_from_feedback
Dieser Datensatz stammt von Ganguli et al. 3 Ein Beispiel enthält ein Paar Gespräche zwischen Menschen und Chatbots. Menschen bevorzugen eine dieser beiden Gespräche. https://huggingface.co/datasets/anthropic/hh-rlhf
Dieser Datensatz stammt von Nakano et al. Jedes Beispiel im Datensatz enthält Modellantworten auf zwei Fragen sowie verwandte Metadaten. 每个答案都有一个来自人类的偏好分数，可用于确定两个答案中哪个更好。 https://huggingface.co/datasets/openai/webgpt_comparisons
SHP是一个由385K个集体人类对18个不同主题领域的问题/指示的反应的偏好组成的数据集，从烹饪到法律咨询。这些偏好旨在反映一种回答对另一种回答的帮助程度，并打算用于训练RLHF奖励模型和NLG评估模型（例如SteamSHP）。 https://huggingface.co/datasets/stanfordnlp/SHP

Red-teaming数据集，harmless vs. helpful， RLHF +scale更难被攻击（另一个有效的技术是CoT fine-tuning）:

对于什么是成功的攻击，人类之间总体上达成的共识很低。
Meta's Bot Adversarial Dialog dataset https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Anthropic's red-teaming attempts https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/main/red-team-attempts
AI2's RealToxicityPrompts https://huggingface.co/datasets/allenai/real-toxicity-prompts