Die Kraft des Computers : Viele Beweise zeigen, dass Fortschritte beim maschinellen Lernen weitgehend durch Computer und nicht durch Forschung angetrieben werden, bitte beziehen Sie sich auf "die bittere Lektion", und es gibt häufig Aufträge und Homogenisierungsphänomene. Studien haben gezeigt, dass sich der Einsatz von künstlichen Intelligence Computing etwa 3,4 Monate verdoppelt, während sich die Effizienzverbesserung nur alle 16 Monate verdoppelt. Unter ihnen wird die Berechnung hauptsächlich durch die Rechenleistung gesteuert, während die Effizienz von der Forschung angetrieben wird. Dies bedeutet, dass das Computerwachstum in der Vergangenheit Fortschritte im maschinellen Lernen und seiner Unterfelder dominiert hat. Dies wird durch die Entstehung von GPT-4 weiter nachgewiesen. Trotzdem müssen wir immer noch darauf achten, ob es in Zukunft eine unterwanderte Architektur wie S4 geben wird. Die meisten aktuellen NLP -Forschungs -Hotspots basieren auf fortgeschrittenerem LLM (~ 100b,
Weitere LLM -Themenpapiere finden Sie hier und hier.
Papiere ( grobe Kategorie )
Ressource
【Tests an GPT-4, Begrenzung】 Funken künstlicher allgemeiner Intelligenz: frühe Experimente mit GPT-4
【InstructGPT -Papiere, einschließlich SFT, PPO usw., eines der wichtigsten Artikel】 Schulungssprachmodelle für die Befolgung von Anweisungen mit menschlichem Feedback
【Skalierbare Aufsicht: Wie können Menschen ihre Modelle weiter verbessern, nachdem ihre Modelle ihre eigenen Aufgaben übertreffen können? 】 Messung der Fortschritte bei skalierbarer Aufsicht für Großsprachmodelle
【Definition der Ausrichtung, erzeugt von DeepMind】 Ausrichtung von Sprachagenten
Ein allgemeiner Sprachassistent als Labor für die Ausrichtung
[Retro -Papier, Modell mit CCA+] Verbesserung der Sprachmodelle durch Abrufen von Billionen Token
Feinabstimmungssprachmodelle aus menschlichen Vorlieben
Training eines hilfsbereiten und harmlosen Assistenten mit Verstärkungslernen durch menschliches Feedback
【Großes Modell in Chinesisch und Englisch, überschreitet GPT-3】 GLM-130B: Ein offenes zweisprachiges vorgebreitendes Modell
°
【Alignments neuen Benchmarks, Modellbibliotheken und neuen Methoden】 Ist Verstärkungslernen (nicht) für die Verarbeitung natürlicher Sprache?
【MLM ohne [Maske] -Tags durch Technologie】 Repräsentationsmangel bei maskierter Sprachmodellierung
【Text zum Bildtraining lindert die Bedürfnisse des Vokabulars und widersteht bestimmte Angriffe】 Sprachmodellierung mit Pixel
Lexmae: Lexikonboden-Vorbereitung für das groß angelegte Abruf
Incoder: Ein generatives Modell für Code -Infischen und Synthese
[Suchtext-bezogene Bilder für das Sprachmodell vor dem Training] Visuell ausgelöste Sprachmodellierung
Ein nicht-monotones Selbstsektor-Sprachmodell
【Vergleich und Feinabstimmung von negativem Feedback durch ProPT-Design】 Kette der Nachhinein übereinstimmen Sprachmodelle mit Feedback
【Sparrow -Modell】 Verbesserung der Ausrichtung der Dialogmittel durch gezielte menschliche Urteile
[Verwenden Sie kleine Modellparameter, um den Trainingsprozess des großen Modells zu beschleunigen (nicht von vorne anfangen)] Lernen, vorgezogene Modelle für ein effizientes Transformatortraining zu erweitern
[MOE Semi-parametrisches Wissensfusionsmodell für mehrere Wissensquellen] Wissenskenntnisse: Auf dem Weg zu sachkundigen semi-parametrischen Sprachmodellen
[Merge -Methode zum Zusammenführen mehrerer geschulter Modelle auf verschiedenen Datensätzen] Dataless Knowledge Fusion durch Zusammenführen von Gewichten von Sprachmodellen
[Es ist sehr inspirierend, dass der Suchmechanismus die allgemeine Architektur von FFN im Transformator (× 2,54 Zeit) ersetzt, um das in Modellparametern gespeicherte Sprachmodell mit Plug-in Knowldge-Speicher zu entkoppeln
【Generieren Sie automatisch Anweisungsabstimmungsdaten für GPT-3-Training】 Selbstrestruktion: Sprachmodell mit selbstgenerierten Anweisungen ausrichten
- -
Auf bedingungsabhängige maskierte Sprachmodelle
【Iterativ kalibrieren Sie unvollständig erzeugte unabhängige Korrektoren, Sean Wellecks Follow-up-Artikel】 Erzeugen von Sequenzen, indem Sie sich selbst korrigieren lernen
[Kontinuierliches Lernen: Fügen Sie ein EPPT für die neue Aufgabe hinzu, und die Progressive der vorherigen Aufgabe und das große Modell bleiben unverändert.
[EMNLP 2022, Kontinuierliche Aktualisierung des Modells] Memprompt: Speicherunterstützte Eingabeaufforderung mit Benutzerfeedback
°
GANLM: Encoder-Decoder Pre-Training mit einem Hilfsdiskriminator
【Vorab-Sprachmodell basierend auf Staats-Raum
[Betrachten Sie das menschliche Feedback während der Vorausbildung.
[METAs Open-Source-Lama-Modell, 7B-65B, zeichnet mehr markierte kleine Modelle als üblich und erzielte unter verschiedenen Inferenzbudgets eine optimale Leistung
[Unterrichten von großsprachigen Modellen, um den generierten Code anhand einer kleinen Anzahl von Beispielen selbst zu entfernen und zu erklären, aber sie wurden jetzt so verwendet] Lehre große Sprachmodelle für Selbstentwicklung beigebracht
Wie weit können Kamele gehen?
Lima: Weniger ist mehr für die Ausrichtung
【Baum des Gedankens, immer mehr wie Alphago】 bewusste Problemlösung mit großen Sprachmodellen
【Mehrstufige Argumentationsmethode zur Anwendung von ICL ist sehr inspirierend.
【COT generiert direkt den Programmcode und lässt dann Python -Interpreter】 Gedankenprogramm fordern: Entlastung der Berechnung von Argumentation für numerische Argumentationsaufgaben
[Big Model generiert direkt Evidenzkontext] Erzeugen Sie eher als abzurufen: Großsprachenmodelle sind starke Kontextgeneratoren
【Schreibmodell mit 4 spezifischen Operationen】 Peer: Ein kollaboratives Sprachmodell
【Kombinieren Sie Python, SQL -Testamentszeiten und große Modelle】 Bindungssprachmodelle in symbolischen Sprachen
[Abzahlen Sie den Code für Dokumentengenerierung] Dokumente
[In der nächsten Serie wird es viele Artikel in der Bodenung+LLM geben
【Trainingsdaten der Selbstbereitschaft (verifiziert mit Python)】 Sprachmodelle können sich beibringen, besser zu programmieren
Verwandte Artikel: Spezialisierte kleinere Sprachmodelle auf mehrstufige Argumentation
STAR: Bootstrapping-Argumentation mit Argumentation, aus Neurips 22 (generieren Sie COT-Daten für die Feinabstimmung) und verursachen eine Reihe von COT-Artikeln, die kleine Modelle lehren.
Ähnliche Ideen [Wissensdestillation] Unterrichten kleiner Sprachmodelle zur Vernunft und Lernen durch Destillationskontext
Ähnliche Ideen Kaist und Xiang Ren-Gruppen ([Cots Begründung der Feinabstimmung (Professor)] Pinto: Treue Sprachgelände mit rationalen Rationalen von prompt erzeugten usw.) und große Sprachmodelle Argumenting Lehrer
ETH [COT Data Trains Problem-Zersetzung und Problemlösungsmodelle separat] Destillieren mehrstufige Argumentationsfunktionen großer Sprachmodelle in kleineren Modellen über semantische Zerlegung
【Lassen Sie kleine Modelle Lernen von COT-Fähigkeiten lernen.】 In-Kontext-Lerndestillation: Übertragung der Lernfähigkeit vor ausgebildeten Sprachmodellen mit wenigen Schichten
【Big Model Lehren kleiner Modell COT】 Großsprachige Modelle argumentieren Lehrer
[Big Model generiert Evidenz (Rezitation) und führt dann eine kleine Musterfragelie und Antwort aus.
[Natürliche Sprachmethoden induktiver Vernunft] Sprachmodelle als induktive Vernunft als induktive Vernunft
[GPT-3 wird für Datenanmerkungen verwendet (z. B. emotionale Klassifizierung)] Ist GPT-3 ein guter Datenannotator?
【Modelle für die Datenerweiterung basierend auf Multitasking-Training für weniger Beispieldatenvergrößerung】 Knowda: All-in-One-Wissensmischungsmodell für die Datenerweiterung in NLP mit niedrigem Ressourcen
【Verfahrensplanungsarbeit, nicht an der Zeit interessiert】 neurosymbolische Verfahrensplanung mit gesunden Menschenverständnis
[Ziel: Erzeugen Sie sachlich korrekte Artikel für Abfragen, indem Sie auf großen Webkorpus begründet
【Kombinieren Sie die Ergebnisse des externen Physiksimulators im Kontext】 Mind's Eye: Großen -Sprachmodells durch Simulation
[Abrufen der Aufgabe, das COT zu verbessern, um wissensintensives Abruf mit der Kette der Gedanken für wissensintensive mehrstufige Fragen zu verschieben
【Kontrast das potenzielle (binäre) Wissen im unbeaufsichtigten Erkennungssprachmodell】 Latentwissen in Sprachmodellen ohne Aufsicht entdecken
[Percy Liang Group, vertrauenswürdige Suchmaschine, nur 51,5% der generierten Sätze werden vollständig durch Zitate unterstützt] Bewertung der Überprüfbarkeit in generativen Suchmaschinen
Progressive-Hint-Aufforderung verbessert das Denken in großen Sprachmodellen
Prinzipiengesteuerte Selbstausrichtung von Sprachmodellen von Grund auf mit minimaler menschlicher Überwachung
Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena
[Meiner Meinung nach ist es einer der wichtigsten Artikel. Training und die Breite und Tiefe der Architekturdetails wie Breite und Tiefe.
[Einer der anderen wichtigsten Artikel, Chinchilla, unter begrenztem Computer, ist das optimale Modell nicht das größte Modell, sondern ein kleineres Modell, das mit mehr Daten (60-70b) trainiert wurde.
[Welche Architektur- und Optimierungsziele helfen, die Verallgemeinerung der Nullprobe zu unterstützen] Welche Sprachmodellarchitektur und die Ziele der Vorderseite eignen sich am besten für die Verallgemeinerung von Null-Shot?
【Schnäppchen „Epiphany“ Lernprozess-Auswendiglernen-> Schaltungsbildung-> Reinigung】 Fortschrittsmaßnahmen für das Gewinkel durch mechanistische Interpretation
[Untersuchen Sie die Eigenschaften des suchbasierten Modells und stellen Sie fest, dass beide begrenzte Argumente sind.
[Human-AI-Sprachinteraktionsbewertungsrahmen] Bewertung der Interaktion zwischen Menschensprachenmodell
Welcher Lernalgorithmus lernt in Kontext?
【Modellbearbeitung, dies ist ein heißes Thema】 Massenbearbeitungsgedächtnis in einem Transformator
[Die Empfindlichkeit des Modells gegenüber irrelevantem Kontext, Hinzufügen irrelevanter Informationen zu den Beispielen in der Eingabeaufforderung und Hinzufügen von Anweisungen, die irrelevante Kontext ignorieren.
【Null-Shot-Cot wird unter sensiblen Problemen Tendenz und Toxizität zeigen.
°
[Je niedriger die Verwirrung verschiedener Eingabeaufforderungen ist, desto besser die Leistung] entmystifizierende Aufforderungen in Sprachmodellen durch Verwirrungsschätzung
[Binäre Implicity-Auflösungsaufgabe großer Modelle, dieser Vorschlag ist schwierig und es gibt keine Skalierungsphänomene] Großsprachenmodelle sind keine Null-Shot-Kommunikatoren (https://github.com/google/big-ohn Benchmark_tasks/ Implicity)
【Komplexitätsbasierte Aufforderung zur mehrstufigen Argumentation
Was zählt bei der strukturierten Beschneidung generativer Sprachmodelle?
[Ambibiben -Datensatz, Aufgabenmehr Mehrdeutigkeit: Das Skalierungs -RLHF -Modell bietet am besten die Aufgaben. Feinabstimmung ist hilfreicher als wenige Schüsse, die die Unklarheit bei Menschen und Sprachmodellen veranlassen.
【GPT-3-Test, einschließlich Speicher, Kalibrierung, Verzerrung usw.】】 Aufer zuverlässig zu GPT-3
[OSU-Studie, welcher Teil von COT für die Leistung wirksam ist] für das Verständnis der Kette des Gedankens: Eine empirische Untersuchung dessen, worauf es ankommt
[Erforschung des Cross-Sprach-Modells diskreter Eingabeaufforderungen] Können diskrete Informationen zur Extraktion über Sprachmodelle hinweg verallgemeinert?
°
【Es ist sehr inspirierend, das Problem durch GPT-Iteration in Unterfragen zerlegt und beantworte es.】 Messung und Verengung der Kompositionalitätslücke in Sprachmodellen
[Analoge Test von GPT-3 ähnlich wie bei Fragen der Intelligenz der Beamten] aufstrebende analoge Argumentation in großen Sprachmodellen
【Kurzes Texttraining, lange Texttests, Bewertung der Anpassungsfähigkeit der Modell variabler Länge】 Ein längenauslösbarer Transformator
[Wenn nicht Sprachmodelle vertrauen: Untersuchung der Wirksamkeit und Einschränkungen parametrischer und nichtparametrischer Erinnerungen
【ICL ist eine andere Form von Gradienten-Update】 Warum kann GPT in Kontexten lernen?
Bewertet GPT-3 ein Psychopath?
[Erforschung des Trainings des OPT -Modells in verschiedenen Größen und festgestellt, dass Verwirrung ein Indikator für ICL ist.
[EMNLP 2022, vorgebildetes reines englisches Corpus enthält andere Sprachen, und die Kreuzsprachenfunktionen des Modells können aus Datenleckagen stammen.] Sprachkontamination erklärt die Kreuzungsfunktionen englischer vorbereiteter Modelle
[Übergeordnete semantische Priors und die Verwendung von Informationen in ProPT ist eine Überspannungsfähigkeit.
【EMNLP 2022 Erkenntnisse】 Welches Sprachmodell zum Training, wenn Sie eine Million GPU -Stunden haben?
[Die Einführung der CFG-Technologie während der Argumentation verbessert die Fähigkeit der Anweisungen der Anleitung von kleinen Modellen erheblich.
【Trainieren Sie Ihr eigenes Lama-Modell mit OpenAIs GPT-4, und ich kann nur sagen, dass ich Sie bewundere.】 Unterrichtsstimmung mit GPT-4
Reflexion: Ein autonomer Agent mit dynamischem Gedächtnis und Selbstreflexion
【Personalisierter Stil promptes Lernen, Opt】 Erweiterbare Eingabeaufforderungen für Sprachmodelle
[Beschleunigung großer Modelldecodieren unter Verwendung des direkten Konsens zwischen kleinen Modellen und großen Modellen, die mehrmals verwendet werden sollen
[Verwenden Sie die weiche Eingabeaufforderung, um den Rückgang der ICL
【Semantische Parsingaufgaben, Probenauswahlmethoden von ICL, Codex und T5-Large】 verschiedene Demonstrationen verbessern die Verallgemeinerung der Kontext-Zusammensetzung
【Eine neue Optimierungsmethode für die Textgenerierung】 Anpassungsmodelle der Sprachgenerierung unter Gesamtvariationsentfernung
[Unsicherheitsschätzung der bedingten Erzeugung unter Verwendung der semantischen Clusterbildung in Kombination mit mehreren Stichprobenausgängen, um die Entropie von Clustern abzuschätzen] Semantische Unsicherheit: Sprachinvarianzen zur Unsicherheitsschätzung in der Erzeugung der natürlichen Sprache
GO-TUNing: Verbesserung der Lernfähigkeit von Zero-Shot-Lernfähigkeit kleinerer Sprachmodelle
【Sehr inspirierende Textgenerierungsmethode unter freien Textbeschränkungen】 kontrollierbare Textgenerierung mit Sprachbeschränkungen
[Verwenden Sie bei der Generierung von Vorhersagen die Ähnlichkeit, um die Phrase anstelle von Softmax -Token auszuwählen] Nichtparametrische maskierte Sprachmodellierung
[ICL-Methode für Long Text] Paralleler Kontext Windows verbessern das Lernen von Großsprachenmodellen in Kontext
【Probe des InstructGPT-Modells erzeugt ICL für sich selbst】 Selbstverdünnung großer Sprachmodelle für die Open-Domain-QA
【Übertragungs- und Aufmerksamkeitsmechanismen ermöglichen es ICL, weitere Annotationsproben einzugeben.】 Strukturierte Aufforderung: Skalierung des Kontextlernens auf 1.000 Beispiele
Impulskalibrierung für die Textgenerierung
【Zwei ICL-Probenauswahlmethoden, Experimente basierend auf OPT und GPTJ】 Sorgfältige Datenkuration stabilisiert das Lernen des Kontextes
【Analyse der Bewertungsindikatoren von Mauve (Pillutla et al.)】 Über die Nützlichkeit von Einbettungen, Clustern und Zeichenfolgen für die Bewertung der Textgenerierung
Promptagator: Ein paar Schussdichte Abruf von 8 Beispielen
[Drei Kopfsteinpflaster, Zhuge Liang] Selbstkonsistenz verbessert die Kette des Denkens in Sprachmodellen
[Invertier, Eingabe und Etikett generieren Anweisungen für die Bedingungen] Erraten Sie die Anweisung!
【LLMs Reverse Derivation Selbstverifizierung】 Großspracher Modelle sind Gründe bei der Selbstverifizierung
【Methoden zum Suchen - Sicherheitsszenarien unter dem Prozess der Erzeugung von Beweisen】 Foveate, Attribut und Rationalisierung: Auf dem Weg zu sicheren und vertrauenswürdigen KI
[Konfidenzschätzung von Fragmenten, die durch auf Text erstellte Informationen basierend auf der Strahlsuche extrahiert werden] Wie verbessert die Schätzung der Vertrauensebene auf der Generativsequenz in der Generativsequenz-Kennzeichnung?
SPT: Semi-Parametric Socond Tuning für Multitasking veranlasste das Lernen
°
【OOD-Erkennungsmethode basierend auf Marsentfernung】 Erkennung außerhalb der Verteilung und selektive Erzeugung für bedingte Sprachmodelle
[Aufmerksamkeitsmodul integriert die Eingabeaufforderung zur Vorhersage von Probeneben
【Eingabeaufforderung für mehrere Aufgaben durch Zerlegung und Destillation in eine Eingabeaufforderung】 Multitask-Eingabeaufforderung Ermöglicht das Parameter-effiziente Transferlernen
[Die Bewertungsindikatoren für Schritt-für-Schritt-Argumentation, generierter Text, können als Thema zum nächsten Mal verwendet werden] Roscoe: Eine Reihe von Metriken für die schrittweise Bewertung
[Kalibrierungssequenzwahrscheinlichkeit verbessert die bedingte Sprachgenerierung]
【Textangriffsmethode basierend auf der Gradientenoptimierung】 Textgrad: Fortschritt der Robustheitsbewertung in NLP durch gradientengetriebene Optimierung
[GMM-Modellierung der ICL-Entscheidungsklassifizierungsgrenzen zum Kalibrieren] Prototypische Kalibrierung für wenige Schüsse Lernen von Sprachmodellen
【Problem des Problems umschreiben und eine graphbasierte ICL-Aggregationsmethode】 Fragen Sie mich an: Eine einfache Strategie, um Sprachmodelle aufzunehmen
[Datenbank zur Auswahl guter Kandidaten als ICLs aus unanbieternden Beispielpools] Selektive Annotation macht Sprachmodelle besser wenige Schusslerner
Promptboosting: Black-Box-Textklassifizierung mit zehn Vorwärtskarten
Aufmerksamkeitsstarke Backdoor-Angriffe gegen Transformatoren
°
[Komprimieren Sie die Länge des FID-Eingangsvektors und ordnen Sie ihn bei Ausgabe für das Ausgangsdokument-Ranking neu.
【Erläuterung zur Erzeugung großer Modelle】 Pinto: Treue Sprachgelände mithilfe von Rationschen mit der Erzeugung von Angaben erzeugt
【Finden Sie eine Untergruppe von Auswirkungen vor der Ausbildung】 Orca: Die Interpretation hat Sprachmodelle über Ort, der Beweise im Ozean der Vorabendaten unterstützt, veranlasst
[Promptes Projekt, das auf Anweisungen abzielt, erzeugt die erste Stufe und zweistufige Sortierfilterung] Große Sprachmodelle sind Schall-
Wissen, das sich für die Minderung von Datenschutzrisiken in Sprachmodellen entlasten lässt
Bearbeitungsmodelle mit Aufgabenarithmetik
[Geben Sie nicht jedes Mal Anweisungen und Proben ein, konvertieren Sie sie in parametereffiziente Module,] Hinweis: Hyperetwork-Befehlsabstimmung für eine effiziente Verallgemeinerung von Null-Shot-Verallgemeinern
[ICL Display-Erzeugungsmethode ohne manuelle Beispielauswahl] Z-ICL: Null-Shot-In-Kontext-Lernen mit Pseudo-Demonstrationen
[Aufgabenanweisung und Text generieren ein Einbettung zusammen] Ein Einbetter, jede Aufgabe: Anweisungsfinetuned Text-Einbettungen
【Großes Modell Unterricht kleines Modell COT】 Messer: Wissensdestillation mit freien Textrationaten
[Problem der Inkonsistenz zwischen Quellen- und Zielwortsegmentierung des Modells zur Erzeugung von Informationen zum Erzeugnis der Informationsextraktion] Tokenisierung Konsistenz ist wichtig für generative Modelle zu extraktiven NLP -Aufgaben
Parsel: Ein einheitlicher natürlicher Sprachrahmen für algorithmische Argumentation
[ICL-Probenauswahl, Auswahl der ersten Phasen und Sortierung der zweiten Phase] Selbstverwaltetes In-Kontext-Lernen
[Intensives Lesen, lesbare Eingabeaufforderung unbeaufsichtigte Auswahlmethode, GPT-2] In Richtung des lesbaren Einstellungsstimmens des Menschen: Kubricks The Shining ist ein guter Film und auch eine gute Eingabeaufforderung
【Prontoqa-Datensatz-Tests Cot-Inferenzfähigkeiten und stellt fest, dass die Planungsfähigkeit immer noch begrenzt ist.
【Argumentation des Datensatz
【Argumentationsdatensatz】 Straße: Ein multi-Task-strukturiertes Denken und Erläuterungs-Benchmark
°
[Zusammenfassung des jüngsten Denkens von Zhang Ningyu Team der Zhejiang University] Argumentation mit Sprachmodell forderte: eine Umfrage
[Zusammenfassung der Technologie und Richtung der Textgenerierung von Xiao Yanghuas Team in Fudan] Wissen und Argumentation für menschliche natürliche Sprachgenerierung nutzen: Eine kurze Übersicht
[Zusammenfassung der jüngsten Argumentationsartikel, Jie Huang von UIUC] In Bezug auf die Argumentation in Großsprachenmodellen: Eine Umfrage
【Überprüfung von Aufgaben, Datensätzen und Methoden des mathematischen Denkens und DL】 Eine Umfrage zum Deep -Lernen für mathematische Argumentation
Eine Umfrage zur Verarbeitung natürlicher Sprache zur Programmierung
Belohnungsmodellierungsdatensatz:
Red-teaming数据集,harmless vs. helpful, RLHF +scale更难被攻击(另一个有效的技术是CoT fine-tuning):
【知识】+【推理】+【生成】
如果对您有帮助,请star支持一下,欢迎Pull Request~
主观整理,时间上主要从ICLR 2023 Rebuttal期间开始的,包括ICLR,ACL,ICML等预印版论文。
不妥之处或者建议请指正! Dongfang Li, [email protected]