2017 | Transformator | Aufmerksamkeit ist alles, was Sie brauchen | Der Schwerpunkt der ursprünglichen Forschung lag auf Übersetzungsaufgaben. | TensorFlow + Artikel |
2018 | GPT | Verbesserung des Sprachverständnisses durch generatives Vortraining | Das erste vorab trainierte Transformer-Modell, das zur Feinabstimmung verschiedener NLP-Aufgaben verwendet wurde und modernste Ergebnisse erzielte | |
2018 | BERT | BERT: Vorschulung tiefer bidirektionaler Transformatoren zum Sprachverständnis | Ein weiteres großes vorab trainiertes Modell, das darauf ausgelegt ist, bessere Zusammenfassungen von Sätzen zu erstellen | PyTorch |
2019 | GPT-2 | Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende | Eine verbesserte (und größere) Version von GPT, die aus ethischen Gründen nicht sofort veröffentlicht wurde | |
2019 | DistilBERT – Destilliertes BERT | DistilBERT, eine destillierte Version von BERT: kleiner, schneller, billiger und leichter | Eine destillierte Version von BERT, die 60 % schneller ist, 40 % weniger Speicher benötigt und dennoch 97 % der Leistung von BERT beibehält | |
2019 | BART | BART: Denoising Sequence-to-Sequence-Vortraining für die Erzeugung, Übersetzung und das Verständnis natürlicher Sprache | Große vorab trainierte Modelle, die dieselbe Architektur wie das ursprüngliche Transformer-Modell verwenden. | |
2019 | T5 | Erkundung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformer | Große vorab trainierte Modelle, die dieselbe Architektur wie das ursprüngliche Transformer-Modell verwenden. | |
2019 | ALBERT | ALBERT: Ein Lite-BERT für das selbstüberwachte Lernen von Sprachdarstellungen | | |
2019 | RoBERTa – Ein robust optimierter BERT-Pretraining-Ansatz | RoBERTa: Ein robust optimierter BERT-Pretraining-Ansatz | | |
2019 | STRG | CTRL: Ein bedingtes Transformer-Sprachmodell für die steuerbare Generierung | | |
2019 | Transformator XL | Transformer-XL: Aufmerksame Sprachmodelle über einen Kontext fester Länge hinaus | Verwendet eine Wiederholungsmethode über vergangene Zustände in Verbindung mit relativer Positionskodierung, die längerfristige Abhängigkeiten ermöglicht | |
2019 | Diablo GPT | DialoGPT: Groß angelegtes generatives Vortraining für die Generierung von Konversationsantworten | Geschult anhand von 147 Millionen gesprächsähnlichen Austauschen, die aus Reddit-Kommentarketten über einen Zeitraum von 2005 bis 2017 extrahiert wurden | PyTorch |
2019 | ERNIE | ERNIE: Verbesserte Sprachdarstellung mit informativen Entitäten | In diesem Artikel verwenden wir sowohl große Textkorpora als auch KGs, um ein erweitertes Sprachrepräsentationsmodell (ERNIE) zu trainieren, das lexikalische, syntaktische und Wissensinformationen gleichzeitig voll ausnutzen kann. | |
2020 | GPT-3 | Sprachmodelle sind Few-Shot-Lernende | Eine noch größere Version von GPT-2, die eine Vielzahl von Aufgaben gut bewältigen kann, ohne dass eine Feinabstimmung erforderlich ist (Zero-Shot-Lernen genannt). | |
2020 | ELEKTRA | ELECTRA: TEXT-ENCODER ALS DISKRIMINATOREN UND NICHT ALS GENERATOREN VORSCHULEN | | |
2020 | mBART | Mehrsprachiges Rauschunterdrückungs-Vortraining für neuronale maschinelle Übersetzung | | |
2021 | CLIP (Kontrastive Sprache-Bild-Vorschulung) | Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache | CLIP ist ein neuronales Netzwerk, das auf eine Vielzahl von (Bild-, Text-)Paaren trainiert wird. Es kann in natürlicher Sprache angewiesen werden, den relevantesten Textausschnitt bei einem gegebenen Bild vorherzusagen, ohne direkt für die Aufgabe zu optimieren, ähnlich wie die Zero-Shot-Funktionen von GPT-2 und 3. | PyTorch |
2021 | DALL-E | Zero-Shot-Text-zu-Bild-Generierung | | PyTorch |
2021 | Gopher | Skalierende Sprachmodelle: Methoden, Analysen und Erkenntnisse von Training Gopher | | |
2021 | Entscheidungstransformator | Entscheidungstransformator: Verstärkungslernen durch Sequenzmodellierung | Eine Architektur, die das Problem von RL als bedingte Sequenzmodellierung umsetzt. | PyTorch |
2021 | GLam (Generalistisches Sprachmodell) | GLaM: Effiziente Skalierung von Sprachmodellen mit Expertenmix | In diesem Artikel schlagen wir eine Familie von Sprachmodellen namens GLaM (Generalist Language Model) vor und entwickeln sie, die eine spärlich aktivierte Expertenmischungsarchitektur verwendet, um die Modellkapazität zu skalieren und gleichzeitig im Vergleich zu dichten Varianten wesentlich geringere Trainingskosten verursacht. | |
2022 | chatGPT/InstructGPT | Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen | Dieses trainierte Sprachmodell kann Benutzerabsichten viel besser verfolgen als GPT-3. Das Modell wird mithilfe von Reinforcement Learning with Human Feedback (RLHF) optimiert (feinabgestimmt), um einen Konversationsdialog zu erreichen. Das Modell wurde anhand einer Vielzahl von Daten trainiert, die von Menschen geschrieben wurden, um Antworten zu erzielen, die wie Menschen klingen. | :-: |
2022 | Chinchilla | Training rechenoptimaler großer Sprachmodelle | Verwendet das gleiche Rechenbudget wie Gopher, jedoch mit 70 B Parametern und viermal mehr Daten. | :-: |
2022 | LaMDA – Sprachmodelle für Dialoganwendungen | LaMDA | Es handelt sich um eine Familie transformatorbasierter neuronaler Sprachmodelle, die auf den Dialog spezialisiert sind | |
2022 | DQ-BART | DQ-BART: Effizientes Sequenz-zu-Sequenz-Modell durch gemeinsame Destillation und Quantisierung | Schlagen Sie vor, das Modell gemeinsam zu destillieren und zu quantisieren, wobei das Wissen vom Lehrermodell mit voller Präzision auf das quantisierte und destillierte Schülermodell mit niedriger Präzision übertragen wird. | |
2022 | Flamingo | Flamingo: ein visuelles Sprachmodell für Few-Shot-Lernen | Der Aufbau von Modellen, die mit nur einer Handvoll annotierter Beispiele schnell an neuartige Aufgaben angepasst werden können, ist eine offene Herausforderung für die multimodale maschinelle Lernforschung. Wir stellen Flamingo vor, eine Familie von Visual Language Models (VLM) mit dieser Fähigkeit. | |
2022 | Gato | Ein generalistischer Agent | Inspiriert durch Fortschritte bei der groß angelegten Sprachmodellierung wenden wir einen ähnlichen Ansatz an, um einen einzelnen generalistischen Agenten zu erstellen, der über den Bereich der Textausgaben hinausgeht. Der Agent, den wir als Gato bezeichnen, arbeitet als multimodale, multitaskige, multiverkörperte generalistische Politik. | |
2022 | GODEL: Groß angelegtes Vortraining für zielgerichteten Dialog | GODEL: Groß angelegtes Vortraining für zielgerichteten Dialog | Im Gegensatz zu früheren Modellen wie DialoGPT nutzt GODEL eine neue Phase des fundierten Vortrainings, um die Anpassung von GODEL an eine Vielzahl nachgelagerter Dialogaufgaben, die Informationen außerhalb des aktuellen Gesprächs erfordern (z. B. eine Datenbank oder ein Dokument), besser zu unterstützen gute Antworten hervorbringen. | PyTorch |
2023 | GPT-4 | GPT-4 Technischer Bericht | Das Modell akzeptiert jetzt multimodale Eingaben: Bilder und Text | :-: |
2023 | BloombergGPT | BloombergGPT: Ein großes Sprachmodell für das Finanzwesen | Auf den Finanzbereich spezialisiertes LLM, geschult auf den umfangreichen Datenquellen von Bloomberg | |
2023 | BLÜHEN | BLOOM: Ein mehrsprachiges Open-Access-Sprachmodell mit 176B Parametern | BLOOM (BigScience Large Open-Science Open-Access Multilingual Language Model) ist ein reines Decoder-Transformer-Sprachmodell, das auf dem ROOTS-Korpus trainiert wurde, einem Datensatz, der Hunderte von Quellen in 46 natürlichen und 13 Programmiersprachen (insgesamt 59) umfasst. | |
2023 | Lama 2 | Lama 2: Open Foundation und fein abgestimmte Chat-Modelle | | PyTorch #1 PyTorch #2 |
2023 | Claude | Claude | Claude kann 75.000 Wörter (100.000 Token) analysieren. GPT4 kann nur 32,7.000 Token verarbeiten. | |
2023 | SelfCheckGPT | SelfCheckGPT: Ressourcenlose Black-Box-Halluzinationserkennung für generative große Sprachmodelle | Ein einfacher stichprobenbasierter Ansatz, mit dem Black-Box-Modelle ressourcenschonend, also ohne externe Datenbank, auf Fakten überprüft werden können. | |