PLM-Papiere
Beitrag von Xiaolei Wang
Große vorab trainierte Sprachmodelle (PLMs) wie BERT und GPT haben große Erfolge erzielt und sind zu einem Meilenstein im NLP geworden.
In diesem Repo sammeln wir einige repräsentative PLM-Artikel der letzten Jahre, basierend auf der Anzahl der Zitate und Artikel, die auf den neuesten Top-Konferenzen (z. B. ACL, EMNLP, ICLR, ICML, NeurIPS) veröffentlicht wurden.
Wir werden das Repo auf dem neuesten Stand halten und Pull-Anfragen und Probleme willkommen heißen! Vielen Dank für eure Sterne und Gabeln!
Inhaltsverzeichnis
- Umfrage
- Benchmark
- PLM-Design
- Allgemein
- Wissen
- Mehrsprachig
- Multimodal
- Informationsabruf
- Code
- Andere
- PLM-Analyse
- Wissen
- Robustheit
- Sparsamkeit
- Andere
- Effizientes PLM
- Ausbildung
- Schlussfolgerung
- Kompression
- PLM-Anpassung
- Zweistufig
- Multitasking
- Adapter
- Prompt
- Andere
Umfrage
- „Vorab trainierte Modelle für die Verarbeitung natürlicher Sprache: Eine Umfrage“.
Science China Technological Sciences(2020)
[PDF] - „Welcher *BERT? Eine Umfrage zur Organisation kontextualisierter Encoder“.
EMNLP(2020)
[PDF] - „Eine Einführung in die BERTologie: Was wir über die Funktionsweise von BERT wissen“ .
TACL(2020)
[PDF] - „Von statischen zu dynamischen Wortdarstellungen: eine Umfrage“.
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - „Überblick über die transformatorbasierten Modelle für NLP-Aufgaben“.
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - „Eine Umfrage zu kontextuellen Einbettungen“.
arXiv(2020)
[PDF] - „Das NLP-Kochbuch: Moderne Rezepte für transformatorbasierte Deep-Learning-Architekturen“.
IEEE Access(2021)
[PDF] - „Vorgefertigte Modelle: Vergangenheit, Gegenwart und Zukunft“.
arXiv(2021)
[PDF] - „Vorab trainieren, auffordern und vorhersagen: Eine systematische Übersicht über Aufforderungsmethoden in der Verarbeitung natürlicher Sprache“.
arXiv(2021)
[PDF] - „AMMUS: Eine Übersicht über transformatorbasierte vorab trainierte Modelle in der Verarbeitung natürlicher Sprache“.
arXiv(2021)
[PDF] - „Über Chancen und Risiken von Stiftungsmodellen“.
arXiv(2021)
[PDF] - „Paradigmenwechsel in der Verarbeitung natürlicher Sprache“.
arXiv(2021)
[PDF] - „Neueste Fortschritte in der Verarbeitung natürlicher Sprache mithilfe großer vorab trainierter Sprachmodelle: Eine Umfrage“.
arXiv(2021)
[PDF]
Benchmark
- XNLI : „XNLI: Bewertung sprachübergreifender Satzdarstellungen“.
EMNLP(2018)
[PDF] [Datensatz] - GLUE : „GLUE: Eine Multi-Task-Benchmark- und Analyseplattform für das Verständnis natürlicher Sprache“.
ICLR(2019)
[Homepage] - SuperGLUE : „SuperGLUE: Ein festerer Maßstab für allgemeine Sprachverständnissysteme“.
NeurIPS(2019)
[Homepage] - CLUE : „CLUE: Ein Benchmark zur Bewertung des chinesischen Sprachverständnisses“.
COLING(2020)
[Homepage] - XTREME : „XTREME: Ein massiv mehrsprachiger Multitask-Benchmark zur Bewertung der sprachübergreifenden Generalisierung“.
ICML(2020)
[Homepage] - XGLUE : „XGLUE: Ein neuer Benchmark-Datensatz für sprachübergreifendes Vortraining, Verständnis und Generierung“.
EMNLP(2020)
[Homepage] - DialoGLUE : „DialoGLUE: Ein Benchmark für das Verständnis natürlicher Sprache für aufgabenorientierten Dialog“.
arXiv(2020)
[Homepage]
PLM-Design
Allgemein
- GPT : „Verbesserung des Sprachverständnisses durch generatives Pre-Training“.
OpenAI(2018)
[Projekt] - GPT-2 : „Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende“.
OpenAI(2019)
[Projekt] - BERT : „BERT: Vorschulung tiefer bidirektionaler Transformatoren für das Sprachverständnis“.
NAACL(2019)
[PDF] [Code] - XLNet : „XLNet: Generalisiertes autoregressives Vortraining für Sprachverständnis“.
NeurIPS(2019)
[PDF] [Code] - SBERT : „Satz-BERT: Satzeinbettungen mit siamesischen BERT-Netzwerken“.
ACL(2019)
[PDF] [Code] - UniLM : „Unified Language Model Pre-Training für das Verständnis und die Generierung natürlicher Sprache“.
NeurIPS(2019)
[PDF] [Code] - MASS : „MASS: Maskiertes Sequence-to-Sequence-Vortraining für die Sprachgenerierung“.
ICML(2019)
[PDF] [Code] - Chinese-BERT-wwm : „Vortraining mit Ganzwortmaskierung für Chinesisch BERT“.
arXiv(2019)
[PDF] [Code] - „Lückenlückengesteuertes Vortraining von Selbstaufmerksamkeitsnetzwerken“.
EMNLP(2019)
[PDF] - „BERT hat einen Mund und er muss sprechen: BERT als Markov-Zufallsfeld-Sprachmodell“.
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [Code] - GPT-3 : „Sprachmodelle sind Few-Shot-Lernende“.
NeurIPS(2020)
[PDF] [Code] - T5 : „Erkundung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformer“.
JMLR(2020)
[PDF] [Code] - BART : „BART: Denoising Sequence-to-Sequence Pre-Training für die Erzeugung, Übersetzung und das Verständnis natürlicher Sprache“.
ACL(2020)
[PDF] [Code] - Poly-Encoder : „Poly-Encoder: Architekturen und Pre-Training-Strategien für eine schnelle und genaue Bewertung mehrerer Sätze“.
ICLR(2020)
[PDF] - SpanBERT : „SpanBERT: Verbesserung des Vortrainings durch Darstellung und Vorhersage von Spannen“.
TACL(2020)
[PDF] [Code] - ERNIE 2.0 : „ERNIE 2.0: Ein kontinuierliches Pre-Training-Framework für das Sprachverständnis“.
AAAI(2020)
[PDF] [Code] - SemBERT : „Semantik-bewusstes BERT für Sprachverständnis“.
AAAI(2020)
[PDF] [Code] - „Nutzung vorab trainierter Prüfpunkte für Aufgaben zur Sequenzgenerierung“.
TACL(2020)
[PDF] [Code] - ProphetNet : „ProphetNet: Vorhersage zukünftiger N-Gramm für Sequence-to-SequencePre-Training“.
EMNLP(2020)
[PDF] - UniLMv2 : „UniLMv2: Pseudomaskierte Sprachmodelle für das Vortraining eines einheitlichen Sprachmodells“.
ICML(2020)
[PDF] [Code] - MacBERT : „Überarbeitung vorgefertigter Modelle für die Verarbeitung natürlicher chinesischer Sprache“.
EMNLP(2020)
[PDF] [Code] - MPNet : „MPNet: Maskiertes und permutiertes Vortraining für Sprachverständnis“.
arXiv(2020)
[PDF] [Code] - DEBERTA : „DeBERTa: Decoding-enhanced BERT with Disentangled Attention“.
ICLR(2021)
[PDF] [Code] - PALM : „PALM: Vorabtraining eines automatisch codierenden und autoregressiven Sprachmodells für die kontextbedingte Generierung“.
EMNLP(2020)
[PDF] - Optimus : „Optimus: Organisieren von Sätzen durch vorab trainierte Modellierung eines latenten Raums“.
EMNLP(2020)
[PDF] [Code] - „Selbsttraining verbessert das Vortraining für das Verständnis natürlicher Sprache“.
NAACL(2021)
[PDF] [Code] - CAPT : „Neudenken der entrauschten automatischen Kodierung im Sprachvorbereitungstraining“.
EMNLP(2021)
[PDF] - „Frustrierend einfache Pretraining-Alternativen zur maskierten Sprachmodellierung“.
EMNLP(2021)
[PDF] [Code] - „Faltungen und Selbstaufmerksamkeit: Neuinterpretation relativer Positionen in vorab trainierten Sprachmodellen“.
ACL(2021)
[PDF] [Code] - ERNIE-Doc : „ERNIE-Doc: Ein retrospektiver Modellierungstransformator für lange Dokumente“.
ACL(2021)
[PDF] [Code] - „Universal Language Representation vor dem Training“.
ACL(2021)
[PDF] [Code]
Wissen
- ERNIE (Baidu) : „ERNIE: Verbesserte Darstellung durch Wissensintegration“.
arXiv(2019)
[PDF] [Code] - KnowBert : „Wissensgestützte kontextbezogene Wortdarstellungen“.
EMNLP(2019)
[PDF] - ERNIE (Tsinghua) : „ERNIE: Verbesserte Sprachdarstellung mit informativen Entitäten“.
ACL(2019)
[PDF] [Code] - COMET : „COMET: Commonsense-Transformatoren für die automatische Konstruktion von Wissensgraphen“.
ACL(2019)
[PDF] [Code] - K-BERT : „K-BERT: Sprachdarstellung mit Knowledge Graph ermöglichen“.
AAAI(2020)
[PDF] [Code] - WKLM : „Vortrainierte Enzyklopädie: Schwach überwachtes wissensbasiertes Sprachmodell“.
ICLR(2020)
[PDF] - LUKE : „LUKE: Tief kontextualisierte Entitätsdarstellungen mit entitätsbewusster Selbstaufmerksamkeit“.
EMNLP(2020)
[PDF] [Code] - K-Adapter : „K-Adapter: Mit Adaptern Wissen in vorab trainierte Modelle einbringen“.
ICLR(2021)
[PDF] - KEPLER : „KEPLER: Ein einheitliches Modell für die Einbettung von Wissen und die Darstellung vorab trainierter Sprachen“.
TACL(2021)
[PDF] [Code] - RuleBERT : „RuleBERT: Vermittlung weicher Regeln an vorab trainierte Sprachmodelle“.
EMNLP(2021)
[PDF] [Code] - BeliefBank : „Untersuchung der Rolle von BERT-Token-Darstellungen zur Erklärung der Ergebnisse der Satzprüfung“.
EMNLP(2021)
[PDF] [Code] - Phrase-BERT : „Phrase-BERT: Verbesserte Phraseinbettungen von BERT mit einer Anwendung zur Corpus-Exploration“.
EMNLP(2021)
[PDF] [Code] - „Syntax-erweitertes vorab trainiertes Modell“.
ACL(2021)
[PDF] [Code] - StructFormer : „StructFormer: Gemeinsame unbeaufsichtigte Induktion der Abhängigkeits- und Wahlkreisstruktur durch maskierte Sprachmodellierung“.
ACL(2021)
[PDF] - ERICA : „ERICA: Verbesserung des Entitäts- und Beziehungsverständnisses für vorab trainierte Sprachmodelle durch kontrastives Lernen“.
ACL(2021)
[PDF] [Code] - „Strukturelle Anleitung für Transformer-Sprachmodelle“.
ACL(2021)
[PDF] [Code] - HORNET : „HORNET: Anreicherung vorab trainierter Sprachdarstellungen mit heterogenen Wissensquellen“.
CIKM(2021)
[PDF] - „Redundant fallen lassen, irrelevant schrumpfen: Selektive Wissensinjektion für das Sprachvortraining“.
IJCAI(2021)
[PDF]
Mehrsprachig
- XLM : „Cross-lingual Language Model Pretraining“.
arXiv(2019)
[PDF] [Code] - „Massiv mehrsprachige Satzeinbettungen für die sprachübergreifende Zero-Shot-Übertragung und darüber hinaus“.
TACL(2019)
[PDF] [Code] - UDify : „75 Sprachen, 1 Modell: Universelle Abhängigkeiten universell analysieren“.
EMNLP(2019)
[PDF] [Code] - Unicoder : „Unicoder: Ein universeller Sprachkodierer durch Vortraining mit mehreren sprachübergreifenden Aufgaben“.
EMNLP(2019)
[PDF] - XLM-R : „Unüberwachtes sprachübergreifendes Repräsentationslernen im Maßstab“.
ACL(2020)
[PDF] - „Mehrsprachige Ausrichtung kontextueller Wortdarstellungen“.
ICLR(2020)
[PDF] - mBART : „Mehrsprachiges Denoising-Vortraining für neuronale maschinelle Übersetzung“.
TACL(2020)
[PDF] [Code] - mT5 : „mT5: Ein massiv mehrsprachiger vorab trainierter Text-zu-Text-Transformer“.
NAACL(2021)
[PDF] [Code] - InfoXLM : „InfoXLM: Ein informationstheoretischer Rahmen für die Vorschulung sprachübergreifender Sprachmodelle“.
NAACL(2021)
[PDF] [Code] - „Zuweisung großer Vokabelkapazitäten für das Vortraining mit mehrsprachigen Sprachmodellen“.
EMNLP(2021)
[PDF] [Code] - ERNIE-M : „ERNIE-M: Verbesserte mehrsprachige Darstellung durch Ausrichtung der mehrsprachigen Semantik mit einsprachigen Korpora“.
EMNLP(2021)
[PDF] [Code] - „Eine einfache geometrische Methode für sprachübergreifende sprachliche Transformationen mit vorab trainierten Autoencodern“.
EMNLP(2021)
[PDF] - „Förderung des sprachübergreifenden Transfers durch Selbstlernen mit Unsicherheitsschätzung“.
EMNLP(2021)
[PDF] - „Wie gut ist Ihr Tokenizer? Zur einsprachigen Leistung mehrsprachiger Sprachmodelle“.
ACL(2021)
[PDF] [Code] - „Mehrsprachiges Vortraining mit universellem Abhängigkeitslernen“.
NeurIPS(2021)
[PDF]
Multimodal
- ViLBERT : „ViLBERT: Vortraining aufgabenunabhängiger visiolinguistischer Darstellungen für Seh- und Sprachaufgaben“.
NeuralIPS(2019)
[PDF] - LXMERT : „LXMERT: Lernen von Cross-Modality-Encoder-Darstellungen aus Transformatoren“.
EMNLP(2019)
[PDF] [Code] - VideoBERT : „VideoBERT: Ein gemeinsames Modell für das Lernen von Video- und Sprachdarstellungen“
ICCV(2019)
[PDF] - VisualBERT : „VisualBERT: Eine einfache und leistungsstarke Basis für Vision und Sprache“.
arXiv(2019)
[PDF] - B2T2 : „Fusion erkannter Objekte im Text zur visuellen Beantwortung von Fragen“.
EMNLP(2019)
[PDF] [Code] - VL-BERT : „VL-BERT: Vorschulung generischer visuell-linguistischer Darstellungen“.
ICLR(2020)
[PDF] [Code] - Unicoder-VL : „Unicoder-VL: Ein universeller Encoder für Vision und Sprache durch modalübergreifendes Vortraining“.
AAAI(2020)
[PDF] - VLP : „Unified Vision-Language Pre-Training für Bildunterschriften und VQA“.
AAAI(2020)
[PDF] [Code] - UNITER : „UNITER: Universelles Bild-Text-Darstellungslernen“.
ECCV(2020)
[PDF] [Code] - Oscar : „Oscar: Object-Semantics Aligned Pre-Training for Vision-Language Tasks“.
ECCV(2020)
[PDF] [Code] - „12-in-1: Multitasking-Vision und Sprachrepräsentationslernen“.
CVPR(2020)
[PDF] [Code] - ActBERT : „ActBERT: Lernen global-lokaler Videotextdarstellungen“.
CVPR(2020)
[PDF] - VLN : „Vision-Language-Navigation mit selbstüberwachten logischen Hilfsaufgaben“.
CVPR(2020)
[PDF] - VILLA : „Groß angelegtes kontradiktorisches Training zum Lernen von Vision- und Sprachrepräsentation“.
arXiv(2020)
[PDF] [Code] - ImageBERT : „ImageBERT: Cross-modales Pre-Training mit großen, schwach überwachten Bild-Text-Daten“.
arXiv(2020)
[PDF] - ALIGN : „Verbesserung des visuellen und visuellen Sprachrepräsentationslernens durch Überwachung verrauschter Texte“.
ICML(2021)
[PDF] - ClipBERT : „Weniger ist mehr: ClipBERT für Video- und Sprachlernen durch Sparse Sampling“.
CVPR(2021)
[PDF] [Code] - DALL·E : „Zero-Shot Text-to-Image Generation“.
arXiv(2021)
[PDF] [Code] - CLIP : „Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache“.
arXiv(2021)
[PDF] [Code] - IPT : „Vorab trainierter Bildverarbeitungstransformator“.
CVPR(2021)
[PDF] [Code] - CvT : „CvT: Einführung von Faltungen in Vision Transformers“.
ICCV(2021)
[PDF] [Code] - „Verbesserung des visuellen und visuellen Sprachrepräsentationslernens durch Überwachung verrauschter Texte“.
ICML(2021)
[PDF] - TERA : „TERA: Selbstüberwachtes Lernen der Transformer-Encoder-Darstellung für Sprache“.
TASLP(2021)
[PDF] [Code] - CaiT : „Mit Image Transformers tiefer gehen“.
ICCV(2021)
[PDF] [Code] - ViViT : „ViViT: Ein Video-Vision-Transformer“.
ICCV(2021)
[PDF] [Code] - VirTex : „VirTex: Visuelle Darstellungen aus Textanmerkungen lernen“.
CVPR(2021)
[PDF] [Code] - M6 : „M6: Multi-Modalität-zu-Multi-Modalität-Multitask-Megatransformator für einheitliches Vortraining“.
KDD(2021)
[PDF] - „Untersuchung der Intermodalität: Visuelles Parsen mit Selbstaufmerksamkeit für das Vortraining von Sehvermögen und Sprache“.
NeurIPS(2021)
[PDF] - GilBERT : „GilBERT: Generative Vision-Language Pre-Training für modalitätsunvollständige visuell-linguistische Aufgaben“.
SIGIR(2021)
[PDF]
Informationsabruf
- ORQA : „Latenter Abruf für schwach überwachte Open-Domain-Fragenbeantwortung“.
ACL(2019)
[PDF] - REALM : „REALM: Retrieval-Augmented Language Model Pre-Training“.
arXiv(2020)
[PDF] - RAG : „Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben“.
NeurIPS(2020)
[PDF] [Code] - DPR : „Dense Passage Retrieval for Open-Domain Question Answering“.
EMNLP(2020)
[PDF] [Code] - „Nutzung des Passage Retrieval mit generativen Modellen für die Beantwortung von Open-Domain-Fragen“.
EACL(2021)
[PDF] [Code]
Code
- CodeT5 : „CodeT5: Identifikatorbewusste einheitliche vorab trainierte Encoder-Decoder-Modelle für das Verständnis und die Generierung von Code“.
EMNLP(2021)
[PDF] [Code] - Codex : „Bewertung großer Sprachmodelle, die auf Code trainiert wurden“.
arXiv(2021)
[PDF] [Code]
Andere
- ReasonBERT : „ReasonBERT: Vorgebildet für die Vernunft mit Fernüberwachung.“
EMNLP(2021)
[PDF] [Code] - „Satzengpass-Autoencoder aus Transformer-Sprachmodellen“.
EMNLP(2021)
[PDF] [Code] - „Rechnenkenntnisse verbessern die Kompetenz von Sprachmodellen“.
EMNLP(2021)
[PDF] [Code] - EnsLM : „EnsLM: Ensemble-Sprachmodell für Datenvielfalt durch semantisches Clustering“.
ACL(2021)
[PDF] [Code] - „Reflektierende Dekodierung: Jenseits der unidirektionalen Erzeugung mit handelsüblichen Sprachmodellen“.
ACL(2021)
[PDF] [Code] - BERTAC : „BERTAC: Verbesserung transformatorbasierter Sprachmodelle mit kontradiktorisch vortrainierten Faltungs-Neuronalen Netzen“.
ACL(2021)
[PDF] [Code] - „Natürliches Sprachverständnis mit datenschutzerhaltendem BERT“.
CIKM(2021)
[PDF] - BANG : „BANG: Überbrückung der autoregressiven und nichtautoregressiven Generation mit groß angelegtem Vortraining“.
ICML(2021)
[PDF] [Code]
PLM-Analyse
Wissen
- „Was betrachtet BERT? Eine Analyse der Aufmerksamkeit von BERT“ .
BlackBoxNLP(2019)
[PDF] [Code] - „BERT entdeckt die klassische NLP-Pipeline neu“ .
ACL(2019)
[PDF] - „Wie mehrsprachig ist mehrsprachiges BERT?“
ACL(2019)
[PDF] - „Eine strukturelle Sonde zum Finden der Syntax in Wortdarstellungen“.
NAACL(2019)
[PDF] [Code] - „Sprachmodelle als Wissensdatenbanken?“.
EMNLP(2019)
[PDF] [Code] - „Was lernt BERT über die Struktur der Sprache?“
ACL(2019)
[PDF] [Code] - „Sprachwissen und Übertragbarkeit kontextueller Darstellungen“.
NAACL(2019)
[PDF] - „Bewertung der syntaktischen Fähigkeiten von BERT“.
arXiv(2019)
[PDF] [Code] - „Untersuchung des neuronalen Netzwerkverständnisses natürlicher Sprachargumente“
ACL(2019)
[PDF] - „Wie kontextuell sind kontextualisierte Wortdarstellungen? Vergleich der Geometrie von BERT-, ELMo- und GPT-2-Einbettungen“.
EMNLP(2019)
[PDF] - „Visualisierung und Messung der Geometrie von BERT“.
NeurIPS(2019)
[PDF] - „Entwerfen und Interpretieren von Sonden mit Steuerungsaufgaben“.
EMNLP(2019)
[PDF] - „Open Sesame: Einblick in das Sprachwissen von BERT“ .
BlackboxNLP(2019)
[PDF] [Code] - „Was lernt man aus dem Kontext? Erforschung der Satzstruktur in kontextualisierten Wortdarstellungen“.
ICLR(2019)
[PDF] [Code] - „Commonsense Knowledge Mining aus vorab trainierten Modellen“.
EMNLP(2019)
[PDF] - „Kennen NLP-Modelle Zahlen? Untersuchen der Numeralität bei Einbettungen“.
EMNLP(2019)
[PDF] - „Zur sprachübergreifenden Übertragbarkeit einsprachiger Darstellungen“.
ACL(2020)
[PDF] - „Sprachübergreifende Fähigkeit des mehrsprachigen BERT: Eine empirische Studie“.
ICLR(2020)
[PDF] [Code] - „Was BERT nicht ist: Lehren aus einer neuen Suite psycholinguistischer Diagnostik für Sprachmodelle“.
TACL(2020)
[PDF] [Code] - „Wie viel Wissen können Sie in die Parameter eines Sprachmodells packen?“
EMNLP(2020)
[PDF] [Code] - „Wie können wir wissen, was Sprachmodelle wissen?“
TACL(2020)
[PDF] [Code] - „oLMpics-On What Language Model Pre-Training Captures“ .
TACL(2020)
[PDF] [Code] - „Informationstheoretische Untersuchung mit minimaler Beschreibungslänge“.
EMNLP(2020)
[PDF] [Code] - „Induktion von relationalem Wissen durch BERT“.
AAAI(2020)
[PDF] - AutoPrompt : „AutoPrompt: Wissen aus Sprachmodellen mit automatisch generierten Eingabeaufforderungen ermitteln“.
EMNLP(2020)
[PDF] [Code] - „Emergente Sprachstruktur in künstlichen neuronalen Netzen, die durch Selbstüberwachung trainiert werden“.
PNAS(2020)
[PDF] - „Bewertung des gesunden Menschenverstandes in vorab trainierten Sprachmodellen“.
AAAI(2020)
[PDF] [Code] - „Induktion von relationalem Wissen durch BERT“.
AAAI(2020)
[PDF] - „Bearbeiten von Faktenwissen in Sprachmodellen“.
EMNLP(2021)
[PDF] [Code] - „Wie viele Vortrainingsdaten benötigen Sprachmodelle, um Syntax zu lernen?“
EMNLP(2021)
[PDF] - „Stiefmütter sind gemein und Akademiker sind anmaßend: Was erfahren vortrainierte Sprachmodelle über Sie?“
EMNLP(2021)
[PDF] [Code] - „BERT Wörter in den Mund legen: Navigieren in kontextualisierten Vektorräumen mit Pseudowörtern“.
EMNLP(2021)
[PDF] [Code] - „Frequenzeffekte auf das Lernen syntaktischer Regeln in Transformatoren“.
EMNLP(2021)
[PDF] [Code] - „Untersuchung der Rolle von BERT-Token-Darstellungen zur Erklärung der Ergebnisse der Satzprüfung“ .
EMNLP(2021)
[PDF] [Code] - „Wie ist BERT überrascht? Schichtweise Erkennung sprachlicher Anomalien“.
ACL(2021)
[PDF] [Code] - „Implizite Bedeutungsdarstellungen im neuronalen Sprachmodell“.
ACL(2021)
[PDF] [Code] - „Fachkundige oder fundierte Vermutung? Sprachmodelle als Wissensdatenbanken erneut aufgreifen“.
ACL(2021)
[PDF] [Code]
Robustheit
- „Universelle gegnerische Auslöser für den Angriff und die Analyse von NLP“.
EMNLP(2019)
[PDF] [Code] - „Vortrainierte Transformatoren verbessern die Robustheit außerhalb der Verteilung“.
ACL(2020)
[PDF] [Code] - BERT-ATTACK : „BERT-ATTACK: Gegnerischer Angriff gegen BERT unter Verwendung von BERT“.
EMNLP(2020)
[PDF] [Code] - „Ist BERT wirklich robust? Eine starke Grundlage für Angriffe natürlicher Sprache auf Textklassifizierung und -folge.“
AAAI(2020)
[PDF] [Code] - „Der Teufel steckt im Detail: Einfache Tricks verbessern die systematische Verallgemeinerung von Transformatoren“ .
EMNLP(2021)
[PDF] [Code] - „Sortieren durch das Rauschen: Testen der Robustheit der Informationsverarbeitung in vorab trainierten Sprachmodellen“.
EMNLP(2021)
[PDF] [Code]
Sparsamkeit
- „Sind sechzehn Köpfe wirklich besser als einer?“
NeurIPS(2019)
[PDF] [Code] - „Analyse der Selbstaufmerksamkeit mehrerer Köpfe: Spezialisierte Köpfe erledigen die schwere Arbeit, der Rest kann beschnitten werden“ .
ACL(2019)
[PDF] [Code] - „Die dunklen Geheimnisse von BERT enthüllen“ .
EMNLP(2019)
[PDF] - „Die Lotterieschein-Hypothese für vorab trainierte BERT-Netzwerke“.
NeurIPS(2020)
[PDF] [Code] - „Wenn BERT im Lotto spielt, gewinnen alle Lose“ .
EMNLP(2020)
[PDF] [Code]
Andere
- „Skalierungsgesetze für neuronale Sprachmodelle“.
arXiv(2020)
[PDF] - „Extrahieren von Trainingsdaten aus großen Sprachmodellen“.
arXiv(2020)
[PDF] [Code] - „Über die Gefahren stochastischer Papageien: Können Sprachmodelle zu groß sein??“
FACCT(2021)
[PDF] - „Extrahieren von Trainingsdaten aus großen Sprachmodellen“.
USENIX(2021)
[PDF] [Code] - „Maskierte Sprachmodellierung und die Verteilungshypothese: Order Word Matters Pre-Training for Little“.
EMNLP(2021)
[PDF] [Code] - „Auswirkungen des Parameternormwachstums während des Transformatortrainings: Induktive Vorspannung durch Gradientenabstieg“.
EMNLP(2021)
[PDF] [Code] - „Diskretisierte integrierte Gradienten zur Erklärung von Sprachmodellen“.
EMNLP(2021)
[PDF] [Code] - „Verwenden Langstrecken-Sprachmodelle tatsächlich Fernkontext?“
EMNLP(2021)
[PDF] - „Oberflächenformwettbewerb: Warum die Antwort mit der höchsten Wahrscheinlichkeit nicht immer richtig ist“ .
EMNLP(2021)
[PDF] [Code] - „Einbeziehung von Rest- und Normalisierungsschichten in die Analyse maskierter Sprachmodelle“.
EMNLP(2021)
[PDF] [Code] - „Sequenzlänge ist eine Domäne: Längenbasierte Überanpassung in Transformatormodellen“.
EMNLP(2021)
[PDF] - „Sind vorab trainierte Faltungen besser als vorab trainierte Transformatoren?“
ACL(2021)
[PDF] - „Positionsartefakte breiten sich durch maskierte Sprachmodelleinbettungen aus“.
ACL(2021)
[PDF] - „Wann benötigen Sie Milliarden von Wörtern an Pretraining-Daten?“
ACL(2021)
[PDF] [Code] - „BERT ist für NLP, was AlexNet für CV ist: Können vorab trainierte Sprachmodelle Analogien identifizieren?“
ACL(2021)
[PDF] [Code] - „Untersuchung der induktiven Verzerrung neuronaler Sprachmodelle mit künstlichen Sprachen“.
ACL(2021)
[PDF] [Code] - „Warum helfen vorab trainierte Sprachmodelle bei nachgelagerten Aufgaben? Eine Analyse des Kopf- und Prompt-Tunings“.
NeurIPS(2021)
[PDF]
Effizientes PLM
Ausbildung
- RoBERTa : „RoBERTa: Ein robust optimierter BERT-Pretraining-Ansatz“.
arXiv(2019)
[PDF] [Code] - „Effizientes Training von BERT durch progressives Stapeln“.
ICML(2019)
[PDF] [Code] - Megatron-LM : „Megatron-LM: Training von Sprachmodellen mit mehreren Milliarden Parametern mithilfe von Modellparallelität“.
arXiv(2019)
[PDF] [Code] - ELECTRA : „ELECTRA: Textkodierer vorab als Diskriminatoren statt als Generatoren trainieren“.
ICLR(2020)
[PDF] [Code] - „Großstapeloptimierung für Deep Learning: BERT in 76 Minuten trainieren“ .
ICLR(2020)
[PDF] [Code] - GShard : „GShard: Skalierung riesiger Modelle mit bedingter Berechnung und automatischem Sharding“.
arXiv(2020)
[PDF] - Admin : „Die Schwierigkeit verstehen, Transformatoren zu trainieren“.
EMNLP(2020)
[PDF] [Code] - ZeRO : „ZeRO: Speicheroptimierungen zum Training von Billionen-Parametermodellen“.
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [Code] - Switch Transformers : „Switch Transformers: Skalierung auf Billionen-Parametermodelle mit einfacher und effizienter Sparsity“.
arXiv(2021)
[PDF] [Code] - „Wie man BERT mit einem akademischen Budget ausbildet“ .
EMNLP(2021)
[PDF] - „Optimierung tieferer Transformatoren für kleine Datensätze“.
ACL(2021)
[PDF] [Code] - „EarlyBERT: Effizientes BERT-Training über Frühbucher-Lottoscheine“ .
ACL(2021)
[PDF] [Code]
Schlussfolgerung
- „BERT verliert die Geduld: Schnelle und robuste Schlussfolgerung mit frühem Ausstieg“ .
NeurIPS(2020)
[PDF] [Code] - GAML-BERT : „GAML-BERT: Verbesserung des BERT-Frühausstiegs durch gradientenorientiertes gegenseitiges Lernen“.
EMNLP(2021)
[PDF] - „Effiziente Modelle der nächsten Nachbarsprache“.
EMNLP(2021)
[PDF] [Code] - GhostBERT : „GhostBERT: Generieren Sie mehr Funktionen mit günstigen Vorgängen für BERT“.
ACL(2021)
[PDF] [Code] - LeeBERT : „LeeBERT: Early Exit für BERT mit stufenübergreifender Optimierung gelernt“.
ACL(2021)
[PDF] - „Längenadaptiver Transformator: Einmal trainieren mit Längenabfall, jederzeit mit Suche verwenden“ .
ACL(2021)
[PDF] [Code] - „Destillieren des Wissens von BERT in einfache, vollständig verbundene neuronale Netze für einen effizienten vertikalen Abruf“.
CIKM(2021)
[PDF]
Kompression
- DistilBERT : „DistilBERT, eine destillierte Version von BERT: kleiner, schneller, billiger und leichter.“
arXiv(2019)
[PDF] [Code] - PKD : „Destillation von Patientenwissen für die BERT-Modellkomprimierung“.
EMNLP(2019)
[PDF] [Code] - „Aufgabenspezifisches Wissen von BERT in einfache neuronale Netze destillieren“.
arXiv(2019)
[PDF] - Q8BERT : „Q8BERT: Quantisiertes 8Bit BERT“.
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - ALBERT : „ALBERT: Ein Lite-BERT für selbstüberwachtes Lernen von Sprachrepräsentationen“.
ICLR(2020)
[PDF] [Code] - TinyBERT : „TinyBERT: BERT für das Verständnis natürlicher Sprache destillieren“.
EMNLP(2020)
[PDF] [Code] - Layerdrop : „Reduzieren der Transformatortiefe bei Bedarf mit strukturiertem Dropout“.
ICLR(2020)
[PDF] [Code] - Q-BERT : „Q-BERT: Hessian-basierte Ultra-Low-Precision-Quantisierung von BERT“.
AAAI(2020)
[PDF] - MobileBERT : „MobileBERT: ein kompaktes aufgabenunabhängiges BERT für ressourcenbeschränkte Geräte“.
ACL(2020)
[PDF] [Code] - „Komprimierung von BERT: Untersuchung der Auswirkungen von Gewichtsreduzierung auf das Transferlernen“.
5th Workshop on Representation Learning for NLP(2020)
[PDF] [Code] - MiniLM : „MiniLM: Deep Self-Attention Destillation für aufgabenunabhängige Komprimierung vorab trainierter Transformatoren“.
arXiv(2020)
[PDF] [Code] - FastBERT : „FastBERT: ein selbstdestillierendes BERT mit adaptiver Inferenzzeit“.
ACL(2020)
[PDF] [Code] - DeeBERT : „DeeBERT: Dynamisches Early Exiting zur Beschleunigung der BERT-Inferenz“.
ACL(2020)
[PDF] [Code] - „Komprimierung großer transformatorbasierter Modelle: Eine Fallstudie zu BERT“.
TACL(2021)
[PDF] - „Mit kontinuierlicher Sparsifizierung im Lotto gewinnen“ .
NeurIPS(2020)
[PDF] [Code] - SqueezeBERT : „SqueezeBERT: Was kann Computer Vision NLP über effiziente neuronale Netze beibringen?“
SustaiNLP(2020)
[PDF] - Audio ALBERT : „Audio Albert: Ein Lite Bert für selbstüberwachtes Lernen der Audiodarstellung“.
SLT(2021)
[PDF] [Code] - T2R : „Feinabstimmung vorab trainierter Transformatoren in RNNs“.
EMNLP(2021)
[PDF] [Code] - „Jenseits der erhaltenen Genauigkeit: Bewertung der Loyalität und Robustheit der BERT-Komprimierung“.
EMNLP(2021)
[PDF] [Code] - Meta-KD : „Meta-KD: Ein Meta-Wissensdestillations-Framework für die domänenübergreifende Sprachmodellkomprimierung“.
ACL(2021)
[PDF] [Code] - „Supertickets in vorab trainierten Sprachmodellen: Von der Modellkomprimierung zur Verbesserung der Generalisierung“.
ACL(2021)
[PDF] [Code] - BinaryBERT : „BinaryBERT: Die Grenzen der BERT-Quantisierung überschreiten“.
ACL(2021)
[PDF] [Code] - AutoTinyBERT : „AutoTinyBERT: Automatische Hyperparameter-Optimierung für effiziente vorab trainierte Sprachmodelle“.
ACL(2021)
[PDF] [Code] - „Der Grenznutzen nimmt ab: Erkundung des Mindestwissens für die BERT-Wissensdestillation“.
ACL(2021)
[PDF] [Code] - „Ermöglichung einer leichten Feinabstimmung für die Komprimierung vorab trainierter Sprachmodelle basierend auf Matrixproduktoperatoren“.
ACL(2021)
[PDF] [Code] - NAS-BERT : „NAS-BERT: Aufgabenunabhängige und größenadaptive BERT-Komprimierung mit neuronaler Architektursuche“.
KDD(2021)
[PDF]
PLM-Anpassung
Zweistufig
- „Satzkodierer auf STILTs: Ergänzende Schulung zu Aufgaben mit beschrifteten Daten für Fortgeschrittene“.
arXiv(2018)
[PDF] [Code] - „Wie optimiert man BERT für die Textklassifizierung?“
CCL(2019)
[PDF] - „Hören Sie nicht mit dem Vortraining auf: Passen Sie Sprachmodelle an Domänen und Aufgaben an“.
ACL(2020)
[PDF] [Code] - „Intermediate-Task-Transfer-Lernen mit vortrainierten Sprachmodellen: Wann und warum funktioniert es?“
ACL(2020)
[PDF] - „Worauf sollte man vorab trainieren? Effiziente Auswahl von Zwischenaufgaben“.
EMNLP(2021)
[PDF] [Code] - „Über den Einfluss von Maskierungsrichtlinien in der Vorschulung für Fortgeschrittene“.
EMNLP(2021)
[PDF] - TADPOLE : „TADPOLE: Aufgabenangepasstes Vortraining über AnOmaLy DEtection“.
EMNLP(2021)
[PDF]
Multitasking
- MT-DNN : „Multi-Task Deep Neural Networks for Natural Language Understanding“.
ACL(2019)
[PDF] [Code] - „BAM! Wiedergeborene Multitask-Netzwerke für das Verständnis natürlicher Sprache“.
ACL(2019)
[PDF] [Code] - „Verbesserung multitaskingfähiger tiefer neuronaler Netze durch Wissensdestillation für das Verständnis natürlicher Sprache“.
arXiv(2019)
[PDF] [Code] - GradTS : „GradTS: Eine auf Gradienten basierende automatische Auswahlmethode für Hilfsaufgaben basierend auf Transformatornetzwerken“.
EMNLP(2021)
[PDF] - „Was geht in Ihrem Kopf vor? Emergentes Verhalten in Multitask-Transformatormodellen“.
EMNLP(2021)
[PDF] - MTAdam : „MTAdam: Automatischer Ausgleich mehrerer Trainingsverlustbedingungen“.
EMNLP(2021)
[PDF] - Muppet : „Muppet: Massive Multi-Task-Darstellungen mit Vor-Finetuning“.
EMNLP(2021)
[PDF] - „Die Stammzellhypothese: Dilemma hinter Multi-Task-Lernen mit Transformer-Encodern“.
EMNLP(2021)
[PDF] [Code] - BERTGen : „BERTGen: Multitasking-Generierung durch BERT“.
ACL(2021)
[PDF] [Code] - „Parametereffiziente Multitasking-Feinabstimmung für Transformatoren über gemeinsam genutzte Hypernetzwerke“.
ACL(2021)
[PDF] [Code]
Adapter
- „BERT und PALs: Projizierte Aufmerksamkeitsebenen für eine effiziente Anpassung beim Multitasking-Lernen“.
ICML(2019)
[PDF] [Code] - Adapter : „Parametereffizientes Transferlernen für NLP“.
ICML(2019)
[PDF] [Code] - AdapterDrop : „AdapterDrop: Zur Effizienz von Adaptern in Transformatoren“.
EMNLP(2021)
[PDF] - „Zur Wirksamkeit der adapterbasierten Optimierung für die Anpassung vorab trainierter Sprachmodelle“.
ACL(2021)
[PDF] - „Lernen, aufgabenspezifische Adapter aus der Aufgabenbeschreibung zu generieren“.
ACL(2021)
[PDF] [Code]
Prompt
- PET : „Nutzung von Lückentextfragen für die Textklassifizierung mit wenigen Texten und die Inferenz natürlicher Sprache“.
EACL(2021)
[PDF] [Code] - „Es kommt nicht nur auf die Größe an: Kleine Sprachmodelle sind auch wenige Lerner“ .
NAACL(2021)
[PDF] [Code] - „Präfix-Tuning: Optimierung kontinuierlicher Eingabeaufforderungen für die Generierung“.
arXiv(2021)
[PDF] - LM-BFF : „Vorab trainierte Sprachmodelle für Lernende mit wenigen Schüssen verbessern“.
ACL(2021)
[PDF] [Code] - „Was macht gute Kontextbeispiele für GPT-3 aus?“
arXiv(2021)
[PDF] [Code] - „Die Macht der Skalierung für eine Parameter-effiziente, schnelle Abstimmung“.
EMNLP(2021)
[PDF] [Code] - „Feinabgestimmte Sprachmodelle sind Zero-Shot-Lernende“ .
arXiv(2021)
[PDF] - „Vor der Verwendung kalibrieren: Verbesserung der Few-Shot-Leistung von Sprachmodellen“.
ICML(2021)
[PDF] [Code] - TransPrompt : „TransPrompt: Auf dem Weg zu einem automatisch übertragbaren Eingabeaufforderungs-Framework für die Textklassifizierung mit wenigen Schüssen“.
EMNLP(2021)
[PDF] [Code] - SFLM : „Revisiting Self-training for Few-shot Learning of Language Model“.
EMNLP(2021)
[PDF] [Code] - ADAPET : „Verbesserung und Vereinfachung des Pattern-Exploiting-Trainings“.
EMNLP(2021)
[PDF] [Code]
Andere
- „Abstimmen oder nicht abstimmen? Vortrainierte Darstellungen an verschiedene Aufgaben anpassen“.
RepL4NLP(2019)
[PDF] - „Ein peinlich einfacher Ansatz zum Transferlernen aus vorab trainierten Sprachmodellen“.
NAACL(2019)
[PDF] [Code] - „Feinabstimmung vorab trainierter Sprachmodelle: Gewichtsinitialisierungen, Datenreihenfolgen und frühes Stoppen“.
arXiv(2020)
[PDF] - SMART : „SMART: Robuste und effiziente Feinabstimmung für vorab trainierte Modelle natürlicher Sprache durch prinzipielle regulierte Optimierung“.
EMNLP(2020)
[PDF] [Code] - „Überarbeitung der BERT-Feinabstimmung bei wenigen Stichproben“.
ICLR(2021)
[PDF] - Mirror-BERT : „Schnell, effektiv und selbstüberwacht: Maskierte Sprachmodelle in universelle Lexikon- und Satzkodierer umwandeln“.
EMNLP(2021)
[PDF] [Code] - „Vorab trainieren oder annotieren? Domänenanpassung mit begrenztem Budget“.
EMNLP(2021)
[PDF] [Code] - AVocaDo : „AVocaDo: Strategie zur Anpassung des Wortschatzes an nachgelagerte Domänen“.
EMNLP(2021)
[PDF] - KINDER-TUNING : „Erziehen Sie ein Kind im großen Sprachmodell: Auf dem Weg zu einer effektiven und verallgemeinerbaren Feinabstimmung“.
EMNLP(2021)
[PDF] [Code] - „Zähmung vorab trainierter Sprachmodelle mit N-Gramm-Darstellungen für eine ressourcenarme Domänenanpassung“.
ACL(2021)
[PDF] [Code] - LexFit : „LexFit: Lexikalische Feinabstimmung vorab trainierter Sprachmodelle“.
ACL(2021)
[PDF] [Code] - „Die Auswahl informativer Kontexte verbessert die Feinabstimmung des Sprachmodells“.
ACL(2021)
[PDF] [Code] - „Eine empirische Studie zur Hyperparameteroptimierung zur Feinabstimmung vorab trainierter Sprachmodelle“.
ACL(2021)
[PDF] [Code] - „Wie sollten vorab trainierte Sprachmodelle auf gegnerische Robustheit abgestimmt werden?“
NeurIPS(2021)
[PDF] [Code]