Documents PLM
Contribution de Xiaolei Wang
Les modèles linguistiques pré-entraînés (PLM) à grande échelle tels que BERT et GPT ont remporté un grand succès et constituent une étape importante dans le domaine du PNL.
Dans ce référentiel, nous rassemblons quelques articles PLM représentatifs de ces dernières années sur la base du nombre de citations et d'articles publiés dans les dernières grandes conférences (par exemple, ACL, EMNLP, ICLR, ICML, NeurIPS).
Nous garderons le dépôt à jour et accueillerons les demandes d'extraction et les problèmes ! Merci pour vos étoiles et vos fourchettes !
Table des matières
- Enquête
- Référence
- Conception PLM
- Général
- Connaissance
- Multilingue
- Multimodal
- Récupération d'informations
- Code
- Autres
- Analyse PLM
- Connaissance
- Robustesse
- Rareté
- Autres
- PLM efficace
- Entraînement
- Inférence
- Compression
- Adaptation PLM
- En deux étapes
- Multitâche
- Adaptateur
- Rapide
- Autres
Enquête
- "Modèles pré-entraînés pour le traitement du langage naturel : une enquête".
Science China Technological Sciences(2020)
[PDF] - "Quel *BERT ? Une enquête organisant les encodeurs contextualisés" .
EMNLP(2020)
[PDF] - "Une introduction à la BERTologie : ce que nous savons sur le fonctionnement de BERT" .
TACL(2020)
[PDF] - "Des représentations de mots statiques aux représentations dynamiques : une enquête".
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - "Présentation des modèles basés sur des transformateurs pour les tâches PNL".
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - "Une enquête sur les intégrations contextuelles".
arXiv(2020)
[PDF] - "Le livre de recettes NLP : recettes modernes pour les architectures d'apprentissage profond basées sur des transformateurs" .
IEEE Access(2021)
[PDF] - "Modèles pré-formés : passé, présent et futur".
arXiv(2021)
[PDF] - "Pré-entraîner, inviter et prédire : une étude systématique des méthodes d'incitation dans le traitement du langage naturel".
arXiv(2021)
[PDF] - "AMMUS : une enquête sur les modèles pré-entraînés basés sur des transformateurs dans le traitement du langage naturel".
arXiv(2021)
[PDF] - "Sur les opportunités et les risques des modèles de fondation".
arXiv(2021)
[PDF] - "Changement de paradigme dans le traitement du langage naturel".
arXiv(2021)
[PDF] - "Progrès récents dans le traitement du langage naturel via de grands modèles linguistiques pré-entraînés : une enquête".
arXiv(2021)
[PDF]
Référence
- XNLI : "XNLI : Évaluation des représentations de phrases multilingues".
EMNLP(2018)
[PDF] [Ensemble de données] - GLUE : "GLUE : Une plateforme de référence et d'analyse multitâche pour la compréhension du langage naturel".
ICLR(2019)
[Page d'accueil] - SuperGLUE : "SuperGLUE : une référence plus stricte pour les systèmes de compréhension du langage à usage général".
NeurIPS(2019)
[Page d'accueil] - CLUE : "CLUE : Un critère d'évaluation pour la compréhension de la langue chinoise".
COLING(2020)
[Page d'accueil] - XTREME : "XTREME : Un benchmark multitâche massivement multilingue pour évaluer la généralisation multilingue".
ICML(2020)
[Page d'accueil] - XGLUE : "XGLUE : Un nouvel ensemble de données de référence pour la pré-formation, la compréhension et la génération multilingues".
EMNLP(2020)
[Page d'accueil] - DialoGLUE : "DialoGLUE : une référence de compréhension du langage naturel pour un dialogue orienté tâches".
arXiv(2020)
[Page d'accueil]
Conception PLM
Général
- GPT : "Améliorer la compréhension du langage par une pré-formation générative".
OpenAI(2018)
[Projet] - GPT-2 : "Les modèles linguistiques sont des apprenants multitâches non supervisés".
OpenAI(2019)
[Projet] - BERT : "BERT : Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage".
NAACL(2019)
[PDF] [Code] - XLNet : "XLNet : Pré-entraînement autorégressif généralisé pour la compréhension du langage".
NeurIPS(2019)
[PDF] [Code] - SBERT : "Sentence-BERT : intégrations de phrases utilisant des réseaux BERT siamois".
ACL(2019)
[PDF] [Code] - UniLM : "Pré-formation sur un modèle de langage unifié pour la compréhension et la génération du langage naturel".
NeurIPS(2019)
[PDF] [Code] - MASS : "MASS : Pré-formation de séquence masquée à séquence pour la génération de langage".
ICML(2019)
[PDF] [Code] - Chinese-BERT-wwm : "Pré-formation avec masquage de mots entiers pour le chinois BERT".
arXiv(2019)
[PDF] [Code] - "Préformation pilotée par Cloze des réseaux d'auto-attention".
EMNLP(2019)
[PDF] - "BERT a une bouche et il doit parler : BERT en tant que modèle de langage à champ aléatoire de Markov".
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [Code] - GPT-3 : "Les modèles linguistiques sont des apprenants peu nombreux".
NeurIPS(2020)
[PDF] [Code] - T5 : "Explorer les limites de l'apprentissage par transfert avec un transformateur texte-texte unifié".
JMLR(2020)
[PDF] [Code] - BART : "BART : Pré-formation au débruitage séquence à séquence pour la génération, la traduction et la compréhension du langage naturel".
ACL(2020)
[PDF] [Code] - Poly-encodeurs : "Poly-encodeurs : architectures et stratégies de pré-formation pour une notation multi-phrases rapide et précise".
ICLR(2020)
[PDF] - SpanBERT : "SpanBERT : Améliorer la pré-formation en représentant et en prédisant les spans".
TACL(2020)
[PDF] [Code] - ERNIE 2.0 : "ERNIE 2.0 : Un cadre de pré-formation continue pour la compréhension des langues".
AAAI(2020)
[PDF] [Code] - SemBERT : "BERT sémantique pour la compréhension du langage".
AAAI(2020)
[PDF] [Code] - "Tirer parti des points de contrôle pré-entraînés pour les tâches de génération de séquence".
TACL(2020)
[PDF] [Code] - ProphetNet : "ProphetNet : Prédire le futur N-gram pour la pré-formation séquence à séquence".
EMNLP(2020)
[PDF] - UniLMv2 : "UniLMv2 : modèles de langage pseudo-masqués pour la pré-formation des modèles de langage unifiés".
ICML(2020)
[PDF] [Code] - MacBERT : "Revisiter les modèles pré-entraînés pour le traitement du langage naturel chinois".
EMNLP(2020)
[PDF] [Code] - MPNet : "MPNet : Pré-formation masquée et permutée pour la compréhension du langage".
arXiv(2020)
[PDF] [Code] - DEBERTA : "DeBERTa : BERT amélioré par décodage avec attention démêlée".
ICLR(2021)
[PDF] [Code] - PALM : "PALM : Pré-entraînement d'un modèle de langage auto-encodage et autorégressif pour une génération conditionnée par le contexte".
EMNLP(2020)
[PDF] - Optimus : "Optimus : Organisation de phrases via une modélisation pré-entraînée d'un espace latent".
EMNLP(2020)
[PDF] [Code] - "L'auto-formation améliore la pré-formation à la compréhension du langage naturel".
NAACL(2021)
[PDF] [Code] - CAPT : "Repenser l'auto-encodage débruité dans la pré-formation linguistique".
EMNLP(2021)
[PDF] - "Alternatives de pré-formation frustrantes et simples à la modélisation du langage masqué".
EMNLP(2021)
[PDF] [Code] - « Convolutions et auto-attention : réinterprétation des positions relatives dans des modèles linguistiques pré-entraînés ».
ACL(2021)
[PDF] [Code] - ERNIE-Doc : "ERNIE-Doc : Un transformateur rétrospectif de modélisation de documents longs".
ACL(2021)
[PDF] [Code] - "Pré-formation sur la représentation linguistique universelle".
ACL(2021)
[PDF] [Code]
Connaissance
- ERNIE(Baidu) : "ERNIE : Représentation améliorée grâce à l'intégration des connaissances".
arXiv(2019)
[PDF] [Code] - KnowBert : "Représentations contextuelles de mots améliorées par les connaissances".
EMNLP(2019)
[PDF] - ERNIE(Tsinghua) : "ERNIE : Représentation linguistique améliorée avec des entités informatives".
ACL(2019)
[PDF] [Code] - COMET : "COMET : Transformateurs de bon sens pour la construction automatique de graphes de connaissances".
ACL(2019)
[PDF] [Code] - K-BERT : "K-BERT : Activation de la représentation linguistique avec Knowledge Graph".
AAAI(2020)
[PDF] [Code] - WKLM : "Encyclopédie pré-entraînée : modèle linguistique pré-entraîné à connaissances faiblement supervisé".
ICLR(2020)
[PDF] - LUKE : "LUKE : Représentations d'entités contextualisées en profondeur avec une auto-attention consciente de l'entité".
EMNLP(2020)
[PDF] [Code] - K-Adapter : "K-Adapter : Insuffler des connaissances dans des modèles pré-entraînés avec des adaptateurs".
ICLR(2021)
[PDF] - KEPLER : "KEPLER : Un modèle unifié pour l'intégration des connaissances et la représentation linguistique pré-entraînée".
TACL(2021)
[PDF] [Code] - RuleBERT : "RuleBERT : Enseigner des règles souples à des modèles de langage pré-entraînés".
EMNLP(2021)
[PDF] [Code] - BeliefBank : "Explorer le rôle des représentations de jetons BERT pour expliquer les résultats de l'analyse des phrases".
EMNLP(2021)
[PDF] [Code] - Phrase-BERT : "Phrase-BERT : intégrations de phrases améliorées de BERT avec une application à l'exploration de corpus".
EMNLP(2021)
[PDF] [Code] - "Modèle pré-entraîné à syntaxe améliorée".
ACL(2021)
[PDF] [Code] - StructFormer : "StructFormer : induction conjointe non supervisée de la structure de dépendance et de circonscription à partir de la modélisation de langage masqué".
ACL(2021)
[PDF] - ERICA : "ERICA : Améliorer la compréhension des entités et des relations pour les modèles linguistiques pré-entraînés via l'apprentissage contrastif".
ACL(2021)
[PDF] [Code] - "Conseils structurels pour les modèles de langage de transformateur".
ACL(2021)
[PDF] [Code] - HORNET : "HORNET : Enrichir les représentations linguistiques pré-entraînées avec des sources de connaissances hétérogènes".
CIKM(2021)
[PDF] - "Supprimer les redondances, réduire les choses inutiles : injection sélective de connaissances pour la préformation linguistique".
IJCAI(2021)
[PDF]
Multilingue
- XLM : "Pré-formation du modèle linguistique multilingue".
arXiv(2019)
[PDF] [Code] - "Intégration de phrases massivement multilingues pour le transfert multilingue Zero-Shot et au-delà".
TACL(2019)
[PDF] [Code] - UDify : "75 langues, 1 modèle : analyse universelle des dépendances universelles".
EMNLP(2019)
[PDF] [Code] - Unicoder : "Unicoder : un encodeur de langage universel par pré-formation avec plusieurs tâches multilingues".
EMNLP(2019)
[PDF] - XLM-R : "Apprentissage non supervisé des représentations multilingues à grande échelle".
ACL(2020)
[PDF] - "Alignement multilingue des représentations contextuelles de mots".
ICLR(2020)
[PDF] - mBART : "Pré-formation au débruitage multilingue pour la traduction automatique neuronale".
TACL(2020)
[PDF] [Code] - mT5 : "mT5 : un transformateur texte-texte pré-entraîné massivement multilingue".
NAACL(2021)
[PDF] [Code] - InfoXLM : "InfoXLM : Un cadre théorique de l'information pour la pré-formation sur les modèles linguistiques multilingues".
NAACL(2021)
[PDF] [Code] - "Allouer une grande capacité de vocabulaire pour la pré-formation de modèles linguistiques multilingues".
EMNLP(2021)
[PDF] [Code] - ERNIE-M : "ERNIE-M : Représentation multilingue améliorée en alignant la sémantique multilingue avec les corpus monolingues".
EMNLP(2021)
[PDF] [Code] - "Une méthode géométrique simple pour les transformations linguistiques multilingues avec des encodeurs automatiques pré-entraînés".
EMNLP(2021)
[PDF] - "Améliorer le transfert multilingue via l'auto-apprentissage avec estimation de l'incertitude".
EMNLP(2021)
[PDF] - "Quelle est la qualité de votre Tokenizer ? Sur les performances monolingues des modèles linguistiques multilingues" .
ACL(2021)
[PDF] [Code] - "Pré-formation multilingue avec apprentissage universel par dépendance".
NeurIPS(2021)
[PDF]
Multimodal
- ViLBERT : "ViLBERT : Pré-entraînement de représentations visiolinguistiques indépendantes des tâches pour les tâches de vision et de langage".
NeuralIPS(2019)
[PDF] - LXMERT : "LXMERT : Apprentissage des représentations d'encodeurs multimodaux à partir de transformateurs".
EMNLP(2019)
[PDF] [Code] - VideoBERT : "VideoBERT : Un modèle commun pour l'apprentissage de la vidéo et de la représentation linguistique"
ICCV(2019)
[PDF] - VisualBERT : "VisualBERT : Une base de référence simple et performante pour la vision et le langage".
arXiv(2019)
[PDF] - B2T2 : "Fusion des Objets Détectés dans le Texte pour la Réponse Visuelle aux Questions".
EMNLP(2019)
[PDF] [Code] - VL-BERT : "VL-BERT : Pré-formation aux Représentations Visuo-Linguistiques Génériques".
ICLR(2020)
[PDF] [Code] - Unicoder-VL : "Unicoder-VL : un encodeur universel pour la vision et le langage par pré-formation multimodale".
AAAI(2020)
[PDF] - VLP : "Pré-formation au langage de vision unifié pour le sous-titrage d'images et le VQA".
AAAI(2020)
[PDF] [Code] - UNITER : "UNITER : Apprentissage universel de la représentation image-TEXTE".
ECCV(2020)
[PDF] [Code] - Oscar : "Oscar : Pré-formation alignée sur la sémantique objet pour les tâches de vision et de langage".
ECCV(2020)
[PDF] [Code] - "12-en-1 : apprentissage multitâche de la vision et de la représentation du langage".
CVPR(2020)
[PDF] [Code] - ActBERT : "ActBERT : Apprentissage des représentations vidéo-texte globales-locales".
CVPR(2020)
[PDF] - VLN : "Navigation Vision-Langage avec tâches de raisonnement auxiliaires auto-supervisées".
CVPR(2020)
[PDF] - VILLA : "Formation contradictoire à grande échelle pour l'apprentissage de la vision et de la représentation linguistique".
arXiv(2020)
[PDF] [Code] - ImageBERT : "ImageBERT : Pré-formation multimodale avec des données image-texte à grande échelle et faiblement supervisées".
arXiv(2020)
[PDF] - ALIGN : "Amélioration de l'apprentissage de la représentation visuelle et vision-langage avec la supervision de textes bruyants".
ICML(2021)
[PDF] - ClipBERT : "Moins, c'est plus : ClipBERT pour l'apprentissage vidéo et linguistique via un échantillonnage clairsemé".
CVPR(2021)
[PDF] [Code] - DALL·E : "Génération texte-image Zero-Shot".
arXiv(2021)
[PDF] [Code] - CLIP : "Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel".
arXiv(2021)
[PDF] [Code] - IPT : "Transformateur de traitement d'image pré-entraîné".
CVPR(2021)
[PDF] [Code] - CvT : "CvT : Présentation des convolutions aux transformateurs de vision".
ICCV(2021)
[PDF] [Code] - "Amélioration de l'apprentissage de la représentation visuelle et visuelle-langageuse avec la supervision de textes bruyants".
ICML(2021)
[PDF] - TERA : "TERA : Apprentissage Auto-Supervisé de la Représentation d'Encodeur de Transformateur pour la Parole".
TASLP(2021)
[PDF] [Code] - CaiT : "Aller plus loin avec Image Transformers".
ICCV(2021)
[PDF] [Code] - ViViT : "ViViT : Un transformateur de vision vidéo".
ICCV(2021)
[PDF] [Code] - VirTex : "VirTex : Apprentissage des représentations visuelles à partir d'annotations textuelles".
CVPR(2021)
[PDF] [Code] - M6 : "M6 : Méga-transformateur multitâches multi-modalités à multi-modalités pour un pré-entraînement unifié".
KDD(2021)
[PDF] - « Sonder l'intermodalité : analyse visuelle avec auto-attention pour la pré-formation en vision et en langage ».
NeurIPS(2021)
[PDF] - GilBERT : "GilBERT : Pré-formation générative en vision-langage pour des tâches visuo-linguistiques incomplètes en modalité".
SIGIR(2021)
[PDF]
Récupération d'informations
- ORQA : "Récupération latente pour la réponse aux questions de domaine ouvert faiblement supervisé".
ACL(2019)
[PDF] - REALM : "REALM : Pré-formation sur le modèle de langage augmenté par récupération".
arXiv(2020)
[PDF] - RAG : "Génération augmentée par récupération pour les tâches PNL à forte intensité de connaissances".
NeurIPS(2020)
[PDF] [Code] - DPR : "Récupération de passages denses pour répondre aux questions en domaine ouvert".
EMNLP(2020)
[PDF] [Code] - "Tirer parti de la récupération de passages avec des modèles génératifs pour la réponse aux questions de domaine ouvert".
EACL(2021)
[PDF] [Code]
Code
- CodeT5 : "CodeT5 : Modèles d'encodeur-décodeur unifiés pré-entraînés prenant en compte les identifiants pour la compréhension et la génération de code".
EMNLP(2021)
[PDF] [Code] - Codex : "Évaluation de grands modèles de langage formés au code".
arXiv(2021)
[PDF] [Code]
Autres
- ReasonBERT : "ReasonBERT : Pré-entraîné à raisonner avec une supervision à distance".
EMNLP(2021)
[PDF] [Code] - "Auto-encodeurs de goulot d'étranglement de phrase à partir de modèles de langage de transformateur".
EMNLP(2021)
[PDF] [Code] - "Le calcul améliore l'alphabétisation des modèles linguistiques".
EMNLP(2021)
[PDF] [Code] - EnsLM : "EnsLM : Modèle de Langage d'Ensemble pour la Diversité des Données par Clustering Sémantique".
ACL(2021)
[PDF] [Code] - "Décodage réflexif : au-delà de la génération unidirectionnelle avec des modèles de langage disponibles dans le commerce".
ACL(2021)
[PDF] [Code] - BERTAC : "BERTAC : Amélioration des modèles de langage basés sur des transformateurs avec des réseaux de neurones convolutifs pré-entraînés de manière contradictoire".
ACL(2021)
[PDF] [Code] - "Compréhension du langage naturel avec BERT préservant la confidentialité".
CIKM(2021)
[PDF] - BANG : "BANG : relier la génération autorégressive et non autorégressive avec un pré-entraînement à grande échelle".
ICML(2021)
[PDF] [Code]
Analyse PLM
Connaissance
- "Que regarde BERT ? Une analyse de l'attention de BERT" .
BlackBoxNLP(2019)
[PDF] [Code] - "BERT redécouvre le pipeline PNL classique".
ACL(2019)
[PDF] - "Dans quelle mesure le BERT multilingue est-il multilingue?".
ACL(2019)
[PDF] - "Une sonde structurelle pour trouver la syntaxe dans les représentations de mots".
NAACL(2019)
[PDF] [Code] - "Les modèles linguistiques comme bases de connaissances?".
EMNLP(2019)
[PDF] [Code] - « Qu'apprend BERT sur la structure du langage ?
ACL(2019)
[PDF] [Code] - "Connaissances linguistiques et transférabilité des représentations contextuelles".
NAACL(2019)
[PDF] - "Évaluer les capacités syntaxiques de BERT".
arXiv(2019)
[PDF] [Code] - « Sonder la compréhension du réseau neuronal des arguments en langage naturel »
ACL(2019)
[PDF] - "Dans quelle mesure les représentations de mots contextualisées sont-elles contextuelles ? Comparaison de la géométrie des intégrations BERT, ELMo et GPT-2" .
EMNLP(2019)
[PDF] - "Visualiser et mesurer la géométrie de BERT".
NeurIPS(2019)
[PDF] - "Conception et interprétation de sondes avec des tâches de contrôle".
EMNLP(2019)
[PDF] - "Open Sesame : découvrir les connaissances linguistiques de BERT".
BlackboxNLP(2019)
[PDF] [Code] - "Qu'apprenez-vous du contexte ? Sonder la structure des phrases dans les représentations de mots contextualisées" .
ICLR(2019)
[PDF] [Code] - "Exploration de connaissances de bon sens à partir de modèles pré-entraînés".
EMNLP(2019)
[PDF] - "Les modèles PNL connaissent-ils les chiffres ? Sonder la numératie dans les intégrations" .
EMNLP(2019)
[PDF] - "Sur la transférabilité interlingue des représentations monolingues".
ACL(2020)
[PDF] - "Capacité multilingue du BERT multilingue : une étude empirique".
ICLR(2020)
[PDF] [Code] - "Ce que BERT n'est pas : les leçons d'une nouvelle suite de diagnostics psycholinguistiques pour les modèles linguistiques".
TACL(2020)
[PDF] [Code] - « Quelle quantité de connaissances pouvez-vous intégrer dans les paramètres d'un modèle de langage ?
EMNLP(2020)
[PDF] [Code] - « Comment pouvons-nous savoir ce que savent les modèles linguistiques ?
TACL(2020)
[PDF] [Code] - "oLMpics-Sur ce que la pré-formation du modèle de langage capture".
TACL(2020)
[PDF] [Code] - "Sondage théorique de l'information avec une longueur de description minimale".
EMNLP(2020)
[PDF] [Code] - "Induire des connaissances relationnelles de BERT".
AAAI(2020)
[PDF] - AutoPrompt : "AutoPrompt : obtention de connaissances à partir de modèles de langage avec des invites générées automatiquement".
EMNLP(2020)
[PDF] [Code] - "Structure linguistique émergente dans les réseaux de neurones artificiels formés par auto-supervision".
PNAS(2020)
[PDF] - "Évaluer le bon sens dans les modèles linguistiques pré-entraînés".
AAAI(2020)
[PDF] [Code] - "Induire des connaissances relationnelles de BERT".
AAAI(2020)
[PDF] - "Modification des connaissances factuelles dans les modèles linguistiques".
EMNLP(2021)
[PDF] [Code] - « De quelle quantité de données de pré-entraînement les modèles de langage ont-ils besoin pour apprendre la syntaxe ?
EMNLP(2021)
[PDF] - « Les belles-mères sont méchantes et les universitaires sont prétentieux : qu'est-ce que les modèles linguistiques pré-entraînés apprennent sur vous ?
EMNLP(2021)
[PDF] [Code] - "Mettre des mots dans la bouche de BERT : naviguer dans des espaces vectoriels contextualisés avec des pseudo-mots".
EMNLP(2021)
[PDF] [Code] - "Effets de fréquence sur l'apprentissage des règles syntaxiques dans les transformateurs".
EMNLP(2021)
[PDF] [Code] - "Explorer le rôle des représentations de jetons BERT pour expliquer les résultats de l'analyse des phrases".
EMNLP(2021)
[PDF] [Code] - "Comment BERT est-il surpris ? Détection par couches des anomalies linguistiques" .
ACL(2021)
[PDF] [Code] - "Représentations implicites de la signification dans le modèle de langage neuronal".
ACL(2021)
[PDF] [Code] - "Devination bien informée ou instruite ? Revisiter les modèles linguistiques en tant que bases de connaissances" .
ACL(2021)
[PDF] [Code]
Robustesse
- "Déclencheurs contradictoires universels pour attaquer et analyser la PNL".
EMNLP(2019)
[PDF] [Code] - "Les transformateurs pré-entraînés améliorent la robustesse hors distribution".
ACL(2020)
[PDF] [Code] - BERT-ATTACK : "BERT-ATTACK : attaque contradictoire contre BERT utilisant BERT".
EMNLP(2020)
[PDF] [Code] - "BERT est-il vraiment robuste ? Une base de référence solide pour les attaques en langage naturel sur la classification et l'implication de textes" .
AAAI(2020)
[PDF] [Code] - "Le diable est dans les détails : des astuces simples améliorent la généralisation systématique des transformateurs".
EMNLP(2021)
[PDF] [Code] - "Trier le bruit : tester la robustesse du traitement de l'information dans des modèles linguistiques pré-entraînés".
EMNLP(2021)
[PDF] [Code]
Rareté
- « Seize têtes valent-elles vraiment mieux qu'une ?
NeurIPS(2019)
[PDF] [Code] - "Analyse de l'auto-attention multi-têtes : les têtes spécialisées font le gros du travail, le reste peut être élagué".
ACL(2019)
[PDF] [Code] - "Révéler les sombres secrets de BERT".
EMNLP(2019)
[PDF] - "L'hypothèse des billets de loterie pour les réseaux BERT pré-formés".
NeurIPS(2020)
[PDF] [Code] - "Quand BERT joue à la loterie, tous les billets sont gagnants".
EMNLP(2020)
[PDF] [Code]
Autres
- "Lois de mise à l'échelle pour les modèles de langage neuronal".
arXiv(2020)
[PDF] - "Extraire des données de formation à partir de grands modèles de langage".
arXiv(2020)
[PDF] [Code] - "Sur les dangers des perroquets stochastiques : les modèles linguistiques peuvent-ils être trop grands ? ?".
FACCT(2021)
[PDF] - "Extraire des données de formation à partir de grands modèles de langage".
USENIX(2021)
[PDF] [Code] - "Modélisation du langage masqué et hypothèse distributionnelle : la pré-formation de Order Word Matters pour peu".
EMNLP(2021)
[PDF] [Code] - "Effets de la croissance des normes de paramètres pendant la formation du transformateur : biais inductif dû à la descente de gradient".
EMNLP(2021)
[PDF] [Code] - "Gradients intégrés discrétisés pour expliquer les modèles de langage".
EMNLP(2021)
[PDF] [Code] - « Les modèles linguistiques à longue portée utilisent-ils réellement un contexte à longue portée ?
EMNLP(2021)
[PDF] - « Concours de forme de surface : pourquoi la réponse la plus probable n'est pas toujours correcte ».
EMNLP(2021)
[PDF] [Code] - "Incorporation de couches résiduelles et de normalisation dans l'analyse des modèles de langage masqué".
EMNLP(2021)
[PDF] [Code] - "La longueur de séquence est un domaine : surajustement basé sur la longueur dans les modèles de transformateur".
EMNLP(2021)
[PDF] - « Les convolutions pré-entraînées sont-elles meilleures que les transformateurs pré-entraînés ?
ACL(2021)
[PDF] - "Les artefacts de position se propagent via des intégrations de modèles de langage masqués".
ACL(2021)
[PDF] - « Quand avez-vous besoin de milliards de mots de données de pré-entraînement ?
ACL(2021)
[PDF] [Code] - « BERT est à la PNL ce qu'AlexNet est au CV : les modèles linguistiques pré-entraînés peuvent-ils identifier des analogies ?
ACL(2021)
[PDF] [Code] - "Examen du biais inductif des modèles de langage neuronal avec des langages artificiels".
ACL(2021)
[PDF] [Code] - "Pourquoi les modèles de langage pré-entraînés aident-ils dans les tâches en aval ? Une analyse du réglage de la tête et des invites" .
NeurIPS(2021)
[PDF]
PLM efficace
Entraînement
- RoBERTa : "RoBERTa : une approche de pré-formation BERT robustement optimisée".
arXiv(2019)
[PDF] [Code] - "Formation efficace du BERT par empilage progressif".
ICML(2019)
[PDF] [Code] - Megatron-LM : "Megatron-LM : Formation de modèles de langage de paramètres de plusieurs milliards à l'aide du parallélisme de modèles".
arXiv(2019)
[PDF] [Code] - ELECTRA : "ELECTRA : Pré-formation des encodeurs de texte comme discriminateurs plutôt que générateurs".
ICLR(2020)
[PDF] [Code] - "Optimisation par grands lots pour le Deep Learning : formation BERT en 76 minutes".
ICLR(2020)
[PDF] [Code] - GShard : "GShard : mise à l'échelle de modèles géants avec calcul conditionnel et partitionnement automatique".
arXiv(2020)
[PDF] - Admin : "Comprendre la difficulté de former des transformateurs".
EMNLP(2020)
[PDF] [Code] - ZeRO : "ZeRO : optimisations de la mémoire vers la formation de modèles de paramètres d'un milliard de milliards".
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [Code] - Switch Transformers : "Switch Transformers : mise à l'échelle jusqu'à des milliards de modèles de paramètres avec une parcimonie simple et efficace".
arXiv(2021)
[PDF] [Code] - "Comment former le BERT avec un budget académique".
EMNLP(2021)
[PDF] - "Optimiser des transformateurs plus profonds sur de petits ensembles de données".
ACL(2021)
[PDF] [Code] - "EarlyBERT : formation BERT efficace via des billets de loterie anticipés" .
ACL(2021)
[PDF] [Code]
Inférence
- "BERT perd patience : inférence rapide et robuste avec sortie anticipée".
NeurIPS(2020)
[PDF] [Code] - GAML-BERT : "GAML-BERT : Amélioration de la sortie anticipée du BERT grâce à un apprentissage mutuel aligné sur les gradients".
EMNLP(2021)
[PDF] - "Modèles linguistiques efficaces du voisin le plus proche".
EMNLP(2021)
[PDF] [Code] - GhostBERT : "GhostBERT : Générez plus de fonctionnalités avec des opérations bon marché pour BERT".
ACL(2021)
[PDF] [Code] - LeeBERT : "LeeBERT : sortie anticipée apprise pour BERT avec optimisation multi-niveaux".
ACL(2021)
[PDF] - "Transformateur adaptatif de longueur : entraînez-vous une fois avec une baisse de longueur, utilisez-le à tout moment avec la recherche".
ACL(2021)
[PDF] [Code] - "Distiller les connaissances du BERT en réseaux neuronaux simples entièrement connectés pour une récupération verticale efficace".
CIKM(2021)
[PDF]
Compression
- DistilBERT : "DistilBERT, une version distillée de BERT : plus petite, plus rapide, moins chère et plus légère".
arXiv(2019)
[PDF] [Code] - PKD : "Distillation des connaissances des patients pour la compression du modèle BERT".
EMNLP(2019)
[PDF] [Code] - "Distiller les connaissances spécifiques à une tâche du BERT en réseaux de neurones simples".
arXiv(2019)
[PDF] - Q8BERT : "Q8BERT : BERT 8 bits quantifié".
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - ALBERT : "ALBERT : Un BERT léger pour l'apprentissage auto-supervisé des représentations linguistiques".
ICLR(2020)
[PDF] [Code] - TinyBERT : "TinyBERT : distiller BERT pour la compréhension du langage naturel".
EMNLP(2020)
[PDF] [Code] - Layerdrop : "Réduction de la profondeur du transformateur à la demande avec abandon structuré".
ICLR(2020)
[PDF] [Code] - Q-BERT : "Q-BERT : quantification de BERT à très faible précision basée sur la Hesse".
AAAI(2020)
[PDF] - MobileBERT : "MobileBERT : un BERT compact indépendant des tâches pour les appareils à ressources limitées".
ACL(2020)
[PDF] [Code] - "Compression de BERT : étude des effets de la réduction du poids sur l'apprentissage par transfert".
5th Workshop on Representation Learning for NLP(2020)
[PDF] [Code] - MiniLM : "MiniLM : Distillation profonde d'auto-attention pour la compression indépendante des tâches de transformateurs pré-entraînés".
arXiv(2020)
[PDF] [Code] - FastBERT : "FastBERT : un BERT auto-distillant avec temps d'inférence adaptatif".
ACL(2020)
[PDF] [Code] - DeeBERT : "DeeBERT : sortie anticipée dynamique pour accélérer l'inférence BERT".
ACL(2020)
[PDF] [Code] - "Compression de modèles basés sur un transformateur à grande échelle : une étude de cas sur BERT".
TACL(2021)
[PDF] - "Gagner à la loterie avec une sparsification continue".
NeurIPS(2020)
[PDF] [Code] - SqueezeBERT : "SqueezeBERT : Que peut enseigner la vision par ordinateur en PNL sur les réseaux neuronaux efficaces ?".
SustaiNLP(2020)
[PDF] - Audio ALBERT : "Audio Albert : Un Lite Bert pour l'apprentissage auto-supervisé de la représentation audio".
SLT(2021)
[PDF] [Code] - T2R : "Réglage fin des transformateurs pré-entraînés en RNN".
EMNLP(2021)
[PDF] [Code] - "Au-delà de la précision préservée : évaluation de la fidélité et de la robustesse de la compression BERT".
EMNLP(2021)
[PDF] [Code] - Meta-KD : "Meta-KD : un cadre de distillation de méta-connaissances pour la compression de modèles de langage entre domaines".
ACL(2021)
[PDF] [Code] - "Super Tickets dans des modèles de langage pré-entraînés : de la compression de modèles à l'amélioration de la généralisation".
ACL(2021)
[PDF] [Code] - BinaryBERT : "BinaryBERT : repousser les limites de la quantification BERT".
ACL(2021)
[PDF] [Code] - AutoTinyBERT : "AutoTinyBERT : optimisation automatique des hyper-paramètres pour des modèles de langage pré-entraînés efficaces".
ACL(2021)
[PDF] [Code] - "L'utilité marginale diminue : explorer les connaissances minimales pour la distillation des connaissances BERT".
ACL(2021)
[PDF] [Code] - "Permettre un réglage fin léger pour la compression de modèles de langage pré-entraînés basés sur des opérateurs de produits matriciels".
ACL(2021)
[PDF] [Code] - NAS-BERT : "NAS-BERT : compression BERT indépendante des tâches et de taille adaptative avec recherche d'architecture neuronale".
KDD(2021)
[PDF]
Adaptation PLM
En deux étapes
- "Encodeurs de phrases sur STILT : formation supplémentaire sur les tâches intermédiaires de données étiquetées".
arXiv(2018)
[PDF] [Code] - « Comment affiner BERT pour la classification de texte ?
CCL(2019)
[PDF] - "N'arrêtez pas la pré-formation : adaptez les modèles de langage aux domaines et aux tâches".
ACL(2020)
[PDF] [Code] - "Apprentissage par transfert de tâches intermédiaires avec des modèles linguistiques pré-entraînés : quand et pourquoi cela fonctionne-t-il ?".
ACL(2020)
[PDF] - "Sur quoi se pré-former ? Sélection efficace des tâches intermédiaires" .
EMNLP(2021)
[PDF] [Code] - "Sur l'influence des politiques de masquage dans la pré-formation intermédiaire".
EMNLP(2021)
[PDF] - TADPOLE : "TADPOLE : Pré-formation adaptée aux tâches via AnOmaLy DEtection".
EMNLP(2021)
[PDF]
Multitâche
- MT-DNN : "Réseaux de neurones profonds multitâches pour la compréhension du langage naturel".
ACL(2019)
[PDF] [Code] - "BAM! Réseaux multitâches Born-Again pour la compréhension du langage naturel".
ACL(2019)
[PDF] [Code] - "Amélioration des réseaux neuronaux profonds multitâches via la distillation des connaissances pour la compréhension du langage naturel".
arXiv(2019)
[PDF] [Code] - GradTS : "GradTS : une méthode de sélection automatique de tâches auxiliaires basée sur un gradient basée sur des réseaux de transformateurs".
EMNLP(2021)
[PDF] - "Qu'avez-vous en tête ? Comportement émergent dans les modèles de transformateurs multitâches" .
EMNLP(2021)
[PDF] - MTAdam : "MTAdam : Équilibrage automatique de plusieurs conditions de perte d'entraînement".
EMNLP(2021)
[PDF] - Muppet : "Muppet : représentations multitâches massives avec pré-réglage précis".
EMNLP(2021)
[PDF] - "L'hypothèse des cellules souches : dilemme derrière l'apprentissage multitâche avec les encodeurs de transformateur" .
EMNLP(2021)
[PDF] [Code] - BERTGen : "BERTGen : Génération multitâche via BERT".
ACL(2021)
[PDF] [Code] - "Réglage précis multi-tâches efficace en termes de paramètres pour les transformateurs via des hyperréseaux partagés".
ACL(2021)
[PDF] [Code]
Adaptateur
- "BERT et PAL : couches d'attention projetées pour une adaptation efficace dans l'apprentissage multitâche".
ICML(2019)
[PDF] [Code] - Adaptateur : "Apprentissage par transfert efficace des paramètres pour la PNL".
ICML(2019)
[PDF] [Code] - AdapterDrop : "AdapterDrop : Sur l'efficacité des adaptateurs dans les transformateurs".
EMNLP(2021)
[PDF] - "Sur l'efficacité du réglage basé sur un adaptateur pour l'adaptation de modèles de langage pré-entraînés".
ACL(2021)
[PDF] - "Apprendre à générer des adaptateurs spécifiques à une tâche à partir de la description de la tâche".
ACL(2021)
[PDF] [Code]
Rapide
- PET : "Exploiter les questions Cloze pour la classification de texte en quelques étapes et l'inférence en langage naturel".
EACL(2021)
[PDF] [Code] - "Ce n'est pas seulement la taille qui compte : les petits modèles de langage sont également des apprenants peu nombreux" .
NAACL(2021)
[PDF] [Code] - « Réglage des préfixes : optimisation des invites continues pour la génération ».
arXiv(2021)
[PDF] - LM-BFF : "Améliorer les modèles linguistiques pré-entraînés pour les apprenants débutants".
ACL(2021)
[PDF] [Code] - « Qu'est-ce qui fait de bons exemples contextuels pour GPT-3 ?
arXiv(2021)
[PDF] [Code] - "La puissance de l'échelle pour un réglage rapide et efficace des paramètres".
EMNLP(2021)
[PDF] [Code] - "Les modèles linguistiques affinés sont des apprenants zéro-shot".
arXiv(2021)
[PDF] - "Calibrer avant utilisation : améliorer les performances en quelques étapes des modèles de langage".
ICML(2021)
[PDF] [Code] - TransPrompt : "TransPrompt : Vers un cadre d'invite transférable automatique pour la classification de texte en quelques plans".
EMNLP(2021)
[PDF] [Code] - SFLM : "Revisiter l'auto-formation pour un apprentissage en quelques étapes du modèle linguistique".
EMNLP(2021)
[PDF] [Code] - ADAPET : "Améliorer et simplifier la formation à l'exploitation de modèles".
EMNLP(2021)
[PDF] [Code]
Autres
- « Ajuster ou ne pas ajuster ? Adaptation des représentations pré-entraînées à diverses tâches ».
RepL4NLP(2019)
[PDF] - "Une approche d'une simplicité embarrassante pour l'apprentissage par transfert à partir de modèles linguistiques pré-entraînés".
NAACL(2019)
[PDF] [Code] - "Affiner les modèles de langage pré-entraînés : initialisations de poids, commandes de données et arrêt anticipé".
arXiv(2020)
[PDF] - SMART : "SMART : réglage fin robuste et efficace pour des modèles de langage naturel pré-entraînés grâce à une optimisation régularisée fondée sur des principes".
EMNLP(2020)
[PDF] [Code] - "Revisiter le réglage fin du BERT sur quelques échantillons".
ICLR(2021)
[PDF] - Mirror-BERT : "Rapide, efficace et auto-supervisé : transformer des modèles de langage masqué en encodeurs lexicaux et de phrases universels".
EMNLP(2021)
[PDF] [Code] - "Pré-former ou annoter ? Adaptation de domaine avec un budget contraint" .
EMNLP(2021)
[PDF] [Code] - AVocaDo : "AVocaDo : Stratégie d'adaptation du vocabulaire au domaine aval".
EMNLP(2021)
[PDF] - CHILD-TUNING : "Élever un enfant dans un grand modèle linguistique : vers un réglage fin efficace et généralisable".
EMNLP(2021)
[PDF] [Code] - "Apprivoiser les modèles linguistiques pré-entraînés avec des représentations N-gram pour l'adaptation de domaines à faibles ressources".
ACL(2021)
[PDF] [Code] - LexFit : "LexFit : Affinement lexical de modèles linguistiques pré-entraînés".
ACL(2021)
[PDF] [Code] - "La sélection de contextes informatifs améliore le réglage fin du modèle linguistique".
ACL(2021)
[PDF] [Code] - "Une étude empirique sur l'optimisation des hyperparamètres pour le réglage fin des modèles de langage pré-entraînés".
ACL(2021)
[PDF] [Code] - « Comment les modèles linguistiques pré-entraînés devraient-ils être affinés pour atteindre une robustesse contradictoire ? »
NeurIPS(2021)
[PDF] [Code]