2017 | Transformateur | L'attention est tout ce dont vous avez besoin | La recherche initiale était centrée sur les tâches de traduction. | TensorFlow + article |
2018 | Google Tag | Améliorer la compréhension du langage grâce à une pré-formation générative | Le premier modèle Transformer pré-entraîné, utilisé pour affiner diverses tâches de PNL et obtenu des résultats de pointe | |
2018 | BERTE | BERT : Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage | Un autre grand modèle pré-entraîné, celui-ci conçu pour produire de meilleurs résumés de phrases | PyTorch |
2019 | GPT-2 | Les modèles linguistiques sont des apprenants multitâches non supervisés | Une version améliorée (et plus grande) de GPT qui n'a pas été immédiatement rendue publique en raison de problèmes éthiques | |
2019 | DistilBERT - BERT distillé | DistilBERT, une version distillée de BERT : plus petite, plus rapide, moins chère et plus légère | Une version distillée de BERT qui est 60 % plus rapide, 40 % plus légère en mémoire et conserve toujours 97 % des performances de BERT | |
2019 | BART | BART : pré-formation au débruitage séquence à séquence pour la génération, la traduction et la compréhension du langage naturel | Grands modèles pré-entraînés utilisant la même architecture que le modèle Transformer d'origine. | |
2019 | T5 | Explorer les limites de l'apprentissage par transfert avec un transformateur texte-texte unifié | Grands modèles pré-entraînés utilisant la même architecture que le modèle Transformer d'origine. | |
2019 | ALBERT | ALBERT : Un BERT léger pour l'apprentissage auto-supervisé des représentations linguistiques | | |
2019 | RoBERTa - Une approche de pré-formation BERT robustement optimisée | RoBERTa : une approche de pré-formation BERT robustement optimisée | | |
2019 | CTRL | CTRL : un modèle de langage de transformateur conditionnel pour une génération contrôlable | | |
2019 | Transformateur XL | Transformer-XL : modèles de langage attentifs au-delà d'un contexte de longueur fixe | Adopte une méthodologie de récurrence sur l'état passé couplée à un codage de position relative permettant des dépendances à plus long terme | |
2019 | Diablo GPT | DialoGPT : pré-formation générative à grande échelle pour la génération de réponses conversationnelles | Formé sur 147 millions d'échanges de type conversation extraits des chaînes de commentaires Reddit sur une période allant de 2005 à 2017 | PyTorch |
2019 | ERNIE | ERNIE : Représentation linguistique améliorée avec des entités informatives | Dans cet article, nous utilisons à la fois des corpus textuels à grande échelle et des KG pour former un modèle de représentation linguistique amélioré (ERNIE), qui peut tirer pleinement parti simultanément des informations lexicales, syntaxiques et des connaissances. | |
2020 | GPT-3 | Les modèles linguistiques sont des apprenants rares | Une version encore plus grande de GPT-2, capable de bien fonctionner sur une variété de tâches sans avoir besoin de réglages précis (appelé apprentissage zéro) | |
2020 | ÉLECTRE | ELECTRA : LES CODEURS DE TEXTE DE PRÉ-FORMATION COMME DISCRIMINATEURS PLUTÔT QUE GÉNÉRATEURS | | |
2020 | mBART | Pré-formation au débruitage multilingue pour la traduction automatique neuronale | | |
2021 | CLIP (Pré-Formation Langage-Image Contrastive) | Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel | CLIP est un réseau de neurones formé sur une variété de paires (image, texte). Il peut être demandé en langage naturel de prédire l'extrait de texte le plus pertinent, à partir d'une image, sans optimisation directe pour la tâche, de la même manière que les capacités de tir nul de GPT-2 et 3. | PyTorch |
2021 | DALL-E | Génération de texte en image Zero-Shot | | PyTorch |
2021 | Gopher | Mise à l'échelle des modèles linguistiques : méthodes, analyses et informations issues de Training Gopher | | |
2021 | Transformateur de décision | Transformateur de décision : apprentissage par renforcement via la modélisation de séquence | Une architecture qui présente le problème de RL comme une modélisation de séquence conditionnelle. | PyTorch |
2021 | GLam (Modèle de langage généraliste) | GLaM : mise à l'échelle efficace des modèles de langage avec un mélange d'experts | Dans cet article, nous proposons et développons une famille de modèles de langage nommés GLaM (Generalist Language Model), qui utilise une architecture de mélange d'experts peu activée pour faire évoluer la capacité du modèle tout en engendrant des coûts de formation nettement inférieurs à ceux des variantes denses. | |
2022 | chatGPT/InstructGPT | Former des modèles de langage pour suivre les instructions avec des commentaires humains | Ce modèle de langage entraîné est bien meilleur pour suivre les intentions des utilisateurs que GPT-3. Le modèle est optimisé (affiné) à l'aide de l'apprentissage par renforcement avec retour humain (RLHF) pour réaliser un dialogue conversationnel. Le modèle a été formé à l’aide d’une variété de données écrites par des personnes pour obtenir des réponses qui ressemblaient à celles d’un être humain. | :-: |
2022 | Chinchilla | Formation de grands modèles de langage optimisés pour le calcul | Utilise le même budget de calcul que Gopher mais avec 70 B de paramètres et 4 fois plus de données. | :-: |
2022 | LaMDA - Modèles de langage pour les applications de dialogue | LaMDA | Il s'agit d'une famille de modèles de langage neuronal basés sur Transformer, spécialisés pour le dialogue. | |
2022 | DQ-BART | DQ-BART : modèle séquence à séquence efficace via la distillation et la quantification conjointes | Proposer de distiller et de quantifier conjointement le modèle, où les connaissances sont transférées du modèle d'enseignant de pleine précision au modèle d'étudiant de faible précision quantifié et distillé. | |
2022 | Flamant | Flamingo : un modèle de langage visuel pour un apprentissage en quelques étapes | Construire des modèles pouvant être rapidement adaptés à de nouvelles tâches en utilisant seulement une poignée d'exemples annotés constitue un défi ouvert pour la recherche sur l'apprentissage automatique multimodal. Nous présentons Flamingo, une famille de modèles de langage visuel (VLM) dotés de cette capacité. | |
2022 | Chat | Un agent généraliste | Inspirés par les progrès de la modélisation du langage à grande échelle, nous appliquons une approche similaire pour construire un agent généraliste unique au-delà du domaine des sorties textuelles. L’agent, que nous appelons Gato, fonctionne comme une politique généraliste multimodale, multitâche et multi-incarnations. | |
2022 | GODEL : pré-formation à grande échelle pour le dialogue axé sur les objectifs | GODEL : pré-formation à grande échelle pour le dialogue axé sur les objectifs | Contrairement aux modèles antérieurs tels que DialoGPT, GODEL exploite une nouvelle phase de pré-formation conçue pour mieux prendre en charge l'adaptation de GODEL à un large éventail de tâches de dialogue en aval qui nécessitent des informations externes à la conversation en cours (par exemple, une base de données ou un document) pour produire de bonnes réponses. | PyTorch |
2023 | GPT-4 | Rapport technique GPT-4 | Le modèle accepte désormais les entrées multimodales : images et texte | :-: |
2023 | BloombergGPT | BloombergGPT : un grand modèle linguistique pour la finance | LLM spécialisé dans le domaine financier formé sur les nombreuses sources de données de Bloomberg | |
2023 | FLORAISON | BLOOM : un modèle de langage multilingue en libre accès à 176 B paramètres | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) est un modèle de langage Transformer uniquement par décodeur qui a été formé sur le corpus ROOTS, un ensemble de données comprenant des centaines de sources dans 46 langages naturels et 13 langages de programmation (59 au total). | |
2023 | Lama 2 | Llama 2 : fondation ouverte et modèles de discussion affinés | | PyTorch #1 PyTorch #2 |
2023 | Claude | Claude | Claude peut analyser 75 000 mots (100 000 jetons). GPT4 ne peut créer que 32,7 000 jetons. | |
2023 | SelfCheckGPT | SelfCheckGPT : Détection d'hallucinations par boîte noire sans ressources pour les grands modèles de langage génératifs | Une approche simple basée sur l'échantillonnage qui peut être utilisée pour vérifier les modèles de boîte noire sans ressources, c'est-à-dire sans base de données externe. | |