Téléchargement Awesome LLM Large Language Models Notes - Awesome LLM Large Language Models Notes Téléchargement du code source

Awesome LLM Large Language Models Notes

Code Source AI

1.0.0

Télécharger

Awesome-LLM-Grandes-Modèles-Langues-Notes

Modèles LLM connus classés par année

Petite introduction, papier, code etc.

Année	Nom	Papier	Informations	Mise en œuvre
2017	Transformateur	L'attention est tout ce dont vous avez besoin	La recherche initiale était centrée sur les tâches de traduction.	TensorFlow + article
2018	Google Tag	Améliorer la compréhension du langage grâce à une pré-formation générative	Le premier modèle Transformer pré-entraîné, utilisé pour affiner diverses tâches de PNL et obtenu des résultats de pointe
2018	BERTE	BERT : Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage	Un autre grand modèle pré-entraîné, celui-ci conçu pour produire de meilleurs résumés de phrases	PyTorch
2019	GPT-2	Les modèles linguistiques sont des apprenants multitâches non supervisés	Une version améliorée (et plus grande) de GPT qui n'a pas été immédiatement rendue publique en raison de problèmes éthiques
2019	DistilBERT - BERT distillé	DistilBERT, une version distillée de BERT : plus petite, plus rapide, moins chère et plus légère	Une version distillée de BERT qui est 60 % plus rapide, 40 % plus légère en mémoire et conserve toujours 97 % des performances de BERT
2019	BART	BART : pré-formation au débruitage séquence à séquence pour la génération, la traduction et la compréhension du langage naturel	Grands modèles pré-entraînés utilisant la même architecture que le modèle Transformer d'origine.
2019	T5	Explorer les limites de l'apprentissage par transfert avec un transformateur texte-texte unifié	Grands modèles pré-entraînés utilisant la même architecture que le modèle Transformer d'origine.
2019	ALBERT	ALBERT : Un BERT léger pour l'apprentissage auto-supervisé des représentations linguistiques
2019	RoBERTa - Une approche de pré-formation BERT robustement optimisée	RoBERTa : une approche de pré-formation BERT robustement optimisée
2019	CTRL	CTRL : un modèle de langage de transformateur conditionnel pour une génération contrôlable
2019	Transformateur XL	Transformer-XL : modèles de langage attentifs au-delà d'un contexte de longueur fixe	Adopte une méthodologie de récurrence sur l'état passé couplée à un codage de position relative permettant des dépendances à plus long terme
2019	Diablo GPT	DialoGPT : pré-formation générative à grande échelle pour la génération de réponses conversationnelles	Formé sur 147 millions d'échanges de type conversation extraits des chaînes de commentaires Reddit sur une période allant de 2005 à 2017	PyTorch
2019	ERNIE	ERNIE : Représentation linguistique améliorée avec des entités informatives	Dans cet article, nous utilisons à la fois des corpus textuels à grande échelle et des KG pour former un modèle de représentation linguistique amélioré (ERNIE), qui peut tirer pleinement parti simultanément des informations lexicales, syntaxiques et des connaissances.
2020	GPT-3	Les modèles linguistiques sont des apprenants rares	Une version encore plus grande de GPT-2, capable de bien fonctionner sur une variété de tâches sans avoir besoin de réglages précis (appelé apprentissage zéro)
2020	ÉLECTRE	ELECTRA : LES CODEURS DE TEXTE DE PRÉ-FORMATION COMME DISCRIMINATEURS PLUTÔT QUE GÉNÉRATEURS
2020	mBART	Pré-formation au débruitage multilingue pour la traduction automatique neuronale
2021	CLIP (Pré-Formation Langage-Image Contrastive)	Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel	CLIP est un réseau de neurones formé sur une variété de paires (image, texte). Il peut être demandé en langage naturel de prédire l'extrait de texte le plus pertinent, à partir d'une image, sans optimisation directe pour la tâche, de la même manière que les capacités de tir nul de GPT-2 et 3.	PyTorch
2021	DALL-E	Génération de texte en image Zero-Shot		PyTorch
2021	Gopher	Mise à l'échelle des modèles linguistiques : méthodes, analyses et informations issues de Training Gopher
2021	Transformateur de décision	Transformateur de décision : apprentissage par renforcement via la modélisation de séquence	Une architecture qui présente le problème de RL comme une modélisation de séquence conditionnelle.	PyTorch
2021	GLam (Modèle de langage généraliste)	GLaM : mise à l'échelle efficace des modèles de langage avec un mélange d'experts	Dans cet article, nous proposons et développons une famille de modèles de langage nommés GLaM (Generalist Language Model), qui utilise une architecture de mélange d'experts peu activée pour faire évoluer la capacité du modèle tout en engendrant des coûts de formation nettement inférieurs à ceux des variantes denses.
2022	chatGPT/InstructGPT	Former des modèles de langage pour suivre les instructions avec des commentaires humains	Ce modèle de langage entraîné est bien meilleur pour suivre les intentions des utilisateurs que GPT-3. Le modèle est optimisé (affiné) à l'aide de l'apprentissage par renforcement avec retour humain (RLHF) pour réaliser un dialogue conversationnel. Le modèle a été formé à l’aide d’une variété de données écrites par des personnes pour obtenir des réponses qui ressemblaient à celles d’un être humain.	:-:
2022	Chinchilla	Formation de grands modèles de langage optimisés pour le calcul	Utilise le même budget de calcul que Gopher mais avec 70 B de paramètres et 4 fois plus de données.	:-:
2022	LaMDA - Modèles de langage pour les applications de dialogue	LaMDA	Il s'agit d'une famille de modèles de langage neuronal basés sur Transformer, spécialisés pour le dialogue.
2022	DQ-BART	DQ-BART : modèle séquence à séquence efficace via la distillation et la quantification conjointes	Proposer de distiller et de quantifier conjointement le modèle, où les connaissances sont transférées du modèle d'enseignant de pleine précision au modèle d'étudiant de faible précision quantifié et distillé.
2022	Flamant	Flamingo : un modèle de langage visuel pour un apprentissage en quelques étapes	Construire des modèles pouvant être rapidement adaptés à de nouvelles tâches en utilisant seulement une poignée d'exemples annotés constitue un défi ouvert pour la recherche sur l'apprentissage automatique multimodal. Nous présentons Flamingo, une famille de modèles de langage visuel (VLM) dotés de cette capacité.
2022	Chat	Un agent généraliste	Inspirés par les progrès de la modélisation du langage à grande échelle, nous appliquons une approche similaire pour construire un agent généraliste unique au-delà du domaine des sorties textuelles. L’agent, que nous appelons Gato, fonctionne comme une politique généraliste multimodale, multitâche et multi-incarnations.
2022	GODEL : pré-formation à grande échelle pour le dialogue axé sur les objectifs	GODEL : pré-formation à grande échelle pour le dialogue axé sur les objectifs	Contrairement aux modèles antérieurs tels que DialoGPT, GODEL exploite une nouvelle phase de pré-formation conçue pour mieux prendre en charge l'adaptation de GODEL à un large éventail de tâches de dialogue en aval qui nécessitent des informations externes à la conversation en cours (par exemple, une base de données ou un document) pour produire de bonnes réponses.	PyTorch
2023	GPT-4	Rapport technique GPT-4	Le modèle accepte désormais les entrées multimodales : images et texte	:-:
2023	BloombergGPT	BloombergGPT : un grand modèle linguistique pour la finance	LLM spécialisé dans le domaine financier formé sur les nombreuses sources de données de Bloomberg
2023	FLORAISON	BLOOM : un modèle de langage multilingue en libre accès à 176 B paramètres	BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) est un modèle de langage Transformer uniquement par décodeur qui a été formé sur le corpus ROOTS, un ensemble de données comprenant des centaines de sources dans 46 langages naturels et 13 langages de programmation (59 au total).
2023	Lama 2	Llama 2 : fondation ouverte et modèles de discussion affinés		PyTorch #1 PyTorch #2
2023	Claude	Claude	Claude peut analyser 75 000 mots (100 000 jetons). GPT4 ne peut créer que 32,7 000 jetons.
2023	SelfCheckGPT	SelfCheckGPT : Détection d'hallucinations par boîte noire sans ressources pour les grands modèles de langage génératifs	Une approche simple basée sur l'échantillonnage qui peut être utilisée pour vérifier les modèles de boîte noire sans ressources, c'est-à-dire sans base de données externe.

Modèles LLM classés par taille

Nom	Taille (# paramètres)	Jetons d'entraînement	Données de formation
GLAM	1.2T
Gopher	280B	300B
FLORAISON	176B		Corpus RACINES
GPT-3	175B
LaMDA	137B	168B	1,56 T mots de données de dialogue public et de texte Web
Chinchilla	70B	1.4T
Lama 2	7B, 13B et 70B
BloombergGPT	50B	363B+345B
Faucon40B	40B	1T	1 000 milliards de jetons de RefinedWeb

M=Millions | B=milliard | T=Billion

Modèles LLM classés par nom

ALBERT | Alpaga
BART | BERT | Gros oiseau | FLEUR |
Chinchillas | AGRAFE | CTRL | chatGPT | Claude
DALL-E | DALL-E-2 | Transformateurs de décision | DialogueGPT | DistilBERT | DQ-BART |
ÉLECTRE | ERNIE
Flamant rose | Faucon40B
Chat | Gopher | GLAM | GLISSER | TPG | GPT-2 | GPT-3 | GPT-4 | GPT-Néo | Gödel | GPT-J
Image | InstruireGPT
Jurassique-1
LaMDA | Lama 2
mBART | Mégatron | Minerve | MT-NLG
OPTER
Paume | Pégase
RoBERTa
Chercheur | Transformateur Swin | Changer | SelfCheckGPT
Transformateur | T5 | Transformateurs de trajectoire | Transformateur XL | Turing-NLG
ViT
Wu Dao 2.0 |
XLM-RoBERTa | XLNet

Classement par architecture

Architecture	Modèles	Tâches
Encodeur uniquement, également appelés modèles de transformateur à encodage automatique	ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa	Classification des phrases, reconnaissance d'entités nommées, réponse extractive aux questions
Décodeur uniquement, c'est-à-dire modèles de transformateur auto-régressifs (ou causals)	CTRL, GPT, GPT-2, Transformateur XL	Génération de texte avec une invite
Encodeur-décodeur, alias modèles de transformateur séquence à séquence	BART, T5, Marian, mBART	Résumé, traduction, réponses génératives aux questions

Qu'y a-t-il de si spécial à propos de HuggingFace ?

HuggingFace, une bibliothèque NLP populaire, mais elle offre également un moyen simple de déployer des modèles via leur API d'inférence. Lorsque vous créez un modèle à l'aide de la bibliothèque HuggingFace, vous pouvez ensuite l'entraîner et le télécharger sur leur Model Hub. En savoir plus à ce sujet ici.
Liste des carnets

Articles à lire absolument sur le LLM

2014 | Traduction automatique neuronale en apprenant conjointement à aligner et à traduire
2022 | UNE ENQUÊTE SUR GPT-3
2022 | Mise à l'échelle efficace de l'inférence de transformateur
Articles à lire absolument sur les modèles linguistiques pré-entraînés (PLM)

Récapitulatif | Mettez-moi au courant !

Rattraper son retard sur le monde étrange des LLM

Articles de blog

Construire un synthétiseur avec ChatGPT
PubMed GPT : un modèle de langage étendu spécifique à un domaine pour le texte biomédical
ChatGPT – Là où ça manque
Invites ChatGPT impressionnantes
ChatGPT vs GPT3 : la comparaison ultime
Prompt Engineering 101 : Introduction et ressources
Modèles de transformateurs : introduction et catalogue — Édition 2022
GPT-3 ou BERT peuvent-ils un jour comprendre le langage ?⁠ — Les limites des modèles linguistiques d'apprentissage profond
10 choses que vous devez savoir sur BERT et l'architecture du transformateur qui remodèlent le paysage de l'IA
Guide complet des transformateurs
Démasquer BERT : la clé des performances du modèle de transformateur
Modèles Transformer NLP (Meena et LaMDA) : sont-ils « sensibles » et qu'est-ce que cela signifie pour les chatbots à domaine ouvert ?
Modèles pré-entraînés pour câliner le visage : trouvez le meilleur pour votre tâche
Optimisation de l'inférence du modèle de grand transformateur
Tutoriel en 4 parties sur le fonctionnement des transformateurs : Partie 1 | Partie 2 | Partie 3 | Partie 4
Qu’est-ce qui rend un agent de dialogue utile ?
Comprendre les grands modèles de langage – Une liste de lecture transformatrice
Ingénierie rapide
Création d'applications LLM pour la production
Guide du développeur pour LLMOps : ingénierie rapide, agents LLM et observabilité
Argument en faveur de l'utilisation des RL LLM
Pourquoi Google et OpenAI perdent face aux communautés open source
Vous ne savez probablement pas comment faire de l'ingénierie rapide !
L'histoire complète des grands modèles de langage et du RLHF
Comprendre les évaluations d'OpenAI
Ce que nous savons sur les LLM (amorce)
Va te faire foutre, montre-moi l'invite.

Connaissez leurs limites !

ChatGPT et Wolfram|Alpha
Chiffres que tout développeur LLM devrait connaître

Paysage du financement des startups

Financement de démarrage en PNL en 2022

Tutoriels disponibles

Construire un moteur de recherche avec un modèle BERT pré-entraîné
Ajustement précis du modèle BERT pré-entraîné sur la tâche de classification de texte
Ajustement précis du modèle BERT pré-entraîné sur l'ensemble de données d'évaluation des produits Amazon
Analyse des sentiments avec le transformateur Hugging Face
Ajustement précis du modèle BERT pré-entraîné sur la tâche de classification de l'examen YELP
API HuggingFace
Remplissage du masque facial
Reconnaissance de l'entité de nom HuggingFace NER
Réponse à la question HuggingFace dans son contexte
Génération de texte HuggingFace
Résumé du texte HuggingFace.ipynb
Apprentissage sans tir HuggingFace

Une petite note sur le rendu du notebook

Deux cahiers sont disponibles :
- Un avec des cases colorées et un dossier extérieur GitHub_MD_rendering
- Un en noir et blanc sous le dossier GitHub_MD_rendering

Comment exécuter le notebook dans Google Colab

L'option la plus simple serait de cloner ce référentiel.
Accédez à Google Colab et ouvrez le bloc-notes directement depuis Colab.
Vous pouvez ensuite également le réécrire sur GitHub à condition que l'autorisation de Colab soit accordée. L'ensemble de la procédure est automatisé.

Implémentations à partir de zéro

Comment coder BERT à l'aide de PyTorch
miniGPT dans PyTorch
nanoGPT dans PyTorch
L'implémentation TensorFlow d'Attention est tout ce dont vous avez besoin + article

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-09
taille 268.82KB
Provenant de Github

Applications connexes

filament notes

2024-11-12
language tools

2024-11-11
llama models

2024-11-10
TensorRT LLM

2024-11-10
scene language

2024-11-03
pytorch image models

2024-11-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout