Ce référentiel vise à implémenter différentes formes de modèle de transformateur, notamment seq2seq (l'architecture originale du document All You Need is Attention), des modèles d'encodeur uniquement, de décodeur uniquement et de transformateur unifié.
Ces modèles ne sont pas censés être l’état de l’art pour quelque tâche que ce soit. Au lieu de cela, ils ont pour objectif de me former à des compétences avancées en programmation et de fournir également des références à des personnes qui partagent l'amour de l'apprentissage profond et de l'intelligence artificielle.
Ce travail est inspiré et ne serait pas possible sans les dépôts open source de NanoGPT, ViT, MAE, CLIP et OpenCLIP. Un immense merci à eux pour l'open source de leurs modèles !
Ce référentiel conserve également une liste papier des progrès récents dans les modèles de transformateurs.
Ce référentiel propose une liste de conceptions :
Travaille actuellement sur la mise en œuvre de DINO, une variante de ViT formée de manière auto-supervisée
Modèle | Mis en œuvre | Qualifié | Évalué |
---|---|---|---|
Transformateur | ✅ | Non | Non |
Google Tag | ✅ | Non | Non |
BERTE | ✅ | Oui | Non |
ViT | ✅ | Non | Non |
MAE | Non | Non | Non |
AGRAFE | Non | Non | Non |
AVIS DE NON-RESPONSABILITÉ : En raison de la popularité et de la polyvalence de Transformers, de nombreux devoirs de cours seront liés à la mise en œuvre d'une partie ou de la totalité des modèles Transformer. Ce référentiel a été développé uniquement à des fins d'auto-formation et pourrait très bien servir de référence pour la mise en œuvre d'un modèle Transformer. Mais copier directement à partir de ce référentiel est strictement interdit et constitue une violation du code de conduite de la plupart des instituts universitaires.
Pour ceux qui ont besoin d'un rafraîchissement de ce qu'est Transformer ou de ce à quoi ressemble l'architecture détaillée de Transformer, veuillez vous référer à un blog bien illustré : http://nlp.seas.harvard.edu/annotated-transformer/#background
Voici un poème généré par LLaMA2, un LLm open source publié par Meta AI : L'attention est tout ce dont vous avez besoin,
Comprendre ce qui est dit et lu.
Les transformateurs apprennent les relations,
Grâce à des attentions multi-têtes.
Architecture d'encodeur, de décodeur,
Apprend les fonctionnalités pour de bonnes images.
Formation sur de grands ensembles de données,
Sa rapidité d'exécution est obtenue.
Construit au-dessus d'une séquence à l'autre,
Son calcul parallèle permet de gagner du temps de flexibilité.
Comprendre le langage, le texte et la voix,
Avec un apprentissage profond qui lui a donné son équilibre.
Indépendant des tâches, grande convivialité,
Faire progresser l’agilité de l’IA.
Pousser la PNL vers de nouveaux sommets,
Les transformateurs montrent leur puissance.