Bienvenue sur mon dépôt ! J'implémente l'architecture du transformateur à partir de zéro en utilisant PyTorch. J'ai essayé de parcourir tous les sous-composants clés, en ajoutant des notes détaillées et des clarifications. L'objectif principal de ce référentiel est de fournir des connaissances et des explications précises pour chaque composant.
Vous passerez en revue tous les composants expliqués dans le document original. Outre la construction de l'architecture, les notes fournissent des informations permettant de comprendre la logique derrière tous les blocs de cette architecture. J'ai également essayé de définir des paramètres et des variables que je trouvais confus lors de leur étude (par exemple, d_v vs d_k).
Ce sont les blocs que vous apprendrez à construire avec ce référentiel. Tous ces éléments ont été construits à partir de zéro, ce qui vous permettra de bien comprendre ce qui se cache sous le capot.
L'architecture du transformateur est l'architecture SOTA à l'origine des avancées les plus pertinentes en matière d'IA. Il est essentiel de comprendre ce qui se passe dans la mise en œuvre originale de cette bête. C'est également une bonne compétence à posséder si vous envisagez de vous engager dans la voie de la recherche ; il faut comprendre les origines pour pouvoir savoir quoi améliorer !
La réponse à cette question est oui. Laissez-moi vous expliquer.
Je mentirais si je vous disais que vous allez bien sans connaissances sur le flux de travail PyTorch. Vous devez connaître les bases, comme comment initialiser un objet nn.Module, jouer avec les tenseurs ou comprendre pourquoi des transformations doivent être appliquées. En dehors de cela, vous aurez également besoin de connaissances de base en apprentissage profond/apprentissage automatique (par exemple, qu'est-ce qu'une couche linéaire ? Que sont les dimensions ? Qu'est-ce qu'une intégration ?).