Willkommen in meinem Repo! Ich implementieren die Transformatorarchitektur von Grund auf mit PyTorch. Ich habe versucht, alle wichtigen Unterkomponenten durchzugehen und ausführliche Anmerkungen und Erläuterungen hinzuzufügen. Das Hauptziel dieses Repositoriums besteht darin, Wissen und genaue Erklärungen für jede Komponente bereitzustellen.
Sie werden alle im Originalpapier erläuterten Komponenten durchgehen. Abgesehen vom Aufbau der Architektur bieten die Notizen Einblicke, um die Logik hinter allen Blöcken dieser Architektur zu verstehen. Ich habe auch versucht, Parameter und Variablen zu definieren, die ich beim Studium verwirrend fand (z. B. d_v vs. d_k).
Dies sind die Blöcke, die Sie mit diesem Repository erstellen lernen. Alle diese Funktionen wurden von Grund auf neu erstellt, sodass Sie ein gutes Verständnis dafür erhalten, was sich unter der Haube verbirgt.
Die Transformer-Architektur ist die SOTA-Architektur hinter den wichtigsten Fortschritten in der KI. Es ist wichtig zu verstehen, was in der ursprünglichen Implementierung dieses Biests vor sich geht. Es ist auch eine gute Fähigkeit, über diese Fähigkeit zu verfügen, wenn Sie den Weg der Forschung einschlagen möchten; Man muss die Ursprünge verstehen, um zu wissen, was man verbessern kann!
Die Antwort auf diese Frage ist ja. Lass es mich erklären.
Ich würde lügen, wenn ich Ihnen sagen würde, dass Sie ohne Hintergrundwissen zum PyTorch-Workflow zurechtkommen. Sie müssen die Grundlagen kennen, beispielsweise wie man nn.Module-Objekte initialisiert, mit Tensoren spielt oder versteht, warum Transformationen angewendet werden müssen. Darüber hinaus benötigen Sie auch grundlegende Deep-Learning-/Machine-Learning-Kenntnisse (z. B. Was ist eine lineare Ebene? Was sind Dimensionen? Was ist eine Einbettung?).