Dieses Repository zielt darauf ab, verschiedene Formen von Transformatormodellen zu implementieren, einschließlich seq2seq (die ursprüngliche Architektur im Artikel „All You Need is Attention“), Nur-Encoder-, Nur-Decoder- und einheitliche Transformatormodelle.
Diese Modelle sind nicht dazu gedacht, für irgendwelche Aufgaben den neuesten Stand der Technik zu sein. Stattdessen dienen sie dazu, mich in fortgeschrittenen Programmierkenntnissen zu schulen und Referenzen an Menschen zu liefern, die die Liebe zu Deep Learning und maschineller Intelligenz teilen.
Diese Arbeit ist von den Open-Source-Repos NanoGPT, ViT, MAE, CLIP und OpenCLIP inspiriert und wäre ohne sie nicht möglich. Ein großes Dankeschön an sie für das Open-Sourcing ihrer Modelle!
Dieses Repository führt auch eine Papierliste der jüngsten Fortschritte bei Transformatormodellen.
Dieses Repository enthält eine Liste von Designs:
Derzeit arbeite ich an der Implementierung von DINO, einer Variante von ViT, die auf selbstüberwachte Weise trainiert wird
Modell | Umgesetzt | Ausgebildet | Bewertet |
---|---|---|---|
Transformator | ✅ | NEIN | NEIN |
GPT | ✅ | NEIN | NEIN |
BERT | ✅ | Ja | NEIN |
ViT | ✅ | NEIN | NEIN |
MAE | NEIN | NEIN | NEIN |
CLIP | NEIN | NEIN | NEIN |
HAFTUNGSAUSSCHLUSS : Aufgrund der Beliebtheit und Vielseitigkeit von Transformers wird es viele Kursaufgaben geben, die sich auf die Implementierung eines Teils oder der gesamten Transformer-Modelle beziehen. Dieses Repository wurde ausschließlich zu Selbstschulungszwecken entwickelt und könnte durchaus als Referenz für die Implementierung eines Transformer-Modells dienen. Das direkte Kopieren aus diesem Repo ist jedoch strengstens verboten und stellt für die meisten akademischen Institute einen Verstoß gegen den Verhaltenskodex dar.
Für diejenigen, die eine Auffrischung darüber benötigen, was der Transformer ist oder wie die detaillierte Architektur von Transformer aussieht, lesen Sie bitte einen gut illustrierten Blog: http://nlp.seas.harvard.edu/annotated-transformer/#background
Hier ist ein Gedicht von LLaMA2, einem von Meta AI veröffentlichten Open-Source-LLm: Aufmerksamkeit ist alles, was Sie brauchen.
Um zu verstehen, was gesagt und gelesen wird.
Transformatoren lernen Beziehungen,
Durch mehrköpfige Aufmerksamkeit.
Encoder-, Decoder-Architektur,
Erlernt Funktionen für gute Bilder.
Schulung zu großen Datensätzen,
Seine Leistungsschnelligkeit nimmt zu.
Auf der Grundlage von Sequenz zu Sequenz aufgebaut,
Die parallele Datenverarbeitung spart flexible Zeit.
Sprache, Text und Stimme verstehen,
Mit tiefem Lernen, das ihm seine Stabilität verlieh.
Aufgabenunabhängig, breite Benutzerfreundlichkeit,
Fortschritte in der KI-Agilität vorantreiben.
NLP auf ein neues Niveau bringen,
Transformers zeigen ihre Macht.