Dieses Repository enthält alle notwendigen Elemente, die Sie zum Aufbau Ihres eigenen LLM von Grund auf benötigen. Folgen Sie einfach den Anweisungen. Inspiriert von Karpathys nanoGPT- und Shakespeare-Generator habe ich dieses Repository erstellt, um mein eigenes LLM zu erstellen. Es bietet alles von der Datenerfassung für das Modell bis hin zur Architekturdatei, dem Tokenizer und der Trainingsdatei.
Dieses Repo enthält:
Stellen Sie vor dem Einrichten von SmallLanguageModel sicher, dass die folgenden Voraussetzungen installiert sind:
Befolgen Sie diese Schritte, um Ihren eigenen Tokenizer zu trainieren oder Ausgaben aus dem trainierten Modell zu generieren:
Klonen Sie dieses Repository:
git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone
Abhängigkeiten installieren:
pip install requirements.txt
Trainieren: Weitere Informationen finden Sie in der Datei „training.md“. Folgen Sie ihm.
Pull-Anfragen sind willkommen. Bei größeren Änderungen öffnen Sie bitte zunächst ein Problem, um zu besprechen, was Sie ändern möchten. Bitte stellen Sie sicher, dass Sie die Tests entsprechend aktualisieren.
MIT-Lizenz. Weitere Informationen finden Sie unter License.md.