SmallLanguageModel herunterladen - Download SmallLanguageModel -Quellcodes

SmallLanguageModel

Anderer Quellcode

1.0.0

Herunterladen

SmallLanguageModel

Dieses Repository enthält alle notwendigen Elemente, die Sie zum Aufbau Ihres eigenen LLM von Grund auf benötigen. Folgen Sie einfach den Anweisungen. Inspiriert von Karpathys nanoGPT- und Shakespeare-Generator habe ich dieses Repository erstellt, um mein eigenes LLM zu erstellen. Es bietet alles von der Datenerfassung für das Modell bis hin zur Architekturdatei, dem Tokenizer und der Trainingsdatei.

Repo-Struktur

Dieses Repo enthält:

Datenkollektor: Web-Scrapper mit Verzeichnis, falls Sie die Daten von Grund auf sammeln möchten, anstatt sie herunterzuladen.
Datenverarbeitung: Verzeichnis, das Code zur Vorverarbeitung bestimmter Dateitypen enthält, z. B. zum Konvertieren von Parquet-Dateien in TXT- und CSV-Dateien sowie zum Anhängen von Dateien.
Modelle: Enthält den gesamten notwendigen Code, um ein eigenes Modell zu trainieren. Ein BERT-Modell, ein GPT-Modell und ein Seq-2-Seq-Modell zusammen mit Tokenizer und Laufdateien.

Voraussetzungen

Stellen Sie vor dem Einrichten von SmallLanguageModel sicher, dass die folgenden Voraussetzungen installiert sind:

Python 3.8 oder höher
pip (Python-Paketinstallationsprogramm)

Anwendung:

Befolgen Sie diese Schritte, um Ihren eigenen Tokenizer zu trainieren oder Ausgaben aus dem trainierten Modell zu generieren:

Klonen Sie dieses Repository:

git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone

Abhängigkeiten installieren:
```
pip install requirements.txt
```
Trainieren: Weitere Informationen finden Sie in der Datei „training.md“. Folgen Sie ihm.

Sternengeschichte

Mitwirken

Pull-Anfragen sind willkommen. Bei größeren Änderungen öffnen Sie bitte zunächst ein Problem, um zu besprechen, was Sie ändern möchten. Bitte stellen Sie sicher, dass Sie die Tests entsprechend aktualisieren.