nnl Download - nnl Quellcode herunterladen

nnl

AI-Quellcode

gpt2-xl assets

Herunterladen

NeuralNet-Logik

nnl ist eine Inferenz-Engine für große Modelle auf einer GPU-Plattform mit wenig Speicher.

Inhalt

Einführung
Bauen Sie die Bibliothek auf
GPT2-XL-Beispiel
Roadmap
Lizenz
Danksagungen

Einführung

Große Modelle sind zu groß, um in den GPU-Speicher zu passen. nnl behebt dieses Problem durch einen Kompromiss zwischen PCIE-Bandbreite und Speicher.

Eine typische Inferenzpipeline sieht wie folgt aus:

Erstellen Sie das Berechnungsdiagramm mithilfe eines Modells mit $n$ Knoten
Sortieren Sie jeden Knoten im Berechnungsdiagramm topologisch, um eine Berechnungstabelle zu erstellen
für i in [1, 2, 3, ..., n]:
- Führen Sie die folgenden Aufgaben asynchron aus
  - Berechnen Sie die Ausgabe von Knoten i
  - Laden Sie die Gewichte für Knoten i+1 auf die GPU
  - Ordnen Sie den GPU-Speicher (Ausgabetensor und Caches) für Knoten i+1 zu
  - Geben Sie den GPU-Speicher (Ausgabetensoren, Gewichte und Caches) für Knoten i-1 frei

Mit dem GPU-Speicherpool und der Speicherdefragmentierung ermöglicht NNIL den Rückschluss auf ein großes Modell auf einer Low-End-GPU-Plattform.

Bauen Sie die Bibliothek auf

Dies ist nur ein Hobbyprojekt, das in ein paar Wochen geschrieben wurde. Derzeit wird nur das CUDA-Backend unterstützt.

Getestet mit

gcc 13.2.1
cuda 12.2
cudnn 8.9.2.26

Erstellen Sie die statische Bibliothek

nnl _cuda_kernels.a">

make lib nnl _cuda.a && make lib nnl _cuda_kernels.a

Dieser Befehl erstellt die beiden statischen Bibliotheken: lib/lib nnl _cuda.a und lib/lib nnl _cuda_kernels.a . Die erste ist die Kernbibliothek mit CUDA-Backend in C++ und die zweite ist für die CUDA-Kernel.

GPT2-XL-Beispiel

Ein Demoprogramm von GPT2-XL (1.6B) wird hier bereitgestellt. Dieses Programm kann mit diesem Befehl kompiliert werden:

make gpt2_1558m

Nachdem wir alle Gewichte aus der Version heruntergeladen haben, können wir den folgenden Befehl auf einer Low-End-GPU-Plattform wie GTX 1050 (2 GB Speicher) ausführen:

./bin/gpt2_1558m --max_len 20  " Hi. My name is Feng and I am a machine learning engineer "

Und die Ausgabe sieht so aus:

Haftungsausschluss: Dies ist nur ein von gpt2-xl generiertes Beispiel. Ich arbeite nicht bei Google und kenne Randi nicht.

Und Sie können das GPU-Speicherzugriffsmuster finden

Roadmap

int8-Unterstützung
mehr Schichten
weitere Beispielanwendungen
Gewichtsbeständigkeit bei einem kleinen Modell

Lizenz

PeaceOSL

Danksagungen

oneflow
nlohmann_json
spdlog

Warum nnl ?

Expandieren

Zusätzliche Informationen

Version gpt2-xl assets
Typ AI-Quellcode
Aktualisierungszeit 2024-12-30
Größe 50MB
Kommt von Github

Ähnliche Anwendungen

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

nnl

NeuralNet-Logik

Inhalt

Einführung

Bauen Sie die Bibliothek auf

Getestet mit

Erstellen Sie die statische Bibliothek

GPT2-XL-Beispiel

Roadmap

Lizenz

Danksagungen

Warum nnl ?

node telegram bot api

typebot.io

python wechaty getting started

TranscriberBot

genal chat

Facemoji

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions