nnl Télécharger - nnl Téléchargement du code source

nnl

Code Source AI

gpt2-xl assets

Télécharger

Logique NeuralNet

nnl est un moteur d'inférence pour les grands modèles sur une plate-forme GPU à faible mémoire.

Contenu

Introduction
Construire la bibliothèque
Exemple GPT2-XL
Feuille de route
Licence
Remerciements

Introduction

Les gros modèles sont trop volumineux pour tenir dans la mémoire du GPU. nnl résout ce problème avec un compromis entre la bande passante PCIE et la mémoire.

Un pipeline d'inférence typique est le suivant :

composer le graphe de calcul à l'aide d'un modèle avec $n$ nœuds
trier topologiquement chaque nœud du graphe de calcul pour créer une table de calcul
pour je dans [1, 2, 3, ..., n] :
- exécuter les tâches suivantes de manière asynchrone
  - calculer la sortie du nœud i
  - charger les poids sur le GPU pour le nœud i+1
  - allouer la mémoire GPU (tenseur de sortie et cahces) pour le nœud i+1
  - libérer la mémoire GPU (tenseurs de sortie, poids et caches) pour le nœud i-1

Avec le pool de mémoire GPU et la défragmentation de la mémoire, NNIL permet d'inférer un grand modèle sur une plateforme GPU bas de gamme.

Construire la bibliothèque

Il ne s'agit que d'un projet de loisir rédigé en quelques semaines, actuellement seul le backend CUDA est pris en charge.

Testé avec

gcc 13.2.1
cuda 12.2
cudnn 8.9.2.26

Construire la bibliothèque statique

nnl _cuda_kernels.a">

make lib nnl _cuda.a && make lib nnl _cuda_kernels.a

Cette commande construira les deux bibliothèques statiques : lib/lib nnl _cuda.a et lib/lib nnl _cuda_kernels.a . La première est la bibliothèque principale avec le backend CUDA en C++, et la seconde est destinée aux noyaux CUDA.

Exemple GPT2-XL

Un programme de démonstration de GPT2-XL (1.6B) est fourni ici. Ce programme peut être compilé par cette commande :

make gpt2_1558m

Après avoir téléchargé tous les poids de la version, nous pouvons exécuter la commande suivante sur une plate-forme GPU bas de gamme telle que GTX 1050 (2 Go de mémoire) :

./bin/gpt2_1558m --max_len 20  " Hi. My name is Feng and I am a machine learning engineer "

Et le résultat est comme ceci :

Avertissement : ce n'est qu'un exemple généré par gpt2-xl, je ne travaille pas chez Google et je ne connais pas Randi.

Et vous pouvez trouver le modèle d'accès à la mémoire GPU

Feuille de route

prise en charge int8
plus de couches
plus d'exemples d'applications
persistance du poids dans le cas d'un petit modèle

Licence

PaixOSL

Remerciements

un flux
nlohmann_json
journal spd

Pourquoi nnl ?

Développer

Informations supplémentaires

Version gpt2-xl assets
Type Code Source AI
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout