nnl下载 - nnl源代码下载

nnl

Ai源码

gpt2-xl assets

下载

神经网络逻辑

nnl是低内存 GPU 平台上大型模型的推理引擎。

内容

介绍
建立图书馆
GPT2-XL 示例
路线图
执照
致谢

介绍

大模型太大，无法装入 GPU 内存。 nnl通过 PCIE 带宽和内存之间的权衡解决了这个问题。

典型的推理流程如下：

使用模型组成计算图 $n$节点
对计算图中的每个节点进行拓扑排序，形成计算表
对于 [1, 2, 3, ..., n] 中的 i：
- 异步执行以下任务
  - 计算节点 i 的输出
  - 将节点 i+1 的权重加载到 GPU
  - 为节点 i+1 分配 GPU 内存（输出张量和 cahces）
  - 取消分配节点 i-1 的 GPU 内存（输出张量、权重和缓存）

通过 GPU 内存池和内存碎片整理，NNIL 使得在低端 GPU 平台上推理大型模型成为可能。

建立图书馆

这只是几周内写的一个业余爱好项目，目前仅支持 CUDA 后端。

测试用

海湾合作委员会 13.2.1
CUDA 12.2
cudnn 8.9.2.26

构建静态库

nnl _cuda_kernels.a">

make lib nnl _cuda.a && make lib nnl _cuda_kernels.a

此命令将构建两个静态库： lib/lib nnl _cuda.a和lib/lib nnl _cuda_kernels.a 。第一个是 C++ 的 CUDA 后端核心库，第二个是 CUDA 内核。

GPT2-XL 示例

这里提供了GPT2-XL (1.6B)的演示程序。该程序可以通过以下命令编译：

make gpt2_1558m

从版本中下载所有权重后，我们可以在低端 GPU 平台（例如 GTX 1050（2 GB 内存））上运行以下命令：

./bin/gpt2_1558m --max_len 20  " Hi. My name is Feng and I am a machine learning engineer "

输出是这样的：

免责声明：这只是 gpt2-xl 生成的示例，我不在 Google 工作，我不认识 Randi。

你可以找到GPU内存访问模式

路线图

int8支持
更多层数
更多示例应用
小模型的重量持久性

执照

和平OSL

致谢

单流
nlohmann_json
日志记录

为什么是nnl ？

展开

附加信息

版本 gpt2-xl assets
类型 Ai源码
更新时间 2024-12-30
大小 50MB
来自于 Github

nnl

神经网络逻辑

内容

介绍

建立图书馆

测试用

构建静态库

GPT2-XL 示例

路线图

执照

致谢

为什么是nnl ？

node telegram bot api

typebot.io

python wechaty getting started

TranscriberBot

genal chat

Facemoji

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions