FasterTransformer下载 - FasterTransformer源代码下载

FasterTransformer

Ai源码

v5.3 release

下载

注意：FasterTransformer 开发已过渡到 TensorRT-LLM。我们鼓励所有开发人员利用 TensorRT-LLM 来获得 LLM Inference 的最新改进。 NVIDIA/FasterTransformer 存储库将保持不变，但不会有进一步的开发。

更快的变压器

该存储库提供了一个脚本和配方来运行高度优化的基于变压器的编码器和解码器组件，并由 NVIDIA 进行测试和维护。

更快的变压器
- 目录
- 型号概览
  - 支持矩阵
- 先进的
  - 全球环境
- 表现
  - BERT 基础性能
    - FasterTransformer新功能的BERT基础性能
    - TensorFlow 上的 BERT 基础性能
    - PyTorch 上的 BERT 基本性能
  - 解码和解码器性能
    - TensorFlow 上的解码器和解码端到端翻译性能
    - PyTorch 上的解码器和解码端到端翻译性能
  - GPT 性能
- 发行说明
  - 变更日志
  - 已知问题

型号概览

在 NLP 中，编码器和解码器是两个重要的组件，变压器层成为这两个组件的流行架构。 FasterTransformer 为编码器和解码器实现了高度优化的转换器层以进行推理。在 Volta、Turing 和 Ampere GPU 上，当数据和权重的精度为 FP16 时，会自动使用 Tensor Core 的计算能力。

FasterTransformer 构建在 CUDA、cuBLAS、cuBLASLt 和 C++ 之上。我们提供以下框架的至少一种 API：TensorFlow、PyTorch 和 Triton 后端。用户可以将FasterTransformer直接集成到这些框架中。对于支持框架，我们还提供了示例代码来演示如何使用，并展示这些框架的性能。

支持矩阵

型号	框架	FP16	INT8（图灵之后）	稀疏性（安培之后）	张量平行	管道并联	FP8（继料斗之后）
伯特	TensorFlow	是的	是的	-	-	-	-
伯特	火炬	是的	是的	是的	是的	是的	-
伯特	海卫一后端	是的	-	-	是的	是的	-
伯特	C++	是的	是的	-	-	-	是的
XL网	C++	是的	-	-	-	-	-
编码器	TensorFlow	是的	是的	-	-	-	-
编码器	火炬	是的	是的	是的	-	-	-
解码器	TensorFlow	是的	-	-	-	-	-
解码器	火炬	是的	-	-	-	-	-
解码	TensorFlow	是的	-	-	-	-	-
解码	火炬	是的	-	-	-	-	-
GPT	TensorFlow	是的	-	-	-	-	-
通用技术/选择	火炬	是的	-	-	是的	是的	是的
通用技术/选择	海卫一后端	是的	-	-	是的	是的	-
GPT-教育部	火炬	是的	-	-	是的	是的	-
盛开	火炬	是的	-	-	是的	是的	-
盛开	海卫一后端	是的	-	-	是的	是的	-
GPT-J	海卫一后端	是的	-	-	是的	是的	-
长形器	火炬	是的	-	-	-	-	-
T5/UL2	火炬	是的	-	-	是的	是的	-
T5	TensorFlow 2	是的	-	-	-	-	-
T5/UL2	海卫一后端	是的	-	-	是的	是的	-
T5	张量RT	是的	-	-	是的	是的	-
T5-教育部	火炬	是的	-	-	是的	是的	-
斯温变压器	火炬	是的	是的	-	-	-	-
斯温变压器	张量RT	是的	是的	-	-	-	-
维特	火炬	是的	是的	-	-	-	-
维特	张量RT	是的	是的	-	-	-	-
GPT-NeoX	火炬	是的	-	-	是的	是的	-
GPT-NeoX	海卫一后端	是的	-	-	是的	是的	-
巴特/巴特	火炬	是的	-	-	是的	是的	-
微网	C++	是的	-	-	-	-	-
德贝尔塔	TensorFlow 2	是的	-	-	正在进行中	正在进行中	-
德贝尔塔	火炬	是的	-	-	正在进行中	正在进行中	-

请注意，FasterTransformer 支持 C++ 上的上述模型，因为所有源代码都是基于 C++ 构建的。

具体模型的更多详细信息放在docs/的xxx_guide.md中，其中xxx表示模型名称。一些常见问题和相应的答案放在docs/QAList.md中。请注意，Encoder 和 BERT 的模型类似，我们将说明放在bert_guide.md中。

先进的

以下代码列出了FasterTransformer的目录结构：

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

请注意，许多文件夹包含许多子文件夹来分割不同的模型。量化工具已转移到examples ，例如examples/tensorflow/bert/bert-quantization/和examples/pytorch/bert/bert-quantization-sparsity/ 。

全球环境

FasterTransformer提供了一些方便的环境变量用于调试和测试。

FT_LOG_LEVEL ：此环境控制调试消息的日志级别。更多详细信息位于src/fastertransformer/utils/logger.h中。请注意，当级别低于DEBUG时，程序会打印大量消息，并且程序会变得非常慢。
FT_NVTX ：如果将其设置为ON （如FT_NVTX=ON ./bin/gpt_example ，则程序将插入 nvtx 的标记以帮助分析程序。
FT_DEBUG_LEVEL ：如果设置为DEBUG ，则程序将在每个内核之后运行cudaDeviceSynchronize() 。否则，内核默认异步执行。有助于调试时定位错误点。但这个标志对程序的性能影响很大。因此，它应该仅用于调试。

表现

硬件设置：

8xA100-80GB（mclk 1593MHz、pclk 1410MHz），采用 AMD EPYC 7742 64 核处理器
T4（mclk 5000MHz、pclk 1590MHz），采用 Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz

为了运行以下基准测试，我们需要安装unix计算工具“bc”：

apt-get install bc

BERT 基础性能

通过运行benchmarks/bert/tf_benchmark.sh获得 TensorFlow 的 FP16 结果。

通过运行benchmarks/bert/tf_int8_benchmark.sh获得 TensorFlow 的 INT8 结果。

PyTorch 的 FP16 结果是通过运行benchmarks/bert/pyt_benchmark.sh获得的。

PyTorch的INT8结果是通过运行benchmarks/bert/pyt_int8_benchmark.sh获得的。

更多基准测试放在docs/bert_guide.md中。

FasterTransformer新功能的BERT基础性能

下图比较了FasterTransformer和FasterTransformer在T4上FP16下不同特征的表现。

对于大批量和序列长度，EFF-FT 和 FT-INT8-v2 都带来 2 倍的加速。对于大型案例，同时使用Effective FasterTransformer和int8v2可以比FasterTransformer FP16带来约3.5倍的加速。

TensorFlow 上的 BERT 基础性能

下图比较了FasterTransformer和TensorFlow XLA在T4上FP16下不同特征的表现。

对于小批量和序列长度，使用 FasterTransformer 可以带来约 3 倍的加速。

对于大批量和序列长度，使用有效的 FasterTransformer 和 INT8-v2 量化可以带来约 5 倍的加速。

PyTorch 上的 BERT 基本性能

下图比较了FasterTransformer和PyTorch TorchScript在T4上FP16下不同特征的表现。

对于小批量和序列长度，使用 FasterTransformer CustomExt 可以带来约 4x ~ 6x 的加速。

对于大批量和序列长度，使用有效的 FasterTransformer 和 INT8-v2 量化可以带来约 5 倍的加速。

解码和解码器性能

通过运行benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh和benchmarks/decoding/tf_decoding_sampling_benchmark.sh得到 TensorFlow 的结果

PyTorch的结果是通过运行benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh获得的。

在解码实验中，我们更新了以下参数：

头数 = 8
每个头的大小 = 64
编码器和解码器的 num_layers = 6
对于 TensorFlow 示例代码，vocabulary_size = 32001；对于 PyTorch 示例代码，vocabulary_size = 31538
内存隐藏暗度 = 512
最大序列长度 = 128

更多基准测试放在docs/decoder_guide.md中。

TensorFlow 上的解码器和解码端到端翻译性能

下图显示了 FT-Decoder 操作和 FT-Decoding 操作与 FP16 下 T4 下的 TensorFlow 相比的加速情况。这里，我们使用翻译测试集的吞吐量来防止每种方法的总令牌可能不同。与 TensorFlow 相比，FT-Decoder 提供 1.5x ~ 3x 的加速比；而 FT-Decoding 提供 4x ~ 18x 的加速。

PyTorch 上的解码器和解码端到端翻译性能

下图显示了 FT-Decoder 操作和 FT-Decoding 操作与使用 T4 的 FP16 下的 PyTorch 相比的加速情况。这里，我们使用翻译测试集的吞吐量来防止每种方法的总令牌可能不同。与 PyTorch 相比，FT-Decoder 提供 1.2x ~ 3x 的加速；而 FT-Decoding 则提供 3.8x ~ 13x 的加速。

GPT 性能

下图对比了A100上FP16下Megatron和FasterTransformer的性能。

在解码实验中，我们更新了以下参数：

头数 = 96
每个头的大小 = 128
GPT-89B 型号的 num_layers = 48，GPT-175B 型号的 num_layers = 96
数据类型 = FP16
词汇大小 = 51200
顶部p = 0.9
张量并行大小 = 8
输入序列长度 = 512
输出序列长度 = 32

发行说明

变更日志

2023年5月

修复生成提前停止的错误

2023 年 1 月

支持GPT教育部
支持 FP8 for Bert 和 GPT（实验）
在 TensorFlow 2 和 PyTorch 上支持 DeBERTa

2022 年 12 月

发布 FasterTransformer 5.2
支持最小长度惩罚

2022 年 11 月

支持 T5 Tensorflow 2 自定义操作。
支持T5教育部
支持微网
支持BART & mBART
支持SwinV2
初步支持带有 GPT 的 w8a8 int8 模式（预览版）
支持 GPT 中的融合 mha

2022 年 10 月

支持绽放

2022 年 9 月

支持 gpt 中的事实采样（链接）
T5支持IA3适配方案

2022 年 8 月

支持返回 GPT 中的上下文标记嵌入
发布 FasterTransformer 5.1
支持交互式生成
支持注意力限时记忆
支持mt5和t5-v1.1

2022 年 7 月

支持 UL2 拥抱面测试。（关联）
- 修复T5在bfloat16下的bug。
添加 ViT INT8 TensorRT 插件
支持批量采样
支持GPT模型中的共享上下文优化

2022 年 6 月

支持 Triton 后端的流式生成。
支持OPT。
支持FP32、FP16和BF16下的多节点多GPU BERT。

2022年5月

大多数型号支持 bfloat16。
支持 GPT-J 的前缀提示。
支持 GPT-NeoX。
- Layernorm 中使用的 epsilon 值现在是一个参数
- 旋转嵌入 GPT-NeoX 样式（仅实现了 GPT-J）
- 加载每个 GPU 的层规范和偏差参数
- EleutherAI 检查点的重量转换

2022 年 4 月

发布FasterTransformer 5.0
- 将所有gemm的默认累积类型更改为FP32。
- 支持GPT模型中的bfloat16推理。
- 支持 Nemo Megatron T5 和 Megatron-LM T5 型号。
- 支持ViT。

2022 年 3 月

支持 GPT-J 中的stop_ids和ban_bad_ids 。
支持 GPT-J、GPT、T5 和解码中的动态start_id和end_id 。

2022 年 2 月

支持Swin变压器。
通过in-direction buffer优化beam search的k/v缓存更新。
支持 GPT-J、T5 和 GPT 的运行时输入。
支持GPT和GPT-J中的软提示。
支持自定义所有reduce内核。
- 局限性：
  1. DGX-A100 上仅支持张量并行大小 = 8。
  2. 仅通过 cudaMallocAsync 支持 CUDA。

2021 年 12 月

添加T5模型的TensorRT插件。
将GPT模型的一些超参数更改为运行时查询。
优化C++代码下的内存分配器。
修复 CUB 的错误，包括使用 CUDA 11.5 或更高版本时的错误。

2021 年 11 月

更新FasterTransformer 5.0测试版
添加 GPT-3 INT8 仅重量量化，批量大小 <= 2。
在T5上支持多节点多GPU支持。
增强GPT-3中的多节点多GPU支持。

2021 年 8 月

发布 FasterTransformer 5.0 测试版
- 重构存储库和代码
- 特别感谢 NAVER Corp. 为本版本做出的大量贡献，如下所列。
  - 错误修复
    - 修复 gpt pytorch 包装器的 batch_size 小于 max_batch_size 时发生的错误。
    - 修复由于重用分配器而导致每次转发发生的内存泄漏。
    - 修复重复惩罚内核中发生的竞争条件。
  - 强化
    - 添加随机种子设置。
    - 修复 GPT FP16 上的 GEMM 缓冲区溢出问题。
    - 更改为使每次完成的完成缓冲区无效。
    - 引入 stop_before 来提前停止。
- 支持长形。
- 将layer_para重命名为pipeline_para 。
- 优化top p采样的排序。
- 支持 BERT 上 Ampere GPU 的稀疏性。
- GPT 模型支持size_per_head 96、160、192、224、256。
- 支持GPT Triton后端的多节点推理。

2021 年 6 月

支持XLNet

2021 年 4 月

发布FasterTransformer 4.0
- 支持C++和PyTorch上GPT模型的多GPU和多节点推理。
- 支持 Triton 上 GPT 模型的单节点、多 GPU 推理。
- 为 bert 添加 int8 融合多头注意力内核。
- 为bert添加V100的FP16融合多头注意力内核。
- 优化解码器内核。
- 移至独立仓库。
- Eager 模式 PyTorch 扩展已弃用。

2020年12月

发布 FasterTransformer 3.1
- 通过添加finisehd掩码来优化解码，以防止无用计算。
- 支持opennmt编码器。
- 删除TensorRT插件支持。
- TorchScript 自定义操作已弃用。

2020年11月

优化INT8推理。
支持 PyTorch INT8 推理。
提供PyTorch INT8量化工具。
将TensorRT的融合多头注意力内核集成到FasterTransformer中。
添加SQuAD的单元测试。
更新错过的 NGC 检查点。

2020 年 9 月

支持GPT2
发布FasterTransformer 3.0
- 支持cpp和TensorFlow op的编码器的INT8量化。
- 添加 bert-tf-量化工具。
- 修复 Cmake 15 或 Cmake 16 无法构建该项目的问题。

2020年8月

修复trt插件的bug。

2020年6月

发布FasterTransformer 2.1
- 基于Effective Transformer的思想添加Effective FasterTransformer。
- 优化波束搜索内核。
- 添加 PyTorch op 支持

2020年5月

修复编码器的seq_len必须大于3的bug。
添加解码的position_encoding作为FasterTransformer解码的输入。这样可以方便地使用不同类型的位置编码。 FasterTransformer不计算位置编码值，而仅查表。
修改translate_sample.py中加载模型的方法。

2020年4月

将decoding_opennmt.h重命名为decoding_beamsearch.h
添加 DiverseSiblingsSearch 进行解码。
将采样添加到解码中
- 实现在decoding_sampling.h中
- 添加top_k采样、top_p采样进行解码。
重构张量流自定义操作代码。
- 将bert_transformer_op.h 、 bert_transformer_op.cu.cc合并到bert_transformer_op.cc
- 将decoder.h 、 decoder.cu.cc合并到decoder.cc
- 将decoding_beamsearch.h 、 decoding_beamsearch.cu.cc合并到decoding_beamsearch.cc
修复finalize函数decode.py的bug。
修复 tf DiverseSiblingSearch 的错误。
将 BLEU 评分器bleu_score.py添加到utils中。请注意，BLEU 分数需要 python3。
融合编码器的QKV Gemm和解码器的masked_multi_head_attention。
将动态批量大小和动态序列长度功能添加到所有操作中。

2020年3月

FasterTransformer 2.0 中添加功能
- 添加translate_sample.py来演示如何通过恢复OpenNMT-tf的预训练模型来翻译句子。
修复Fastertransformer 2.0的错误
- 修复解码器最大序列长度不能大于128的问题。
- 修复解码每一步后不检查完成或未完成的错误。
- 修复解码器关于max_seq_len的bug。
- 修改解码模型结构以适合OpenNMT-tf解码模型。
  - 在解码器之后添加层归一化层。
  - 为解码器的输入添加标准化

2020年2月

发布FasterTransformer 2.0
- 提供高度优化的基于OpenNMT-tf的解码器和解码，包括C++ API和TensorFlow op。
- 完善编码器示例代码。
- 将动态批量大小功能添加到编码器操作中。

2019年7月

发布FasterTransformer 1.0
- 提供高度优化的bert等效transformer层，包括C++ API、TensorFlow op和TensorRT插件。

已知问题

由于未定义的符号问题，无法在 TensorFlow 2.10 上进行编译。
导入扩展时出现未定义符号错误
- 请先import torch 。如果这样做了，那是由于 C++ ABI 不兼容。你可能需要检查编译和执行过程中使用的PyTorch是否相同，或者你需要检查你的PyTorch是如何编译的，或者你的GCC版本等。
TensorFlow 和 OP 的解码结果会有所不同。这个问题是由累积对数概率造成的，我们并不回避这个问题。
如果在自定义环境中遇到问题，请尝试使用gcc/g++ 4.8构建TensorFlow op的项目，特别是对于TensorFlow 1.14。

展开

附加信息