FasterTransformer下載 - FasterTransformer原始碼下載

FasterTransformer

Ai源碼

v5.3 release

下載

注意：FasterTransformer 開發已過渡到 TensorRT-LLM。我們鼓勵所有開發人員利用 TensorRT-LLM 來獲得 LLM Inference 的最新改進。 NVIDIA/FasterTransformer 儲存庫將保持不變，但不會有進一步的開發。

更快的變壓器

該儲存庫提供了一個腳本和配方來運行高度優化的基於變壓器的編碼器和解碼器元件，並由 NVIDIA 進行測試和維護。

更快的變壓器
- 目錄
- 型號概覽
  - 支援矩陣
- 先進的
  - 全球環境
- 表現
  - BERT 基礎效能
    - FasterTransformer新功能的BERT基礎效能
    - BERT 在 TensorFlow 上的基本效能
    - PyTorch 上的 BERT 基本性能
  - 解碼和解碼器效能
    - TensorFlow 上的解碼器和解碼端對端翻譯效能
    - PyTorch 上的解碼器和解碼端對端翻譯效能
  - GPT 性能
- 發行說明
  - 變更日誌
  - 已知問題

型號概覽

在 NLP 中，編碼器和解碼器是兩個重要的元件，變壓器層成為這兩個元件的流行架構。 FasterTransformer 為編碼器和解碼器實作了高度最佳化的轉換器層以進行推理。在 Volta、Turing 和 Ampere GPU 上，當資料和權重的精確度為 FP16 時，會自動使用 Tensor Core 的運算能力。

FasterTransformer 建構在 CUDA、cuBLAS、cuBLASLt 和 C++ 之上。我們提供以下框架的至少一種 API：TensorFlow、PyTorch 和 Triton 後端。使用者可以將FasterTransformer直接整合到這些框架中。對於支援框架，我們還提供了範例程式碼來演示如何使用，並展示這些框架的效能。

支援矩陣

型號	框架	FP16	INT8（圖靈之後）	稀疏性（安培之後）	張量平行	管道並聯	FP8（繼料斗之後）
伯特	TensorFlow	是的	是的	-	-	-	-
伯特	火炬	是的	是的	是的	是的	是的	-
伯特	海衛一後端	是的	-	-	是的	是的	-
伯特	C++	是的	是的	-	-	-	是的
XL網	C++	是的	-	-	-	-	-
編碼器	TensorFlow	是的	是的	-	-	-	-
編碼器	火炬	是的	是的	是的	-	-	-
解碼器	TensorFlow	是的	-	-	-	-	-
解碼器	火炬	是的	-	-	-	-	-
解碼	TensorFlow	是的	-	-	-	-	-
解碼	火炬	是的	-	-	-	-	-
GPT	TensorFlow	是的	-	-	-	-	-
通用技術/選擇	火炬	是的	-	-	是的	是的	是的
通用技術/選擇	海衛一後端	是的	-	-	是的	是的	-
GPT-教育部	火炬	是的	-	-	是的	是的	-
盛開	火炬	是的	-	-	是的	是的	-
盛開	海衛一後端	是的	-	-	是的	是的	-
GPT-J	海衛一後端	是的	-	-	是的	是的	-
長形器	火炬	是的	-	-	-	-	-
T5/UL2	火炬	是的	-	-	是的	是的	-
T5	TensorFlow 2	是的	-	-	-	-	-
T5/UL2	海衛一後端	是的	-	-	是的	是的	-
T5	張量RT	是的	-	-	是的	是的	-
T5-教育部	火炬	是的	-	-	是的	是的	-
斯溫變壓器	火炬	是的	是的	-	-	-	-
斯溫變壓器	張量RT	是的	是的	-	-	-	-
維特	火炬	是的	是的	-	-	-	-
維特	張量RT	是的	是的	-	-	-	-
GPT-NeoX	火炬	是的	-	-	是的	是的	-
GPT-NeoX	海衛一後端	是的	-	-	是的	是的	-
巴特/巴特	火炬	是的	-	-	是的	是的	-
微型網	C++	是的	-	-	-	-	-
德貝爾塔	TensorFlow 2	是的	-	-	正在進行中	正在進行中	-
德貝爾塔	火炬	是的	-	-	正在進行中	正在進行中	-

請注意，FasterTransformer 支援 C++ 上的上述模型，因為所有原始程式碼都是基於 C++ 建構的。

具體模型的更多詳細資訊放在docs/的xxx_guide.md中，其中xxx表示模型名稱。一些常見問題和相應的答案放在docs/QAList.md中。請注意，Encoder 和 BERT 的模型類似，我們將說明放在bert_guide.md中。

先進的

以下程式碼列出了FasterTransformer的目錄結構：

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

請注意，許多資料夾包含許多子資料夾來分割不同的模型。量化工具已轉移到examples ，例如examples/tensorflow/bert/bert-quantization/和examples/pytorch/bert/bert-quantization-sparsity/ 。

全球環境

FasterTransformer提供了一些方便的環境變數用於調試和測試。

FT_LOG_LEVEL ：此環境控制偵錯訊息的日誌等級。更多詳細資訊位於src/fastertransformer/utils/logger.h 。請注意，當等級低於DEBUG時，程式會列印大量訊息，並且程式會變得非常慢。
FT_NVTX ：如果設定為ON （如FT_NVTX=ON ./bin/gpt_example ，程式將插入 nvtx 的標記以協助分析程式。
FT_DEBUG_LEVEL ：如果設定為DEBUG ，程式將在每個核心之後執行cudaDeviceSynchronize() 。否則，內核預設異步執行。有助於調試時定位錯誤點。但這個標誌對程式的效能影響很大。因此，它應該僅用於調試。

表現

硬體設定：

8xA100-80GB（mclk 1593MHz、pclk 1410MHz），採用 AMD EPYC 7742 64 核心處理器
T4（mclk 5000MHz、pclk 1590MHz），採用 Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz

為了執行以下基準測試，我們需要安裝unix計算工具「bc」：

apt-get install bc

BERT 基礎效能

透過運行benchmarks/bert/tf_benchmark.sh獲得 TensorFlow 的 FP16 結果。

透過執行benchmarks/bert/tf_int8_benchmark.sh獲得 TensorFlow 的 INT8 結果。

PyTorch 的 FP16 結果是透過運行benchmarks/bert/pyt_benchmark.sh獲得的。

PyTorch的INT8結果是透過執行benchmarks/bert/pyt_int8_benchmark.sh獲得的。

更多基準測試放在docs/bert_guide.md 。

FasterTransformer新功能的BERT基礎效能

下圖比較了FasterTransformer和FasterTransformer在T4上FP16下不同特徵的表現。

對於大批次和序列長度，EFF-FT 和 FT-INT8-v2 都帶來 2 倍的加速。對於大型案例，同時使用Effective FasterTransformer和int8v2可以比FasterTransformer FP16帶來約3.5倍的加速。

BERT 在 TensorFlow 上的基本效能

下圖比較了FasterTransformer和TensorFlow XLA在T4上FP16下不同特徵的表現。

對於小批量和序列長度，使用 FasterTransformer 可以帶來約 3 倍的加速。

對於大批量和序列長度，使用有效的 FasterTransformer 和 INT8-v2 量化可以帶來約 5 倍的加速。

PyTorch 上的 BERT 基本性能

下圖比較了FasterTransformer和PyTorch TorchScript在T4上FP16下不同特徵的表現。

對於小批次和序列長度，使用 FasterTransformer CustomExt 可以帶來約 4x ~ 6x 的加速。

對於大批量和序列長度，使用有效的 FasterTransformer 和 INT8-v2 量化可以帶來約 5 倍的加速。

解碼和解碼器效能

透過運行benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh和benchmarks/decoding/tf_decoding_sampling_benchmark.sh得到 TensorFlow 的結果

PyTorch的結果是透過執行benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh獲得的。

在解碼實驗中，我們更新了以下參數：

頭數 = 8
每個頭的大小 = 64
編碼器和解碼器的 num_layers = 6
對於 TensorFlow 範例程式碼，vocabulary_size = 32001；對於 PyTorch 範例程式碼，vocabulary_size = 31538
記憶體隱藏暗度 = 512
最大序列長度 = 128

更多基準測試放在docs/decoder_guide.md 。

TensorFlow 上的解碼器和解碼端對端翻譯效能

下圖顯示了 FT-Decoder 操作和 FT-Decoding 操作與 FP16 下 T4 下的 TensorFlow 相比的加速情況。這裡，我們使用翻譯測試集的吞吐量來防止每種方法的總令牌可能不同。與 TensorFlow 相比，FT-Decoder 提供 1.5x ~ 3x 的加速比；而 FT-Decoding 提供 4x ~ 18x 的加速。

PyTorch 上的解碼器和解碼端對端翻譯效能

下圖顯示了 FT-Decoder 操作和 FT-Decoding 操作與使用 T4 的 FP16 下的 PyTorch 相比的加速情況。這裡，我們使用翻譯測試集的吞吐量來防止每種方法的總令牌可能不同。與 PyTorch 相比，FT-Decoder 提供 1.2x ~ 3x 的加速；而 FT-Decoding 則提供 3.8x ~ 13x 的加速。

GPT 性能

下圖比較了A100上FP16下Megatron和FasterTransformer的性能。

在解碼實驗中，我們更新了以下參數：

頭數 = 96
每個頭的大小 = 128
GPT-89B 型號的 num_layers = 48，GPT-175B 型號的 num_layers = 96
資料類型 = FP16
詞彙大小 = 51200
頂部p = 0.9
張量並行大小 = 8
輸入序列長度 = 512
輸出序列長度 = 32

發行說明

變更日誌

2023年5月

修復生成提前停止的錯誤

2023 年 1 月

支持GPT教育部
支援 FP8 for Bert 和 GPT（實驗）
在 TensorFlow 2 和 PyTorch 上支援 DeBERTa

2022 年 12 月

發布 FasterTransformer 5.2
支持最小長度懲罰

2022 年 11 月

支援 T5 Tensorflow 2 自訂操作。
支持T5教育部
支援微網
支持BART & mBART
支援SwinV2
初步支援帶有 GPT 的 w8a8 int8 模式（預覽版）
支持 GPT 中的融合 mha

2022 年 10 月

支持綻放

2022 年 9 月

支援 gpt 中的事實採樣（連結）
T5支援IA3適配方案

2022 年 8 月

支援返回 GPT 中的上下文標記嵌入
發布 FasterTransformer 5.1
支援互動式生成
支持注意力限時記憶
支援mt5和t5-v1.1

2022 年 7 月

支援 UL2 擁抱面測試。（關聯）
- 修復T5在bfloat16下的bug。
新增 ViT INT8 TensorRT 插件
支援批量採樣
支援GPT模型中的共享上下文優化

2022 年 6 月

支援 Triton 後端的串流生成。
支援OPT。
支援FP32、FP16和BF16下的多節點多GPU BERT。

2022年5月

大多數型號支援 bfloat16。
支援 GPT-J 的前綴提示。
支持 GPT-NeoX。
- Layernorm 中使用的 epsilon 值現在是一個參數
- 旋轉嵌入 GPT-NeoX 樣式（僅實現了 GPT-J）
- 載入每個 GPU 的層規格和偏差參數
- EleutherAI 檢查點的重量轉換

2022 年 4 月

發布FasterTransformer 5.0
- 將所有gemm的預設累積類型變更為FP32。
- 支持GPT模型中的bfloat16推理。
- 支援 Nemo Megatron T5 和 Megatron-LM T5 型號。
- 支持ViT。

2022 年 3 月

支援 GPT-J 中的stop_ids和ban_bad_ids 。
支援 GPT-J、GPT、T5 和解碼中的動態start_id和end_id 。

2022 年 2 月

支援Swin變壓器。
透過in-direction buffer優化beam search的k/v快取更新。
支援 GPT-J、T5 和 GPT 的運行時輸入。
支援GPT和GPT-J中的軟提示。
支援自訂所有reduce核心。
- 局限性：
  1. DGX-A100 上僅支援張量並行大小 = 8。
  2. 僅透過 cudaMallocAsync 支援 CUDA。

2021 年 12 月

新增T5模型的TensorRT插件。
將GPT模型的一些超參數更改為運行時查詢。
優化C++程式碼下的記憶體分配器。
修正 CUB 的錯誤，包括使用 CUDA 11.5 或更高版本時的錯誤。

2021 年 11 月

更新FasterTransformer 5.0測試版
增加 GPT-3 INT8 僅重量量化，批量大小 <= 2。
在T5上支援多節點多GPU支援。
增強GPT-3中的多節點多GPU支援。

2021 年 8 月

發布 FasterTransformer 5.0 測試版
- 重構儲存庫和程式碼
- 特別感謝 NAVER Corp. 對此版本的大量貢獻，如下所列。
  - 錯誤修復
    - 修正 gpt pytorch 包裝器的 batch_size 小於 max_batch_size 時發生的錯誤。
    - 修復由於重複使用分配器而導致每次轉送發生的記憶體洩漏。
    - 修復重複懲罰內核中發生的競爭條件。
  - 強化
    - 新增隨機種子設定。
    - 修正 GPT FP16 上的 GEMM 緩衝區溢位問題。
    - 變更為使每次完成的完成緩衝區無效。
    - 引入 stop_before 提前停止。
- 支援長形。
- 將layer_para重命名為pipeline_para 。
- 優化top p採樣的排序。
- 支援 BERT 上 Ampere GPU 的稀疏性。
- GPT 模型支援size_per_head 96、160、192、224、256。
- 支持GPT Triton後端的多節點推理。

2021 年 6 月

支援XLNet

2021 年 4 月

發布FasterTransformer 4.0
- 支援C++和PyTorch上GPT模型的多GPU和多節點推理。
- 支援 Triton 上 GPT 模型的單節點、多 GPU 推理。
- 為 bert 添加 int8 融合多頭注意力內核。
- 為bert添加V100的FP16融合多頭注意力內核。
- 優化解碼器內核。
- 移至獨立倉庫。
- Eager 模式 PyTorch 擴充已棄用。

2020年12月

發布 FasterTransformer 3.1
- 透過添加finisehd遮罩來優化解碼，以防止無用計算。
- 支援opennmt編碼器。
- 刪除TensorRT插件支援。
- TorchScript 自訂操作已棄用。

2020年11月

優化INT8推理。
支持 PyTorch INT8 推理。
提供PyTorch INT8量化工具。
將TensorRT的融合多頭注意力核心整合到FasterTransformer中。
新增SQuAD的單元測試。
更新錯過的 NGC 檢查點。

2020 年 9 月

支持GPT2
發布FasterTransformer 3.0
- 支援cpp和TensorFlow op的編碼器的INT8量化。
- 加入 bert-tf-量化工具。
- 修正 Cmake 15 或 Cmake 16 無法建置該專案的問題。

2020年8月

修復trt插件的bug。

2020年6月

發布FasterTransformer 2.1
- 基於Effective Transformer的想法加入Effective FasterTransformer。
- 優化波束搜尋內核。
- 添加 PyTorch op 支持

2020年5月

修復編碼器的seq_len必須大於3的bug。
加入解碼的position_encoding作為FasterTransformer解碼的輸入。這樣可以方便地使用不同類型的位置編碼。 FasterTransformer不計算位置編碼值，而只查表。
修改translate_sample.py中載入模型的方法。

2020年4月

將decoding_opennmt.h重新命名為decoding_beamsearch.h
新增 DiverseSiblingsSearch 進行解碼。
將取樣添加到解碼中
- 實作在decoding_sampling.h中
- 加入top_k採樣、top_p採樣進行解碼。
重構張量流自訂操作程式碼。
- 將bert_transformer_op.h 、 bert_transformer_op.cu.cc合併至bert_transformer_op.cc
- 將decoder.h 、 decoder.cu.cc合併到decoder.cc
- 將decoding_beamsearch.h 、 decoding_beamsearch.cu.cc合併到decoding_beamsearch.cc
修復finalize函數decode.py的bug。
修正 tf DiverseSiblingSearch 的錯誤。
將 BLEU 評分器bleu_score.py加入utils 。請注意，BLEU 分數需要 python3。
融合編碼器的QKV Gemm和解碼器的masked_multi_head_attention。
將動態批次大小和動態序列長度功能新增至所有操作。

2020年3月

FasterTransformer 2.0 新增功能
- 新增translate_sample.py來示範如何透過恢復OpenNMT-tf的預訓練模型來翻譯句子。
修復Fastertransformer 2.0的錯誤
- 修復解碼器最大序列長度不能大於128的問題。
- 修復解碼每一步後不檢查完成或未完成的錯誤。
- 修復解碼器關於max_seq_len的bug。
- 修改解碼模型結構以適合OpenNMT-tf解碼模型。
  - 在解碼器之後加入層歸一化層。
  - 為解碼器的輸入添加標準化

2020年2月

發布FasterTransformer 2.0
- 提供高度最佳化的基於OpenNMT-tf的解碼器和解碼，包括C++ API和TensorFlow op。
- 完善編碼器範例程式碼。
- 將動態批次大小功能新增至編碼器操作。

2019年7月

發布FasterTransformer 1.0
- 提供高度最佳化的bert等效transformer層，包括C++ API、TensorFlow op和TensorRT外掛程式。

已知問題

由於未定義的符號問題，無法在 TensorFlow 2.10 上進行編譯。
導入擴充時出現未定義符號錯誤
- 請先import torch 。如果這樣做了，那是由於 C++ ABI 不相容。你可能需要檢查編譯和執行過程中使用的PyTorch是否相同，或者你需要檢查你的PyTorch是如何編譯的，或者你的GCC版本等。
TensorFlow 和 OP 的解碼結果會有所不同。這個問題是由累積對數機率造成的，我們並不迴避這個問題。
如果在自訂環境中遇到問題，請嘗試使用gcc/g++ 4.8建置TensorFlow op的項目，特別是對於TensorFlow 1.14。

展開

附加信息

版本 v5.3 release
類型 Ai源碼
更新時間 2024-12-08
大小 25.45MB
來自於 Github

相關應用

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部