FasterTransformerダウンロード - FasterTransformerソースコードのダウンロード

FasterTransformer

AI ソースコード

v5.3 release

ダウンロード

注: FasterTransformer の開発は TensorRT-LLM に移行しました。すべての開発者は、TensorRT-LLM を活用して、LLM 推論の最新の改善を得ることが推奨されます。 NVIDIA/FasterTransformer リポジトリは存続しますが、それ以上の開発は行われません。

高速トランスフォーマー

このリポジトリは、高度に最適化されたトランスフォーマーベースのエンコーダーおよびデコーダーコンポーネントを実行するためのスクリプトとレシピを提供し、NVIDIA によってテストおよび保守されています。

高速トランスフォーマー
- 目次
- モデル概要
  - サポートマトリックス
- 高度な
  - 地球環境
- パフォーマンス
  - BERTの基本パフォーマンス
    - FasterTransformer の新機能の BERT 基本パフォーマンス
    - TensorFlow 上の BERT ベースのパフォーマンス
    - PyTorch での BERT の基本パフォーマンス
  - デコードとデコーダーのパフォーマンス
    - TensorFlow でのデコーダとデコードのエンドツーエンド変換パフォーマンス
    - PyTorch でのデコーダーとデコーディングのエンドツーエンド翻訳パフォーマンス
  - GPT パフォーマンス
- リリースノート
  - 変更履歴
  - 既知の問題

モデル概要

NLP では、エンコーダーとデコーダーは 2 つの重要なコンポーネントであり、トランスフォーマー層は両方のコンポーネントで一般的なアーキテクチャになっています。 FasterTransformer は、推論用のエンコーダーとデコーダーの両方に対して高度に最適化されたトランスフォーマー層を実装します。 Volta、Turing、Ampere GPU では、データと重みの精度が FP16 の場合、Tensor コアの計算能力が自動的に使用されます。

FasterTransformer は、CUDA、cuBLAS、cuBLASLt、および C++ 上に構築されています。 TensorFlow、PyTorch、Triton バックエンドのフレームワークの API を少なくとも 1 つ提供します。ユーザーは FasterTransformer をこれらのフレームワークに直接統合できます。サポートするフレームワークについては、使用方法を示し、これらのフレームワークでのパフォーマンスを示すサンプルコードも提供します。

サポートマトリックス

モデル	フレームワーク	FP16	INT8 (チューリング後)	スパーシティ (アンペア後)	テンソル並列	パイプラインパラレル	FP8（ホッパー後）
バート	TensorFlow	はい	はい	-	-	-	-
バート	パイトーチ	はい	はい	はい	はい	はい	-
バート	トリトンバックエンド	はい	-	-	はい	はい	-
バート	C++	はい	はい	-	-	-	はい
XLネット	C++	はい	-	-	-	-	-
エンコーダ	TensorFlow	はい	はい	-	-	-	-
エンコーダ	パイトーチ	はい	はい	はい	-	-	-
デコーダ	TensorFlow	はい	-	-	-	-	-
デコーダ	パイトーチ	はい	-	-	-	-	-
デコード	TensorFlow	はい	-	-	-	-	-
デコード	パイトーチ	はい	-	-	-	-	-
GPT	TensorFlow	はい	-	-	-	-	-
GPT/OPT	パイトーチ	はい	-	-	はい	はい	はい
GPT/OPT	トリトンバックエンド	はい	-	-	はい	はい	-
GPT-MoE	パイトーチ	はい	-	-	はい	はい	-
咲く	パイトーチ	はい	-	-	はい	はい	-
咲く	トリトンバックエンド	はい	-	-	はい	はい	-
GPT-J	トリトンバックエンド	はい	-	-	はい	はい	-
ロングフォーマー	パイトーチ	はい	-	-	-	-	-
T5/UL2	パイトーチ	はい	-	-	はい	はい	-
T5	テンソルフロー 2	はい	-	-	-	-	-
T5/UL2	トリトンバックエンド	はい	-	-	はい	はい	-
T5	TensorRT	はい	-	-	はい	はい	-
T5-MoE	パイトーチ	はい	-	-	はい	はい	-
スイングトランス	パイトーチ	はい	はい	-	-	-	-
スイングトランス	TensorRT	はい	はい	-	-	-	-
ViT	パイトーチ	はい	はい	-	-	-	-
ViT	TensorRT	はい	はい	-	-	-	-
GPT-NeoX	パイトーチ	はい	-	-	はい	はい	-
GPT-NeoX	トリトンバックエンド	はい	-	-	はい	はい	-
BART/mBART	パイトーチ	はい	-	-	はい	はい	-
ウィーネット	C++	はい	-	-	-	-	-
デベルタ	テンソルフロー 2	はい	-	-	進行中	進行中	-
デベルタ	パイトーチ	はい	-	-	進行中	進行中	-

すべてのソースコードは C++ 上に構築されているため、FasterTransformer は C++ 上で上記のモデルをサポートしていることに注意してください。

特定のモデルの詳細は、 docs/のxxx_guide.mdに記載されています。xxx xxxモデル名を意味します。いくつかの一般的な質問とそれぞれの回答はdocs/QAList.mdに記載されています。 Encoder と BERT のモデルは類似しているため、説明をbert_guide.mdにまとめています。

高度な

次のコードは、FasterTransformer のディレクトリ構造をリストします。

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

多くのフォルダーには、異なるモデルを分割するための多くのサブフォルダーが含まれていることに注意してください。量子化ツールは、 examples/tensorflow/bert/bert-quantization/やexamples/pytorch/bert/bert-quantization-sparsity/などのexamplesに移動しました。

地球環境

FasterTransformer は、デバッグとテストに便利な環境変数をいくつか提供します。

FT_LOG_LEVEL : この環境は、デバッグメッセージのログレベルを制御します。詳細については、 src/fastertransformer/utils/logger.hを参照してください。レベルがDEBUGより低い場合、プログラムは大量のメッセージを出力し、プログラムが非常に遅くなることに注意してください。
FT_NVTX : FT_NVTX=ON ./bin/gpt_exampleのようにONに設定されている場合、プログラムはプログラムのプロファイリングを支援するために nvtx のタグを挿入します。
FT_DEBUG_LEVEL : DEBUGに設定されている場合、プログラムはすべてのカーネルの後にcudaDeviceSynchronize()を実行します。それ以外の場合、カーネルはデフォルトで非同期に実行されます。デバッグ中にエラー箇所を特定するのに役立ちます。ただし、このフラグはプログラムのパフォーマンスに大きな影響を与えます。したがって、これはデバッグのみに使用する必要があります。

パフォーマンス

ハードウェア設定:

AMD EPYC 7742 64 コアプロセッサーを搭載した 8xA100-80GB (mclk 1593MHz、pclk 1410MHz 搭載)
T4 (mclk 5000MHz、pclk 1590MHz)、Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz

次のベンチマークを実行するには、unix コンピューティングツール「bc」をインストールする必要があります。

apt-get install bc

BERTの基本パフォーマンス

TensorFlow の FP16 の結果は、 benchmarks/bert/tf_benchmark.sh実行することで取得されました。

TensorFlow の INT8 の結果は、 benchmarks/bert/tf_int8_benchmark.sh実行することで取得されました。

PyTorch の FP16 の結果はbenchmarks/bert/pyt_benchmark.sh実行することで取得されました。

PyTorch の INT8 の結果はbenchmarks/bert/pyt_int8_benchmark.sh実行することで取得されました。

その他のベンチマークはdocs/bert_guide.mdにあります。

FasterTransformer の新機能の BERT 基本パフォーマンス

次の図は、T4 の FP16 での FasterTransformer と FasterTransformer のさまざまな機能のパフォーマンスを比較しています。

バッチサイズとシーケンス長が大きい場合、EFF-FT と FT-INT8-v2 の両方で約 2 倍の速度向上が得られます。効果的な FasterTransformer と int8v2 を同時に使用すると、大規模な場合には FasterTransformer FP16 と比較して約 3.5 倍の高速化が可能です。

TensorFlow 上の BERT ベースのパフォーマンス

次の図は、T4 の FP16 での FasterTransformer と TensorFlow XLA のさまざまな機能のパフォーマンスを比較しています。

バッチサイズとシーケンスの長さが小さい場合、FasterTransformer を使用すると約 3 倍の速度向上が得られます。

バッチサイズとシーケンス長が大きい場合は、Effective FasterTransformer と INT8-v2 量子化を使用すると、約 5 倍の速度向上が得られます。

PyTorch での BERT の基本パフォーマンス

次の図は、T4 の FP16 での FasterTransformer と PyTorch TorachScript のさまざまな機能のパフォーマンスを比較しています。

バッチサイズとシーケンスの長さが小さい場合、FasterTransformer CustomExt を使用すると、約 4 倍から 6 倍の速度向上が得られます。

バッチサイズとシーケンス長が大きい場合は、Effective FasterTransformer と INT8-v2 量子化を使用すると、約 5 倍の速度向上が得られます。

デコードとデコーダーのパフォーマンス

TensorFlow の結果はbenchmarks/decoding/tf_decoding_beamsearch_benchmark.shおよびbenchmarks/decoding/tf_decoding_sampling_benchmark.shを実行して取得されました。

PyTorch の結果はbenchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh実行することで取得されました。

デコードの実験では、次のパラメータを更新しました。

頭番号 = 8
頭あたりのサイズ = 64
エンコーダとデコーダの両方で num_layers = 6
vocabulary_size = TensorFlow サンプルコードの場合は 32001、PyTorch サンプルコードの場合は 31538
メモリ_隠しディム = 512
最大シーケンス長 = 128

その他のベンチマークはdocs/decoder_guide.mdにあります。

TensorFlow でのデコーダとデコードのエンドツーエンド変換パフォーマンス

次の図は、T4 を使用した FP16 での TensorFlow と比較した FT-Decoder 演算と FT-Decoding 演算の高速化を示しています。ここでは、各メソッドの合計トークンが異なることを防ぐために、テストセットの変換のスループットを使用します。 TensorFlow と比較して、FT-Decoder は 1.5 倍から 3 倍の高速化を実現します。一方、FT デコードでは 4 倍から 18 倍の高速化が実現します。

PyTorch でのデコーダーとデコーディングのエンドツーエンド翻訳パフォーマンス

次の図は、T4 を使用した FP16 での PyTorch と比較した FT-Decoder 演算と FT-Decoding 演算の高速化を示しています。ここでは、各メソッドの合計トークンが異なることを防ぐために、テストセットの変換のスループットを使用します。 PyTorch と比較して、FT-Decoder は 1.2 倍から 3 倍の高速化を実現します。一方、FT デコードでは 3.8 倍から 13 倍の速度向上が得られます。

GPT パフォーマンス

次の図は、A100 の FP16 での Megatron と FasterTransformer のパフォーマンスを比較しています。

デコードの実験では、次のパラメータを更新しました。

頭番号 = 96
頭あたりのサイズ = 128
num_layers = GPT-89B モデルの場合は 48、GPT-175B モデルの場合は 96
データタイプ = FP16
語彙サイズ = 51200
トップ_p = 0.9
テンソル並列サイズ = 8
入力シーケンスの長さ = 512
出力シーケンスの長さ = 32

リリースノート

変更履歴

2023年5月

生成が早期に停止するバグを修正

2023年1月

GPT MoEをサポート
Bert および GPT の FP8 をサポート (実験的)
TensorFlow 2 および PyTorch での DeBERTa のサポート

2022 年 12 月

FasterTransformer 5.2 をリリース
サポート最小長ペナルティ

2022 年 11 月

T5 Tensorflow 2 カスタムオペレーションをサポートします。
T5 MoEをサポート
WeNetをサポートする
BARTとmBARTをサポート
SwinV2をサポート
GPT による w8a8 int8 モードの初期サポート (プレビュー)
GPT で融合 mha をサポート

2022 年 10 月

ブルームをサポート

2022 年 9 月

gpt で事実に基づくサンプリングをサポート (リンク)
T5 での IA3 適応スキームのサポート

2022 年 8 月

GPT に埋め込まれたコンテキストトークンを返すサポート
FasterTransformer 5.1 をリリース
インタラクティブな生成のサポート
注意時間制限付き記憶のサポート
mt5 および t5-v1.1 をサポート

2022年7月

UL2 ハグフェイスチェックをサポートします。（リンク）
- bfloat16 での T5 のバグを修正。
ViT INT8 TensorRT プラグインを追加
バッチサンプリングのサポート
GPT モデルで共有コンテキストの最適化をサポート

2022年6月

Triton バックエンドのストリーミング生成をサポートします。
OPTをサポートします。
FP32、FP16、BF16 でマルチノードマルチ GPU BERT をサポートします。

2022年5月

ほとんどのモデルで bfloat16 をサポートします。
GPT-J のプレフィックスプロンプトをサポートします。
GPT-NeoXをサポートします。
- Layernorm で使用されるイプシロン値がパラメータになりました
- ロータリー埋め込み GPT-NeoX スタイル (GPT-J のみ実装)
- GPU ごとのレイヤーノルムおよびバイアスパラメータをロードする
- EleutherAI チェックポイントからの重み変換

2022年4月

FasterTransformer 5.0 をリリース
- すべての gemm のデフォルトの蓄積タイプを FP32 に変更します。
- GPT モデルで bfloat16 推論をサポートします。
- Nemo Megatron T5 および Megatron-LM T5 モデルをサポートします。
- ViTをサポートします。

2022年3月

GPT-J でstop_idsとban_bad_idsサポートします。
GPT-J、GPT、T5、およびデコードで動的start_idとend_idサポートします。

2022年2月

Swin トランスフォーマーをサポートします。
インディレクションバッファによるビームサーチのk/vキャッシュ更新を最適化します。
GPT-J、T5、GPT のランタイム入力をサポートします。
GPT および GPT-J でソフトプロンプトをサポートします。
カスタムのすべての削減カーネルをサポートします。
- 制限：
  1. DGX-A100 ではテンソル並列サイズ = 8 のみをサポートします。
  2. cudaMallocAsync を使用した CUDA のみをサポートします。

2021年12月

T5 モデルの TensorRT プラグインを追加します。
GPT モデルの一部のハイパーパラメータをランタイムクエリに変更します。
C++ コードでメモリアロケータを最適化します。
CUDA 11.5以降を使用した場合を含むCUBのバグを修正しました。

2021年11月

FasterTransformer 5.0 ベータ版を更新する
バッチサイズ <= 2 に対して GPT-3 INT8 重みのみの量子化を追加します。
T5 でマルチノードマルチ GPU サポートをサポートします。
GPT-3 でのマルチノードマルチ GPU サポートを強化します。

2021年8月

FasterTransformer 5.0 ベータ版をリリース
- リポジトリとコードをリファクタリングする
- また、以下に示すように、このバージョンに多大な貢献をしていただいた NAVER Corp. に心より感謝いたします。
  - バグ修正
    - gpt pytorch ラッパーのbatch_sizeがmax_batch_sizeより小さい場合に発生するエラーを修正しました。
    - アロケータの再利用により転送のたびに発生するメモリリークを修正しました。
    - 繰り返しペナルティカーネルで発生する競合状態を修正しました。
  - 強化
    - ランダムシード設定を追加します。
    - GPT の FP16 での GEMM バッファオーバーフローを修正しました。
    - 完了するたびに完了バッファを無効にするように変更します。
    - 早期停止のために stop_before を導入します。
- ロングフォーマーをサポートします。
- layer_para名前をpipeline_paraに変更します。
- 上位 p サンプリングのソートを最適化します。
- BERT 上の Ampere GPU のスパース性をサポートします。
- GPT モデルのsize_per_head 96、160、192、224、256 をサポートします。
- GPT Triton バックエンドのマルチノード推論をサポートします。

2021年6月

XLNetのサポート

2021年4月

FasterTransformer 4.0 をリリース
- C++ および PyTorch 上の GPT モデルのマルチGPUおよびマルチノード推論をサポートします。
- triton 上の GPT モデルの単一ノード、マルチ gpu 推論をサポートします。
- bert 用の int8 融合マルチヘッドアテンションカーネルを追加します。
- bert 用に V100 の FP16 融合マルチヘッドアテンションカーネルを追加します。
- デコーダーのカーネルを最適化します。
- 独立したリポジトリに移動します。
- Eager モードの PyTorch 拡張機能は非推奨になりました。

2020年12月

FasterTransformer 3.1 をリリース
- 無駄な計算を防ぐために finisehd マスクを追加してデコードを最適化します。
- opennmt エンコーダをサポートします。
- TensorRT プラグインのサポートを削除します。
- TorchScript カスタム op は非推奨になりました。

2020年11月

INT8 推論を最適化します。
PyTorch INT8 推論をサポートします。
PyTorch INT8 量子化ツールを提供します。
TensorRT の融合マルチヘッドアテンションカーネルを FasterTransformer に統合します。
SQuADの単体テストを追加。
欠落した NGC チェックポイントを更新します。

2020年9月

GPT2をサポート
FasterTransformer 3.0 をリリース
- cpp および TensorFlow 演算のエンコーダーの INT8 量子化をサポートします。
- bert-tf-quantization ツールを追加します。
- Cmake 15 または Cmake 16 がこのプロジェクトのビルドに失敗する問題を修正します。

2020年8月

trtプラグインのバグを修正。

2020年6月

FasterTransformer 2.1 をリリース
- Effects Transformer のアイデアをベースに、Effective FasterTransformer を追加します。
- ビーム検索カーネルを最適化します。
- PyTorch オペレーションのサポートを追加

2020年5月

エンコーダのseq_lenが3より大きくなければならないバグを修正。
デコードのposition_encodingをFasterTransformerデコードの入力として追加します。これは、さまざまなタイプの位置エンコーディングを使用する場合に便利です。 FasterTransformer は位置エンコード値を計算せず、テーブルを検索するだけです。
translate_sample.pyでのモデルの読み込み方法を変更します。

2020年4月

decoding_opennmt.h名前をdecoding_beamsearch.hに変更します。
デコード用に DiverseSiblingsSearch を追加します。
デコードにサンプリングを追加する
- 実装はdecoding_sampling.hにあります。
- デコード用に top_k サンプリング、top_p サンプリングを追加します。
tensorflow カスタム操作コードをリファクタリングします。
- bert_transformer_op.h 、 bert_transformer_op.cu.cc bert_transformer_op.ccにマージします。
- decoder.h 、 decoder.cu.ccをdecoder.ccにマージします。
- decoding_beamsearch.h 、 decoding_beamsearch.cu.ccをdecoding_beamsearch.ccにマージします。
ファイナライズ関数decoding.pyのバグを修正。
tf DiverseSiblingSearch のバグを修正。
BLEU スコアラーbleu_score.py utilsに追加します。 BLEU スコアには Python3 が必要であることに注意してください。
エンコーダーの QKV Gemm とデコーダーの Masked_multi_head_attention を融合します。
動的なバッチサイズと動的なシーケンス長の機能をすべての操作に追加します。

2020年3月

FasterTransformer 2.0 に機能を追加
- OpenNMT-tf の事前トレーニング済みモデルを復元して文を翻訳する方法を示すために、 translate_sample.pyを追加します。
Fastertransformer 2.0のバグを修正
- デコーダの最大シーケンス長が 128 を超えることができないバグを修正。
- デコードが各ステップ後に完了したかどうかをチェックしないバグを修正。
- max_seq_len に関するデコーダのバグを修正。
- OpenNMT-tf デコードモデルに適合するようにデコードモデル構造を変更します。
  - デコーダの後に正規化層を追加します。
  - デコーダの入力に正規化を追加

2020年2月

FasterTransformer 2.0 をリリース
- C++ API や TensorFlow 演算など、高度に最適化された OpenNMT-tf ベースのデコーダとデコーディングを提供します。
- エンコーダのサンプルコードを改良しました。
- 動的なバッチサイズ機能をエンコーダー操作に追加します。

2019年7月

FasterTransformer 1.0 をリリース
- C++ API、TensorFlow op、TensorRT プラグインなど、高度に最適化された bert 同等のトランスフォーマーレイヤーを提供します。

既知の問題

未定義のシンボルの問題のため、tensorflow 2.10 ではコンパイルできません。
拡張機能のインポート時に未定義のシンボルエラーが発生する
- 最初にimport torchください。これが行われた場合は、C++ ABI に互換性がないことが原因です。コンパイルと実行中に使用される PyTorch が同じであることを確認する必要がある場合や、PyTorch がどのようにコンパイルされるか、GCC のバージョンなどを確認する必要がある場合があります。
TensorFlow と OP のデコード結果は異なります。この問題は蓄積されたログ確率によって引き起こされるものであり、この問題を回避することはできません。
カスタム環境で何らかの問題が発生した場合は、gcc/g++ 4.8 を使用して TensorFlow 演算のプロジェクト (特に TensorFlow 1.14 の場合) をビルドしてみてください。

拡大する

追加情報