Téléchargement FasterTransformer - Téléchargement du code source FasterTransformer

FasterTransformer

Code Source AI

v5.3 release

Télécharger

Remarque : Le développement de FasterTransformer est passé à TensorRT-LLM. Tous les développeurs sont encouragés à tirer parti de TensorRT-LLM pour bénéficier des dernières améliorations en matière d'inférence LLM. Le dépôt NVIDIA/FasterTransformer restera actif, mais ne connaîtra pas de développement ultérieur.

Transformateur plus rapide

Ce référentiel fournit un script et une recette pour exécuter le composant d'encodeur et de décodeur hautement optimisé basé sur un transformateur, et il est testé et maintenu par NVIDIA.

Table des matières

Transformateur plus rapide
- Table des matières
- Aperçu du modèle
  - Matrice de support
- Avancé
  - Environnement mondial
- Performance
  - Performances de base BERT
    - Performances de base BERT des nouvelles fonctionnalités de FasterTransformer
    - Performances de base BERT sur TensorFlow
    - Performances de base BERT sur PyTorch
  - Performances du décodage et du décodeur
    - Performances de traduction de bout en bout du décodeur et du décodage sur TensorFlow
    - Performances de traduction de bout en bout du décodeur et du décodage sur PyTorch
  - Performances des tags Google Tag
- Notes de version
  - Journal des modifications
  - Problèmes connus

Aperçu du modèle

En NLP, l'encodeur et le décodeur sont deux composants importants, la couche transformateur devenant une architecture populaire pour les deux composants. FasterTransformer implémente une couche de transformateur hautement optimisée pour l'encodeur et le décodeur pour l'inférence. Sur les GPU Volta, Turing et Ampere, la puissance de calcul des Tensor Cores est utilisée automatiquement lorsque la précision des données et des poids est FP16.

FasterTransformer est construit sur CUDA, cuBLAS, cuBLASLt et C++. Nous fournissons au moins une API des frameworks suivants : TensorFlow, PyTorch et Triton backend. Les utilisateurs peuvent intégrer FasterTransformer directement dans ces frameworks. Pour les frameworks de support, nous fournissons également des exemples de codes pour démontrer comment utiliser et montrer les performances sur ces frameworks.

Matrice de support

Modèles	Cadre	PC16	INT8 (d'après Turing)	Rareté (après Ampère)	Tenseur parallèle	Pipeline parallèle	FP8 (après Hopper)
BERTE	TensorFlow	Oui	Oui	-	-	-	-
BERTE	PyTorch	Oui	Oui	Oui	Oui	Oui	-
BERTE	Back-end Triton	Oui	-	-	Oui	Oui	-
BERTE	C++	Oui	Oui	-	-	-	Oui
XLNet	C++	Oui	-	-	-	-	-
Encodeur	TensorFlow	Oui	Oui	-	-	-	-
Encodeur	PyTorch	Oui	Oui	Oui	-	-	-
Décodeur	TensorFlow	Oui	-	-	-	-	-
Décodeur	PyTorch	Oui	-	-	-	-	-
Décodage	TensorFlow	Oui	-	-	-	-	-
Décodage	PyTorch	Oui	-	-	-	-	-
Google Tag	TensorFlow	Oui	-	-	-	-	-
TPG/OPT	PyTorch	Oui	-	-	Oui	Oui	Oui
TPG/OPT	Back-end Triton	Oui	-	-	Oui	Oui	-
GPT-MoE	PyTorch	Oui	-	-	Oui	Oui	-
FLORAISON	PyTorch	Oui	-	-	Oui	Oui	-
FLORAISON	Back-end Triton	Oui	-	-	Oui	Oui	-
GPT-J	Back-end Triton	Oui	-	-	Oui	Oui	-
Forme longue	PyTorch	Oui	-	-	-	-	-
T5/UL2	PyTorch	Oui	-	-	Oui	Oui	-
T5	TensorFlow 2	Oui	-	-	-	-	-
T5/UL2	Back-end Triton	Oui	-	-	Oui	Oui	-
T5	TensorRT	Oui	-	-	Oui	Oui	-
T5-MoE	PyTorch	Oui	-	-	Oui	Oui	-
Transformateur Swin	PyTorch	Oui	Oui	-	-	-	-
Transformateur Swin	TensorRT	Oui	Oui	-	-	-	-
ViT	PyTorch	Oui	Oui	-	-	-	-
ViT	TensorRT	Oui	Oui	-	-	-	-
GPT-NeoX	PyTorch	Oui	-	-	Oui	Oui	-
GPT-NeoX	Back-end Triton	Oui	-	-	Oui	Oui	-
BART/mBART	PyTorch	Oui	-	-	Oui	Oui	-
WeNet	C++	Oui	-	-	-	-	-
DeBERTa	TensorFlow 2	Oui	-	-	En cours	En cours	-
DeBERTa	PyTorch	Oui	-	-	En cours	En cours	-

Notez que FasterTransformer prend en charge les modèles ci-dessus en C++ car tous les codes sources sont construits en C++.

Plus de détails sur des modèles spécifiques sont indiqués dans xxx_guide.md de docs/ , où xxx signifie le nom du modèle. Certaines questions courantes et les réponses respectives sont placées dans docs/QAList.md . Notez que les modèles d'Encoder et de BERT sont similaires et nous avons mis l'explication ensemble dans bert_guide.md .

Avancé

Le code suivant répertorie la structure des répertoires de FasterTransformer :

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

Notez que de nombreux dossiers contiennent de nombreux sous-dossiers pour diviser différents modèles. Les outils de quantification sont déplacés vers examples , comme examples/tensorflow/bert/bert-quantization/ et examples/pytorch/bert/bert-quantization-sparsity/ .

Environnement mondial

FasterTransformer fournit des variables d'environnement pratiques pour le débogage et les tests.

FT_LOG_LEVEL : Cet environnement contrôle le niveau de journalisation des messages de débogage. Plus de détails se trouvent dans src/fastertransformer/utils/logger.h . Notez que le programme imprimera beaucoup de messages lorsque le niveau est inférieur à DEBUG et le programme deviendra très lent.
FT_NVTX : S'il est défini sur ON comme FT_NVTX=ON ./bin/gpt_example , le programme insérera la balise de nvtx pour aider à profiler le programme.
FT_DEBUG_LEVEL : S'il est défini sur DEBUG , alors le programme exécutera cudaDeviceSynchronize() après chaque noyau. Sinon, le noyau est exécuté de manière asynchrone par défaut. Il est utile de localiser le point d'erreur lors du débogage. Mais cet indicateur affecte considérablement les performances du programme. Il ne doit donc être utilisé que pour le débogage.

Performance

Paramètres matériels :

8xA100-80GB (avec mlk 1593 MHz, pclk 1410 MHz) avec processeur AMD EPYC 7742 64 cœurs
T4 (avec mlk 5 000 MHz, pclk 1 590 MHz) avec processeur Intel(R) Xeon(R) E5-2670 0 à 2,60 GHz

Afin d'exécuter le benchmark suivant, nous devons installer l'outil informatique Unix "bc" en

apt-get install bc

Performances de base BERT

Les résultats FP16 de TensorFlow ont été obtenus en exécutant benchmarks/bert/tf_benchmark.sh .

Les résultats INT8 de TensorFlow ont été obtenus en exécutant benchmarks/bert/tf_int8_benchmark.sh .

Les résultats FP16 de PyTorch ont été obtenus en exécutant benchmarks/bert/pyt_benchmark.sh .

Les résultats INT8 de PyTorch ont été obtenus en exécutant benchmarks/bert/pyt_int8_benchmark.sh .

Plus de repères sont mis dans docs/bert_guide.md .

Performances de base BERT des nouvelles fonctionnalités de FasterTransformer

La figure suivante compare les performances des différentes fonctionnalités de FasterTransformer et FasterTransformer sous FP16 sur T4.

Pour les lots de grande taille et la longueur des séquences, EFF-FT et FT-INT8-v2 entraînent une accélération 2x. L'utilisation simultanée d'Effective FasterTransformer et de int8v2 peut entraîner une accélération d'environ 3,5 fois par rapport à FasterTransformer FP16 pour les grands boîtiers.

Performances de base BERT sur TensorFlow

La figure suivante compare les performances de différentes fonctionnalités de FasterTransformer et TensorFlow XLA sous FP16 sur T4.

Pour les petits lots et la longueur de séquence, l'utilisation de FasterTransformer peut entraîner une accélération 3x.

Pour les lots de grande taille et la longueur de séquence, l'utilisation d'Effective FasterTransformer avec la quantification INT8-v2 peut entraîner une accélération d'environ 5 fois.

Performances de base BERT sur PyTorch

La figure suivante compare les performances des différentes fonctionnalités de FasterTransformer et PyTorch TorchScript sous FP16 sur T4.

Pour les petits lots et la longueur de séquence, l'utilisation de FasterTransformer CustomExt peut entraîner une accélération d'environ 4 à 6 fois.

Pour les lots de grande taille et la longueur de séquence, l'utilisation d'Effective FasterTransformer avec la quantification INT8-v2 peut entraîner une accélération d'environ 5 fois.

Performances du décodage et du décodeur

Les résultats de TensorFlow ont été obtenus en exécutant les benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh et benchmarks/decoding/tf_decoding_sampling_benchmark.sh

Les résultats de PyTorch ont été obtenus en exécutant benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh .

Dans les expériences de décodage, nous avons mis à jour les paramètres suivants :

numéro_tête = 8
size_per_head = 64
num_layers = 6 pour l'encodeur et le décodeur
vocabulaire_size = 32001 pour les exemples de codes TensorFlow, 31538 pour les exemples de codes PyTorch
mémoire_cachée_dim = 512
longueur maximale de la séquence = 128

Plus de benchmarks sont mis dans docs/decoder_guide.md .

Performances de traduction de bout en bout du décodeur et du décodage sur TensorFlow

La figure suivante montre l'accélération des opérations FT-Decoder et FT-Decoding par rapport à TensorFlow sous FP16 avec T4. Ici, nous utilisons le débit de traduction d'un ensemble de tests pour éviter que le nombre total de jetons de chaque méthode ne soit différent. Par rapport à TensorFlow, FT-Decoder offre une accélération de 1,5x à 3x ; tandis que le décodage FT offre une accélération de 4x à 18x.

Performances de traduction de bout en bout du décodeur et du décodage sur PyTorch

La figure suivante montre l'accélération de l'opération FT-Decoder et de l'opération FT-Decoding par rapport à PyTorch sous FP16 avec T4. Ici, nous utilisons le débit de traduction d'un ensemble de tests pour éviter que le nombre total de jetons de chaque méthode ne soit différent. Par rapport à PyTorch, FT-Decoder offre une accélération de 1,2x à 3x ; tandis que le décodage FT offre une accélération de 3,8x ~ 13x.

Performances des tags Google Tag

La figure suivante compare les performances de Megatron et FasterTransformer sous FP16 sur A100.

Dans les expériences de décodage, nous avons mis à jour les paramètres suivants :

numéro_tête = 96
size_per_head = 128
num_layers = 48 pour le modèle GPT-89B, 96 pour le modèle GPT-175B
type_données = FP16
taille_vocabule = 51200
top_p = 0,9
taille parallèle du tenseur = 8
longueur de la séquence d'entrée = 512
longueur de la séquence de sortie = 32

Notes de version

Journal des modifications

mai 2023

Correction des bugs d'arrêt anticipé de la génération

janvier 2023

Prise en charge du ministère de l'Environnement GPT
Support FP8 pour Bert et GPT ( expérimental )
Prise en charge de DeBERTa sur TensorFlow 2 et PyTorch

décembre 2022

Lancez FasterTransformer 5.2
Pénalité de longueur minimale de support

novembre 2022

Prise en charge des opérations personnalisées T5 Tensorflow 2.
Prise en charge du MoE T5
Soutenir WeNet
Prise en charge du BART et du mBART
Prise en charge de SwinV2
Prise en charge initiale du mode w8a8 int8 avec GPT (aperçu)
Prise en charge du mha fusionné dans GPT

octobre 2022

Soutenir FLORAISON

septembre 2022

Prise en charge de l'échantillonnage factuel (lien) dans GPT
Prise en charge du schéma d'adaptation IA3 dans T5

août 2022

Prise en charge du renvoi des intégrations de jetons de contexte dans GPT
Lancez FasterTransformer 5.1
Prise en charge de la génération interactive
Prise en charge de la mémoire d'attention limitée dans le temps
Prise en charge de MT5 et T5-v1.1

juillet 2022

Supporte le protocole UL2 huggingface. (lien)
- Correction d'un bug de T5 sous bfloat16.
Ajouter le plug-in ViT INT8 TensorRT
Prise en charge de l'échantillonnage par lots
Prise en charge de l'optimisation du contexte partagé dans le modèle GPT

juin 2022

Prise en charge de la génération de streaming pour le backend Triton.
Prise en charge OPT.
Prise en charge du BERT multi-nœuds multi-GPU sous FP32, FP16 et BF16.

mai 2022

Supporte bfloat16 sur la plupart des modèles.
Prise en charge de l'invite de préfixe pour GPT-J.
Prise en charge de GPT-NeoX.
- la valeur epsilon utilisée dans layernorm est maintenant un paramètre
- intégration rotative de style GPT-NeoX (seul GPT-J a été implémenté)
- charger les paramètres de layernorm et de biais par GPU
- conversion de poids à partir du point de contrôle EleutherAI

avril 2022

Lancez FasterTransformer 5.0
- Modifiez le type d'accumulation par défaut de tous les gemm en FP32.
- Prise en charge de l'inférence bfloat16 dans le modèle GPT.
- Supporte les modèles Nemo Megatron T5 et Megatron-LM T5.
- Soutenez ViT.

mars 2022

Prise en charge stop_ids et ban_bad_ids dans GPT-J.
Prise en charge des dynamiques start_id et end_id dans GPT-J, GPT, T5 et Decoding.

Février 2022

Supporte le transformateur Swin.
Optimisez la mise à jour du cache k/v de la recherche de faisceau par tampon dans la direction.
Prise en charge de l'entrée d'exécution pour GPT-J, T5 et GPT.
Prise en charge des invites logicielles dans GPT et GPT-J.
Prise en charge personnalisée de tous les noyaux réduits.
- Limitation:
  1. Ne prend en charge que la taille parallèle du tenseur = 8 sur le DGX-A100.
  2. Ne prend en charge que CUDA avec cudaMallocAsync.

décembre 2021

Ajoutez le plugin TensorRT du modèle T5.
Modifiez certains hyper-paramètres du modèle GPT en requête d'exécution.
Optimisez l'allocateur de mémoire sous le code C++.
Correction d'un bug de CUB, notamment lors de l'utilisation de CUDA 11.5 ou d'une version plus récente.

novembre 2021

Mettre à jour la version bêta de FasterTransformer 5.0
Ajoutez la quantification du poids GPT-3 INT8 uniquement pour la taille du lot <= 2.
Prise en charge de plusieurs nœuds et multi-GPU sur T5.
Améliorez la prise en charge multi-gpu multi-nœuds dans GPT-3.

août 2021

Lancez la version bêta de FasterTransformer 5.0
- Refactoriser le dépôt et les codes
- Et un merci spécial à NAVER Corp. pour sa grande contribution à cette version, comme indiqué ci-dessous.
  - Correction de bugs
    - Correction d'une erreur qui se produit lorsque batch_size est inférieur à max_batch_size pour le wrapper gpt pytorch.
    - Correction d'une fuite de mémoire qui se produit à chaque transfert en raison de la réutilisation de l'allocateur.
    - Correction d'une condition de concurrence critique qui se produit dans le noyau de pénalité de répétition.
  - Renforcement
    - Ajoutez un paramètre de graine aléatoire.
    - Correction d'un débordement de tampon GEMM sur FP16 de GPT.
    - Modifiez pour invalider le tampon terminé pour chaque achèvement.
    - Introduisez stop_before pour un arrêt anticipé.
- Soutenez Longformer.
- Renommez layer_para en pipeline_para .
- Optimiser le tri des meilleurs p échantillonnages.
- Prise en charge de la parcimonie pour les GPU Ampere sur BERT.
- Prise en charge size_per_head 96, 160, 192, 224, 256 pour le modèle GPT.
- Prise en charge de l'inférence multi-nœuds pour le backend GPT Triton.

juin 2021

Prise en charge de XLNet

avril 2021

Lancez FasterTransformer 4.0
- Prise en charge de l'inférence multi-Gpus et multi-nœuds pour le modèle GPT sur C++ et PyTorch.
- Prise en charge de l'inférence multi-gpus à nœud unique pour le modèle GPT sur triton.
- Ajoutez le noyau d'attention multi-têtes fusionné int8 pour bert.
- Ajoutez le noyau d'attention multi-têtes fusionné FP16 de V100 pour bert.
- Optimisez le noyau du décodeur.
- Passez à un dépôt indépendant.
- L’extension PyTorch en mode impatient est obsolète.

décembre 2020

Lancez FasterTransformer 3.1
- Optimisez le décodage en ajoutant le masque finishehd pour éviter des calculs inutiles.
- Prise en charge de l'encodeur opennmt.
- Supprimez le plugin TensorRT prenant en charge.
- L’opération personnalisée TorchScript est obsolète.

novembre 2020

Optimisez l'inférence INT8.
Prise en charge de l'inférence PyTorch INT8.
Fournir des outils de quantification PyTorch INT8.
Intégrez le noyau d'attention multi-têtes fusionné de TensorRT dans FasterTransformer.
Ajouter un test unitaire de SQuAD.
Mettez à jour les points de contrôle NGC manqués.

septembre 2020

Prise en charge de GPT2
Lancez le FasterTransformer 3.0
- Prend en charge la quantification INT8 de l'encodeur de cpp et TensorFlow op.
- Ajoutez l'outil de quantification bert-tf.
- Résolvez le problème selon lequel Cmake 15 ou Cmake 16 ne parvient pas à créer ce projet.

août 2020

Correction du bug du plugin trt.

juin 2020

Lancez FasterTransformer 2.1
- Ajoutez Effective FasterTransformer basé sur l’idée de Effective Transformer.
- Optimiser les noyaux de recherche de faisceaux.
- Ajouter une opération PyTorch prenant en charge

mai 2020

Correction du bug selon lequel seq_len de l'encodeur doit être supérieur à 3.
Ajoutez le position_encoding du décodage comme entrée du décodage FasterTransformer. Il est pratique d'utiliser différents types de codage de position. FasterTransformer ne calcule pas la valeur de codage de position, mais consulte uniquement le tableau.
Modification de la méthode de chargement du modèle dans translate_sample.py .

avril 2020

Renommez decoding_opennmt.h en decoding_beamsearch.h
Ajoutez DiverseSiblingsSearch pour le décodage.
Ajouter un échantillonnage dans le décodage
- L'implémentation est dans le decoding_sampling.h
- Ajoutez l'échantillonnage top_k, l'échantillonnage top_p pour le décodage.
Refactorisez les codes opérationnels personnalisés Tensorflow.
- Fusionner bert_transformer_op.h , bert_transformer_op.cu.cc dans bert_transformer_op.cc
- Fusionner decoder.h , decoder.cu.cc dans decoder.cc
- Fusionner decoding_beamsearch.h , decoding_beamsearch.cu.cc dans decoding_beamsearch.cc
Correction des bugs de la fonction de finalisation decoding.py.
Correction du bug de tf DiverseSiblingSearch.
Ajoutez le marqueur BLEU bleu_score.py dans utils . Notez que le score BLEU nécessite python3.
Fusible QKV Gemm de l'encodeur et masked_multi_head_attention du décodeur.
Ajoutez des fonctionnalités dynamiques de taille de lot et de longueur de séquence dynamique à toutes les opérations.

mars 2020

Ajouter une fonctionnalité dans FasterTransformer 2.0
- Ajoutez translate_sample.py pour montrer comment traduire une phrase en restaurant le modèle pré-entraîné d'OpenNMT-tf.
Correction de bugs de Fastertransformer 2.0
- Correction du bug de la longueur maximale de séquence du décodeur ne peut pas être supérieure à 128.
- Correction du bug selon lequel le décodage ne vérifie pas la fin ou non après chaque étape.
- Correction du bug du décodeur concernant max_seq_len.
- Modifiez la structure du modèle de décodage pour l'adapter au modèle de décodage OpenNMT-tf.
  - Ajoutez une couche de normalisation de couche après le décodeur.
  - Ajouter une normalisation pour les entrées du décodeur

Février 2020

Lancez le FasterTransformer 2.0
- Fournissez un décodeur et un décodage hautement optimisés basés sur OpenNMT-tf, y compris l'API C++ et l'opération TensorFlow.
- Affinez les exemples de codes de l’encodeur.
- Ajoutez une fonctionnalité de taille de lot dynamique dans l'opération d'encodeur.

juillet 2019

Lancez FasterTransformer 1.0
- Fournissez une couche de transformateur équivalente bert hautement optimisée, comprenant l'API C++, l'opération TensorFlow et le plugin TensorRT.

Problèmes connus

Impossible de compiler sur Tensorflow 2.10 en raison d'un problème de symbole non défini.
Erreurs de symboles non définis lors de l'importation de l'extension
- Veuillez d'abord import torch . Si cela a été fait, cela est dû à l'ABI C++ incompatible. Vous devrez peut-être vérifier que le PyTorch utilisé lors de la compilation et de l'exécution est le même, ou vous devrez vérifier comment votre PyTorch est compilé, ou la version de votre GCC, etc.
Les résultats de TensorFlow et OP seraient différents en termes de décodage. Ce problème est dû à la probabilité de journalisation accumulée et nous n'évitons pas ce problème.
Si vous rencontrez un problème dans l'environnement personnalisé, essayez d'utiliser gcc/g++ 4.8 pour créer le projet TensorFlow op, en particulier pour TensorFlow 1.14.

Développer

Informations supplémentaires

Version v5.3 release
Type Code Source AI
Date de mise à jour 2024-12-08
taille 25.45MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout