Download FasterTransformer - Download do código-fonte FasterTransformer

FasterTransformer

Código-Fonte de IA

v5.3 release

Baixar

Observação: o desenvolvimento do FasterTransformer fez a transição para o TensorRT-LLM. Todos os desenvolvedores são incentivados a aproveitar o TensorRT-LLM para obter as melhorias mais recentes na inferência LLM. O repositório NVIDIA/FasterTransformer permanecerá ativo, mas não terá mais desenvolvimento.

Transformador mais rápido

Este repositório fornece um script e uma receita para executar o componente codificador e decodificador baseado em transformador altamente otimizado e é testado e mantido pela NVIDIA.

Índice

Transformador mais rápido
- Índice
- Visão geral do modelo
  - Matriz de apoio
- Avançado
  - Meio Ambiente Global
- Desempenho
  - Desempenho básico do BERT
    - Desempenho básico do BERT dos novos recursos do FasterTransformer
    - Desempenho básico do BERT no TensorFlow
    - Desempenho básico do BERT no PyTorch
  - Desempenho de decodificação e decodificador
    - Desempenho de tradução ponta a ponta do decodificador e decodificação no TensorFlow
    - Desempenho de tradução ponta a ponta do decodificador e decodificação no PyTorch
  - Desempenho da GPT
- Notas de lançamento
  - Registro de alterações
  - Problemas conhecidos

Visão geral do modelo

Na PNL, o codificador e o decodificador são dois componentes importantes, com a camada do transformador se tornando uma arquitetura popular para ambos os componentes. FasterTransformer implementa uma camada de transformador altamente otimizada para o codificador e o decodificador para inferência. Nas GPUs Volta, Turing e Ampere, o poder de computação dos Tensor Cores é usado automaticamente quando a precisão dos dados e os pesos são FP16.

FasterTransformer é construído sobre CUDA, cuBLAS, cuBLASLt e C++. Fornecemos pelo menos uma API dos seguintes frameworks: backend TensorFlow, PyTorch e Triton. Os usuários podem integrar o FasterTransformer diretamente nessas estruturas. Para estruturas de suporte, também fornecemos códigos de exemplo para demonstrar como usar e mostrar o desempenho dessas estruturas.

Matriz de apoio

Modelos	Estrutura	FP16	INT8 (depois de Turing)	Esparsidade (após Ampere)	Tensor paralelo	Pipeline paralelo	FP8 (depois de Hopper)
BERTO	TensorFlow	Sim	Sim	-	-	-	-
BERTO	PyTorch	Sim	Sim	Sim	Sim	Sim	-
BERTO	Back-end do Tritão	Sim	-	-	Sim	Sim	-
BERTO	C++	Sim	Sim	-	-	-	Sim
XLNet	C++	Sim	-	-	-	-	-
Codificador	TensorFlow	Sim	Sim	-	-	-	-
Codificador	PyTorch	Sim	Sim	Sim	-	-	-
Decodificador	TensorFlow	Sim	-	-	-	-	-
Decodificador	PyTorch	Sim	-	-	-	-	-
Decodificação	TensorFlow	Sim	-	-	-	-	-
Decodificação	PyTorch	Sim	-	-	-	-	-
GPT	TensorFlow	Sim	-	-	-	-	-
GPT/OPT	PyTorch	Sim	-	-	Sim	Sim	Sim
GPT/OPT	Back-end do Tritão	Sim	-	-	Sim	Sim	-
GPT-MoE	PyTorch	Sim	-	-	Sim	Sim	-
FLORESCER	PyTorch	Sim	-	-	Sim	Sim	-
FLORESCER	Back-end do Tritão	Sim	-	-	Sim	Sim	-
GPT-J	Back-end do Tritão	Sim	-	-	Sim	Sim	-
Longformer	PyTorch	Sim	-	-	-	-	-
T5/UL2	PyTorch	Sim	-	-	Sim	Sim	-
T5	TensorFlow2	Sim	-	-	-	-	-
T5/UL2	Back-end do Tritão	Sim	-	-	Sim	Sim	-
T5	TensorRT	Sim	-	-	Sim	Sim	-
T5-MoE	PyTorch	Sim	-	-	Sim	Sim	-
Transformador Swin	PyTorch	Sim	Sim	-	-	-	-
Transformador Swin	TensorRT	Sim	Sim	-	-	-	-
ViT	PyTorch	Sim	Sim	-	-	-	-
ViT	TensorRT	Sim	Sim	-	-	-	-
GPT-NeoX	PyTorch	Sim	-	-	Sim	Sim	-
GPT-NeoX	Back-end do Tritão	Sim	-	-	Sim	Sim	-
BART/mBART	PyTorch	Sim	-	-	Sim	Sim	-
WeNet	C++	Sim	-	-	-	-	-
DeBERTa	TensorFlow2	Sim	-	-	Em andamento	Em andamento	-
DeBERTa	PyTorch	Sim	-	-	Em andamento	Em andamento	-

Observe que o FasterTransformer suporta os modelos acima em C++ porque todos os códigos-fonte são construídos em C++.

Mais detalhes de modelos específicos são colocados em xxx_guide.md de docs/ , onde xxx significa o nome do modelo. Algumas perguntas comuns e as respectivas respostas são colocadas em docs/QAList.md . Observe que os modelos do Encoder e do BERT são semelhantes e colocamos a explicação em bert_guide.md juntos.

Avançado

O código a seguir lista a estrutura de diretórios do FasterTransformer:

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

Observe que muitas pastas contêm muitas subpastas para dividir modelos diferentes. As ferramentas de quantização são movidas para examples , como examples/tensorflow/bert/bert-quantization/ e examples/pytorch/bert/bert-quantization-sparsity/ .

Meio Ambiente Global

FasterTransformer fornece algumas variáveis de ambiente convenientes para depuração e teste.

FT_LOG_LEVEL : Este ambiente controla o nível de log das mensagens de depuração. Mais detalhes estão em src/fastertransformer/utils/logger.h . Observe que o programa imprimirá muitas mensagens quando o nível for inferior a DEBUG e o programa ficará muito lento.
FT_NVTX : Se estiver definido como ON como FT_NVTX=ON ./bin/gpt_example , o programa inserirá a tag nvtx para ajudar a criar o perfil do programa.
FT_DEBUG_LEVEL : Se estiver definido como DEBUG , o programa executará cudaDeviceSynchronize() após cada kernel. Caso contrário, o kernel será executado de forma assíncrona por padrão. É útil localizar o ponto de erro durante a depuração. Mas esse sinalizador afeta significativamente o desempenho do programa. Portanto, deve ser usado apenas para depuração.

Desempenho

Configurações de hardware:

8xA100-80GBs (com mclk 1593MHz, pclk 1410MHz) com processador AMD EPYC 7742 de 64 núcleos
T4 (com mclk 5000 MHz, pclk 1590 MHz) com CPU Intel(R) Xeon(R) E5-2670 0 @ 2,60GHz

Para executar o benchmark a seguir, precisamos instalar a ferramenta de computação unix "bc" por

apt-get install bc

Desempenho básico do BERT

Os resultados do FP16 do TensorFlow foram obtidos executando benchmarks/bert/tf_benchmark.sh .

Os resultados INT8 do TensorFlow foram obtidos executando benchmarks/bert/tf_int8_benchmark.sh .

Os resultados do FP16 do PyTorch foram obtidos executando benchmarks/bert/pyt_benchmark.sh .

Os resultados INT8 do PyTorch foram obtidos executando benchmarks/bert/pyt_int8_benchmark.sh .

Mais benchmarks são colocados em docs/bert_guide.md .

Desempenho básico do BERT dos novos recursos do FasterTransformer

A figura a seguir compara o desempenho de diferentes recursos do FasterTransformer e do FasterTransformer no FP16 no T4.

Para lotes grandes e comprimentos de sequência, tanto o EFF-FT quanto o FT-INT8-v2 proporcionam uma aceleração de 2x. Usar o Effective FasterTransformer e o int8v2 ao mesmo tempo pode trazer uma aceleração de 3,5x em comparação com o FasterTransformer FP16 para gabinetes grandes.

Desempenho básico do BERT no TensorFlow

A figura a seguir compara o desempenho de diferentes recursos do FasterTransformer e do TensorFlow XLA no FP16 no T4.

Para tamanhos de lote e comprimento de sequência pequenos, o uso do FasterTransformer pode gerar uma aceleração de 3x.

Para lotes grandes e comprimentos de sequência, o uso do Effective FasterTransformer com quantização INT8-v2 pode gerar uma aceleração de 5x.

Desempenho básico do BERT no PyTorch

A figura a seguir compara o desempenho de diferentes recursos do FasterTransformer e PyTorch TorchScript no FP16 no T4.

Para tamanhos de lote e comprimento de sequência pequenos, o uso do FasterTransformer CustomExt pode gerar uma aceleração de 4x a 6x.

Para lotes grandes e comprimentos de sequência, o uso do Effective FasterTransformer com quantização INT8-v2 pode gerar uma aceleração de 5x.

Desempenho de decodificação e decodificador

Os resultados do TensorFlow foram obtidos executando benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh e benchmarks/decoding/tf_decoding_sampling_benchmark.sh

Os resultados do PyTorch foram obtidos executando benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh .

Nos experimentos de decodificação, atualizamos os seguintes parâmetros:

núm_cabeça = 8
tamanho_por_cabeça = 64
num_layers = 6 para codificador e decodificador
vocabulário_size = 32001 para códigos de amostra TensorFlow, 31538 para códigos de amostra PyTorch
memória_hidden_dim = 512
comprimento máximo da sequência = 128

Mais benchmarks são colocados em docs/decoder_guide.md .

Desempenho de tradução ponta a ponta do decodificador e decodificação no TensorFlow

A figura a seguir mostra a aceleração da operação do FT-Decoder e da operação FT-Decoding em comparação com o TensorFlow no FP16 com T4. Aqui, usamos o rendimento da tradução de um conjunto de testes para evitar que o total de tokens de cada método possa ser diferente. Comparado ao TensorFlow, o FT-Decoder oferece aceleração de 1,5x ~ 3x; enquanto a decodificação FT fornece aceleração de 4x ~ 18x.

Desempenho de tradução ponta a ponta do decodificador e decodificação no PyTorch

A figura a seguir mostra a aceleração da operação FT-Decoder e FT-Decoding em comparação com PyTorch em FP16 com T4. Aqui, usamos o rendimento da tradução de um conjunto de testes para evitar que o total de tokens de cada método possa ser diferente. Comparado ao PyTorch, o FT-Decoder oferece aceleração de 1,2x ~ 3x; enquanto a decodificação FT fornece aceleração de 3,8x ~ 13x.

Desempenho da GPT

A figura a seguir compara o desempenho do Megatron e do FasterTransformer no FP16 no A100.

Nos experimentos de decodificação, atualizamos os seguintes parâmetros:

núm_cabeça = 96
tamanho_por_cabeça = 128
num_layers = 48 para modelo GPT-89B, 96 para modelo GPT-175B
tipo_dados = FP16
tamanho_vocabulário = 51200
topo_p = 0,9
tamanho paralelo do tensor = 8
comprimento da sequência de entrada = 512
comprimento da sequência de saída = 32

Notas de lançamento

Registro de alterações

Maio de 2023

Corrigir bugs de parada antecipada de geração

Janeiro de 2023

Suporte GPT MoE
Suporte FP8 para Bert e GPT ( Experimental )
Suporte DeBERTa no TensorFlow 2 e PyTorch

dezembro de 2022

Liberar o FasterTransformer 5.2
Penalidade de comprimento mínimo de suporte

Novembro de 2022

Suporte à operação personalizada T5 Tensorflow 2.
Suporte T5 MoE
Apoie WeNet
Suporte BART e mBART
Suporte SwinV2
Suporte inicial para modo w8a8 int8 com GPT (visualização)
Suporte fundido mha em GPT

Outubro de 2022

Apoie a FLOR

Setembro de 2022

Apoie a amostragem factual (link) em gpt
Suporte para esquema de adaptação IA3 em T5

agosto de 2022

Suporte ao retorno de incorporações de tokens de contexto na GPT
Lançar o FasterTransformer 5.1
Suporte para geração interativa
Suporte para memória com tempo limitado de atenção
Suporte mt5 e t5-v1.1

Julho de 2022

Suporte UL2 huggingface ckpt. (link)
- Corrigido bug do T5 em bfloat16.
Adicionar plug-in ViT INT8 TensorRT
Suporte para amostragem em lote
Suporta otimização de contexto compartilhado no modelo GPT

Junho de 2022

Suporte à geração de streaming para backend triton.
Suporte OP.
Suporta BERT multi-GPU de vários nós em FP32, FP16 e BF16.

Maio de 2022

Suporte bfloat16 na maioria dos modelos.
Suporte ao prompt de prefixo para GPT-J.
Suporte GPT-NeoX.
- o valor épsilon usado em layernorm agora é um parâmetro
- incorporação rotativa estilo GPT-NeoX (apenas GPT-J foi implementado)
- carregar parâmetros de norma e polarização por camada de GPU
- conversão de peso do ponto de verificação EleutherAI

Abril de 2022

Lançar o FasterTransformer 5.0
- Altere o tipo de acumulação padrão de todos os gemm para FP32.
- Suporta inferência bfloat16 no modelo GPT.
- Suporte aos modelos Nemo Megatron T5 e Megatron-LM T5.
- Apoie ViT.

Março de 2022

Suporte stop_ids e ban_bad_ids em GPT-J.
Suporta start_id e end_id dinâmicos em GPT-J, GPT, T5 e Decodificação.

Fevereiro de 2022

Suporte ao transformador Swin.
Otimize a atualização do cache k/v da pesquisa de feixe por buffer na direção.
Suporta entrada de tempo de execução para GPT-J, T5 e GPT.
Suporte a prompt suave em GPT e GPT-J.
Suporte personalizado para todos os kernels reduzidos.
- Limitação:
  1. Suporta apenas tamanho paralelo de tensor = 8 no DGX-A100.
  2. Suporta apenas CUDA com cudaMallocAsync.

Dezembro de 2021

Adicione o plugin TensorRT do modelo T5.
Altere alguns hiperparâmetros do modelo GPT para consulta em tempo de execução.
Otimize o alocador de memória no código C++.
Corrigido bug do CUB inclusive ao usar CUDA 11.5 ou versão mais recente.

Novembro de 2021

Atualize o FasterTransformer 5.0 beta
Adicione qauntização somente de peso GPT-3 INT8 para tamanho de lote <= 2.
Suporta suporte multi-gpu de vários nós no T5.
Aprimore o suporte multi-gpu de vários nós no GPT-3.

Agosto de 2021

Lançar o FasterTransformer 5.0 beta
- Refatore o repositório e os códigos
- E um agradecimento especial à NAVER Corp. por contribuir muito para esta versão, conforme listado abaixo.
  - Correção de bugs
    - Corrija o erro que ocorre quando batch_size é menor que max_batch_size para o wrapper gpt pytorch.
    - Corrija o vazamento de memória que ocorre a cada encaminhamento devido ao alocador reutilizado.
    - Corrigida a condição de corrida que ocorre no kernel de penalidade de repetição.
  - Aprimoramento
    - Adicione configuração de semente aleatória.
    - Corrigido o estouro de buffer do GEMM no FP16 do GPT.
    - Altere para invalidar o buffer concluído para cada conclusão.
    - Introduza stop_before para parada antecipada.
- Suporte Longformer.
- Renomeie layer_para para pipeline_para .
- Otimize a classificação da amostragem p superior.
- Esparsidade de suporte para GPUs Ampere no BERT.
- Suporte size_per_head 96, 160, 192, 224, 256 para modelo GPT.
- Suporta inferência de vários nós para back-end GPT Triton.

Junho de 2021

Suporte XLNet

Abril de 2021

Lançar o FasterTransformer 4.0
- Suporta inferência multi-gpus e multi-nós para modelo GPT em C++ e PyTorch.
- Suporta inferência de nó único e multi-Gpus para modelo GPT em triton.
- Adicione o kernel de atenção multi-head com fusão int8 para bert.
- Adicione o kernel de atenção multi-head com fusão FP16 do V100 para bert.
- Otimize o kernel do decodificador.
- Mude para um repositório independente.
- A extensão PyTorch do modo Eager está obsoleta.

Dezembro de 2020

Lançar o FasterTransformer 3.1
- Otimize a decodificação adicionando a máscara finishehd para evitar computação inútil.
- Suporte ao codificador opennmt.
- Remova o suporte do plugin TensorRT.
- A operação personalizada do TorchScript está obsoleta.

Novembro de 2020

Otimize a inferência INT8.
Suporta inferência PyTorch INT8.
Fornece ferramentas de quantização PyTorch INT8.
Integre o kernel de atenção multi-head fundido do TensorRT ao FasterTransformer.
Adicione teste de unidade do SQuAD.
Atualize os pontos de verificação NGC perdidos.

Setembro de 2020

Suporte GPT2
Lançar o FasterTransformer 3.0
- Suporta quantização INT8 do codificador de cpp e TensorFlow op.
- Adicione a ferramenta de quantização bert-tf.
- Corrija o problema de falha do Cmake 15 ou Cmake 16 ao construir este projeto.

agosto de 2020

Corrija o bug do plugin trt.

Junho de 2020

Lançar o FasterTransformer 2.1
- Adicione Effective FasterTransformer com base na ideia do Effective Transformer.
- Otimize os kernels de busca de feixe.
- Adicionar suporte operacional PyTorch

Maio de 2020

Corrigido o bug de que seq_len do codificador deve ser maior que 3.
Adicione o position_encoding da decodificação como a entrada da decodificação do FasterTransformer. É conveniente usar diferentes tipos de codificação de posição. FasterTransformer não calcula o valor de codificação de posição, mas apenas consulta a tabela.
Modificando o método de carregamento do modelo em translate_sample.py .

Abril de 2020

Renomeie decoding_opennmt.h para decoding_beamsearch.h
Adicione DiverseSiblingsSearch para decodificação.
Adicionar amostragem na decodificação
- A implementação está em decoding_sampling.h
- Adicione amostragem top_k, amostragem top_p para decodificação.
Refatore os códigos operacionais personalizados do tensorflow.
- Mesclar bert_transformer_op.h , bert_transformer_op.cu.cc em bert_transformer_op.cc
- Mesclar decoder.h , decoder.cu.cc em decoder.cc
- Mesclar decoding_beamsearch.h , decoding_beamsearch.cu.cc em decoding_beamsearch.cc
Corrija os bugs da função finalize decoding.py.
Corrija o bug do tf DiverseSiblingSearch.
Adicione o marcador BLEU bleu_score.py em utils . Observe que a pontuação BLEU requer python3.
Fusível QKV Gemm do codificador e mascarado_multi_head_attention do decodificador.
Adicione recursos de tamanho de lote dinâmico e comprimento de sequência dinâmica em todas as operações.

Março de 2020

Adicionar recurso no FasterTransformer 2.0
- Adicione translate_sample.py para demonstrar como traduzir uma frase restaurando o modelo pré-treinado do OpenNMT-tf.
Corrigir bugs do Fastertransformer 2.0
- Corrigido o bug do comprimento máximo da sequência do decodificador não pode ser maior que 128.
- Corrigido o bug de que a decodificação não verifica o término ou não após cada etapa.
- Corrija o bug do decodificador sobre max_seq_len.
- Modifique a estrutura do modelo de decodificação para se adequar ao modelo de decodificação OpenNMT-tf.
  - Adicione uma camada de normalização de camada após o decodificador.
  - Adicione uma normalização para entradas do decodificador

Fevereiro de 2020

Lançar o FasterTransformer 2.0
- Fornece um decodificador e decodificação baseado em OpenNMT-tf altamente otimizado, incluindo API C++ e operação TensorFlow.
- Refine os códigos de amostra do codificador.
- Adicione o recurso de tamanho de lote dinâmico à operação do codificador.

Julho de 2019

Lançar o FasterTransformer 1.0
- Fornece uma camada de transformador equivalente a bert altamente otimizada, incluindo API C++, TensorFlow op e plugin TensorRT.

Problemas conhecidos

Não é possível compilar no tensorflow 2.10 devido a um problema de símbolo indefinido.
Erros de símbolo indefinidos ao importar a extensão
- import torch primeiro. Se isso foi feito, é devido à ABI C++ incompatível. Pode ser necessário verificar se o PyTorch usado durante a compilação e a execução são os mesmos, ou você precisa verificar como o seu PyTorch é compilado, ou a versão do seu GCC, etc.
Os resultados do TensorFlow e do OP seriam diferentes na decodificação. Esse problema é causado pela probabilidade logarítmica acumulada e não evitamos esse problema.
Se encontrar algum problema no ambiente customizado, tente usar o gcc/g++ 4.8 para construir o projeto do TensorFlow op, especialmente para o TensorFlow 1.14.

Expandir

Informações adicionais

Versão v5.3 release
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-08
tamanho 25.45MB
Vindo de Github

Aplicativos Relacionados

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos