Unduhan FasterTransformer - Pengunduhan kode sumber FasterTransformer

FasterTransformer

Kode Sumber AI

v5.3 release

Unduh

Catatan: Pengembangan FasterTransformer telah dialihkan ke TensorRT-LLM. Semua pengembang didorong untuk memanfaatkan TensorRT-LLM untuk mendapatkan penyempurnaan terbaru pada Inferensi LLM. Repo NVIDIA/FasterTransformer akan tetap ada, tetapi tidak akan dikembangkan lebih lanjut.

Transformator Lebih Cepat

Repositori ini menyediakan skrip dan resep untuk menjalankan komponen encoder dan decoder berbasis transformator yang sangat optimal, dan diuji serta dikelola oleh NVIDIA.

Daftar isi

Transformator Lebih Cepat
- Daftar isi
- Ikhtisar model
  - Matriks dukungan
- Canggih
  - Lingkungan Global
- Pertunjukan
  - Kinerja dasar BERT
    - Performa dasar BERT dari fitur-fitur baru FasterTransformer
    - BERT mendasarkan kinerja pada TensorFlow
    - BERT mendasarkan kinerja pada PyTorch
  - Kinerja Decoding dan Decoder
    - Performa terjemahan end-to-end Decoder dan Decoding di TensorFlow
    - Decoder dan Decoding kinerja terjemahan ujung ke ujung di PyTorch
  - kinerja GPT
- Catatan rilis
  - log perubahan
  - Masalah yang diketahui

Ikhtisar model

Dalam NLP, encoder dan decoder adalah dua komponen penting, dengan lapisan transformator menjadi arsitektur populer untuk kedua komponen tersebut. FasterTransformer mengimplementasikan lapisan transformator yang sangat optimal untuk encoder dan decoder untuk inferensi. Pada GPU Volta, Turing, dan Ampere, daya komputasi Tensor Cores digunakan secara otomatis ketika presisi data dan bobotnya mencapai FP16.

FasterTransformer dibangun di atas CUDA, cuBLAS, cuBLASLt dan C++. Kami menyediakan setidaknya satu API dari framework berikut: TensorFlow, PyTorch, dan backend Triton. Pengguna dapat mengintegrasikan FasterTransformer ke dalam kerangka kerja ini secara langsung. Untuk kerangka pendukung, kami juga menyediakan kode contoh untuk mendemonstrasikan cara menggunakan, dan menunjukkan kinerja kerangka kerja tersebut.

Matriks dukungan

Model	Kerangka	FP16	INT8 (setelah Turing)	Ketersebaran (setelah Ampere)	Paralel tensor	Paralel pipa	FP8 (setelah Hopper)
BERT	Aliran Tensor	Ya	Ya	-	-	-	-
BERT	PyTorch	Ya	Ya	Ya	Ya	Ya	-
BERT	Bagian belakang Triton	Ya	-	-	Ya	Ya	-
BERT	C++	Ya	Ya	-	-	-	Ya
XLNet	C++	Ya	-	-	-	-	-
Pembuat enkode	Aliran Tensor	Ya	Ya	-	-	-	-
Pembuat enkode	PyTorch	Ya	Ya	Ya	-	-	-
Dekoder	Aliran Tensor	Ya	-	-	-	-	-
Dekoder	PyTorch	Ya	-	-	-	-	-
Penguraian kode	Aliran Tensor	Ya	-	-	-	-	-
Penguraian kode	PyTorch	Ya	-	-	-	-	-
GPT	Aliran Tensor	Ya	-	-	-	-	-
GPT/PISAH	PyTorch	Ya	-	-	Ya	Ya	Ya
GPT/PISAH	Bagian belakang Triton	Ya	-	-	Ya	Ya	-
GPT-MoE	PyTorch	Ya	-	-	Ya	Ya	-
BUNGA	PyTorch	Ya	-	-	Ya	Ya	-
BUNGA	Bagian belakang Triton	Ya	-	-	Ya	Ya	-
GPT-J	Bagian belakang Triton	Ya	-	-	Ya	Ya	-
Mantan	PyTorch	Ya	-	-	-	-	-
T5/UL2	PyTorch	Ya	-	-	Ya	Ya	-
T5	Aliran Tensor 2	Ya	-	-	-	-	-
T5/UL2	Bagian belakang Triton	Ya	-	-	Ya	Ya	-
T5	TensorRT	Ya	-	-	Ya	Ya	-
T5-MoE	PyTorch	Ya	-	-	Ya	Ya	-
Transformator Babi	PyTorch	Ya	Ya	-	-	-	-
Transformator Babi	TensorRT	Ya	Ya	-	-	-	-
ViT	PyTorch	Ya	Ya	-	-	-	-
ViT	TensorRT	Ya	Ya	-	-	-	-
GPT-NeoX	PyTorch	Ya	-	-	Ya	Ya	-
GPT-NeoX	Bagian belakang Triton	Ya	-	-	Ya	Ya	-
BART/mBART	PyTorch	Ya	-	-	Ya	Ya	-
WeNet	C++	Ya	-	-	-	-	-
DeBERTa	Aliran Tensor 2	Ya	-	-	Sedang berlangsung	Sedang berlangsung	-
DeBERTa	PyTorch	Ya	-	-	Sedang berlangsung	Sedang berlangsung	-

Perhatikan bahwa FasterTransformer mendukung model di atas pada C++ karena semua kode sumber dibuat di C++.

Rincian lebih lanjut tentang model tertentu dimasukkan ke dalam xxx_guide.md dari docs/ , di mana xxx berarti nama model. Beberapa pertanyaan umum dan jawabannya masing-masing ada di docs/QAList.md . Perhatikan bahwa model Encoder dan BERT serupa dan kami memasukkan penjelasannya ke dalam bert_guide.md bersama-sama.

Canggih

Kode berikut mencantumkan struktur direktori FasterTransformer:

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

Perhatikan bahwa banyak folder berisi banyak sub-folder untuk membagi model yang berbeda. Alat kuantisasi dipindahkan ke examples , seperti examples/tensorflow/bert/bert-quantization/ dan examples/pytorch/bert/bert-quantization-sparsity/ .

Lingkungan Global

FasterTransformer menyediakan beberapa variabel lingkungan yang nyaman untuk debugging dan pengujian.

FT_LOG_LEVEL : Lingkungan ini mengontrol tingkat log pesan debug. Detail selengkapnya ada di src/fastertransformer/utils/logger.h . Perhatikan bahwa program akan mencetak banyak pesan ketika levelnya lebih rendah dari DEBUG dan program akan menjadi sangat lambat.
FT_NVTX : Jika diatur ke ON seperti FT_NVTX=ON ./bin/gpt_example , program akan memasukkan tag nvtx untuk membantu membuat profil program.
FT_DEBUG_LEVEL : Jika disetel menjadi DEBUG , maka program akan berjalan cudaDeviceSynchronize() setelah setiap kernel. Jika tidak, kernel akan dieksekusi secara asinkron secara default. Sangat membantu untuk menemukan titik kesalahan selama proses debug. Namun tanda ini mempengaruhi kinerja program secara signifikan. Jadi, ini sebaiknya hanya digunakan untuk debugging.

Pertunjukan

Pengaturan perangkat keras:

8xA100-80GBs (dengan mclk 1593MHz, pclk 1410MHz) dengan Prosesor AMD EPYC 7742 64-Core
T4 (dengan mclk 5000MHz, pclk 1590MHz) dengan CPU Intel(R) Xeon(R) E5-2670 0 @ 2,60GHz

Untuk menjalankan benchmark berikut, kita perlu menginstal alat komputasi unix "bc" oleh

apt-get install bc

Kinerja dasar BERT

Hasil FP16 TensorFlow diperoleh dengan menjalankan benchmarks/bert/tf_benchmark.sh .

Hasil INT8 TensorFlow diperoleh dengan menjalankan benchmarks/bert/tf_int8_benchmark.sh .

Hasil FP16 PyTorch diperoleh dengan menjalankan benchmarks/bert/pyt_benchmark.sh .

Hasil INT8 dari PyTorch diperoleh dengan menjalankan benchmarks/bert/pyt_int8_benchmark.sh .

Tolok ukur lainnya dimasukkan ke dalam docs/bert_guide.md .

Performa dasar BERT dari fitur-fitur baru FasterTransformer

Gambar berikut membandingkan performa berbagai fitur FasterTransformer dan FasterTransformer pada FP16 di T4.

Untuk ukuran batch besar dan panjang urutan, EFF-FT dan FT-INT8-v2 menghasilkan percepatan 2x. Menggunakan FasterTransformer dan int8v2 yang Efektif secara bersamaan dapat menghasilkan kecepatan 3,5x dibandingkan FasterTransformer FP16 untuk kasus besar.

BERT mendasarkan kinerja pada TensorFlow

Gambar berikut membandingkan performa berbagai fitur FasterTransformer dan TensorFlow XLA pada FP16 di T4.

Untuk ukuran batch kecil dan panjang urutan, penggunaan FasterTransformer dapat menghasilkan kecepatan 3x lebih cepat.

Untuk ukuran batch besar dan panjang urutan, menggunakan Effective FasterTransformer dengan kuantisasi INT8-v2 dapat menghasilkan percepatan 5x.

BERT mendasarkan kinerja pada PyTorch

Gambar berikut membandingkan performa berbagai fitur FasterTransformer dan PyTorch TorchScript pada FP16 di T4.

Untuk ukuran batch kecil dan panjang urutan, penggunaan FasterTransformer CustomExt dapat menghasilkan percepatan 4x ~ 6x.

Untuk ukuran batch besar dan panjang urutan, menggunakan Effective FasterTransformer dengan kuantisasi INT8-v2 dapat menghasilkan percepatan 5x.

Kinerja Decoding dan Decoder

Hasil TensorFlow diperoleh dengan menjalankan benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh dan benchmarks/decoding/tf_decoding_sampling_benchmark.sh

Hasil PyTorch diperoleh dengan menjalankan benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh .

Dalam percobaan decoding, kami memperbarui parameter berikut:

angka_kepala = 8
ukuran_per_kepala = 64
num_layers = 6 untuk encoder dan decoder
kosa kata_ukuran = 32001 untuk kode contoh TensorFlow, 31538 untuk kode contoh PyTorch
memori_tersembunyi_dim = 512
panjang urutan maks = 128

Tolok ukur lainnya dimasukkan ke dalam docs/decoder_guide.md .

Performa terjemahan end-to-end Decoder dan Decoding di TensorFlow

Gambar berikut menunjukkan kecepatan operasi FT-Decoder dan operasi FT-Decoding dibandingkan TensorFlow pada FP16 dengan T4. Di sini, kami menggunakan throughput penerjemahan set pengujian untuk mencegah total token dari setiap metode mungkin berbeda. Dibandingkan dengan TensorFlow, FT-Decoder memberikan kecepatan 1,5x ~ 3x; sementara FT-Decoding memberikan kecepatan 4x ~ 18x.

Decoder dan Decoding kinerja terjemahan ujung ke ujung di PyTorch

Gambar berikut menunjukkan kecepatan operasi FT-Decoder dan operasi FT-Decoding dibandingkan dengan PyTorch di bawah FP16 dengan T4. Di sini, kami menggunakan throughput penerjemahan set pengujian untuk mencegah total token dari setiap metode mungkin berbeda. Dibandingkan dengan PyTorch, FT-Decoder memberikan kecepatan 1,2x ~ 3x; sementara FT-Decoding memberikan kecepatan 3,8x ~ 13x.

kinerja GPT

Gambar berikut membandingkan performa Megatron dan FasterTransformer di bawah FP16 pada A100.

Dalam percobaan decoding, kami memperbarui parameter berikut:

nomor_kepala = 96
ukuran_per_kepala = 128
num_layers = 48 untuk model GPT-89B, 96 untuk model GPT-175B
tipe_data = FP16
ukuran_kosakata = 51200
atas_p = 0,9
ukuran paralel tensor = 8
panjang urutan masukan = 512
panjang urutan keluaran = 32

Catatan rilis

log perubahan

Mei 2023

Perbaiki bug penghentian awal generasi

Januari 2023

Mendukung GPT MoE
Mendukung FP8 untuk Bert dan GPT ( Eksperimen )
Dukung DeBERTa di TensorFlow 2 dan PyTorch

Desember 2022

Rilis FasterTransformer 5.2
Mendukung penalti panjang minimum

November 2022

Mendukung operasi kustom T5 Tensorflow 2.
Mendukung T5 MoE
Mendukung WeNet
Mendukung BART & mBART
Mendukung SwinV2
Dukungan awal untuk mode w8a8 int8 dengan GPT (pratinjau)
Mendukung mha yang menyatu di GPT

Oktober 2022

Mendukung BLOOM

September 2022

Mendukung pengambilan sampel faktual (tautan) di gpt
Dukungan untuk skema adaptasi IA3 di T5

Agustus 2022

Mendukung pengembalian penyematan token konteks di GPT
Rilis FasterTransformer 5.1
Dukungan untuk generasi interaktif
Dukungan untuk memori terbatas waktu perhatian
Mendukung mt5 dan t5-v1.1

Juli 2022

Mendukung ckpt wajah berpelukan UL2. (link)
- Perbaiki bug T5 di bawah bfloat16.
Tambahkan Plugin TensorRT ViT INT8
Mendukung pengambilan sampel batch
Mendukung pengoptimalan konteks bersama dalam model GPT

Juni 2022

Mendukung pembuatan streaming untuk backend triton.
Dukungan MEMILIH.
Mendukung BERT multi-node multi-GPU di bawah FP32, FP16 dan BF16.

Mei 2022

Mendukung bfloat16 di sebagian besar model.
Mendukung perintah awalan untuk GPT-J.
Mendukung GPT-NeoX.
- nilai epsilon yang digunakan dalam layernorm sekarang menjadi parameter
- penyematan putar gaya GPT-NeoX (hanya GPT-J yang diterapkan)
- memuat parameter norma dan bias lapisan per GPU
- konversi berat dari pos pemeriksaan EleutherAI

April 2022

Rilis FasterTransformer 5.0
- Ubah jenis akumulasi default semua permata menjadi FP32.
- Mendukung inferensi bfloat16 dalam model GPT.
- Mendukung model Nemo Megatron T5 dan Megatron-LM T5.
- Mendukung ViT.

Maret 2022

Mendukung stop_ids dan ban_bad_ids di GPT-J.
Mendukung dinamika start_id dan end_id di GPT-J, GPT, T5 dan Decoding.

Februari 2022

Mendukung Swin Transformer.
Optimalkan pembaruan cache k/v dari pencarian berkas dengan buffer dalam arah.
Mendukung input runtime untuk GPT-J, T5 dan GPT.
Mendukung prompt lunak di GPT dan GPT-J.
Mendukung kustom semua pengurangan kernel.
- Keterbatasan:
  1. Hanya mendukung ukuran paralel tensor = 8 pada DGX-A100.
  2. Hanya mendukung CUDA dengan cudaMallocAsync.

Desember 2021

Tambahkan plugin TensorRT model T5.
Ubah beberapa hyper-parameter model GPT menjadi kueri runtime.
Optimalkan pengalokasi memori di bawah kode C++.
Memperbaiki bug CUB termasuk saat menggunakan CUDA 11.5 atau versi yang lebih baru.

November 2021

Perbarui FasterTransformer 5.0 beta
Tambahkan qauntisasi khusus bobot GPT-3 INT8 untuk ukuran batch <= 2.
Mendukung dukungan multi-simpul multi-gpu pada T5.
Tingkatkan dukungan multi-gpu multi-node di GPT-3.

Agustus 2021

Rilis FasterTransformer 5.0 beta
- Refactor repo dan kode
- Dan terima kasih khusus kepada NAVER Corp. yang telah banyak berkontribusi pada versi ini, seperti tercantum di bawah ini.
  - Perbaikan bug
    - Memperbaiki kesalahan yang terjadi ketika batch_size kurang dari max_batch_size untuk pembungkus gpt pytorch.
    - Perbaiki kebocoran memori yang terjadi setiap penerusan karena pengalokasi yang digunakan kembali.
    - Memperbaiki kondisi balapan yang terjadi pada kernel penalti pengulangan.
  - Peningkatan
    - Tambahkan pengaturan benih acak.
    - Perbaiki buffer overflow GEMM pada FP16 GPT.
    - Ubah untuk membatalkan buffer yang sudah selesai untuk setiap penyelesaian.
    - Perkenalkan stop_before untuk berhenti lebih awal.
- Mendukung Longformer.
- Ganti nama layer_para menjadi pipeline_para .
- Optimalkan penyortiran pengambilan sampel p teratas.
- Mendukung ketersebaran untuk GPU Ampere di BERT.
- Mendukung size_per_head 96, 160, 192, 224, 256 untuk model GPT.
- Mendukung inferensi multi-node untuk backend GPT Triton.

Juni 2021

Mendukung XLNet

April 2021

Rilis FasterTransformer 4.0
- Mendukung inferensi multi-Gpus dan multi-node untuk model GPT di C++ dan PyTorch.
- Mendukung node tunggal, inferensi multi-Gpus untuk model GPT di triton.
- Tambahkan kernel perhatian multi-head int8 yang menyatu untuk bert.
- Tambahkan kernel perhatian multi-head FP16 yang menyatu dari V100 untuk bert.
- Optimalkan kernel decoder.
- Pindah ke repo independen.
- Ekstensi PyTorch mode bersemangat tidak digunakan lagi.

Desember 2020

Rilis FasterTransformer 3.1
- Optimalkan decoding dengan menambahkan topeng finisehd untuk mencegah komputasi yang tidak berguna.
- Mendukung encoder opennmt.
- Hapus dukungan plugin TensorRT.
- Operasi khusus TorchScript tidak digunakan lagi.

November 2020

Optimalkan inferensi INT8.
Mendukung inferensi PyTorch INT8.
Menyediakan alat kuantisasi PyTorch INT8.
Integrasikan kernel perhatian multi-head TensorRT yang menyatu ke dalam FasterTransformer.
Tambahkan pengujian unit SQuAD.
Perbarui pos pemeriksaan NGC yang terlewat.

September 2020

Mendukung GPT2
Rilis FasterTransformer 3.0
- Mendukung kuantisasi INT8 encoder cpp dan operasi TensorFlow.
- Tambahkan alat kuantisasi bert-tf.
- Perbaiki masalah Cmake 15 atau Cmake 16 yang gagal membangun proyek ini.

Agustus 2020

Perbaiki bug plugin trt.

Juni 2020

Rilis FasterTransformer 2.1
- Tambahkan FasterTransformer Efektif berdasarkan ide ide Transformer Efektif.
- Optimalkan kernel pencarian berkas.
- Tambahkan dukungan operasi PyTorch

Mei 2020

Perbaiki bug yang seq_len encodernya harus lebih besar dari 3.
Tambahkan position_encoding decoding sebagai input decoding FasterTransformer. Ini memudahkan untuk menggunakan berbagai jenis pengkodean posisi. FasterTransformer tidak menghitung nilai pengkodean posisi, tetapi hanya mencari tabel.
Memodifikasi metode memuat model di translate_sample.py .

April 2020

Ganti nama decoding_opennmt.h menjadi decoding_beamsearch.h
Tambahkan DiverseSiblingsSearch untuk decoding.
Tambahkan pengambilan sampel ke dalam Decoding
- Implementasinya ada di decoding_sampling.h
- Tambahkan pengambilan sampel top_k, pengambilan sampel top_p untuk decoding.
Memfaktorkan ulang kode operasi kustom Tensorflow.
- Gabungkan bert_transformer_op.h , bert_transformer_op.cu.cc menjadi bert_transformer_op.cc
- Gabungkan decoder.h , decoder.cu.cc ke dalam decoder.cc
- Gabungkan decoding_beamsearch.h , decoding_beamsearch.cu.cc ke dalam decoding_beamsearch.cc
Perbaiki bug pada fungsi penyelesaian decoding.py.
Perbaiki bug tf DiverseSiblingSearch.
Tambahkan pencetak gol BLEU bleu_score.py ke dalam utils . Perhatikan bahwa skor BLEU memerlukan python3.
Gabungkan Permata QKV dari encoder dan masked_multi_head_attention dari decoder.
Tambahkan fitur ukuran batch dinamis dan panjang urutan dinamis ke semua operasi.

Maret 2020

Tambahkan fitur di FasterTransformer 2.0
- Tambahkan translate_sample.py untuk mendemonstrasikan cara menerjemahkan kalimat dengan memulihkan model OpenNMT-tf yang telah dilatih sebelumnya.
Perbaiki bug Fastertransformer 2.0
- Memperbaiki bug panjang urutan maksimum dekoder tidak boleh lebih besar dari 128.
- Perbaiki bug yang decodingnya tidak memeriksa selesai atau tidak setelah setiap langkah.
- Perbaiki bug decoder tentang max_seq_len.
- Ubah struktur model decoding agar sesuai dengan model decoding OpenNMT-tf.
  - Tambahkan lapisan normalisasi lapisan setelah dekoder.
  - Tambahkan normalisasi untuk input decoder

Februari 2020

Rilis FasterTransformer 2.0
- Menyediakan dekoder dan dekode berbasis OpenNMT-tf yang sangat optimal, termasuk C++ API dan operasi TensorFlow.
- Sempurnakan kode contoh pembuat enkode.
- Tambahkan fitur ukuran batch dinamis ke dalam operasi encoder.

Juli 2019

Rilis FasterTransformer 1.0
- Menyediakan lapisan transformator setara bert yang sangat optimal, termasuk C++ API, operasi TensorFlow, dan plugin TensorRT.

Masalah yang diketahui

Tidak dapat dikompilasi pada Tensorflow 2.10 karena masalah simbol yang tidak terdefinisi.
Kesalahan simbol tidak terdefinisi saat mengimpor ekstensi
- Silakan import torch terlebih dahulu. Jika hal ini terjadi, hal ini disebabkan oleh C++ ABI yang tidak kompatibel. Anda mungkin perlu memeriksa apakah PyTorch yang digunakan selama kompilasi dan eksekusi sama, atau Anda perlu memeriksa bagaimana PyTorch Anda dikompilasi, atau versi GCC Anda, dll.
Hasil TensorFlow dan OP akan berbeda dalam decoding. Masalah ini disebabkan oleh akumulasi probabilitas log, dan kami tidak menghindari masalah ini.
Jika mengalami masalah di lingkungan kustom, coba gunakan gcc/g++ 4.8 untuk membangun proyek operasi TensorFlow, terutama untuk TensorFlow 1.14.

Memperluas

Informasi Tambahan

Versi v5.3 release
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-08
ukuran 25.45MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua