ดาวน์โหลด FasterTransformer - ดาวน์โหลดซอร์สโค้ด FasterTransformer

FasterTransformer

โค้ดแหล่งที่มา AI

v5.3 release

ดาวน์โหลด

หมายเหตุ: การพัฒนา FasterTransformer ได้เปลี่ยนไปเป็น TensorRT-LLM แล้ว เราสนับสนุนให้นักพัฒนาทุกคนใช้ประโยชน์จาก TensorRT-LLM เพื่อรับการปรับปรุงล่าสุดเกี่ยวกับการอนุมาน LLM NVIDIA/FasterTransformer repo จะยังคงดำเนินต่อไป แต่จะไม่มีการพัฒนาเพิ่มเติม

เร็วกว่าหม้อแปลงไฟฟ้า

พื้นที่เก็บข้อมูลนี้มีสคริปต์และสูตรในการรันส่วนประกอบตัวเข้ารหัสและตัวถอดรหัสที่ใช้หม้อแปลงที่ได้รับการปรับปรุงประสิทธิภาพสูงสุด และได้รับการทดสอบและบำรุงรักษาโดย NVIDIA

สารบัญ

เร็วกว่าหม้อแปลงไฟฟ้า
- สารบัญ
- ภาพรวมโมเดล
  - เมทริกซ์สนับสนุน
- ขั้นสูง
  - สิ่งแวดล้อมโลก
- ผลงาน
  - ประสิทธิภาพพื้นฐานของ BERT
    - การแสดงพื้นฐานของ BERT ของคุณสมบัติใหม่ของ FasterTransformer
    - ประสิทธิภาพพื้นฐานของ BERT บน TensorFlow
    - ประสิทธิภาพพื้นฐานของ BERT บน PyTorch
  - ประสิทธิภาพการถอดรหัสและถอดรหัส
    - ตัวถอดรหัสและการถอดรหัสประสิทธิภาพการแปลตั้งแต่ต้นทางถึงปลายทางบน TensorFlow
    - ตัวถอดรหัสและการถอดรหัสประสิทธิภาพการแปลตั้งแต่ต้นทางถึงปลายทางบน PyTorch
  - ประสิทธิภาพของ GPT
- บันทึกประจำรุ่น
  - บันทึกการเปลี่ยนแปลง
  - ปัญหาที่ทราบ

ภาพรวมโมเดล

ใน NLP ตัวเข้ารหัสและตัวถอดรหัสเป็นองค์ประกอบที่สำคัญสองประการ โดยชั้นหม้อแปลงกลายเป็นสถาปัตยกรรมยอดนิยมสำหรับส่วนประกอบทั้งสอง FasterTransformer ใช้เลเยอร์หม้อแปลงที่ได้รับการปรับปรุงประสิทธิภาพสูงสุดสำหรับทั้งตัวเข้ารหัสและตัวถอดรหัสสำหรับการอนุมาน บน GPU Volta, Turing และ Ampere พลังการประมวลผลของ Tensor Core จะถูกใช้โดยอัตโนมัติเมื่อความแม่นยำของข้อมูลและน้ำหนักอยู่ที่ FP16

FasterTransformer สร้างขึ้นจาก CUDA, cuBLAS, cuBLASLt และ C++ เรามี API ของเฟรมเวิร์กต่อไปนี้อย่างน้อยหนึ่งรายการ: แบ็กเอนด์ TensorFlow, PyTorch และ Triton ผู้ใช้สามารถรวม FasterTransformer เข้ากับเฟรมเวิร์กเหล่านี้ได้โดยตรง สำหรับเฟรมเวิร์กที่รองรับ เรายังจัดเตรียมโค้ดตัวอย่างเพื่อสาธิตวิธีใช้งาน และแสดงประสิทธิภาพบนเฟรมเวิร์กเหล่านี้

เมทริกซ์สนับสนุน

โมเดล	กรอบ	FP16	INT8 (หลังทัวริง)	ความกระจัดกระจาย (หลังแอมแปร์)	เทนเซอร์ขนาน	ท่อขนาน	FP8 (หลังฮอปเปอร์)
เบิร์ต	เทนเซอร์โฟลว์	ใช่	ใช่	-	-	-	-
เบิร์ต	ไพทอร์ช	ใช่	ใช่	ใช่	ใช่	ใช่	-
เบิร์ต	แบ็กเอนด์ไทรทัน	ใช่	-	-	ใช่	ใช่	-
เบิร์ต	ซี++	ใช่	ใช่	-	-	-	ใช่
XLNet	ซี++	ใช่	-	-	-	-	-
ตัวเข้ารหัส	เทนเซอร์โฟลว์	ใช่	ใช่	-	-	-	-
ตัวเข้ารหัส	ไพทอร์ช	ใช่	ใช่	ใช่	-	-	-
เครื่องถอดรหัส	เทนเซอร์โฟลว์	ใช่	-	-	-	-	-
เครื่องถอดรหัส	ไพทอร์ช	ใช่	-	-	-	-	-
การถอดรหัส	เทนเซอร์โฟลว์	ใช่	-	-	-	-	-
การถอดรหัส	ไพทอร์ช	ใช่	-	-	-	-	-
GPT	เทนเซอร์โฟลว์	ใช่	-	-	-	-	-
GPT/เลือก	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	ใช่
GPT/เลือก	แบ็กเอนด์ไทรทัน	ใช่	-	-	ใช่	ใช่	-
GPT-MoE	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	-
บลูม	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	-
บลูม	แบ็กเอนด์ไทรทัน	ใช่	-	-	ใช่	ใช่	-
GPT-เจ	แบ็กเอนด์ไทรทัน	ใช่	-	-	ใช่	ใช่	-
อดีต	ไพทอร์ช	ใช่	-	-	-	-	-
T5/UL2	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	-
T5	เทนเซอร์โฟลว์ 2	ใช่	-	-	-	-	-
T5/UL2	แบ็กเอนด์ไทรทัน	ใช่	-	-	ใช่	ใช่	-
T5	TensorRT	ใช่	-	-	ใช่	ใช่	-
T5-MoE	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	-
หม้อแปลงสวิน	ไพทอร์ช	ใช่	ใช่	-	-	-	-
หม้อแปลงสวิน	TensorRT	ใช่	ใช่	-	-	-	-
ไวที	ไพทอร์ช	ใช่	ใช่	-	-	-	-
ไวที	TensorRT	ใช่	ใช่	-	-	-	-
GPT-นีโอเอ็กซ์	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	-
GPT-นีโอเอ็กซ์	แบ็กเอนด์ไทรทัน	ใช่	-	-	ใช่	ใช่	-
บาร์ต/เอ็มบาร์ต	ไพทอร์ช	ใช่	-	-	ใช่	ใช่	-
วีเน็ต	ซี++	ใช่	-	-	-	-	-
เดเบอร์ต้า	เทนเซอร์โฟลว์ 2	ใช่	-	-	กำลังดำเนินการอยู่	กำลังดำเนินการอยู่	-
เดเบอร์ต้า	ไพทอร์ช	ใช่	-	-	กำลังดำเนินการอยู่	กำลังดำเนินการอยู่	-

โปรดทราบว่า FasterTransformer รองรับโมเดลด้านบนบน C++ เนื่องจากซอร์สโค้ดทั้งหมดสร้างขึ้นบน C++

รายละเอียดเพิ่มเติมของรุ่นเฉพาะอยู่ใน xxx_guide.md ของ docs/ โดยที่ xxx หมายถึงชื่อรุ่น คำถามทั่วไปและคำตอบที่เกี่ยวข้องจะอยู่ใน docs/QAList.md โปรดทราบว่าโมเดลของ Encoder และ BERT มีความคล้ายคลึงกัน และเรารวมคำอธิบายไว้ใน bert_guide.md ไว้ด้วยกัน

ขั้นสูง

รหัสต่อไปนี้แสดงรายการโครงสร้างไดเร็กทอรีของ FasterTransformer:

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

โปรดทราบว่าหลายโฟลเดอร์มีโฟลเดอร์ย่อยจำนวนมากสำหรับแยกรุ่นต่างๆ เครื่องมือการหาปริมาณจะถูกย้ายไปที่ examples เช่น examples/tensorflow/bert/bert-quantization/ และ examples/pytorch/bert/bert-quantization-sparsity/

สิ่งแวดล้อมโลก

FasterTransformer มีตัวแปรสภาพแวดล้อมที่สะดวกสำหรับการดีบักและการทดสอบ

FT_LOG_LEVEL : สภาพแวดล้อมนี้ควบคุมระดับบันทึกของข้อความแก้ไขข้อบกพร่อง รายละเอียดเพิ่มเติมอยู่ใน src/fastertransformer/utils/logger.h โปรดทราบว่าโปรแกรมจะพิมพ์ข้อความจำนวนมากเมื่อระดับต่ำกว่า DEBUG และโปรแกรมจะทำงานช้ามาก
FT_NVTX : หากตั้งค่าเป็น ON เช่น FT_NVTX=ON ./bin/gpt_example โปรแกรมจะแทรกแท็ก tha ของ nvtx เพื่อช่วยในการสร้างโปรไฟล์โปรแกรม
FT_DEBUG_LEVEL : หากตั้งค่าเป็น DEBUG โปรแกรมจะรัน cudaDeviceSynchronize() หลังจากทุกเคอร์เนล มิฉะนั้น เคอร์เนลจะถูกดำเนินการแบบอะซิงโครนัสตามค่าเริ่มต้น การค้นหาจุดข้อผิดพลาดระหว่างการดีบักจะเป็นประโยชน์ แต่แฟล็กนี้ส่งผลต่อประสิทธิภาพของโปรแกรมอย่างมาก ดังนั้นจึงควรใช้สำหรับการดีบักเท่านั้น

ผลงาน

การตั้งค่าฮาร์ดแวร์:

8xA100-80GBs (พร้อม mclk 1593MHz, pclk 1410MHz) พร้อมโปรเซสเซอร์ AMD EPYC 7742 64-Core
T4 (พร้อม mclk 5000MHz, pclk 1590MHz) พร้อม CPU Intel(R) Xeon(R) E5-2670 0 @ 2.60GHz

เพื่อรันการวัดประสิทธิภาพต่อไปนี้ เราจำเป็นต้องติดตั้งเครื่องมือคำนวณยูนิกซ์ "bc" ภายใน

apt-get install bc

ประสิทธิภาพพื้นฐานของ BERT

ผลลัพธ์ FP16 ของ TensorFlow ได้มาจากการดำเนินการ benchmarks/bert/tf_benchmark.sh

ผลลัพธ์ INT8 ของ TensorFlow ได้มาจากการรัน benchmarks/bert/tf_int8_benchmark.sh

ผลลัพธ์ FP16 ของ PyTorch ได้มาจากการรัน benchmarks/bert/pyt_benchmark.sh

ผลลัพธ์ INT8 ของ PyTorch ได้มาจากการรัน benchmarks/bert/pyt_int8_benchmark.sh

มีการวางเกณฑ์มาตรฐานเพิ่มเติมใน docs/bert_guide.md

การแสดงพื้นฐานของ BERT ของคุณสมบัติใหม่ของ FasterTransformer

รูปต่อไปนี้เปรียบเทียบประสิทธิภาพของฟีเจอร์ต่างๆ ของ FasterTransformer และ FasterTransformer ภายใต้ FP16 บน T4

สำหรับขนาดแบทช์ขนาดใหญ่และความยาวลำดับ ทั้ง EFF-FT และ FT-INT8-v2 จะให้ความเร็วเพิ่มขึ้นประมาณ 2 เท่า การใช้ FasterTransformer และ int8v2 ที่มีประสิทธิภาพพร้อมกันสามารถเร่งความเร็วได้ประมาณ 3.5 เท่า เมื่อเทียบกับ FasterTransformer FP16 สำหรับเคสขนาดใหญ่

ประสิทธิภาพพื้นฐานของ BERT บน TensorFlow

รูปต่อไปนี้เปรียบเทียบประสิทธิภาพของฟีเจอร์ต่างๆ ของ FasterTransformer และ TensorFlow XLA ภายใต้ FP16 บน T4

สำหรับขนาดแบตช์ขนาดเล็กและความยาวของลำดับ การใช้ FasterTransformer สามารถเพิ่มความเร็วได้ประมาณ 3 เท่า

สำหรับขนาดแบทช์ขนาดใหญ่และความยาวลำดับ การใช้ Effective FasterTransformer พร้อมการหาปริมาณ INT8-v2 จะทำให้เร่งความเร็วได้ประมาณ 5 เท่า

ประสิทธิภาพพื้นฐานของ BERT บน PyTorch

รูปต่อไปนี้เปรียบเทียบประสิทธิภาพของฟีเจอร์ต่างๆ ของ FasterTransformer และ PyTorch TorchScript ภายใต้ FP16 บน T4

สำหรับขนาดแบตช์ขนาดเล็กและความยาวของลำดับ การใช้ FasterTransformer CustomExt สามารถทำให้เร่งความเร็วได้ประมาณ 4x ~ 6x

สำหรับขนาดแบทช์ขนาดใหญ่และความยาวของลำดับ การใช้ Effective FasterTransformer พร้อมการหาปริมาณ INT8-v2 จะทำให้เร่งความเร็วได้ประมาณ 5 เท่า

ประสิทธิภาพการถอดรหัสและถอดรหัส

ผลลัพธ์ของ TensorFlow ได้มาจากการรัน benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh และ benchmarks/decoding/tf_decoding_sampling_benchmark.sh

ผลลัพธ์ของ PyTorch ได้มาจากการรัน benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh

ในการทดลองถอดรหัส เราได้อัปเดตพารามิเตอร์ต่อไปนี้:

head_num = 8
ขนาดต่อหัว = 64
num_layers = 6 สำหรับทั้งตัวเข้ารหัสและตัวถอดรหัส
คำศัพท์ขนาด = 32001 สำหรับโค้ดตัวอย่าง TensorFlow, 31538 สำหรับโค้ดตัวอย่าง PyTorch
memory_hidden_dim = 512
ความยาวลำดับสูงสุด = 128

มีการวางเกณฑ์มาตรฐานเพิ่มเติมใน docs/decoder_guide.md

ตัวถอดรหัสและการถอดรหัสประสิทธิภาพการแปลตั้งแต่ต้นทางถึงปลายทางบน TensorFlow

รูปต่อไปนี้แสดงการเร่งความเร็วของ FT-Decoder op และ FT-Decoding op เมื่อเปรียบเทียบกับ TensorFlow ภายใต้ FP16 พร้อม T4 ที่นี่ เราใช้ทรูพุตของการแปลชุดทดสอบเพื่อป้องกันไม่ให้โทเค็นทั้งหมดของแต่ละวิธีอาจแตกต่างกัน เมื่อเปรียบเทียบกับ TensorFlow แล้ว FT-Decoder ให้ความเร็วเพิ่มขึ้น 1.5x ~ 3x; ในขณะที่การถอดรหัส FT ให้การเร่งความเร็ว 4x ~ 18x

ตัวถอดรหัสและการถอดรหัสประสิทธิภาพการแปลตั้งแต่ต้นทางถึงปลายทางบน PyTorch

รูปต่อไปนี้แสดงการเร่งความเร็วของ FT-Decoder op และ FT-Decoding op เมื่อเปรียบเทียบกับ PyTorch ภายใต้ FP16 พร้อม T4 ที่นี่ เราใช้ทรูพุตของการแปลชุดทดสอบเพื่อป้องกันไม่ให้โทเค็นทั้งหมดของแต่ละวิธีอาจแตกต่างกัน เมื่อเทียบกับ PyTorch แล้ว FT-Decoder ให้ความเร็วเพิ่มขึ้น 1.2x ~ 3x; ในขณะที่การถอดรหัส FT ให้การเร่งความเร็ว 3.8x ~ 13x

ประสิทธิภาพของ GPT

รูปต่อไปนี้เปรียบเทียบประสิทธิภาพของ Megatron และ FasterTransformer ภายใต้ FP16 บน A100

ในการทดลองถอดรหัส เราได้อัปเดตพารามิเตอร์ต่อไปนี้:

head_num = 96
ขนาดต่อหัว = 128
num_layers = 48 สำหรับรุ่น GPT-89B, 96 สำหรับรุ่น GPT-175B
ข้อมูล_ประเภท = FP16
คำศัพท์_ขนาด = 51200
ท็อป_พี = 0.9
ขนาดขนานของเทนเซอร์ = 8
ความยาวลำดับอินพุต = 512
ความยาวลำดับเอาต์พุต = 32

บันทึกประจำรุ่น

บันทึกการเปลี่ยนแปลง

พฤษภาคม 2023

แก้ไขข้อบกพร่องของการหยุดรุ่นก่อนกำหนด

มกราคม 2023

รองรับ GPT MoE
รองรับ FP8 สำหรับ Bert และ GPT ( ทดลอง )
รองรับ DeBERTa บน TensorFlow 2 และ PyTorch

ธันวาคม 2022

เปิดตัว FasterTransformer 5.2
รองรับการลงโทษความยาวขั้นต่ำ

พ.ย. 2022

รองรับการทำงานแบบกำหนดเอง T5 Tensorflow 2
รองรับ T5 โมเอะ
รองรับวีเน็ต
รองรับ BART และ mBART
รองรับ SwinV2
การสนับสนุนเบื้องต้นสำหรับโหมด w8a8 int8 พร้อม GPT (ดูตัวอย่าง)
รองรับ mha ที่หลอมละลายใน GPT

ต.ค. 2022

สนับสนุนบลูม

ก.ย. 2022

รองรับการสุ่มตัวอย่างข้อเท็จจริง (ลิงก์) ใน gpt
รองรับรูปแบบการปรับ IA3 ใน T5

ส.ค. 2022

รองรับการส่งคืนโทเค็นบริบทที่ฝังอยู่ใน GPT
เปิดตัว FasterTransformer 5.1
รองรับการสร้างแบบโต้ตอบ
รองรับหน่วยความจำแบบจำกัดเวลาความสนใจ
รองรับ mt5 และ t5-v1.1

กรกฎาคม 2022

รองรับ UL2 กอดหน้า ckpt (ลิงค์)
- แก้ไขข้อบกพร่องของ T5 ภายใต้ bfloat16
เพิ่มปลั๊กอิน ViT INT8 TensorRT
รองรับการสุ่มตัวอย่างเป็นชุด
รองรับการเพิ่มประสิทธิภาพบริบทที่ใช้ร่วมกันในโมเดล GPT

มิถุนายน 2565

รองรับการสร้างสตรีมมิ่งสำหรับแบ็กเอนด์ไทรทัน
สนับสนุน OPT
รองรับ Multi-node multi-GPU BERT ภายใต้ FP32, FP16 และ BF16

พฤษภาคม 2022

รองรับ bfloat16 ในรุ่นส่วนใหญ่
รองรับคำนำหน้าพร้อมท์สำหรับ GPT-J
รองรับ GPT-NeoX
- ค่า epsilon ที่ใช้ใน layernorm กลายเป็นพารามิเตอร์แล้ว
- การฝังแบบหมุนสไตล์ GPT-NeoX (ใช้เฉพาะ GPT-J เท่านั้น)
- โหลดต่อ GPU เลเยอร์นอร์มและพารามิเตอร์อคติ
- การแปลงน้ำหนักจากจุดตรวจ EleutherAI

เมษายน 2022

เปิดตัว FasterTransformer 5.0
- เปลี่ยนประเภทการสะสมเริ่มต้นของ gemm ทั้งหมดเป็น FP32
- รองรับการอนุมาน bfloat16 ในรุ่น GPT
- รองรับรุ่น Nemo Megatron T5 และ Megatron-LM T5
- สนับสนุน ViT

มีนาคม 2565

รองรับ stop_ids และ ban_bad_ids ใน GPT-J
รองรับ dynamice start_id และ end_id ใน GPT-J, GPT, T5 และการถอดรหัส

กุมภาพันธ์ 2022

รองรับ Swin Transformer
ปรับการอัพเดตแคช k/v ของการค้นหาลำแสงให้เหมาะสมโดยใช้บัฟเฟอร์ในทิศทาง
รองรับอินพุตรันไทม์สำหรับ GPT-J, T5 และ GPT
รองรับ soft prompt ใน GPT และ GPT-J
รองรับการกำหนดเองทั้งหมดลดเคอร์เนล
- ข้อจำกัด:
  1. รองรับเฉพาะขนาดขนานเทนเซอร์ = 8 บน DGX-A100
  2. รองรับ CUDA ด้วย cudaMallocAsync เท่านั้น

ธันวาคม 2021

เพิ่มปลั๊กอิน TensorRT ของรุ่น T5
เปลี่ยนไฮเปอร์พารามิเตอร์บางส่วนของโมเดล GPT เป็นคิวรีรันไทม์
ปรับการจัดสรรหน่วยความจำให้เหมาะสมภายใต้รหัส C ++
แก้ไขข้อบกพร่องของ CUB รวมถึงเมื่อใช้ CUDA 11.5 หรือเวอร์ชันที่ใหม่กว่า

พฤศจิกายน 2021

อัปเดต FasterTransformer 5.0 เบต้า
เพิ่ม Qauntization น้ำหนัก GPT-3 INT8 เท่านั้นสำหรับขนาดแบทช์ <= 2
รองรับ multi-node multi-gpu บน T5
ปรับปรุงการรองรับ multi-gpu แบบหลายโหนดใน GPT-3

สิงหาคม 2021

เปิดตัว FasterTransformer 5.0 เบต้า
- ปรับโครงสร้าง repo และโค้ด
- และขอขอบคุณเป็นพิเศษต่อ NAVER Corp. ที่ให้การสนับสนุนเวอร์ชันนี้เป็นอย่างมาก ดังรายการด้านล่าง
  - แก้ไขข้อบกพร่อง
    - แก้ไขข้อผิดพลาดที่เกิดขึ้นเมื่อ batt_size น้อยกว่า max_batch_size สำหรับ gpt pytorch wrapper
    - แก้ไขหน่วยความจำรั่วที่เกิดขึ้นทุกการส่งต่อเนื่องจากการจัดสรรซ้ำ
    - แก้ไขสภาพการแข่งขันที่เกิดขึ้นในเคอร์เนลการลงโทษการทำซ้ำ
  - การเพิ่มประสิทธิภาพ
    - เพิ่มการตั้งค่าเมล็ดสุ่ม
    - แก้ไขบัฟเฟอร์ล้น GEMM บน FP16 ของ GPT
    - เปลี่ยนเป็นบัฟเฟอร์ที่เสร็จสิ้นแล้วไม่ถูกต้องสำหรับทุกความสำเร็จ
    - แนะนำ stop_before สำหรับการหยุดก่อนเวลา
- สนับสนุนลองฟอร์เมอร์
- เปลี่ยนชื่อ layer_para เป็น pipeline_para
- ปรับการเรียงลำดับของการสุ่มตัวอย่าง p ด้านบนให้เหมาะสม
- รองรับความกระจัดกระจายสำหรับ Ampere GPU บน BERT
- รองรับ size_per_head 96, 160, 192, 224, 256 สำหรับรุ่น GPT
- รองรับการอนุมานหลายโหนดสำหรับแบ็กเอนด์ GPT Triton

มิถุนายน 2021

รองรับ XLNet

เมษายน 2021

เปิดตัว FasterTransformer 4.0
- รองรับการอนุมานแบบ multi-gpus และ multi-nodes สำหรับรุ่น GPT บน C++ และ PyTorch
- รองรับโหนดเดียว การอนุมานหลาย GPU สำหรับรุ่น GPT บนไทรทัน
- เพิ่มเคอร์เนลความสนใจแบบหลายหัวที่ผสม int8 สำหรับ bert
- เพิ่มเคอร์เนลความสนใจหลายหัวที่หลอมรวม FP16 ของ V100 สำหรับเบิร์ต
- ปรับเคอร์เนลของตัวถอดรหัสให้เหมาะสม
- ย้ายไปซื้อคืนอิสระ
- ส่วนขยาย PyTorch ในโหมดกระตือรือร้นเลิกใช้แล้ว

ธ.ค. 2020

เปิดตัว FasterTransformer 3.1
- ปรับการถอดรหัสให้เหมาะสมโดยการเพิ่มมาสก์ finisehd เพื่อป้องกันการประมวลผลที่ไร้ประโยชน์
- รองรับตัวเข้ารหัส opennmt
- ลบการสนับสนุนปลั๊กอิน TensorRT
- op ที่กำหนดเองของ TorchScript เลิกใช้แล้ว

พ.ย. 2020

เพิ่มประสิทธิภาพการอนุมาน INT8
รองรับการอนุมาน PyTorch INT8
จัดเตรียมเครื่องมือหาปริมาณ PyTorch INT8
ผสานรวมเคอร์เนลความสนใจแบบหลายหัวของ TensorRT เข้ากับ FasterTransformer
เพิ่มการทดสอบหน่วยของ SQuAD
อัพเดทจุดตรวจ NGC ที่พลาด

ก.ย. 2020

รองรับ GPT2
เปิดตัว FasterTransformer 3.0
- รองรับการหาปริมาณ INT8 ของตัวเข้ารหัสของ cpp และ TensorFlow op
- เพิ่มเครื่องมือ bert-tf-quantization
- แก้ไขปัญหาที่ Cmake 15 หรือ Cmake 16 ไม่สามารถสร้างโครงการนี้ได้

ส.ค. 2020

แก้ไขข้อบกพร่องของปลั๊กอิน trt

มิถุนายน 2020

เปิดตัว FasterTransformer 2.1
- เพิ่ม Effective FasterTransformer ตามแนวคิดของแนวคิด Effective Transformer
- ปรับเคอร์เนลค้นหาลำแสงให้เหมาะสม
- เพิ่มการสนับสนุน PyTorch op

พฤษภาคม 2020

แก้ไขข้อผิดพลาดที่ seq_len ของตัวเข้ารหัสต้องมีขนาดใหญ่กว่า 3
เพิ่มposition_encodingของการถอดรหัสเป็นอินพุตของการถอดรหัส FasterTransformer สะดวกในการใช้การเข้ารหัสตำแหน่งประเภทต่างๆ FasterTransformer ไม่ได้คำนวณค่าการเข้ารหัสตำแหน่ง แต่จะค้นหาเฉพาะตารางเท่านั้น
การปรับเปลี่ยนวิธีการโหลดโมเดลใน translate_sample.py

เมษายน 2020

เปลี่ยนชื่อ decoding_opennmt.h เป็น decoding_beamsearch.h
เพิ่ม DiverseSiblingsSearch สำหรับการถอดรหัส
เพิ่มการสุ่มตัวอย่างในการถอดรหัส
- การใช้งานอยู่ใน decoding_sampling.h
- เพิ่มการสุ่มตัวอย่าง top_k, การสุ่มตัวอย่าง top_p สำหรับการถอดรหัส
ปรับโครงสร้างโค้ด op แบบกำหนดเองของ tensorflow ใหม่
- รวม bert_transformer_op.h , bert_transformer_op.cu.cc เข้ากับ bert_transformer_op.cc
- รวม decoder.h , decoder.cu.cc เข้ากับ decoder.cc
- รวม decoding_beamsearch.h , decoding_beamsearch.cu.cc เข้ากับ decoding_beamsearch.cc
แก้ไขข้อบกพร่องของการสรุปฟังก์ชัน decoding.py
แก้ไขข้อผิดพลาดของ tf DiverseSiblingSearch
เพิ่ม BLEU Scorer bleu_score.py ลงใน utils โปรดทราบว่าคะแนน BLEU ต้องใช้ python3
ฟิวส์ QKV Gemm ของตัวเข้ารหัสและ masked_multi_head_attention ของตัวถอดรหัส
เพิ่มขนาดแบทช์แบบไดนามิกและคุณสมบัติความยาวลำดับแบบไดนามิกลงในการดำเนินการทั้งหมด

มีนาคม 2020

เพิ่มฟีเจอร์ใน FasterTransformer 2.0
- เพิ่ม translate_sample.py เพื่อสาธิตวิธีการแปลประโยคโดยการกู้คืนโมเดล OpenNMT-tf ที่ฝึกไว้ล่วงหน้า
แก้ไขข้อบกพร่องของ Fastertransformer 2.0
- แก้ไขข้อบกพร่องของความยาวลำดับสูงสุดของตัวถอดรหัสต้องไม่ใหญ่กว่า 128
- แก้ไขข้อผิดพลาดที่การถอดรหัสไม่ตรวจสอบเสร็จสิ้นหรือไม่หลังจากแต่ละขั้นตอน
- แก้ไขข้อบกพร่องของตัวถอดรหัสเกี่ยวกับ max_seq_len
- แก้ไขโครงสร้างโมเดลการถอดรหัสให้เหมาะสมกับโมเดลการถอดรหัส OpenNMT-tf
  - เพิ่มเลเยอร์การทำให้เป็นมาตรฐานของเลเยอร์หลังตัวถอดรหัส
  - เพิ่มการทำให้เป็นมาตรฐานสำหรับอินพุตของตัวถอดรหัส

กุมภาพันธ์ 2020

เปิดตัว FasterTransformer 2.0
- มอบตัวถอดรหัสและถอดรหัสที่ใช้ OpenNMT-tf ที่ได้รับการปรับปรุงประสิทธิภาพสูงสุด รวมถึง C++ API และ TensorFlow op
- ปรับแต่งโค้ดตัวอย่างของตัวเข้ารหัส
- เพิ่มคุณสมบัติขนาดแบตช์แบบไดนามิกลงในโปรแกรมเปลี่ยนไฟล์

กรกฎาคม 2019

เปิดตัว FasterTransformer 1.0
- มอบเลเยอร์หม้อแปลงเทียบเท่า bert ที่ได้รับการปรับปรุงประสิทธิภาพสูงสุด รวมถึง C++ API, TensorFlow op และปลั๊กอิน TensorRT

ปัญหาที่ทราบ

ไม่สามารถคอมไพล์บน tensorflow 2.10 ได้เนื่องจากปัญหาสัญลักษณ์ที่ไม่ได้กำหนด
ข้อผิดพลาดของสัญลักษณ์ที่ไม่ได้กำหนดเมื่อนำเข้าส่วนขยาย
- กรุณา import torch ก่อน หากทำเช่นนี้ อาจเป็นเพราะ C++ ABI ที่เข้ากันไม่ได้ คุณอาจต้องตรวจสอบว่า PyTorch ที่ใช้ในระหว่างการคอมไพล์และดำเนินการเหมือนกัน หรือคุณต้องตรวจสอบว่าการคอมไพล์ PyTorch ของคุณเป็นอย่างไร หรือเวอร์ชันของ GCC ของคุณ ฯลฯ
ผลลัพธ์ของ TensorFlow และ OP จะแตกต่างกันในการถอดรหัส ปัญหานี้เกิดจากความน่าจะเป็นของบันทึกสะสม และเราไม่สามารถหลีกเลี่ยงปัญหานี้ได้
หากพบปัญหาในสภาพแวดล้อมที่กำหนดเอง ให้ลองใช้ gcc/g++ 4.8 เพื่อสร้างโปรเจ็กต์ของ TensorFlow op โดยเฉพาะอย่างยิ่งสำหรับ TensorFlow 1.14

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v5.3 release
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-08
ขนาด 25.45MB
มาจาก Github

แอปที่เกี่ยวข้อง

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด