Загрузка FasterTransformer - Загрузка исходного кода FasterTransformer

FasterTransformer

AI Исходный код

v5.3 release

Скачать

Примечание. Разработка FasterTransformer перешла на TensorRT-LLM. Всем разработчикам рекомендуется использовать TensorRT-LLM, чтобы получить последние улучшения LLM Inference. Репозиторий NVIDIA/FasterTransformer останется в силе, но не получит дальнейшего развития.

БыстрееТрансформер

Этот репозиторий предоставляет сценарий и рецепт для запуска высокооптимизированного компонента кодера и декодера на основе преобразователя, который тестируется и поддерживается NVIDIA.

БыстрееТрансформер
- Оглавление
- Обзор модели
  - Матрица поддержки
- Передовой
  - Глобальная окружающая среда
- Производительность
  - Базовая производительность BERT
    - Базовые характеристики BERT новых функций FasterTransformer
    - Базовая производительность BERT на TensorFlow
    - Базовая производительность BERT на PyTorch
  - Декодирование и производительность декодера
    - Декодер и производительность сквозного перевода декодирования на TensorFlow
    - Декодер и производительность сквозного перевода декодирования на PyTorch
  - Производительность GPT
- Примечания к выпуску
  - Журнал изменений
  - Известные проблемы

Обзор модели

В НЛП кодер и декодер являются двумя важными компонентами, причем уровень преобразователя становится популярной архитектурой для обоих компонентов. FasterTransformer реализует высокооптимизированный уровень преобразователя как для кодера, так и для декодера для вывода. В графических процессорах Volta, Turing и Ampere вычислительная мощность тензорных ядер используется автоматически, когда точность данных и весов составляют FP16.

FasterTransformer построен на основе CUDA, cuBLAS, cuBLASLt и C++. Мы предоставляем как минимум один API для следующих платформ: TensorFlow, PyTorch и бэкэнд Triton. Пользователи могут напрямую интегрировать FasterTransformer в эти платформы. Для поддержки платформ мы также предоставляем примеры кода, демонстрирующие использование и производительность этих платформ.

Матрица поддержки

Модели	Рамки	РП16	INT8 (после Тьюринга)	Разреженность (по Амперу)	Тензорная параллель	Трубопровод параллельный	FP8 (после Хоппера)
БЕРТ	ТензорФлоу	Да	Да	-	-	-	-
БЕРТ	PyTorch	Да	Да	Да	Да	Да	-
БЕРТ	Серверная часть Тритона	Да	-	-	Да	Да	-
БЕРТ	С++	Да	Да	-	-	-	Да
XLNet	С++	Да	-	-	-	-	-
Кодер	ТензорФлоу	Да	Да	-	-	-	-
Кодер	PyTorch	Да	Да	Да	-	-	-
Декодер	ТензорФлоу	Да	-	-	-	-	-
Декодер	PyTorch	Да	-	-	-	-	-
Декодирование	ТензорФлоу	Да	-	-	-	-	-
Декодирование	PyTorch	Да	-	-	-	-	-
GPT	ТензорФлоу	Да	-	-	-	-	-
GPT/ОПТ	PyTorch	Да	-	-	Да	Да	Да
GPT/ОПТ	Серверная часть Тритона	Да	-	-	Да	Да	-
ГПТ-МО	PyTorch	Да	-	-	Да	Да	-
ЦВЕСТИ	PyTorch	Да	-	-	Да	Да	-
ЦВЕСТИ	Серверная часть Тритона	Да	-	-	Да	Да	-
ГПТ-J	Серверная часть Тритона	Да	-	-	Да	Да	-
Лонгформер	PyTorch	Да	-	-	-	-	-
Т5/УЛ2	PyTorch	Да	-	-	Да	Да	-
Т5	ТензорФлоу 2	Да	-	-	-	-	-
Т5/УЛ2	Серверная часть Тритона	Да	-	-	Да	Да	-
Т5	ТензорРТ	Да	-	-	Да	Да	-
Т5-МОЭ	PyTorch	Да	-	-	Да	Да	-
Свин Трансформатор	PyTorch	Да	Да	-	-	-	-
Свин Трансформатор	ТензорРТ	Да	Да	-	-	-	-
ВИТ	PyTorch	Да	Да	-	-	-	-
ВИТ	ТензорРТ	Да	Да	-	-	-	-
GPT-NeoX	PyTorch	Да	-	-	Да	Да	-
GPT-NeoX	Серверная часть Тритона	Да	-	-	Да	Да	-
БАРТ/мБАРТ	PyTorch	Да	-	-	Да	Да	-
WeNet	С++	Да	-	-	-	-	-
ДеБЕРТа	ТензорФлоу 2	Да	-	-	Непрерывный	Непрерывный	-
ДеБЕРТа	PyTorch	Да	-	-	Непрерывный	Непрерывный	-

Обратите внимание, что FasterTransformer поддерживает приведенные выше модели на C++, поскольку все исходные коды созданы на C++.

Более подробная информация о конкретных моделях содержится в xxx_guide.md docs/ , где xxx означает название модели. Некоторые распространенные вопросы и соответствующие ответы помещены в docs/QAList.md . Обратите внимание, что модели Encoder и BERT схожи, и мы поместили объяснение в bert_guide.md вместе.

Передовой

В следующем коде представлена структура каталогов FasterTransformer:

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

Обратите внимание, что многие папки содержат множество подпапок для разделения разных моделей. Инструменты квантования перенесены в examples , такие как examples/tensorflow/bert/bert-quantization/ и examples/pytorch/bert/bert-quantization-sparsity/ .

Глобальная окружающая среда

FasterTransformer предоставляет несколько удобных переменных среды для отладки и тестирования.

FT_LOG_LEVEL : эта среда контролирует уровень журнала отладочных сообщений. Более подробная информация находится в src/fastertransformer/utils/logger.h . Обратите внимание, что программа будет печатать много сообщений, когда уровень ниже DEBUG , и программа будет работать очень медленно.
FT_NVTX : если для него установлено значение ON например FT_NVTX=ON ./bin/gpt_example , программа вставит тег nvtx, чтобы помочь профилировать программу.
FT_DEBUG_LEVEL : если установлено значение DEBUG , программа будет запускать cudaDeviceSynchronize() после каждого ядра. В противном случае ядро по умолчанию выполняется асинхронно. Во время отладки полезно найти точку ошибки. Но этот флаг существенно влияет на производительность программы. Поэтому его следует использовать только для отладки.

Производительность

Настройки оборудования:

8xA100–80 ГБ (с mclk 1593 МГц, pclk 1410 МГц) с 64-ядерным процессором AMD EPYC 7742
T4 (с mclk 5000 МГц, pclk 1590 МГц) с процессором Intel(R) Xeon(R) E5-2670 0 @ 2,60 ГГц

Чтобы запустить следующий тест, нам нужно установить вычислительный инструмент Unix «bc» с помощью

apt-get install bc

Базовая производительность BERT

Результаты FP16 TensorFlow были получены путем запуска benchmarks/bert/tf_benchmark.sh .

Результаты INT8 TensorFlow были получены путем запуска benchmarks/bert/tf_int8_benchmark.sh .

Результаты FP16 для PyTorch были получены путем запуска benchmarks/bert/pyt_benchmark.sh .

Результаты INT8 для PyTorch были получены путем запуска benchmarks/bert/pyt_int8_benchmark.sh .

Дополнительные тесты помещены в docs/bert_guide.md .

Базовые характеристики BERT новых функций FasterTransformer

На следующем рисунке сравнивается производительность различных функций FasterTransformer и FasterTransformer в FP16 на T4.

Для большого размера пакета и длины последовательности как EFF-FT, так и FT-INT8-v2 обеспечивают двукратное ускорение. Одновременное использование эффективных FasterTransformer и int8v2 может привести к увеличению скорости примерно в 3,5 раза по сравнению с FasterTransformer FP16 для больших случаев.

Базовая производительность BERT на TensorFlow

На следующем рисунке сравнивается производительность различных функций FasterTransformer и TensorFlow XLA в FP16 на T4.

Для небольшого размера пакета и длины последовательности использование FasterTransformer может привести к ускорению примерно в 3 раза.

Для большого размера пакета и длины последовательности использование эффективного FasterTransformer с квантованием INT8-v2 может привести к ускорению примерно в 5 раз.

Базовая производительность BERT на PyTorch

На следующем рисунке сравнивается производительность различных функций FasterTransformer и PyTorch TorchScript под управлением FP16 на T4.

Для небольшого размера пакета и длины последовательности использование FasterTransformer CustomExt может привести к ускорению примерно в 4–6 раз.

Для большого размера пакета и длины последовательности использование эффективного FasterTransformer с квантованием INT8-v2 может привести к ускорению примерно в 5 раз.

Декодирование и производительность декодера

Результаты TensorFlow были получены путем запуска benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh и benchmarks/decoding/tf_decoding_sampling_benchmark.sh

Результаты PyTorch были получены путем запуска benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh .

В экспериментах по декодированию мы обновили следующие параметры:

номер_головки = 8
size_per_head = 64
num_layers = 6 как для кодера, так и для декодера
словарь_size = 32001 для примеров кодов TensorFlow, 31538 для примеров кодов PyTorch
Memory_hidden_dim = 512
максимальная длина последовательности = 128

Дополнительные тесты помещены в docs/decoder_guide.md .

Декодер и производительность сквозного перевода декодирования на TensorFlow

На следующем рисунке показано ускорение операций FT-декодера и операций FT-декодирования по сравнению с TensorFlow в FP16 с T4. Здесь мы используем пропускную способность трансляции тестового набора, чтобы предотвратить разное общее количество токенов каждого метода. По сравнению с TensorFlow, FT-Decoder обеспечивает ускорение в 1,5–3 раза; в то время как FT-декодирование обеспечивает ускорение в 4–18 раз.

Декодер и производительность сквозного перевода декодирования на PyTorch

На следующем рисунке показано ускорение операций FT-Decoder и FT-Decoding по сравнению с PyTorch под FP16 с T4. Здесь мы используем пропускную способность трансляции тестового набора, чтобы предотвратить разное общее количество токенов каждого метода. По сравнению с PyTorch, FT-Decoder обеспечивает ускорение в 1,2–3 раза; в то время как FT-декодирование обеспечивает ускорение в 3,8–13 раз.

Производительность GPT

На следующем рисунке сравниваются характеристики Megatron и FasterTransformer при FP16 на A100.

В экспериментах по декодированию мы обновили следующие параметры:

номер_головки = 96
size_per_head = 128
num_layers = 48 для модели GPT-89B, 96 для модели GPT-175B
тип_данных = FP16
vocab_size = 51200
топ_п = 0,9
размер тензорной параллели = 8
длина входной последовательности = 512
длина выходной последовательности = 32

Примечания к выпуску

Журнал изменений

май 2023 г.

Исправлены ошибки ранней остановки генерации.

январь 2023 г.

Поддержка ГПТ МО
Поддержка FP8 для Bert и GPT ( экспериментальная )
Поддержка DeBERTa в TensorFlow 2 и PyTorch.

декабрь 2022 г.

Выпуск FasterTransformer 5.2
Поддержка штрафа за минимальную длину

ноябрь 2022 г.

Поддержка пользовательского режима T5 Tensorflow 2.
Поддержка Т5 МО
Поддержка WeNet
Поддержка БАРТ и мБАРТ
Поддержка SwinV2
Начальная поддержка режима w8a8 int8 с GPT (предварительная версия)
Поддержка Fused MHA в GPT

октябрь 2022 г.

Поддержка БЛУМ

Сентябрь 2022 г.

Поддержка фактической выборки (ссылка) в gpt
Поддержка схемы адаптации IA3 в T5.

август 2022 г.

Поддержка возврата вложений токенов контекста в GPT.
Выпуск FasterTransformer 5.1
Поддержка интерактивной генерации
Поддержка внимания, ограниченная по времени память.
Поддержка mt5 и t5-v1.1

июль 2022 г.

Поддержка UL2 Huggingface ckpt. (связь)
- Исправлена ошибка Т5 под bfloat16.
Добавить плагин ViT INT8 TensorRT
Поддержка пакетной выборки
Поддержка оптимизации общего контекста в модели GPT.

июнь 2022 г.

Поддержка генерации потоковой передачи для серверной части Triton.
Поддержка ОПТ.
Поддержка многоузлового многопроцессорного BERT в FP32, FP16 и BF16.

май 2022 г.

Поддержка bfloat16 на большинстве моделей.
Поддержка префикса-подсказки для GPT-J.
Поддержка GPT-NeoX.
- Значение эпсилон, используемое в Layernorm, теперь является параметром
- ротационное встраивание стиля GPT-NeoX (был реализован только GPT-J)
- загрузить параметры нормы и смещения слоя для каждого графического процессора
- преобразование веса из контрольно-пропускного пункта EleutherAI

апрель 2022 г.

Выпуск FasterTransformer 5.0
- Измените тип накопления по умолчанию для всех драгоценных камней на FP32.
- Поддержка вывода bfloat16 в модели GPT.
- Поддержка моделей Nemo Megatron T5 и Megatron-LM T5.
- Поддержите ВИТ.

март 2022 г.

Поддержка stop_ids и ban_bad_ids в GPT-J.
Поддержка динамического start_id и end_id в GPT-J, GPT, T5 и декодировании.

февраль 2022 г.

Поддержка трансформатора Swin.
Оптимизируйте обновление кэша k/v для поиска луча с помощью ненаправленного буфера.
Поддержка ввода во время выполнения для GPT-J, T5 и GPT.
Поддержка программной подсказки в GPT и GPT-J.
Поддержка пользовательских всех сокращений ядра.
- Ограничение:
  1. На DGX-A100 поддерживается только размер тензорной параллельности = 8.
  2. Поддерживайте CUDA только с cudaMallocAsync.

декабрь 2021 г.

Добавьте плагин TensorRT модели T5.
Измените некоторые гиперпараметры модели GPT на запрос времени выполнения.
Оптимизируйте распределитель памяти в коде C++.
Исправлена ошибка CUB, в том числе при использовании CUDA 11.5 или более новой версии.

ноябрь 2021 г.

Обновите бета-версию FasterTransformer 5.0.
Добавьте подсчет веса GPT-3 INT8 только для размера пакета <= 2.
Поддержка нескольких узлов и нескольких графических процессоров на T5.
Улучшите поддержку нескольких узлов и нескольких графических процессоров в GPT-3.

август 2021 г.

Выпуск бета-версии FasterTransformer 5.0
- Рефакторинг репозитория и кодов
- Особая благодарность NAVER Corp. за большой вклад в эту версию, как указано ниже.
  - Исправление ошибок
    - Исправьте ошибку, возникающую, когда пакетный_размер меньше max_batch_size для оболочки gpt pytorch.
    - Исправлена утечка памяти, возникающая при каждом перенаправлении из-за повторного использования распределителя.
    - Исправлено состояние гонки, возникающее в ядре штрафа за повторение.
  - Улучшение
    - Добавьте случайную настройку начального числа.
    - Исправлено переполнение буфера GEMM на FP16 GPT.
    - Измените, чтобы сделать недействительным готовый буфер для каждого завершения.
    - Введите stop_before для ранней остановки.
- Поддержите Лонгформер.
- Переименуйте layer_para в pipeline_para .
- Оптимизируйте сортировку верхней выборки p.
- Поддержка разреженности графических процессоров Ampere на BERT.
- Поддержка size_per_head 96, 160, 192, 224, 256 для модели GPT.
- Поддержка многоузлового вывода для серверной части GPT Triton.

июнь 2021 г.

Поддержка XLNet

апрель 2021 г.

Выпуск FasterTransformer 4.0
- Поддержка вывода нескольких графических процессоров и нескольких узлов для модели GPT на C++ и PyTorch.
- Поддержка одного узла и нескольких графических процессоров для модели GPT на Triton.
- Добавьте ядро внимания с несколькими головками int8 для bert.
- Добавьте объединенное многоголовое ядро внимания FP16 V100 для Берта.
- Оптимизировать ядро декодера.
- Перейдите на независимое репо.
- Расширение PyTorch для режима Eager устарело.

декабрь 2020 г.

Выпуск FasterTransformer 3.1
- Оптимизируйте декодирование, добавив маскуfinisehd, чтобы предотвратить бесполезные вычисления.
- Поддержка кодировщика opennmt.
- Удалите плагин TensorRT, поддерживающий.
- Пользовательская операция TorchScript устарела.

ноябрь 2020 г.

Оптимизируйте вывод INT8.
Поддержка вывода PyTorch INT8.
Предоставьте инструменты квантования PyTorch INT8.
Интегрируйте объединенное многоголовое ядро TensorRT в FasterTransformer.
Добавьте модульный тест SQuAD.
Обновите пропущенные контрольные точки NGC.

сентябрь 2020 г.

Поддержка GPT2
Выпуск FasterTransformer 3.0
- Поддержка квантования INT8 кодера cpp и TensorFlow op.
- Добавьте инструмент bert-tf-quantization.
- Устраните проблему, из-за которой Cmake 15 или Cmake 16 не удалось собрать этот проект.

август 2020 г.

Исправьте ошибку плагина trt.

июнь 2020 г.

Выпуск FasterTransformer 2.1
- Добавьте эффективный FasterTransformer на основе идеи эффективного трансформатора.
- Оптимизируйте ядра поиска луча.
- Добавить поддержку PyTorch

май 2020 г.

Исправлена ошибка, из-за которой значение seq_len кодировщика должно быть больше 3.
Добавьте позицию_encoding декодирования в качестве входных данных декодирования FasterTransformer. Это удобно для использования разных типов кодирования позиции. FasterTransformer не вычисляет значение кодировки позиции, а только ищет таблицу.
Изменение метода загрузки модели в translate_sample.py .

апрель 2020 г.

Переименуйте decoding_opennmt.h в decoding_beamsearch.h
Добавьте DiverseSiblingsSearch для декодирования.
Добавить выборку в декодирование
- Реализация находится в decoding_sampling.h
- Добавьте выборку top_k, выборку top_p для декодирования.
Рефакторинг пользовательских кодов операций тензорного потока.
- Объединить bert_transformer_op.h , bert_transformer_op.cu.cc в bert_transformer_op.cc
- Объединить decoder.h , decoder.cu.cc в decoder.cc
- Объединить decoding_beamsearch.h , decoding_beamsearch.cu.cc в decoding_beamsearch.cc
Исправьте ошибки функции финализации decoding.py.
Исправьте ошибку tf DiverseSiblingSearch.
Добавьте BLEU-скорер bleu_score.py в utils . Обратите внимание, что для оценки BLEU требуется python3.
Предохранитель QKV Gemm энкодера и Masked_multi_head_attention декодера.
Добавьте функции динамического размера пакета и динамической длины последовательности во все операции.

март 2020 г.

Добавить функцию в FasterTransformer 2.0
- Добавьте translate_sample.py , чтобы продемонстрировать, как переводить предложение, восстанавливая предварительно обученную модель OpenNMT-tf.
Исправить ошибки Fastertransformer 2.0.
- Исправлена ошибка, из-за которой максимальная длина последовательности декодера не могла быть больше 128.
- Исправлена ошибка, из-за которой декодирование не проверяет завершение или нет после каждого шага.
- Исправлена ошибка декодера max_seq_len.
- Измените структуру модели декодирования, чтобы она соответствовала модели декодирования OpenNMT-tf.
  - Добавьте слой нормализации слоя после декодера.
  - Добавить нормализацию для входов декодера

февраль 2020 г.

Выпуск FasterTransformer 2.0
- Предоставьте высокооптимизированный декодер и декодирование на основе OpenNMT-tf, включая C++ API и TensorFlow op.
- Уточните примеры кодов кодировщика.
- Добавьте функцию динамического размера пакета в кодировщик.

июль 2019 г.

Выпуск FasterTransformer 1.0
- Предоставьте высокооптимизированный уровень преобразователя, эквивалентный bert, включая C++ API, TensorFlow op и плагин TensorRT.

Известные проблемы

Невозможно скомпилировать tensorflow 2.10 из-за проблемы с неопределенным символом.
Неопределенные ошибки символов при импорте расширения
- Пожалуйста, сначала import torch . Если это произошло, то это связано с несовместимостью C++ ABI. Возможно, вам потребуется проверить, что PyTorch, используемый во время компиляции и выполнения, один и тот же, или вам нужно проверить, как компилируется ваш PyTorch, версию вашего GCC и т. д.
Результаты TensorFlow и OP при декодировании будут разными. Эта проблема вызвана накопленной вероятностью журнала, и мы не избегаем этой проблемы.
Если вы столкнулись с какой-либо проблемой в пользовательской среде, попробуйте использовать gcc/g++ 4.8 для сборки проекта TensorFlow op, особенно для TensorFlow 1.14.

Расширять

Дополнительная информация