FasterTransformer Download - Download FasterTransformer Quellcodes

FasterTransformer

AI-Quellcode

v5.3 release

Herunterladen

Hinweis: Die FasterTransformer-Entwicklung wurde auf TensorRT-LLM umgestellt. Alle Entwickler werden ermutigt, TensorRT-LLM zu nutzen, um die neuesten Verbesserungen von LLM Inference zu erhalten. Das NVIDIA/FasterTransformer-Repo bleibt bestehen, wird jedoch nicht weiterentwickelt.

SchnellerTransformer

Dieses Repository bietet ein Skript und ein Rezept zum Ausführen der hochoptimierten transformatorbasierten Encoder- und Decoder-Komponente und wird von NVIDIA getestet und gewartet.

Inhaltsverzeichnis

SchnellerTransformer
- Inhaltsverzeichnis
- Modellübersicht
  - Unterstützungsmatrix
- Fortschrittlich
  - Globale Umwelt
- Leistung
  - BERT-Basisleistung
    - BERT-Basisleistungen der neuen Funktionen von FasterTransformer
    - BERT-Basisleistung auf TensorFlow
    - BERT-Basisleistung auf PyTorch
  - Dekodierung und Decoderleistung
    - End-to-End-Übersetzungsleistung durch Decoder und Decodierung auf TensorFlow
    - End-to-End-Übersetzungsleistung des Decoders und der Decodierung auf PyTorch
  - GPT-Leistung
- Versionshinweise
  - Änderungsprotokoll
  - Bekannte Probleme

Modellübersicht

Im NLP sind Encoder und Decoder zwei wichtige Komponenten, wobei die Transformatorschicht zu einer beliebten Architektur für beide Komponenten geworden ist. FasterTransformer implementiert eine hochoptimierte Transformatorschicht sowohl für den Encoder als auch für den Decoder zur Inferenz. Auf Volta-, Turing- und Ampere-GPUs wird die Rechenleistung von Tensor-Kernen automatisch genutzt, wenn die Genauigkeit der Daten und Gewichte FP16 beträgt.

FasterTransformer basiert auf CUDA, cuBLAS, cuBLASLt und C++. Wir stellen mindestens eine API der folgenden Frameworks bereit: TensorFlow, PyTorch und Triton-Backend. Benutzer können FasterTransformer direkt in diese Frameworks integrieren. Für unterstützende Frameworks stellen wir auch Beispielcodes zur Verfügung, um die Verwendung zu demonstrieren und die Leistung dieser Frameworks zu zeigen.

Unterstützungsmatrix

Modelle	Rahmen	FP16	INT8 (nach Turing)	Sparsity (nach Ampere)	Tensorparallel	Parallele Pipeline	FP8 (nach Hopper)
BERT	TensorFlow	Ja	Ja	-	-	-	-
BERT	PyTorch	Ja	Ja	Ja	Ja	Ja	-
BERT	Triton-Backend	Ja	-	-	Ja	Ja	-
BERT	C++	Ja	Ja	-	-	-	Ja
XLNet	C++	Ja	-	-	-	-	-
Encoder	TensorFlow	Ja	Ja	-	-	-	-
Encoder	PyTorch	Ja	Ja	Ja	-	-	-
Decoder	TensorFlow	Ja	-	-	-	-	-
Decoder	PyTorch	Ja	-	-	-	-	-
Dekodierung	TensorFlow	Ja	-	-	-	-	-
Dekodierung	PyTorch	Ja	-	-	-	-	-
GPT	TensorFlow	Ja	-	-	-	-	-
GPT/OPT	PyTorch	Ja	-	-	Ja	Ja	Ja
GPT/OPT	Triton-Backend	Ja	-	-	Ja	Ja	-
GPT-MoE	PyTorch	Ja	-	-	Ja	Ja	-
BLÜHEN	PyTorch	Ja	-	-	Ja	Ja	-
BLÜHEN	Triton-Backend	Ja	-	-	Ja	Ja	-
GPT-J	Triton-Backend	Ja	-	-	Ja	Ja	-
Langformer	PyTorch	Ja	-	-	-	-	-
T5/UL2	PyTorch	Ja	-	-	Ja	Ja	-
T5	TensorFlow 2	Ja	-	-	-	-	-
T5/UL2	Triton-Backend	Ja	-	-	Ja	Ja	-
T5	TensorRT	Ja	-	-	Ja	Ja	-
T5-MoE	PyTorch	Ja	-	-	Ja	Ja	-
Swin-Transformator	PyTorch	Ja	Ja	-	-	-	-
Swin-Transformator	TensorRT	Ja	Ja	-	-	-	-
ViT	PyTorch	Ja	Ja	-	-	-	-
ViT	TensorRT	Ja	Ja	-	-	-	-
GPT-NeoX	PyTorch	Ja	-	-	Ja	Ja	-
GPT-NeoX	Triton-Backend	Ja	-	-	Ja	Ja	-
BART/mBART	PyTorch	Ja	-	-	Ja	Ja	-
WeNet	C++	Ja	-	-	-	-	-
DeBERTa	TensorFlow 2	Ja	-	-	Laufend	Laufend	-
DeBERTa	PyTorch	Ja	-	-	Laufend	Laufend	-

Beachten Sie, dass der FasterTransformer die oben genannten Modelle auf C++ unterstützt, da alle Quellcodes auf C++ basieren.

Weitere Details zu bestimmten Modellen finden Sie in xxx_guide.md von docs/ , wobei xxx für den Modellnamen steht. Einige häufig gestellte Fragen und die entsprechenden Antworten finden Sie in docs/QAList.md . Beachten Sie, dass die Modelle von Encoder und BERT ähnlich sind und wir die Erklärung zusammen in bert_guide.md einfügen.

Fortschrittlich

Der folgende Code listet die Verzeichnisstruktur von FasterTransformer auf:

 /src/fastertransformer: source code of FasterTransformer
    |--/cutlass_extensions: Implementation of cutlass gemm/kernels.
    |--/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.
    |--/layers: Implementation of layer modules, like attention layer, ffn layer.
    |--/models: Implementation of different models, like BERT, GPT.
    |--/tensorrt_plugin: encapluate FasterTransformer into TensorRT plugin.
    |--/tf_op: custom Tensorflow OP implementation
    |--/th_op: custom PyTorch OP implementation
    |--/triton_backend: custom triton backend implementation
    |--/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils
/examples: C++, tensorflow and pytorch interface examples
    |--/cpp: C++ interface examples
    |--/pytorch: PyTorch OP examples
    |--/tensorflow: TensorFlow OP examples
    |--/tensorrt: TensorRT examples
/docs: Documents to explain the details of implementation of different models, and show the benchmark
/benchmark: Contains the scripts to run the benchmarks of different models
/tests: Unit tests
/templates: Documents to explain how to add a new model/example into FasterTransformer repo

Beachten Sie, dass viele Ordner viele Unterordner enthalten, um verschiedene Modelle aufzuteilen. Quantisierungswerkzeuge werden in examples verschoben, z. B. examples/tensorflow/bert/bert-quantization/ und examples/pytorch/bert/bert-quantization-sparsity/ .

Globale Umwelt

FasterTransformer bietet einige praktische Umgebungsvariablen zum Debuggen und Testen.

FT_LOG_LEVEL : Diese Umgebung steuert die Protokollebene von Debug-Meldungen. Weitere Details finden Sie in src/fastertransformer/utils/logger.h . Beachten Sie, dass das Programm viele Meldungen ausgibt, wenn die Stufe niedriger als DEBUG ist und das Programm dadurch sehr langsam wird.
FT_NVTX : Wenn es wie FT_NVTX=ON ./bin/gpt_example auf ON gesetzt ist, fügt das Programm das Tag von nvtx ein, um die Profilierung des Programms zu unterstützen.
FT_DEBUG_LEVEL : Wenn DEBUG eingestellt ist, führt das Programm nach jedem Kernel cudaDeviceSynchronize() aus. Andernfalls wird der Kernel standardmäßig asynchron ausgeführt. Es ist hilfreich, den Fehlerpunkt während des Debuggens zu lokalisieren. Dieses Flag wirkt sich jedoch erheblich auf die Leistung des Programms aus. Daher sollte es nur zum Debuggen verwendet werden.

Leistung

Hardwareeinstellungen:

8xA100-80GBs (mit mclk 1593MHz, pclk 1410MHz) mit AMD EPYC 7742 64-Core-Prozessor
T4 (mit mclk 5000 MHz, pclk 1590 MHz) mit Intel(R) Xeon(R) CPU E5-2670 0 bei 2,60 GHz

Um den folgenden Benchmark ausführen zu können, müssen wir das Unix-Computing-Tool „bc“ installieren

apt-get install bc

BERT-Basisleistung

Die FP16-Ergebnisse von TensorFlow wurden durch Ausführen von benchmarks/bert/tf_benchmark.sh erhalten.

Die INT8-Ergebnisse von TensorFlow wurden durch Ausführen von benchmarks/bert/tf_int8_benchmark.sh erhalten.

Die FP16-Ergebnisse von PyTorch wurden durch Ausführen von benchmarks/bert/pyt_benchmark.sh erhalten.

Die INT8-Ergebnisse von PyTorch wurden durch Ausführen von benchmarks/bert/pyt_int8_benchmark.sh erhalten.

Weitere Benchmarks finden Sie in docs/bert_guide.md .

BERT-Basisleistungen der neuen Funktionen von FasterTransformer

Die folgende Abbildung vergleicht die Leistung verschiedener Funktionen von FasterTransformer und FasterTransformer unter FP16 auf T4.

Bei großen Batchgrößen und Sequenzlängen bewirken sowohl EFF-FT als auch FT-INT8-v2 eine etwa zweifache Beschleunigung. Die gleichzeitige Verwendung von Effective FasterTransformer und int8v2 kann bei großen Fällen zu einer etwa 3,5-fachen Beschleunigung im Vergleich zu FasterTransformer FP16 führen.

BERT-Basisleistung auf TensorFlow

Die folgende Abbildung vergleicht die Leistungen verschiedener Funktionen von FasterTransformer und TensorFlow XLA unter FP16 auf T4.

Bei kleinen Batchgrößen und Sequenzlängen kann die Verwendung von FasterTransformer eine etwa dreifache Geschwindigkeitssteigerung bewirken.

Bei großen Batchgrößen und Sequenzlängen kann die Verwendung von Effective FasterTransformer mit INT8-v2-Quantisierung eine etwa fünffache Beschleunigung bewirken.

BERT-Basisleistung auf PyTorch

Die folgende Abbildung vergleicht die Leistung verschiedener Funktionen von FasterTransformer und PyTorch TorchScript unter FP16 auf T4.

Bei kleinen Batchgrößen und Sequenzlängen kann die Verwendung von FasterTransformer CustomExt eine etwa 4- bis 6-fache Beschleunigung bewirken.

Bei großen Batchgrößen und Sequenzlängen kann die Verwendung von Effective FasterTransformer mit INT8-v2-Quantisierung eine etwa fünffache Beschleunigung bewirken.

Dekodierung und Decoderleistung

Die Ergebnisse von TensorFlow wurden durch Ausführen von benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh und benchmarks/decoding/tf_decoding_sampling_benchmark.sh erhalten

Die Ergebnisse von PyTorch wurden durch Ausführen von benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh erhalten.

In den Dekodierungsexperimenten haben wir die folgenden Parameter aktualisiert:

head_num = 8
size_per_head = 64
num_layers = 6 für Encoder und Decoder
vocabulary_size = 32001 für TensorFlow-Beispielcodes, 31538 für PyTorch-Beispielcodes
memory_hidden_dim = 512
maximale Sequenzlänge = 128

Weitere Benchmarks finden Sie in docs/decoder_guide.md .

End-to-End-Übersetzungsleistung durch Decoder und Decodierung auf TensorFlow

Die folgende Abbildung zeigt die Beschleunigung von FT-Decoder op und FT-Decoding op im Vergleich zu TensorFlow unter FP16 mit T4. Hier nutzen wir den Durchsatz der Übersetzung eines Testsatzes, um zu verhindern, dass die Gesamttokens der einzelnen Methoden unterschiedlich sein können. Im Vergleich zu TensorFlow bietet FT-Decoder eine 1,5- bis 3-fache Beschleunigung; während die FT-Dekodierung eine 4- bis 18-fache Beschleunigung bietet.

End-to-End-Übersetzungsleistung durch Decoder und Decodierung auf PyTorch

Die folgende Abbildung zeigt die Beschleunigung von FT-Decoder op und FT-Decoding op im Vergleich zu PyTorch unter FP16 mit T4. Hier nutzen wir den Durchsatz der Übersetzung eines Testsatzes, um zu verhindern, dass die Gesamttokens der einzelnen Methoden unterschiedlich sein können. Im Vergleich zu PyTorch bietet FT-Decoder eine 1,2- bis 3-fache Beschleunigung; während die FT-Dekodierung eine 3,8- bis 13-fache Beschleunigung bietet.

GPT-Leistung

Die folgende Abbildung vergleicht die Leistungen von Megatron und FasterTransformer unter FP16 auf A100.

In den Dekodierungsexperimenten haben wir die folgenden Parameter aktualisiert:

head_num = 96
size_per_head = 128
num_layers = 48 für das GPT-89B-Modell, 96 für das GPT-175B-Modell
data_type = FP16
vocab_size = 51200
top_p = 0,9
Tensor-Parallelgröße = 8
Länge der Eingabesequenz = 512
Länge der Ausgabesequenz = 32

Versionshinweise

Änderungsprotokoll

Mai 2023

Beheben Sie Fehler beim vorzeitigen Stoppen der Generation

Januar 2023

Unterstützt GPT MoE
Unterstützung von FP8 für Bert und GPT ( experimentell )
Unterstützen Sie DeBERTa auf TensorFlow 2 und PyTorch

Dez. 2022

Veröffentlichung des FasterTransformer 5.2
Mindestlängenstrafe unterstützen

November 2022

Unterstützt benutzerdefinierte T5 Tensorflow 2-Operationen.
Unterstützt T5 MoE
Unterstützen Sie WeNet
Unterstützen Sie BART und mBART
Unterstützt SwinV2
Erste Unterstützung für den w8a8 int8-Modus mit GPT (Vorschau)
Unterstützt fusioniertes MHA in GPT

Okt. 2022

Unterstützen Sie BLOOM

September 2022

Unterstützen Sie sachliche Stichproben (Link) in gpt
Unterstützung für das IA3-Anpassungsschema in T5

August 2022

Unterstützt die Rückgabe von Kontext-Token-Einbettungen in GPT
Geben Sie den FasterTransformer 5.1 frei
Unterstützung für interaktive Generierung
Unterstützung für das zeitlich begrenzte Aufmerksamkeitsgedächtnis
Unterstützt mt5 und t5-v1.1

Juli 2022

Unterstützt UL2 Huggingface ckpt. (Link)
- Fehler von T5 unter bfloat16 behoben.
Fügen Sie das ViT INT8 TensorRT-Plugin hinzu
Unterstützung der Batch-Probenahme
Unterstützen Sie die gemeinsame Kontextoptimierung im GPT-Modell

Juni 2022

Unterstützt die Streaming-Generierung für das Triton-Backend.
Unterstützen Sie OPT.
Unterstützt Multi-Node-Multi-GPU BERT unter FP32, FP16 und BF16.

Mai 2022

Unterstützt bfloat16 auf den meisten Modellen.
Unterstützt Präfix-Eingabeaufforderung für GPT-J.
Unterstützt GPT-NeoX.
- Der in Layernorm verwendete Epsilon-Wert ist jetzt ein Parameter
- rotierende Einbettung im GPT-NeoX-Stil (nur GPT-J wurde implementiert)
- Laden Sie Layernorm- und Bias-Parameter pro GPU
- Gewichtsumrechnung vom EleutherAI-Kontrollpunkt

April 2022

Veröffentlichen Sie den FasterTransformer 5.0
- Ändern Sie den Standardakkumulationstyp aller Edelsteine in FP32.
- Unterstützt bfloat16-Inferenz im GPT-Modell.
- Unterstützt die Modelle Nemo Megatron T5 und Megatron-LM T5.
- Unterstützen Sie ViT.

März 2022

Unterstützen Sie stop_ids und ban_bad_ids in GPT-J.
Unterstützt dynamische start_id und end_id in GPT-J, GPT, T5 und Decoding.

Februar 2022

Unterstützt Swin Transformer.
Optimieren Sie die k/v-Cache-Aktualisierung der Strahlsuche durch Inrichtungspuffer.
Unterstützt die Laufzeiteingabe für GPT-J, T5 und GPT.
Unterstützt Soft-Prompt in GPT und GPT-J.
Unterstützt benutzerdefinierten All-Reduction-Kernel.
- Einschränkung:
  1. Unterstützt nur Tensor-Parallelgröße = 8 auf DGX-A100.
  2. Unterstützt CUDA nur mit cudaMallocAsync.

Dezember 2021

TensorRT-Plugin des T5-Modells hinzufügen.
Ändern Sie einige Hyperparameter des GPT-Modells in eine Laufzeitabfrage.
Optimieren Sie die Speicherzuweisung unter C++-Code.
Behebung eines CUB-Fehlers, auch bei Verwendung von CUDA 11.5 oder einer neueren Version.

November 2021

Aktualisieren Sie die Betaversion von FasterTransformer 5.0
Fügen Sie die GPT-3 INT8-Gewichtsquantisierung für eine Batchgröße <= 2 hinzu.
Unterstützt Multi-Node-Multi-GPU-Unterstützung auf T5.
Verbessern Sie die Multi-Node-Multi-GPU-Unterstützung in GPT-3.

August 2021

Veröffentlichen Sie die Betaversion von FasterTransformer 5.0
- Refaktorieren Sie das Repo und die Codes
- Und ein besonderer Dank geht an NAVER Corp. für den großen Beitrag zu dieser Version, wie unten aufgeführt.
  - Fehlerbehebungen
    - Behebung eines Fehlers, der auftritt, wenn „batch_size“ kleiner als „max_batch_size“ für den GPT-Pytorch-Wrapper ist.
    - Behebung eines Speicherverlusts, der bei jeder Weiterleitung aufgrund der wiederverwendeten Zuweisung auftritt.
    - Beheben Sie die Race-Bedingung, die im Kernel mit Wiederholungsstrafe auftritt.
  - Erweiterung
    - Fügen Sie eine Einstellung für zufällige Startwerte hinzu.
    - Beheben Sie den GEMM-Pufferüberlauf auf FP16 von GPT.
    - Änderung, um den fertigen Puffer bei jedem Abschluss ungültig zu machen.
    - Führen Sie stop_before für einen frühen Stopp ein.
- Unterstützen Sie Longformer.
- Benennen Sie layer_para in pipeline_para .
- Optimieren Sie die Sortierung der Top-P-Stichprobe.
- Unterstützt Sparsity für Ampere-GPUs auf BERT.
- Unterstützt size_per_head 96, 160, 192, 224, 256 für das GPT-Modell.
- Unterstützt Multi-Node-Inferenz für das GPT-Triton-Backend.

Juni 2021

Unterstützt XLNet

April 2021

Veröffentlichen Sie den FasterTransformer 4.0
- Unterstützt Multi-GPU- und Multi-Node-Inferenz für das GPT-Modell in C++ und PyTorch.
- Unterstützt Einzelknoten- und Multi-GPU-Inferenz für das GPT-Modell auf Triton.
- Fügen Sie den int8-Fused-Multi-Head-Attention-Kernel für Bert hinzu.
- Fügen Sie den FP16-fusionierten Multi-Head-Aufmerksamkeitskern von V100 für Bert hinzu.
- Optimieren Sie den Kernel des Decoders.
- Wechseln Sie zum unabhängigen Repo.
- Die PyTorch-Erweiterung im Eager-Modus ist veraltet.

Dezember 2020

Geben Sie den FasterTransformer 3.1 frei
- Optimieren Sie die Dekodierung, indem Sie die finisehd-Maske hinzufügen, um unnötiges Rechnen zu verhindern.
- Unterstützt OpenNMT-Encoder.
- Entfernen Sie die TensorRT-Plugin-Unterstützung.
- Die benutzerdefinierte TorchScript-Operation ist veraltet.

November 2020

Optimieren Sie die INT8-Inferenz.
Unterstützt PyTorch INT8-Inferenz.
Bereitstellung von PyTorch INT8-Quantisierungstools.
Integrieren Sie den fusionierten Multi-Head-Aufmerksamkeitskern von TensorRT in FasterTransformer.
Unit-Test von SQuAD hinzufügen.
Aktualisieren Sie die verpassten NGC-Kontrollpunkte.

September 2020

Unterstützt GPT2
Veröffentlichen Sie den FasterTransformer 3.0
- Unterstützt die INT8-Quantisierung des Encoders von cpp und TensorFlow op.
- Bert-tf-Quantisierungstool hinzufügen.
- Behebung des Problems, dass Cmake 15 oder Cmake 16 dieses Projekt nicht erstellen konnte.

August 2020

Beheben Sie den Fehler des TRT-Plugins.

Juni 2020

Geben Sie den FasterTransformer 2.1 frei
- Fügen Sie Effective FasterTransformer basierend auf der Idee von Effective Transformer hinzu.
- Optimieren Sie die Strahlsuchkerne.
- PyTorch-Op-Unterstützung hinzufügen

Mai 2020

Beheben Sie den Fehler, dass seq_len des Encoders größer als 3 sein muss.
Fügen Sie die Positionskodierung der Dekodierung als Eingabe der FasterTransformer-Dekodierung hinzu. Dies ist praktisch, um verschiedene Arten der Positionscodierung zu verwenden. FasterTransformer berechnet nicht den Positionskodierungswert, sondern sucht nur in der Tabelle.
Ändern der Methode zum Laden des Modells in translate_sample.py .

April 2020

Benennen Sie decoding_opennmt.h in decoding_beamsearch.h
Fügen Sie DiverseSiblingsSearch zur Dekodierung hinzu.
Fügen Sie Sampling zur Dekodierung hinzu
- Die Implementierung befindet sich in decoding_sampling.h
- Fügen Sie top_k-Sampling und top_p-Sampling zur Dekodierung hinzu.
Refaktorieren Sie die benutzerdefinierten Tensorflow-Op-Codes.
- Führen Sie bert_transformer_op.h und bert_transformer_op.cu.cc in bert_transformer_op.cc zusammen
- Führen Sie decoder.h und decoder.cu.cc in decoder.cc zusammen
- Führen Sie decoding_beamsearch.h und decoding_beamsearch.cu.cc in decoding_beamsearch.cc zusammen
Beheben Sie die Fehler der Finalisierungsfunktion decoding.py.
Beheben Sie den Fehler von tf DiverseSiblingSearch.
Fügen Sie den BLEU-Scorer bleu_score.py zu utils hinzu. Beachten Sie, dass für den BLEU-Score Python3 erforderlich ist.
Fuse QKV Gemm des Encoders und masked_multi_head_attention des Decoders.
Fügen Sie allen Vorgängen Funktionen zur dynamischen Stapelgröße und dynamischen Sequenzlänge hinzu.

März 2020

Funktion in FasterTransformer 2.0 hinzufügen
- Fügen Sie translate_sample.py hinzu, um zu demonstrieren, wie ein Satz durch Wiederherstellen des vorab trainierten Modells von OpenNMT-tf übersetzt wird.
Beheben Sie Fehler von Fastertransformer 2.0
- Behebung des Fehlers, dass die maximale Sequenzlänge des Decoders nicht größer als 128 sein darf.
- Beheben Sie den Fehler, dass bei der Dekodierung nicht nach jedem Schritt das Ende überprüft wird.
- Beheben Sie den Fehler des Decoders bezüglich max_seq_len.
- Ändern Sie die Struktur des Dekodierungsmodells, um sie an das OpenNMT-tf-Dekodierungsmodell anzupassen.
  - Fügen Sie nach dem Decoder eine Ebene zur Normalisierung hinzu.
  - Fügen Sie eine Normalisierung für die Eingänge des Decoders hinzu

Februar 2020

Veröffentlichen Sie den FasterTransformer 2.0
- Bereitstellung eines hochoptimierten OpenNMT-tf-basierten Decoders und der Decodierung, einschließlich C++-API und TensorFlow-Operation.
- Verfeinern Sie die Beispielcodes des Encoders.
- Fügen Sie der Encoder-Operation eine Funktion zur dynamischen Stapelgröße hinzu.

Juli 2019

Veröffentlichen Sie den FasterTransformer 1.0
- Stellen Sie eine hochoptimierte Bert-äquivalente Transformatorschicht bereit, einschließlich C++-API, TensorFlow-Operation und TensorRT-Plugin.

Bekannte Probleme

Kompilierung unter Tensorflow 2.10 aufgrund eines undefinierten Symbolproblems nicht möglich.
Undefinierte Symbolfehler beim Importieren der Erweiterung
- Bitte import torch . Wenn dies geschehen ist, liegt es an der inkompatiblen C++-ABI. Möglicherweise müssen Sie überprüfen, ob der während der Kompilierung und Ausführung verwendete PyTorch identisch ist, oder Sie müssen überprüfen, wie Ihr PyTorch kompiliert ist, oder die Version Ihres GCC usw.
Die Ergebnisse von TensorFlow und OP würden bei der Dekodierung unterschiedlich sein. Dieses Problem wird durch die akkumulierte Protokollwahrscheinlichkeit verursacht und wir können dieses Problem nicht vermeiden.
Wenn in der benutzerdefinierten Umgebung ein Problem auftritt, versuchen Sie, gcc/g++ 4.8 zu verwenden, um das Projekt von TensorFlow op zu erstellen, insbesondere für TensorFlow 1.14.

Expandieren

Zusätzliche Informationen