Dieses Repository bietet hochmoderne Deep-Learning-Beispiele, die einfach zu trainieren und bereitzustellen sind und mit dem NVIDIA CUDA-X-Software-Stack, der auf NVIDIA Volta-, Turing- und Ampere-GPUs läuft, die beste reproduzierbare Genauigkeit und Leistung erzielen.
Diese Beispiele werden zusammen mit unserem NVIDIA Deep-Learning-Software-Stack in einem monatlich aktualisierten Docker-Container in der NGC-Container-Registrierung (https://ngc.nvidia.com) bereitgestellt. Zu diesen Containern gehören:
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | TensorRT | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|---|
EfficientNet-B0 | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
EfficientNet-B4 | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
EfficientNet-WideSE-B0 | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
EffizientNet-WideSE-B4 | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
EfficientNet v1-B0 | TensorFlow2 | Ja | Ja | Ja | Beispiel | - | Unterstützt | Ja | - |
EfficientNet v1-B4 | TensorFlow2 | Ja | Ja | Ja | Beispiel | - | Unterstützt | Ja | - |
EfficientNet v2-S | TensorFlow2 | Ja | Ja | Ja | Beispiel | - | Unterstützt | Ja | - |
GPUNet | PyTorch | Ja | Ja | - | Beispiel | Ja | Beispiel | Ja | - |
Maske R-CNN | PyTorch | Ja | Ja | - | Beispiel | - | Unterstützt | - | Ja |
Maske R-CNN | TensorFlow2 | Ja | Ja | - | Beispiel | - | Unterstützt | Ja | - |
nnUNet | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
ResNet-50 | MXNet | Ja | Ja | - | Unterstützt | - | Unterstützt | - | - |
ResNet-50 | PaddelPaddel | Ja | Ja | - | Beispiel | - | Unterstützt | - | - |
ResNet-50 | PyTorch | Ja | Ja | - | Beispiel | - | Beispiel | Ja | - |
ResNet-50 | TensorFlow | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
ResNeXt-101 | PyTorch | Ja | Ja | - | Beispiel | - | Beispiel | Ja | - |
ResNeXt-101 | TensorFlow | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
SE-ResNeXt-101 | PyTorch | Ja | Ja | - | Beispiel | - | Beispiel | Ja | - |
SE-ResNeXt-101 | TensorFlow | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
SSD | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | - | Ja |
SSD | TensorFlow | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | Ja |
U-Net Med | TensorFlow2 | Ja | Ja | - | Beispiel | - | Unterstützt | Ja | - |
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | TensorRT | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|---|
BERT | PyTorch | Ja | Ja | Ja | Beispiel | - | Beispiel | Ja | - |
GNMT | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | - | - |
ELEKTRA | TensorFlow2 | Ja | Ja | Ja | Unterstützt | - | Unterstützt | Ja | - |
BERT | TensorFlow | Ja | Ja | Ja | Beispiel | - | Beispiel | Ja | Ja |
BERT | TensorFlow2 | Ja | Ja | Ja | Unterstützt | - | Unterstützt | Ja | - |
GNMT | TensorFlow | Ja | Ja | - | Unterstützt | - | Unterstützt | - | - |
Schnellerer Transformator | Tensorflow | - | - | - | Beispiel | - | Unterstützt | - | - |
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|
DLRM | PyTorch | Ja | Ja | - | Ja | Beispiel | Ja | Ja |
DLRM | TensorFlow2 | Ja | Ja | Ja | - | Unterstützt | Ja | - |
NCF | PyTorch | Ja | Ja | - | - | Unterstützt | - | - |
Breit und tief | TensorFlow | Ja | Ja | - | - | Unterstützt | Ja | - |
Breit und tief | TensorFlow2 | Ja | Ja | - | - | Unterstützt | Ja | - |
NCF | TensorFlow | Ja | Ja | - | - | Unterstützt | Ja | - |
VAE-CF | TensorFlow | Ja | Ja | - | - | Unterstützt | - | - |
SIM | TensorFlow2 | Ja | Ja | - | - | Unterstützt | Ja | - |
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | TensorRT | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|---|
Jaspis | PyTorch | Ja | Ja | - | Beispiel | Ja | Beispiel | Ja | Ja |
QuartzNet | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | TensorRT | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|---|
FastPitch | PyTorch | Ja | Ja | - | Beispiel | - | Beispiel | Ja | Ja |
FastSpeech | PyTorch | Ja | Ja | - | Beispiel | - | Unterstützt | - | - |
Tacotron 2 und WaveGlow | PyTorch | Ja | Ja | - | Beispiel | Ja | Beispiel | Ja | - |
HiFi-GAN | PyTorch | Ja | Ja | - | Unterstützt | - | Unterstützt | Ja | - |
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|
SE(3)-Transformator | PyTorch | Ja | Ja | - | - | Unterstützt | - | - |
MoFlow | PyTorch | Ja | Ja | - | - | Unterstützt | - | - |
Modelle | Rahmen | AMPERE | Multi-GPU | Multi-Node | TensorRT | ONNX | Triton | DLC | Hinweis: |
---|---|---|---|---|---|---|---|---|---|
Zeitfusionstransformator | PyTorch | Ja | Ja | - | Beispiel | Ja | Beispiel | Ja | - |
In jeder Netzwerk-README-Datei geben wir den Umfang der bereitgestellten Unterstützung an. Die Bandbreite reicht von fortlaufenden Aktualisierungen und Verbesserungen bis hin zu einer punktuellen Veröffentlichung für Thought Leadership.
Multinode-Training wird auf einem Pyxis/Enroot-Slurm-Cluster unterstützt.
Deep Learning Compiler (DLC) TensorFlow XLA und PyTorch JIT und/oder TorchScript
Accelerated Linear Algebra (XLA) XLA ist ein domänenspezifischer Compiler für lineare Algebra, der TensorFlow-Modelle potenziell ohne Quellcodeänderungen beschleunigen kann. Die Ergebnisse sind Verbesserungen bei Geschwindigkeit und Speichernutzung.
PyTorch JIT und/oder TorchScript TorchScript ist eine Möglichkeit, serialisierbare und optimierbare Modelle aus PyTorch-Code zu erstellen. TorchScript, eine Zwischendarstellung eines PyTorch-Modells (Unterklasse von nn.Module), das dann in einer Hochleistungsumgebung wie C++ ausgeführt werden kann.
Automatic Mixed Precision (AMP) Automatic Mixed Precision (AMP) ermöglicht automatisch Mixed-Precision-Training auf Volta-, Turing- und NVIDIA-Ampere-GPU-Architekturen.
TensorFloat-32 (TF32) TensorFloat-32 (TF32) ist der neue Mathematikmodus in NVIDIA A100-GPUs zur Verarbeitung der Matrixmathematik, auch Tensoroperationen genannt. TF32, das auf Tensor-Kernen in A100-GPUs ausgeführt wird, kann im Vergleich zur Gleitkommaberechnung mit einfacher Genauigkeit (FP32) auf Volta-GPUs eine bis zu zehnfache Geschwindigkeit bieten. TF32 wird in der NVIDIA Ampere GPU-Architektur unterstützt und ist standardmäßig aktiviert.
Jupyter Notebooks (NB) Das Jupyter Notebook ist eine Open-Source-Webanwendung, mit der Sie Dokumente erstellen und teilen können, die Live-Code, Gleichungen, Visualisierungen und narrativen Text enthalten.
Wir veröffentlichen diese Beispiele auf GitHub, um die Community besser zu unterstützen, Feedback zu erleichtern sowie Beiträge mithilfe von GitHub Issues und Pull Requests zu sammeln und umzusetzen. Wir freuen uns über alle Beiträge!
In jeder Netzwerk-README-Datei weisen wir auf bekannte Probleme hin und ermutigen die Community, Feedback zu geben.