이 리포지토리는 훈련 및 배포가 쉬운 최첨단 딥 러닝 예제를 제공하여 NVIDIA Volta, Turing 및 Ampere GPU에서 실행되는 NVIDIA CUDA-X 소프트웨어 스택을 통해 최고의 재현 가능한 정확성과 성능을 달성합니다.
NVIDIA 딥 러닝 소프트웨어 스택과 함께 이러한 예제는 NGC 컨테이너 레지스트리(https://ngc.nvidia.com)의 매월 업데이트되는 Docker 컨테이너에서 제공됩니다. 이러한 컨테이너에는 다음이 포함됩니다.
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | 텐서RT | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|---|
EfficientNet-B0 | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
EfficientNet-B4 | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
효율적인Net-WideSE-B0 | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
효율적인Net-WideSE-B4 | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
EfficientNet v1-B0 | 텐서플로우2 | 예 | 예 | 예 | 예 | - | 지원됨 | 예 | - |
EfficientNet v1-B4 | 텐서플로우2 | 예 | 예 | 예 | 예 | - | 지원됨 | 예 | - |
EfficientNet v2-S | 텐서플로우2 | 예 | 예 | 예 | 예 | - | 지원됨 | 예 | - |
GPUNet | 파이토치 | 예 | 예 | - | 예 | 예 | 예 | 예 | - |
마스크 R-CNN | 파이토치 | 예 | 예 | - | 예 | - | 지원됨 | - | 예 |
마스크 R-CNN | 텐서플로우2 | 예 | 예 | - | 예 | - | 지원됨 | 예 | - |
nnUNet | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
ResNet-50 | MXNet | 예 | 예 | - | 지원됨 | - | 지원됨 | - | - |
ResNet-50 | 패들패들 | 예 | 예 | - | 예 | - | 지원됨 | - | - |
ResNet-50 | 파이토치 | 예 | 예 | - | 예 | - | 예 | 예 | - |
ResNet-50 | 텐서플로우 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
ResNeXt-101 | 파이토치 | 예 | 예 | - | 예 | - | 예 | 예 | - |
ResNeXt-101 | 텐서플로우 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
SE-ResNeXt-101 | 파이토치 | 예 | 예 | - | 예 | - | 예 | 예 | - |
SE-ResNeXt-101 | 텐서플로우 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
SSD | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | - | 예 |
SSD | 텐서플로우 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | 예 |
유넷메드 | 텐서플로우2 | 예 | 예 | - | 예 | - | 지원됨 | 예 | - |
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | 텐서RT | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|---|
버트 | 파이토치 | 예 | 예 | 예 | 예 | - | 예 | 예 | - |
GNMT | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | - | - |
엘렉트라 | 텐서플로우2 | 예 | 예 | 예 | 지원됨 | - | 지원됨 | 예 | - |
버트 | 텐서플로우 | 예 | 예 | 예 | 예 | - | 예 | 예 | 예 |
버트 | 텐서플로우2 | 예 | 예 | 예 | 지원됨 | - | 지원됨 | 예 | - |
GNMT | 텐서플로우 | 예 | 예 | - | 지원됨 | - | 지원됨 | - | - |
더 빠른 변압기 | 텐서플로우 | - | - | - | 예 | - | 지원됨 | - | - |
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|
DLRM | 파이토치 | 예 | 예 | - | 예 | 예 | 예 | 예 |
DLRM | 텐서플로우2 | 예 | 예 | 예 | - | 지원됨 | 예 | - |
NCF | 파이토치 | 예 | 예 | - | - | 지원됨 | - | - |
와이드&딥 | 텐서플로우 | 예 | 예 | - | - | 지원됨 | 예 | - |
와이드&딥 | 텐서플로우2 | 예 | 예 | - | - | 지원됨 | 예 | - |
NCF | 텐서플로우 | 예 | 예 | - | - | 지원됨 | 예 | - |
VAE-CF | 텐서플로우 | 예 | 예 | - | - | 지원됨 | - | - |
SIM | 텐서플로우2 | 예 | 예 | - | - | 지원됨 | 예 | - |
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | 텐서RT | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|---|
벽옥 | 파이토치 | 예 | 예 | - | 예 | 예 | 예 | 예 | 예 |
QuartzNet | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | 텐서RT | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|---|
패스트피치 | 파이토치 | 예 | 예 | - | 예 | - | 예 | 예 | 예 |
빠른 연설 | 파이토치 | 예 | 예 | - | 예 | - | 지원됨 | - | - |
Tacotron 2 및 WaveGlow | 파이토치 | 예 | 예 | - | 예 | 예 | 예 | 예 | - |
HiFi-GAN | 파이토치 | 예 | 예 | - | 지원됨 | - | 지원됨 | 예 | - |
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|
SE(3)-변압기 | 파이토치 | 예 | 예 | - | - | 지원됨 | - | - |
모플로우 | 파이토치 | 예 | 예 | - | - | 지원됨 | - | - |
모델 | 뼈대 | 앰프 | 다중 GPU | 다중 노드 | 텐서RT | ONNX | 트리톤 | DLC | 주의 |
---|---|---|---|---|---|---|---|---|---|
시간 융합 변압기 | 파이토치 | 예 | 예 | - | 예 | 예 | 예 | 예 | - |
각 네트워크 README에는 제공될 지원 수준이 표시되어 있습니다. 범위는 지속적인 업데이트 및 개선부터 사고 리더십을 위한 특정 시점 릴리스까지 다양합니다.
pyxis/enroot Slurm 클러스터에서 다중 노드 교육이 지원됩니다.
딥 러닝 컴파일러(DLC) TensorFlow XLA 및 PyTorch JIT 및/또는 TorchScript
XLA(가속 선형 대수학) XLA는 잠재적으로 소스 코드 변경 없이 TensorFlow 모델을 가속화할 수 있는 선형 대수학을 위한 도메인별 컴파일러입니다. 그 결과 속도와 메모리 사용량이 향상되었습니다.
PyTorch JIT 및/또는 TorchScript TorchScript는 PyTorch 코드에서 직렬화 및 최적화 가능한 모델을 생성하는 방법입니다. TorchScript는 C++와 같은 고성능 환경에서 실행될 수 있는 PyTorch 모델(nn.Module의 하위 클래스)의 중간 표현입니다.
자동 혼합 정밀도(AMP) 자동 혼합 정밀도(AMP)는 Volta, Turing 및 NVIDIA Ampere GPU 아키텍처에 대한 혼합 정밀도 교육을 자동으로 지원합니다.
TensorFloat-32(TF32) TensorFloat-32(TF32)는 텐서 연산이라고도 하는 행렬 수학을 처리하기 위한 NVIDIA A100 GPU의 새로운 수학 모드입니다. A100 GPU의 Tensor 코어에서 실행되는 TF32는 Volta GPU의 단정밀도 부동 소수점 연산(FP32)에 비해 최대 10배의 속도 향상을 제공할 수 있습니다. TF32는 NVIDIA Ampere GPU 아키텍처에서 지원되며 기본적으로 활성화됩니다.
Jupyter Notebook(NB) Jupyter Notebook은 라이브 코드, 방정식, 시각화 및 설명 텍스트가 포함된 문서를 만들고 공유할 수 있는 오픈 소스 웹 애플리케이션입니다.
우리는 커뮤니티를 더 잘 지원하고, 피드백을 촉진하고, GitHub 문제 및 끌어오기 요청을 사용하여 기여를 수집 및 구현하기 위해 GitHub에 이러한 예제를 게시하고 있습니다. 우리는 모든 기여를 환영합니다!
각 네트워크 README에는 알려진 문제가 표시되어 있으며 커뮤니티에서 피드백을 제공하도록 권장합니다.