Downcodes의 편집자는 Nvidia의 최신 Blackwell 플랫폼이 MLPerf Training 4.1 벤치마크 테스트에서 놀라운 성능을 발휘했으며 그 성능이 이전 세대 Hopper 플랫폼을 크게 능가한다는 사실을 알게 되었습니다. 테스트 결과에 따르면 Blackwell은 여러 벤치마크 테스트에서 상당한 성능 향상을 달성했으며 이는 업계에서 광범위한 관심을 끌었으며 AI 가속기 기술의 새로운 돌파구를 예고했습니다. 특히 Blackwell은 LLM 미세 조정 및 사전 훈련 작업에서 인상적인 이점을 보여 AI 분야 개발에 새로운 가능성을 가져왔습니다.
최근 NVIDIA는 새로운 Blackwell 플랫폼을 출시하고 MLPerf Training4.1 벤치마크 테스트에서 예비 성능을 시연했습니다. 테스트 결과에 따르면 Blackwell의 성능은 이전 세대 Hopper 플랫폼에 비해 일부 측면에서 두 배로 향상되었습니다. 이 결과는 업계에서 광범위한 관심을 끌었습니다.
MLPerf Training4.1 벤치마크에서 Blackwell 플랫폼은 LLM(Large Language Model) 벤치마크의 Llama270B 미세 조정 작업에서 GPU당 Hopper 성능이 2.2배, GPT-3175B의 사전 훈련에서 2.2배의 성능을 달성했습니다. 개선. 또한 Stable Diffusion v2 training 등 기타 벤치마크 테스트에서도 차세대 Blackwell이 1.7배의 우위로 이전 세대 제품을 능가했습니다.
특히 Hopper는 지속적으로 개선되는 모습을 보여주면서 이전 MLPerf Training 벤치마크 라운드에 비해 언어 모델 사전 학습 성능도 1.3배 향상되었습니다. 이는 Nvidia의 기술이 지속적으로 향상되고 있음을 보여줍니다. 최근 GPT-3175B 벤치마크에서 Nvidia는 11,616개의 Hopper GPU를 제출하여 새로운 확장 기록을 세웠습니다.
Blackwell의 기술적 세부 사항과 관련하여 Nvidia는 새로운 아키텍처가 최적화된 Tensor 코어와 더 빠른 고대역폭 메모리를 사용한다고 말했습니다. 이를 통해 GPT-3175B 벤치마크를 단 64개의 GPU에서만 실행할 수 있는 반면, Hopper 플랫폼을 사용하면 동일한 성능을 달성하려면 256개의 GPU가 필요합니다.
Nvidia는 또한 기자간담회에서 Hopper 세대 제품의 소프트웨어 및 네트워크 업데이트 성능 향상을 강조했으며 Blackwell은 향후 제출을 통해 지속적으로 개선될 것으로 예상됩니다. 또한, 엔비디아는 차세대 AI 가속기 블랙웰 울트라(Blackwell Ultra)를 내년에 출시할 계획으로, 더 많은 메모리와 더 강력한 컴퓨팅 성능을 제공할 것으로 기대된다.
Blackwell은 또한 지난 9월 MLPerf Inference v4.1 벤치마크에서 데뷔하여 특히 낮은 FP4 정밀도를 사용하여 AI 추론에서 H100보다 GPU당 4배 더 높은 성능을 달성했습니다. 이 새로운 트렌드는 OpenAI의 o1 모델과 같은 지연 시간이 짧은 챗봇과 지능형 컴퓨팅에 대한 수요 증가를 해결하는 것을 목표로 합니다.
Blackwell 플랫폼의 뛰어난 성능은 AI 가속기 기술의 큰 도약을 의미하며, LLM 훈련 및 추론의 성능 향상은 AI 기술의 개발 및 적용을 크게 촉진할 것입니다. Downcodes의 편집자는 Blackwell 플랫폼의 후속 개발에 계속 관심을 기울이고 더 많은 관련 보고서를 가져올 것입니다.