英伟达近日发布了全新Blackwell平台,并在MLPerf Training 4.1基准测试中展现出令人瞩目的性能提升。相较于前代Hopper平台,Blackwell在多个AI训练任务中实现了性能翻倍,尤其是在大语言模型(LLM)训练方面,其效率得到了显着提高。这一突破性进展预示着AI计算能力的又一次飞跃,也为未来AI应用的广泛落地奠定了坚实基础。本文将深入分析Blackwell平台的性能表现,并探讨其技术创新和未来发展。
近日,英伟达发布了其全新的Blackwell 平台,并在MLPerf Training4.1基准测试中展示了初步的性能表现。根据测试结果,Blackwell 在某些方面的性能相比于前一代Hopper 平台实现了翻倍的提升,这一成果引起了业界的广泛关注。
在MLPerf Training4.1基准测试中,Blackwell 平台在LLM(大语言模型)基准的Llama270B 微调任务中,每个GPU 的性能达到了Hopper 的2.2倍,而在GPT-3175B 的预训练中则达到了2倍的提升。此外,在Stable Diffusion v2训练等其他基准测试中,新一代的Blackwell 也以1.7倍的优势超过了前代产品。
值得注意的是,虽然Hopper 仍在继续展现出进步,但与上一轮MLPerf Training 基准测试相比,Hopper 在语言模型预训练中的性能也提高了1.3倍。这表明英伟达的技术持续在进步。在最近的GPT-3175B 基准测试中,英伟达提交了11,616个Hopper GPU,创下新的扩展记录。
关于Blackwell 的技术细节,英伟达表示,新的架构使用了优化的Tensor Cores 和更快速的高带宽内存。这使得GPT-3175B 基准测试的运行仅需64个GPU,而使用Hopper 平台则需要256个GPU 才能实现相同的性能。
英伟达在发布会上还强调了Hopper 代产品在软件和网络更新上的性能提升,预期Blackwell 也将随着未来的提交持续改进。此外,英伟达计划在明年推出下一代AI 加速器Blackwell Ultra,预计将提供更多的内存和更强的计算能力。
Blackwell在MLPerf Inference v4.1基准测试中也于去年九月首次亮相,在AI 推理方面,它的性能达到了每个GPU 比H100多出四倍的惊人成就,尤其是使用了更低的FP4精度。这一新趋势旨在应对低延迟聊天机器人和像OpenAI 的o1模型等智能计算需求的不断增长。
划重点:
- ** 英伟达Blackwell 平台在AI 训练中实现性能翻倍,刷新行业标准!**
- ** 在GPT-3175B 基准测试中,Blackwell 仅需64个GPU,显着提高了效率!**
- ** 明年将推出Blackwell Ultra,预计提供更高的内存和计算能力!**
总而言之,英伟达Blackwell平台的出现标志着AI计算领域的一次重大突破。其显着的性能提升以及未来Blackwell Ultra的推出,将进一步推动AI技术的发展和应用,为各行各业带来更多可能性。我们有理由期待Blackwell平台在未来发挥更大的作用。