英伟达迅速推出GB300和B300 GPU,在GB200和B200发布仅半年后便实现了显着性能提升,尤其是在推理模型方面。这不仅是简单的硬件升级,更代表着英伟达在AI加速领域的战略性布局调整,为行业带来深远影响。此次升级的核心在于推理性能的巨大飞跃,以及对内存和架构的优化,这将直接影响大型语言模型的效率和成本。
英伟达在GB200和B200发布仅6个月后,再次推出全新GPU——GB300和B300。这看似只是小幅升级,实则蕴含着巨大的变革,尤其是推理模型性能的显着提升,将给整个行业带来深远的影响。
B300/GB300:推理性能的巨大飞跃
B300GPU采用台积电4NP工艺节点,针对计算芯片进行了优化设计。这使得B300的FLOPS性能比B200提升了50%。部分性能提升来自TDP的增加,GB300和B300HGX的TDP分别达到1.4KW和1.2KW(GB200和B200分别为1.2KW和1KW)。其余的性能提升则来自架构增强和系统级优化,例如CPU和GPU之间的动态功率分配。
除了FLOPS的提升,内存也升级为12-Hi HBM3E,每个GPU的HBM容量增加到288GB。然而,引脚速度保持不变,因此每个GPU的内存带宽仍为8TB/s。值得注意的是,三星未能进入GB200或GB300的供应链。
此外,英伟达在定价方面也做出了调整。这将在一定程度上影响Blackwell产品的利润率,但更重要的是,B300/GB300的性能提升将主要体现在推理模型方面。
为推理模型量身打造
内存的改进对于OpenAI O3风格的LLM推理训练至关重要,因为长序列会增加KVCache,从而限制关键批处理大小和延迟。从H100到H200的升级(主要是内存的增加),带来了以下两方面的改进:
更高的内存带宽(H200为4.8TB/s,H100为3.35TB/s)使得所有可比较的批处理大小的交互性普遍提高了43%。
由于H200运行的批处理大小比H100更大,每秒生成的token数增加了3倍,成本降低了约3倍。这种差异主要是由于KVCache限制了总批处理大小。
更大的内存容量对性能的提升是巨大的。两款GPU之间的性能和经济差异远大于其参数规格所显示的:
推理模型的用户体验可能较差,因为请求和响应之间存在明显的等待时间。如果能够显着加快推理时间,将提高用户的使用意愿和付费意愿。
硬件通过中代内存升级实现3倍的性能提升是惊人的,远超摩尔定律、黄氏定律或我们所见过的任何其他硬件改进速度。
总而言之,英伟达B300/GB300的推出,不仅是GPU技术的又一次飞跃,更是对AI推理模型应用的一次有力推动,将极大提升用户体验并降低成本,引领AI产业进入新的发展阶段。