百度云智大会上,Downcodes小编获悉百度发布了百舸计算平台4.0的重大升级。该平台在多芯混合训练和多芯适配方面取得突破性进展,在万卡集群上实现了超过99.5%的有效训练时长,大幅提升了算力利用效率,降低了企业运营成本。尤其在当前算力资源紧张的背景下,百舸4.0的升级显得尤为重要,它将有效解决企业在高性能计算方面面临的诸多挑战。
百度集团执行副总裁沉抖在今日举行的2024百度云智大会上宣布了百度百舸计算平台4.0的升级。这一新版本支持多芯混合训练与多芯适配,并在万卡集群上实现了超过99.5%的有效训练时长,显着提升了算力使用效率。
在当前算力紧缺的背景下,百舸4.0的升级将帮助企业更有效地利用计算资源,降低运营成本。升级的重点在于提升“多芯混合训练”能力,使得在万卡规模的集群上实现了95%的训练效能,达到行业领先水平。
此外,百舸4.0还实现了秒级部署,将万卡集群的运行准备时间从数周缩短至仅1小时,极大提升了部署效率,缩短了业务上线周期。针对大模型训练过程中频繁出现的故障,百舸4.0升级了故障检测手段与自动容错机制,有效降低了故障发生频率,减少了故障处置时间,确保了超过99.5%的有效训练时长。
在模型推理方面,百舸4.0在速度和成本上进行了优化,尤其在长文本推理中,效率提升超过一倍,满足了日益增长的市场需求。
百舸4.0的升级展示了百度在高性能计算领域的持续创新和对用户需求的深刻理解,为企业提供了更强大、更可靠、更高效的AI基础设施,相信未来将进一步推动AI产业的蓬勃发展。