直播已结束,谢谢关注;如有问题,请通过添加小助手微信联系我们
新一代高性能AI计算集群基于NVIDIA A100-80G NVLink GPU和InfiniBand HDR构建,成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间,激发AI业务创新想象力。
并且在新一代GPU服务器实例GPU-H5-8NA100-IB01中,采用了百度自研X-MAN架构的超级AI计算机为硬件平台。X-MAN自2016年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请了六项专利,包括PCIe Fabric架构、液冷技术、最大支持64GPU卡扩展等,是百度AI业务快速落地的重要基础设施。目前,X-MAN已经全面升级到第四代X-MAN 4.0,为AI和HPC等计算场景进行了新的优化设计。
在配置上,每台X-MAN 4.0包含8张 A100-80G NVLink GPU,并可支持8张200Gb/s的InfiniBand网卡,实现了高速存储,高速无阻网络,高性能计算于一体的超级AI计算机。
在架构上,X-MAN 4.0全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低AI作业中GPU的闲置时间。在MLCommons 1.1榜单中,X-MAN 4.0在同配置单机硬件性能名列TOP2。
同时为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的InfiniBand网络架构,此架构优化了网络收敛比,提升了网络吞吐能力,并且结合容错、交换机和拓扑映射等手段,得以将EFLOPS级算力的计算集群性能发挥到极致。
添加小助手微信,加群交流
关注微信公众号,了解更多活动