数字时代,算力的主战场毫无疑问就在数据中心,通过对数据的连接、传递、储存、运算,数据中心为我们对生活提供便利和帮助,也成为了社会发展中不可忽视的重要基础设施。身为数据中心平台和解决方案的技术引领者,英特尔在今年发布了第四代至强可扩展处理器,并针对HPC、AI、数据分析等场景推出了英特尔至强CPU Max系列(Sapphire Rapids HBM)。近期,外媒Phoronix测试了Supermicro基于英特尔至强Max 9480和9468处理器的服务器Hyper SuperServer SYS-221H-TNR,展示了加入64GB HBM2e高带宽内存后的英特尔至强CPUMax系列处理器在HPC、AI等特定工作负载下卓越的性能。
作为唯一一款基于x86的高带宽内存(HBM)处理器,英特尔至强CPU Max系列处理器采用了全新的微架构,支持一系列平台增强,包括更多内核、升级版I/O 和内存子系统,以及内置加速器等。核心数量方面,英特尔至强CPU Max系列处理器拥有32-56个核心(旗舰产品为Xeon Max 9480),且均为性能核。此外,所有Xeon Max都内置了64GB的高带宽内存(通过4个HBM2e堆栈实现)。根据英特尔的官方资料,相比AMD EPYC 7773X和第三代至强可扩展处理器8380,英特尔至强CPU Max系列最高可以实现5倍的性能提升。此外,与其他CPU相比,使用HBM可将Numenta AI技术进行自然语言处理的性能提升高达20倍。
当然,作为第四代至强可扩展处理器的分支系列,英特尔至强CPU Max系列处理器同样支持英特尔高级矩阵扩展(AMX)、AVX-512、DDR5和CXL 1.1等特性,不过至强CPU Max系列处理器最为显著的特点并非第四代至强可扩展处理器内置的加速器,而是其内置的64GB HBM2e高带宽内存。
英特尔至强CPU Max系列处理器的一大特点是可以根据工作负载特征灵活配置HBM的内存模式,包括HBM-Only模式、HBM扁平模式和HBM高速缓存模式。其中在HBM-Only模式下,服务器会完全在64GB HBM2e内存(双插槽场景下为128GB)下运行,在此模式下,服务器将不填充任何DDR5内存插槽并进行引导;而HBM扁平模式则具有HBM和DRAM的扁平内存区域,以便比使用HBM2e的软件具备更强的灵活性,不过可能需要进行更改代码的操作;HBM高速缓存模式是运行Xeon Max同时安装DDR5内存的默认模式,该模式无需更改代码,HBM将高速缓存DDR内存。
根据Phoronix的说法,为了测试HBM2e高带宽内存的性能,他们对英特尔至强Max 9480和9468处理器进行了三种HBM模式下的测试,不过在HBM扁平模式下,没有向HBM2e分配任何内容,即仅通过DDR5内存进行测试,从而观察HBM2e高带宽内存在未使用时的影响。
Phoronix同时表示,由于HBM-Only模式支持适合64GB容量的工作负载,对于56核心的Xeon Max 9480来说,每个核心的HBM内存会略高于1GB,这并不适合当下诸多高度线程化的工作负载,不过32核心的Xeon Max 9462每个核心却平均拥有2GB大小的HBM内存,如果Xeon Max系列能在未来几代中实现128GB以上的高带宽内存,即实现每个核心平均拥有2GB的HBM内存的情况下,有望通过更高的核心数量实现更多的可能性。
在Phoronix的测试中,主要关注HBM-Only、HBM高速缓存模式以及未使用HBM内存情况下工作负载的基准测试,其中软件可以进行128GB HBM2e的HBM-only模式和512GB DDR5-4800加128GB HBM2e的HBM高速缓存模式的比较。重点围绕XeonMax处理器在Linux环境下的HPC和AI性能进行。
本次测试的两位主角之一:Xeon Max 9468拥有48个性能核心,基础频率为2.1 GHz,全核睿频为2.6 GHz,最高睿频为3.5 GHz。缓存大小为105MB。而旗舰Xeon Max 9480处理器则拥有56个性能核心,基本频率1.9 GHz,全核睿频2.6 GHz,最大睿频3.5 GHz,缓存大小为112.5MB。两款处理器的TDP均为350W。从价格上来看,Xeon Max 9480的推荐价格为12980美元,远低于60核心的至强铂金8490H的17000美元,仅比11800美元的AMD EPYC 9654略贵了一些,在使用HBM-only模式的前提下,可以大量节省DDR5内存的成本。
本次测试的平台为Hyper SuperServer SYS-221H-TNR,这是一款双插座LGA-4677解决方案,具备第四代至强可扩展处理器所需的所有功能。
第一轮测试的环境如下图所示:操作系统为Ubuntu 23.04,使用Linux 6.2内核和GCC 12.2编译器,同时在Intel CPU Freq性能调控器模式下运行,所有基准测试均在服务器的SNC4模式下运行。此外,所有处理器测试均只使用了SYS-221H-TNR的空气冷却系统。
测试结果揭示了配备HBM2e内存的Xeon Max在部分工作负载下实现了显著的性能提升。
首先是基于OpenFOAM的开源计算流体动力学(CFD)软件,在HBM-only模式下,可以节省大量时间并显著提高性能,结果展示了配备HBM2e内存的Xeon Max的巨大潜力。
功耗方面,IPMI报告的服务器功耗在不同模式下基本相近。
测试结果表明,对于这个开源的CFD解决方案来说,Xeon Max给OpenFOAM带来的好处是非常显著的,尽管Xeon Max 9480只有56个核心。
得益于HBM2e高带宽内存,Xeon Max的每瓦性能也得到大幅提升。
Phoronix表示,针对许多常见的HPC工作负载基准测试中,Xeon Max在使用HBM2e内存且工作负载内存容量为128GB(即每个核心平均拥有1GB以上HBM内存)时会有显著的性能优势。
在HBM-only模式下,使用IPMI监测整个交流系统功率消耗时可以节省一些功率,因为无需为16个DDR5 DIMM进行供电。
但在许多HPC基准测试里,HBM-only模式下的CPU功耗也略有提升(通过RAPL/PowerCap sysfs接口监控),因此降低幅度不如直接移除16个DDR5内存时明显。
NASA NPB是HPC领域另一个常见的基准测试,在该基准测试之下,单独使用HBM2e内存有着非常大的提升。
尤其是HBM-only模式下的性能改进更是明显。
因此也不难解释为什么Aurora超级计算机会使用Xeon Max处理器,而非标准的第四代至强可扩展处理器。
然后是基于Altair Radioss的开源软件OpenRadioss的测试结果,展示了Xeon Max在HBM-only模式下有着明显的时间成本节省。
此外,Quantum Espresso软件也能享受HBM2e带来的性能提升,不过在某些工作负载中,Xeon Max 9468的表现反而会优于Xeon Max 9480,这是由于这些工作负载的扩展性较差,因此单核心HBM2e数量更多的Xeon Max 9468反而会占据优势。
测试结果表明,针对许多HPC工作负载,在HBM-only下运行Xeon Max9468和9480处理器可以显著提高性能,不过需要注意的是,在该模式下,每个套接字只有64GB的系统内存进行寻址,对于那些需要更多内存的工作负载或者单核心超过1GB的线程工作负载,可能会导致资源占用或者内存不足的情况。
在LULESH、Graphics Magick、Liquid-DSP等工作负载下,XeonMax处理器运行在HBM-only下也有明显的性能改进。
Phoronix表示,了解Xeon Max处理器在一系列HPC工作负载中的表现,并且量化不同HBM模式下的性能差异是非常有趣的。
AI性能方面,Xeon Max的性能提升则主要得益于英特尔的OpenVINO工具包,由于OpenVINO可以调用Xeon Max的高级矩阵扩展(AMX)加速器,所以在各项测试模型中都有着明显的性能提升,尤其是HBM-only模式下。
测试结果同时表明,得益于HBM2e内存,PETSc库的流性能也得到了巨大的提升。
CPU功耗方面,根据测试结果,在HBM-only模式下,双插槽场景下的综合功耗会更高。在使用HBM内存的情况下,有记录的CPU峰值功耗会明显更高,不过Phoronix也认为这部分可能是由于PowerCap/RPL驱动程序错误或其他平台异常所导致的,因为根据IPMI报告的AC服务器功耗与PowerCap记录的功耗并不一致。
根据Super Micro IPMI接口提供的功耗显示,HBM-only模式下的功耗会略低于其他两种模式下的功耗。因此如果工作负载能够在HBM-only模式下运行,不但可以节省DDR5内存的开销,也会节省电力的开销。
如果对这些利用XeonMax处理器HBM2e内存的工作负载取几何平均值,会发现HBM高速缓存模式下,负载提升的幅度在10%-11%左右;而在HBM-only模式下,性能提升的幅度则约为8%左右。总体来说,如果将使用HBM2e内存的Xeon Max9468/9480性能与没有使用HBM2e内存的情况下进行对比(双插槽128GB),包括OpenVINO、OpenFOAM在内的HPC/AI基准测试结果显示,在使用这类广泛的工作负载时,总体性能会实现18-20%的大幅提升。
不过Phoronix也认为,提升的幅度主要取决于与计算目的相关的具体工作负载。对于OpenFOAM CFD、OpenVINO等工作负载,在HBM-only模式下性能有明显提升,考虑到XeonMax系列的售价和DDR5内存开销方面的节省,相较于标准版的第四代至强可扩展处理器的优势还是比较明显的,特别是准备使用AMX来进行人工智能工作负载的群体来说,可以实现AMX和HBM2e的双重性能加持。
从结果上来看,Xeon Max 9468和Xeon Max 9480的整体表现相当接近,虽然Xeon Max 9480的核心数量更多,但核心数量更少意味着每个内核分配到的HBM2e内存大小会更大,这意味着Xeon Max 9468有着更小的内存资源争夺风险。
虽然测试本身是通过风冷进行散热的,不过英特尔实际上是鼓励对Xeon Max系列处理器进行液冷散热,尤其是Xeon Max 9480。
加速器方面,Xeon Max支持AMX和DSA,不过并不提供标准版第四代至强可扩展处理器所提供的QAT/DLB/IAA加速器,考虑到围绕英特尔加速器的软件生态系统支持仍然有限,所以这不是什么大问题。
不过对Xeon Max系列处理器来说,主要限制就是每个CPU只具备64GB大小的HBM2e内存,这对核心数量更多的旗舰产品来说成为了限制,对那些考虑在HBM-only模式下使用Xeon Max系列处理器的用户来说,要确保其不受到任何内存限制的情况。
除了HBM2e的内存大小之外,可以看到的是,旗舰级的Xeon Max 9480也只提供了56个核心,而非第四代至强可扩展处理器的最高60核心,核心数的增加可以为工作负载带来进一步提升。
Phoronix表示,对于内存非常有限的工作负载,使用HBM2e内存的Xeon Max系列处理器表现会十分优秀,但是在与其他核心数量更多的产品进行比较时,某些工作负载势必会在更多的核心数量现出优势,但无论如何,Xeon Max系列处理器在HBM高速缓存模式下和HBM-only下的表现也让人印象深刻。
(8250812)
本文作者可以追加内容哦 !