2024年3月,英伟达发布推出NVIDIA Blackwell平台,Blackwell平台包括全域NVLink和Infiniband 两种连接方式。NVLink连接方式中若单机柜连接,则全部采用铜缆连接;若构建576张卡的集群,则需要光模块与GPU的比例为9:1,经测算光模块价值量为5080万元。Infiniband架构中,若为两层架构则1.6T光模块与GPU比例为2.06:1;若为三层架构则1.6T光模块与GPU比例为2.98:1(将800G均换算为1.6T)。当机柜出货量达到5.8万时,预计有望带来650万支1.6T光模块需求,1.6T光模块需求有望超预期

GB200机柜内算力密度大幅提升,互联技术是关键。

2024年3月,英伟达宣布推出NVIDIA Blackwell平台。Blackwell平台包括最新一代的B200 芯片、第二代Transformer引擎、第五代NVLink、RAS引擎、安全AI、解压缩引擎六项核心变革性创新。GB200单机柜算力大幅提升,包括9个交换托盘和18个计算托盘。在交换托盘内包含两颗最新一代NVLink芯片支持72端口双向1.8TB传输速率交换。同时顶部装配一台NVIDIA Quantum-X800交换机提供144端口800Gb速率端口用于Infiniband架构连接。计算托盘包含两颗Blackwell Superchip芯片,每颗Superchip芯片上包含1颗Grace Cpu与两颗B200 GPU。同时包含4颗ConnectX-8SuperNIC芯片与1颗 BlueField-3 DPU芯片。

全域NVLink

机柜内部仅用铜缆,外部连接需九倍光模块。1)NVL72:NVL72中单机柜内 18个Compute Tray共有72颗B200芯片,9个Switch Tray 共有18颗NVSwitch芯片。NVL72中需要5184根铜缆连接。2)NVL576: 16机柜互联,光模块数量9倍于 GPU。NVL72方案已将所有NVLink端口插满,不具备进一步扩大规模的空间。若要扩大集群规模需降低机柜内算力密度,给出空的 NVLink端口用于向上连接。在L2 与L1之间连接需要光模块,经测算第二层总共有10368个端口50GB端口需要连接,需要5184个 1.6T光模块进行连接。假设1.6T光模块单价1400美金,则NVL576总共需要光模块价值量为5080万元

Infiniband连接

架构与H100 SuperPod相仿,光模块比例介于2-3之间。 Infiniband 网络传输为单端口单向传输速率800Gb,远小于NVLink单端口单向传输速率的900GB(7.2Tb),因此应用光模块比例小于NVLink连接。 GB200的Infiniband 连接结构与DGX H100 SuperPod的网络架构类似,但是与光模块比例关系略小于 H100SuperPod架构。据测算,两层交换机最多支持9216张卡互联,光模块与GPU比例关系为2.56:1,将800G换算为 1.6T后与 GPU 比例关系为2.06:1。三层交换机最多支持73728张卡互联,光模块与GPU比例关系为3.48:1,将800G换算为1.6T后与GPU的比例为2.98:1。

考虑到GB200为英伟达当前最新一代产品,在当前GB200供应有限的情况下,超过576卡的 Infiniband集群预计为主要出货形式。在假设 NVL72、NVL576与Infiniband 三种情形的比例分别为15%、15%、70%, Infiniband 中两层和三层架构的比例分别为50%的前提下,当机柜出货量达到5.8万个时有望带来650 万支1.6T光模块需求。GB200芯片批量出货有望带动1.6T 光模块需求超预期。

$天孚通信(SZ300394)$  $新易盛(SZ300502)$  

追加内容

本文作者可以追加内容哦 !