Marvell在AI day投资者交流会上,公司执行副总裁Loi Nguyen在演讲中提到,随着未来GPU集群规模迈向10万张以上,所需交换网络或达到5层(当前为3层),对应GPU与光模块的配比提升至1:5。

首先,AI训练网络以无阻塞胖树架构为主,其网络层数由GPU集群规模决定。以NV下一代IB交换机为例,若端口数量为72个,则2/3/4层网络下,可以互联的GPU数量分别达到约0.25万/9万/335万张;若端口为144个,则分别约1万/74万/5374万张。光模块配比方面,若考虑到L1层网络也使用光模块,则2/3/4层网络下,对应GPU与光模块配比分别为1:2/1:3/1:4。

目前北美云厂商最大的GPU训练集群规模不超过5万节点,即3层网络可以满足需要;而博通在3月底召开的AI投资者交流日中提到,其正在为客户未来潜在的100万级别节点集群所需的网络基础设施做准备,说明集群节点数量仍有很大扩张空间。届时可能会进一步增加网络层数,或采用新型网络架构(蜻蜓架构/Dragonfly等),以满足集群互联需求,有望带来广阔的高速光模块需求。

AI训练网络属于后端网络(区别于云计算时代的前端网络),由此催生了大量高速光模块需求,光通信的角色逐渐从“连接”变为了“计算的一部分”。

追加内容

本文作者可以追加内容哦 !