芯片巨头博通最近的年报交流显示,以太网有望成为AI网络的核心方案。博通表示,其 8 个大规模 AI 集群中有7个都使用以太网方案,并且预计明年所有超大规模GPU集群都将在以太网上进行部署。

无独有偶,英伟达财报和COMPUTEX大会演讲也显示出对以太网的大力支持。英伟达的以太网战略绝非低价低速路线,而是通过在以太网多节点,负载均衡等优势的基础上,通过对 AI Infra过程中拥塞控制等核心痛点的经验积累和理解,将以太网带入全新的高度。

为什么是以太网?

需求端看,Scaling law下算力需求持续扩张,GPU集群规模增长趋势显著。OpenAI的Scaling Law下,模型有效性和计算约束(如GPU利用率和线性加速比)正相关,以集群形式的分布式并行训练能够有效节省训练时间与提升GPU使用效率。

自GPT3.5发布以来,面对不断膨胀的模型参数和训练数据,为尽可能缩短模型训练时间,提升模型迭代效率,集群规模有望实现指数级增长。以英伟达为例,根据其在 COMPUTEX 2024上发布的升级规划:2024年单集群互联有望超一万颗GPU;2025年互联超十万颗 GPU;2026年互联超百万颗GPU。

而GPU集群规模扩张触发IB(InfiniBand)互联上限,RoCE(RDMA over Coverged Ethernet)协议有望在大集群中更多被应用,这是以太网交换机在AI计算中受青睐的核心原因。IB协议中优先考虑尽可能降低网络延迟,而RoCE协议则优先考虑网络的兼容性与分布式。在数据交互中,IB协议中每个GPU 都有自己的LID( Local ID),两两GPU之间交互路径由路由表提前算好,以此实现低延时效果。但根据IB协议中的报文结构,LID 由一个16位的二进制编码组成,因此在IB网络协议下,互联的 GPU 上限为 2^16=65,536 个。随着集群规模向十万卡级别升级,RoCE协议组网方案有望在大集群中更多被应用。

据行业预测,2026年数据中心以太网交换机市场规模有望从2023 年的200亿美元出头提升至接近 300 亿美元,市场规模提升显著。

英伟达、博通更新以太网 AI产品组合,给以太网交换机市场带来新机遇,带动市场的多样化。一方面,传统以太网交换机龙头思科、Arista、Juniper等将加入市场,另一方面部分云厂商会采用博通的解决方案自研白牌交换机。因此,AI网络设备将由英伟达主导走向更多元的竞争格局,相应的AI交换机厂商有望迎来供应链全面开花的Beta行情,对应的交换机厂商和配套芯片、PCB和代工厂商均有望在适配AI网络的进程中,迎来量价齐升的黄金机遇;配套的光模块厂商也有望迎来以太网交换机加速渗透带来的新机遇。



追加内容

本文作者可以追加内容哦 !