闷得而蜜
修改于2024-12-29 17:46来自雪球 · 广东
AI集群全光互联,提前到2026年,可行性分析
来自闷得而蜜的雪球专栏
虽然我聊硅光半导体设备罗博特科的基本面比较多,但研究兴趣主要在AI全光互联,把整个AI集群全光互联的技术路线,分成四大类:
根据难易程度,光互联导入的节奏是:相干光模块 -> 硅光模块 -> LPO -> CPO ->OIO。最终OIO完成导入后,才能够实现全光互联。
OIO是个好技术,充分发挥光的优势,将功耗、延时、成本做到了极致,但也面临如下核心问题:
1、相比CPO技术,OIO需要构建全新的产业链,尤其是并行硅光在3D封装里异质集成,根据台积电的路标,OIO比CPO至少晚一代。而CPO的底层技术呢,在硅光模块、LPO模块上可以提前准备,玩家众多、进步神速。
2、OIO采用并行接口,无法与Cable互联兼容,Nvidia如果想要光、铜互联互为备份,就必须做两套芯片(GPU和NVswtich),对于Nvidia来说,会很难决策。
OIO是最终解,但不是最快解。CPO不同,采用标准Serdes接口,不需要设计新的芯片,只需要做一套新封装,就可以很快构建一套全光互联方案,实现70%的功耗降幅、50%的成本降幅。
Scale-up网络,2026年,NVLink/UALink 从Cable 转向CPO的必要性和充分性如下:
一、CPO架构将Nvidia从NVL72量产导入的泥潭中拯救出来
基于cable的架构,系统无法解耦,36台GPU、9台NVSwtich,不管是信号完整性(SI)、电源完整性(PI)、电磁干扰(EMI),还有散热等等,全部都耦合在一起。2024年GB200 NVL72导入过程中,反反复复各种问题,芯片Die、封装基板、整机走线、液冷方案,等等几乎所有环节,都碰到了较多问题,反复修改,最终导致NVL72的出货量从7万柜下修到4万柜。
NVL72的散热和供电是非常棘手的问题。随着集群规模越来越大,性能越来越高,问题会更加突出。光互联 vs Cable互联,有碾压式的优势:
从图片上就能够看出,Cable互联产品密密麻麻如迷宫,而CPO呢,光纤可以印刷在PCB板上做成Fiber Shuffer,干干净净。
复杂的系统,化整为零分而治之。CPO体系中,各个电路域之间用光连接,天然隔离,每个子系统只需把自己的事情干好,大系统基本就能工作起来。能轻松搭建出10万~100万级的Scale-out光互联集群,就是榜样,说明光在大规模系统中的优势能力。
二、CPO技术在2025年H2基本成熟,具备商用条件
1、从产业链扫描来看,2025年,几个主流的Foundry厂,TowerJazz、GlobalFoundry、AMF、TSMC均会量产200G/的硅光芯片。
2、随着台积电和Teramount、博通等发布PIC微透镜技术、垂直端面耦合(类似从悬崖边搭桥->平地修马路的变化),可过回流焊的可后装FAU技术,快速解决了CPO量产工程化问题、良率问题。通过外置热冗余备份的激光器光源问题,解决了长期可靠性问题。与半导体设备厂商紧密配合,台积电在这次IEDM会上透露生产良率已经达到ASIC同等水平,我相信,再过一年,到2025年底,CPO技术会完全成熟。
3、Broadcom的CPO交换机已经量产。Nvidia在2025年H2也会推出CPO版本的InfiniBand 交换机,积累了经验。
三、CPO和Cable可互为备份,避免黑天鹅
前面讲了,CPO和Cable,芯片接口都是标准的Serdes,只是封装不同。
Nvidia的Rubin GPU芯片,完全可以做两套封装,对于NVL144~NVL512这样的大系统,采用CPO全光互联架构来做。而NVL36、72这样的小系统,继续跑cable。两个方案互为备份,基本就解除了后顾之忧。
如果要更快、更保险地导入全光互联技术,还有办法:
1、GPU侧,用LPO模块;
2、NVSwitch,用CPO封装。
OIO:100分;
CPO:90分;
LPO+CPO:80分;
Cable:60分;
传统光模块scale-up:30分。
那么,LPO+CPO,也是不错的选项。LPO+CPO的组合,这套方案甚至在2025年H2就可以Ready。
结论:
1、OIO做到100分,CPO能做到80分。等不及的情况下,CPO是优选;
2、CPO技术在2025年底,产业链完全成熟;
3、英伟达的Rubin GPU,将采用 CPO和Cable互为备份的体系,CPO为主,Cable作为以防万一的替补。这条路径,随着时间推移,可行性越来越高。
4、Rubin的下一代GPU,走向OIO,高度集成的3D先进封装,上策。
大家有何不同意见,修正意见,欢迎留言探讨。
热烈欢迎友善的对抗性反对意见。
$半导体ETF(SH512480)$ $英伟达(NVDA)$ $台积电(TSM)$
闷得而蜜的专栏
闷得而蜜昨天 21:29· 来自雪球
CPO的推进速度比市场预期的要快,归根结底,是攻关的参与方,CPO都能够给他们带来更厚的解决方案粘性。 比如台积电搞定了CPO后,就不再是一个简单的GPU代工厂,而是整个AI算力集群的核心部件供应商,提供从芯片裸Die、封装,到整个组网的核心制造支持。
同理博通也是如此,有了CPO后,不是简单的ASCI代工关系,而是类似英伟达NVlink那样具备组网粘性的端到端供应能力,XPU、Switch、组网等等,壁垒更厚。
正是这些核心利益,使得大家更加积极地往前推进
背包十年8812-29 16:31·江苏
当今ai科技最前沿的东西,世界各大巨头都在投入海量的人力财力。萝卜提前介入各大巨头的预研阶段,实验线阶段,先入为主,技术实力的体现。实验线到量产线是必经阶段,萝卜目前已经领先了一个身位!其它企业即使想进入,也已经慢了很多
闷得而蜜昨天 11:08· 来自雪球
台积电公布大规模生产设备的采购合同,A股是能够感知到的。并且有企业会很积极出来分享这些信息,这个消息一旦走露出来,我的预判就会被证实。大家分析分析,大概明年什么时候可以见证到?
收起
击球区小能手昨天 23:15· 来自iPhone
$罗博特科(SZ300757)$揭开一下ETF神奇的面纱,等萝卜成功过会之后,ETF顺利买入我给大家预估一下有多大增量先。以人工智能为例子:80多亿的市值ETF,借鉴中际和新易盛的5%左右做参考,单单人工智能ETF已经可以贡献4亿纯买盘增量,而且随着人工智能行业的发展,ETF的总盘子还是不断扩大的。我判断,罗博特科的持仓分量会不断靠近寒武纪。
而这里,我再强调一点,这只是单单一只ETF就可以贡献最低4亿的买盘力量,而全市场这种ETF可以购入萝卜的还有很多很多,我只是选择一个作为样板。随着公募基金和中大型私募的入池买入和众多ETF标入萝卜,我大胆预测,买盘的量(n个4亿)甚至可以超过萝卜目前的总市值。
捂紧吧,狠狠捂紧吧各位种萝卜的庄稼汉。
本文作者可以追加内容哦 !