闷得而蜜

修改于2024-12-29 17:46来自雪球 · 广东


AI集群全光互联提前到2026年可行性分析

来自闷得而蜜的雪球专栏

虽然我聊硅光半导体设备罗博特科的基本面比较多但研究兴趣主要在AI全光互联把整个AI集群全光互联的技术路线分成四大类

根据难易程度光互联导入的节奏是相干光模块 -> 硅光模块 -> LPO -> CPO ->OIO最终OIO完成导入后才能够实现全光互联

OIO是个好技术充分发挥光的优势将功耗延时成本做到了极致但也面临如下核心问题

1相比CPO技术OIO需要构建全新的产业链尤其是并行硅光在3D封装里异质集成根据台积电的路标OIO比CPO至少晚一代而CPO的底层技术呢在硅光模块LPO模块上可以提前准备玩家众多进步神速

2OIO采用并行接口无法与Cable互联兼容Nvidia如果想要光铜互联互为备份就必须做两套芯片GPU和NVswtich对于Nvidia来说会很难决策

OIO是最终解但不是最快解CPO不同采用标准Serdes接口不需要设计新的芯片只需要做一套新封装就可以很快构建一套全光互联方案实现70%的功耗降幅50%的成本降幅

Scale-up网络2026年NVLink/UALink 从Cable 转向CPO的必要性和充分性如下

CPO架构将Nvidia从NVL72量产导入的泥潭中拯救出来

基于cable的架构系统无法解耦36台GPU9台NVSwtich不管是信号完整性SI电源完整性PI电磁干扰EMI还有散热等等全部都耦合在一起2024年GB200 NVL72导入过程中反反复复各种问题芯片Die封装基板整机走线液冷方案等等几乎所有环节都碰到了较多问题反复修改最终导致NVL72的出货量从7万柜下修到4万柜

NVL72的散热和供电是非常棘手的问题随着集群规模越来越大性能越来越高问题会更加突出光互联 vs Cable互联有碾压式的优势

从图片上就能够看出Cable互联产品密密麻麻如迷宫而CPO呢光纤可以印刷在PCB板上做成Fiber Shuffer干干净净

复杂的系统化整为零分而治之CPO体系中各个电路域之间用光连接天然隔离每个子系统只需把自己的事情干好大系统基本就能工作起来能轻松搭建出10万~100万级的Scale-out光互联集群就是榜样说明光在大规模系统中的优势能力

CPO技术在2025年H2基本成熟具备商用条件

1从产业链扫描来看2025年几个主流的Foundry厂TowerJazzGlobalFoundryAMFTSMC均会量产200G/的硅光芯片

2随着台积电和Teramount博通等发布PIC微透镜技术垂直端面耦合类似从悬崖边搭桥->平地修马路的变化可过回流焊的可后装FAU技术快速解决了CPO量产工程化问题良率问题通过外置热冗余备份的激光器光源问题解决了长期可靠性问题与半导体设备厂商紧密配合台积电在这次IEDM会上透露生产良率已经达到ASIC同等水平我相信再过一年到2025年底CPO技术会完全成熟

3Broadcom的CPO交换机已经量产Nvidia在2025年H2也会推出CPO版本的InfiniBand 交换机积累了经验

CPO和Cable可互为备份避免黑天鹅

前面讲了CPO和Cable芯片接口都是标准的Serdes只是封装不同

Nvidia的Rubin GPU芯片完全可以做两套封装对于NVL144~NVL512这样的大系统采用CPO全光互联架构来做而NVL3672这样的小系统继续跑cable两个方案互为备份基本就解除了后顾之忧

如果要更快更保险地导入全光互联技术还有办法
1GPU侧用LPO模块
2NVSwitch用CPO封装
OIO100分
CPO90分
LPO+CPO80分
Cable60分
传统光模块scale-up30分
那么LPO+CPO也是不错的选项LPO+CPO的组合这套方案甚至在2025年H2就可以Ready

结论

1OIO做到100分CPO能做到80分等不及的情况下CPO是优选

2CPO技术在2025年底产业链完全成熟

3英伟达的Rubin GPU将采用 CPO和Cable互为备份的体系CPO为主Cable作为以防万一的替补这条路径随着时间推移可行性越来越高

4Rubin的下一代GPU走向OIO高度集成的3D先进封装上策

大家有何不同意见修正意见欢迎留言探讨

热烈欢迎友善的对抗性反对意见

$半导体ETF(SH512480)$ $英伟达(NVDA)$ $台积电(TSM)$

闷得而蜜的专栏

2024-12-30 07:39:15 作者更新了以下内容

闷得而蜜昨天 21:29· 来自雪球

CPO的推进速度比市场预期的要快,归根结底,是攻关的参与方,CPO都能够给他们带来更厚的解决方案粘性。 比如台积电搞定了CPO后,就不再是一个简单的GPU代工厂,而是整个AI算力集群的核心部件供应商,提供从芯片裸Die、封装,到整个组网的核心制造支持。
同理博通也是如此,有了CPO后,不是简单的ASCI代工关系,而是类似英伟达NVlink那样具备组网粘性的端到端供应能力,XPU、Switch、组网等等,壁垒更厚。
正是这些核心利益,使得大家更加积极地往前推进


2024-12-30 07:40:49 作者更新了以下内容

背包十年8812-29 16:31·江苏

当今ai科技最前沿的东西,世界各大巨头都在投入海量的人力财力。萝卜提前介入各大巨头的预研阶段,实验线阶段,先入为主,技术实力的体现。实验线到量产线是必经阶段,萝卜目前已经领先了一个身位!其它企业即使想进入,也已经慢了很多


2024-12-30 07:45:44 作者更新了以下内容

闷得而蜜昨天 11:08· 来自雪球

台积电公布大规模生产设备的采购合同,A股是能够感知到的。并且有企业会很积极出来分享这些信息,这个消息一旦走露出来,我的预判就会被证实。大家分析分析,大概明年什么时候可以见证到?


2024-12-30 07:56:10 作者更新了以下内容


收起

击球区小能手昨天 23:15· 来自iPhone

$罗博特科(SZ300757)$揭开一下ETF神奇的面纱,等萝卜成功过会之后,ETF顺利买入我给大家预估一下有多大增量先。以人工智能为例子:80多亿的市值ETF,借鉴中际和新易盛的5%左右做参考,单单人工智能ETF已经可以贡献4亿纯买盘增量,而且随着人工智能行业的发展,ETF的总盘子还是不断扩大的。我判断,罗博特科的持仓分量会不断靠近寒武纪。
而这里,我再强调一点,这只是单单一只ETF就可以贡献最低4亿的买盘力量,而全市场这种ETF可以购入萝卜的还有很多很多,我只是选择一个作为样板。随着公募基金和中大型私募的入池买入和众多ETF标入萝卜,我大胆预测,买盘的量(n个4亿)甚至可以超过萝卜目前的总市值。
捂紧吧,狠狠捂紧吧各位种萝卜的庄稼汉。


追加内容

本文作者可以追加内容哦 !