今天试图把两个重要的消息串起来


1. 微软和OpenAI的“星际之门”,关键信息:千亿美金投资几百万张卡、不想用IB想用以太网


这和前几天争议很大的微软工程师声称GPT-6训练会搞崩电网,对上了。再考虑上周博通声称的在帮谷歌搞定未来的百万张TPU集群,以及另一条关键信息“OpenAI已经实现了跨地区的分布式超大规模集群训练”,一个即将出现的图谱逐渐清晰:几百万张卡(离OpenAI宣传的千万张卡联调差不多了)、分布在几个或几十个地区(每个地区或城市几十万张)、通过IB or 以太网络实现百万张卡互联、训练一个至少是GPT-6之后的、面向AGI的超级AI Factory....为什么分布在几十个地区,现在答案显而易见了——“缺电”(准确点缺电网),因此AWS都把新的IDC建到了核电站旁边。跨地区的延迟扛得住吗?如何实现百万张卡的紧耦合?我相信除了OAI没人知道答案...既然说“已经实现了跨地区分布式训练”,这里面一定有不少模型训练工程上的巨大创新。想想挺有趣,大模型的训练从开始的单卡到百卡、千卡、万卡,为什么?说白了,模型规模越来越大了,从CNN/RNN时代几亿几十亿参数,眼看到了万亿参数,数据的量和计算量,远远超过了目前最强单卡的能力,不得不倒逼出了多卡互联和各种并行训练策略。再扩大两个数量级,好了,远远超出目前一个电力+算力可支撑的最大数据中心的能力,怎么办?多集群并行...(想想挺夸张的,但又很合理)前几天和一个在美国的做过超算的读者电话,我也问他为什么现在的计算变成了这样,且NVL72又如此像当年的IBM超算大型机?他回答“很简单,就是规模变大了”。从一个小工程, 变成了巨大工程,倒逼着英伟达要在infra层面持续做压缩,集群压成机柜,机柜压成芯片,循环往复。只要规模继续快速增大,会继续倒逼计算层面的创新层出不穷,尤其是互联,因为这将是我们从未遇到过的巨大系统工程。




2. 台积电:GPU晶体管数量会从目前的千亿到万亿


从这一代的Blackwell已经开始显现,2颗计算die直接并联,那未来自然可以想到4颗、6颗、8颗...当系统级的先进封装技术更进一步,会有更多的GPU外的chip或功能,被压缩进GPU卡(这里不得不感慨之前文章提过的“生态位”,老黄忍辱负重几十年终于熬到了今天的生态位之王....)。因此单颗GPU万亿晶体管,非常合理,是可见的未来。当然也不是纯纯的加量,比如前段时间一个也是海外做超算的朋友跟我要Blackwell的FP32和64的矢量性能,的确NV没公布。本质原因,是NV在增加tensor core而牺牲了矢量性能,意味着什么?继续降低通用性、向transformer计算倾斜、增加更多的低精度乘法矩阵单元,其实也是晶体管数量的一种节省。(此外,更重要的是,侧面体现出英伟达基本已经认定了transformer的架构方向,继续加注。老黄自己也说过,会有很多transformer变种,但transformer的思想不会变。)


这里引出一个问题,出现“万亿晶体管 ”这个现象的原因是我们上文所说“应用规模急速膨胀倒逼现有技术单元互联”,但问题在于,这个基本单元的成本下降的速度在放缓,过去摩尔定律本质上最大的价值在于驱动单位晶体管的dollar成本下降,到了今天需求支付能力和供给成本达到了一个均衡(手机PC等等)。但AI的需求从晶体管数量的角度如果持续上升,先进封装和互联只是做了“量”上的堆积,而最小颗粒单元成本的通缩基本停滞,意味着什么....这点和之前在星球讨论的存储的一个长期逻辑类似。即便我们看到semi这次更大价值给了NV而不是TSM,但如果需求继续急速膨胀,而供给成本无法快速通缩,那可能意味着半导体制造(包括晶圆和封装)整体价值量,会上一个大台阶。反方立场可能是,往往技术的通缩刺激需求、撬动量、从而创造更大市场,但现在技术不通缩,传递到需求成本巨高,会不会被证伪?过去一年AI其实就面临这个问题....但如果朝向未来看,我们可以这么理解,过去晶体管支撑的计算带来的手机PC等等都是应用,而未来晶体管支撑的计算带来的不是应用,是人,是智力或者生产力本身。如果有一个支付能力更强的需求被创造出来,与计算的供给成本,会达成一个新的均衡。这个过程中供给也就是芯片制造的价值,可能会上一个大台阶,当然结构也会变,从晶圆向封装倾斜,从标准逻辑向特殊工艺倾斜,等等。


上述2点,放到一起,说明了什么?“scaling law”正在创造出一个我们从未遇到过的巨大计算系统,而这个系统的尺度显著超过了我们目前各个环节的技术单元的容量上限,唯一的、最通用的解决方法,就是互联。因此这会持续倒逼互联的迭代加速。比如小到HBM的interposer也是互联,从而跨越了光刻reticle光罩限制。再大点如NVlink,未来其寻址会持续从256到576甚至会到2000多张卡的紧耦合。再大的就是IB或超以太,我们拭目以待什么样的架构创新会实现百万张卡的跨地区互联(显然胖树网络是不够的)。因此我们从die间、chip间、卡间、tray间、rack间、集群间、甚至到今天,跨地区的IDC之间,都会被倒逼出现层出不穷的技术创新。serdes迭代速度已经要从5年一代3年一代,到今天博通宣布的1年一代,光模块的迭代速度更是从4年一代到了今天的1-2年一代,而CPO的出现会让交换机的升级速度继续加快。再想想前两天Ayar labs说的时间表是2026年kicking up,我都觉得慢了...考虑到技术可靠性问题真的需要时间可以理解,但如果这个速度的确有点危险...因为需求会倒逼出各个方向的供给创新,不一定谁能赢...


未来科技投资的一个重要命题就是互联,或者说未来AI infra投资的最重要问题就是互联。而很多技术分支将基于此演绎,包括且不限于EDA(3DIC)、封装(从卡到光)、存储(从HBM到边缘)、硅光、交换机技术、网络架构、电力/散热等基础设施、以及模型架构和计算架构等等等等。未来不只是英伟达一枝独秀,我们一定会看到百花齐放!

追加内容

本文作者可以追加内容哦 !