闷得而蜜

发布于2024-12-30 16:43来自雪球 · 广东


英伟达NVL72量产难题全光互联的解决之道

来自闷得而蜜的雪球专栏

今天中午媒体广泛转载T明年底开始导入CPO技术的报道

一直跟踪我的粉丝都清楚这个新闻对我来说是一个旧闻完全不意外都在我的预期之内

虽然我研究半导体比较多但对于CPO技术我其实也经历了好奇怀疑否定看好拥抱这么复杂的过程为什么最后坚定地拥抱CPO这个新技术呢(沃尔核材神宇股份里的资深玩家应该清楚)

答案是我看到了Blackwell GB200 NVL72系统基于Cable做NVLink的困难

NVL72原计划在2024年中量产Q3批量发货但实际情况从5月份开始陆续碰到不少挑战

封装技术挑战GB200 芯片采用台积电先进的 CoWoS-L 先进封装技术及高度复杂的封装设计这种复杂性导致在封装过程中容易出现各种问题如芯片与封装材料的兼容性封装过程中的应力分布不均等影响了芯片的良品率和性能

掩模设计修改与重新流片由于生产过程中出现的各种问题导致英伟达不得不重新修改掩模设计并重新流片这不仅增加了生产成本还延长了量产时间

背板连接设计缺陷供应商安费诺提供的卡式连接器测试良率一直不理想这一问题出在背板连接设计上导致量产受阻因为 GB200 的重大规格升级增加了生产复杂性使得在连接设计上的挑战被放大进而影响了整体的量产进度沃尔核材的股价在8月份主要是这个原因

芯片过热GB200 芯片的功耗大幅增加其热设计功耗高达 132kW如此高的功耗使得散热成为巨大挑战在服务器运行过程中芯片容易出现过热现象不仅影响性能发挥还可能导致组件损坏为确保系统稳定需要增加额外的冷却组件增加了设计复杂性和成本也影响了其空间效率优势

UQD 漏电UQD 出现漏电问题这一问题与芯片的设计和制造工艺有关增加了芯片的功耗和散热负担影响了芯片的性能和稳定性也给量产带来了困难

铜线良率不足在将 72 颗 Blackwell GPU 通过 5000 根 NVLink 铜缆进行高速互连时所使用的全新 cartridge 连接器模组中的铜线良率不足每个 cartridge 中有几千根线在 GB200 规格下难度大幅提升导致测试不过关影响了量产进度

直到12月底问题还是持续不断整个GB200 NVL72的发货量从7万柜下修到4万柜

作为全球技术能力最强的NVidia为什么无法实现黄仁勋在3月19日 GTC大会上NVL72的梦想呢

这是采用Cable互联系统的必然结果

Cable互联一种紧耦合架构

用Cable线缆将AI集群的各个部件链接起来可以理解为PCB单板的延伸将72颗GPU芯片18可NVSwitch芯片36颗CPU芯片以及一大堆DRAM颗粒等用一块巨大的PCB单板连起来每一跟线与线之间芯片与芯片之间的通信链路彼此受影响用专业术语讲就是信号完整性SI电源完整性PI电磁干扰EMI

因为每个部件都藕断丝连这么复杂的系统要稳定下来绝非容事所以大家就看到了方方面面困难芯片的电路设计封装设计背板连机器铜缆走线等等都反复修改

思科早在2000年互联网大爆发的时候就用类似的cable互联架构做过核心路由器经过7年的痛苦摸索后最终放弃了

既然明知山有虎为什么英伟达偏向虎山行呢

因为在2024年硅光光互联技术还不成熟以前产业链重视度不够在硅光上的投资少导致需求突然爆发时还没有准备好

所以大家就看到了台积电在2023年Q3开始奋起直追投入200名精兵强将范弗里德弹药量攻关进展神速超过了市场的预期

光互联化整为零的架构

光互联的好处有四

1化整为零系统工程学的基本原理复杂系统必须解构化整为零才能治理采用光互联后2km之内光都没有衰减变形所以支持各个子系统分散部署而不需要紧紧挨在一起

2互不干扰经过光电隔离后AI集群中的每个部件互不干扰每个部件只需要关注自身子系统的SIPIEMI即可

3低功耗电信号传输衰减大光信号没有衰减台积电完成高效的硅光芯片攻关后光电转换的效率极大提高初步测算同样的NVL72系统CPO光互联的功耗比Cable互联要低30%

4低成本CPO AI集群的TCO成本在scale-out场景下有40%的优势在scale-up场景下有20%以上的优势并且集群规模越大优势越明显

总结

AI算力最终要回到经济性学上来英伟达台积电要想锁住毛利必须把价值都往芯片里面装如果液冷来分一瓢羹cable来分一瓢羹核电站也来分一瓢羹过几年nv就回归到xxxx亿市值了

英伟达台积电是高科技公司必须持续用科技进步去解决各种问题

至于投资机会周末提一嘴相关半导体和硅光今天反应都不错就不啰嗦了但是在强调一次产业趋势和技术是我的强项看个股没准星不要盲目跟风

$英伟达(NVDA)$ $台积电(TSM)$ $半导体ETF(SH512480)$

闷得而蜜的专栏

271篇文章 · 59195人关注

156

107



追加内容

本文作者可以追加内容哦 !