闷得而蜜
发布于2024-12-30 16:43来自雪球 · 广东
英伟达NVL72,量产难题,全光互联的解决之道
来自闷得而蜜的雪球专栏
今天中午媒体广泛转载T明年底开始导入CPO技术的报道:
一直跟踪我的粉丝都清楚,这个新闻对我来说,是一个旧闻,完全不意外,都在我的预期之内。
虽然我研究半导体比较多,但对于CPO技术,我其实也经历了好奇、怀疑、否定、看好、拥抱,这么复杂的过程。为什么最后坚定地拥抱CPO这个新技术呢?(沃尔核材、神宇股份里的资深玩家应该清楚)
答案是:我看到了Blackwell GB200 NVL72系统基于Cable做NVLink的困难。
NVL72原计划在2024年中量产,Q3批量发货,但实际情况从5月份开始陆续碰到不少挑战:
封装技术挑战:GB200 芯片采用台积电先进的 CoWoS-L 先进封装技术及高度复杂的封装设计,这种复杂性导致在封装过程中容易出现各种问题,如芯片与封装材料的兼容性、封装过程中的应力分布不均等,影响了芯片的良品率和性能。
掩模设计修改与重新流片:由于生产过程中出现的各种问题,导致英伟达不得不重新修改掩模设计并重新流片,这不仅增加了生产成本,还延长了量产时间。
背板连接设计缺陷:供应商安费诺提供的卡式连接器测试良率一直不理想,这一问题出在背板连接设计上,导致量产受阻。因为 GB200 的重大规格升级增加了生产复杂性,使得在连接设计上的挑战被放大,进而影响了整体的量产进度。(沃尔核材的股价在8月份主要是这个原因)
芯片过热:GB200 芯片的功耗大幅增加,其热设计功耗高达 132kW,如此高的功耗使得散热成为巨大挑战。在服务器运行过程中,芯片容易出现过热现象,不仅影响性能发挥,还可能导致组件损坏,为确保系统稳定,需要增加额外的冷却组件,增加了设计复杂性和成本,也影响了其空间效率优势。
UQD 漏电:UQD 出现漏电问题,这一问题与芯片的设计和制造工艺有关,增加了芯片的功耗和散热负担,影响了芯片的性能和稳定性,也给量产带来了困难。
铜线良率不足:在将 72 颗 Blackwell GPU 通过 5000 根 NVLink 铜缆进行高速互连时,所使用的全新 cartridge 连接器模组中的铜线良率不足,每个 cartridge 中有几千根线,在 GB200 规格下难度大幅提升,导致测试不过关,影响了量产进度。
直到12月底,问题还是持续不断,整个GB200 NVL72的发货量从7万柜,下修到4万柜:
作为全球技术能力最强的NVidia,为什么无法实现黄仁勋在3月19日 GTC大会上NVL72的梦想呢?
这是采用Cable互联系统的必然结果。
Cable互联,一种紧耦合架构
用Cable线缆将AI集群的各个部件链接起来,可以理解为PCB单板的延伸。将72颗GPU芯片、18可NVSwitch芯片、36颗CPU芯片,以及一大堆DRAM颗粒等,用一块巨大的PCB单板连起来。每一跟线与线之间,芯片与芯片之间的通信链路彼此受影响。用专业术语讲,就是信号完整性(SI)、电源完整性(PI)、电磁干扰(EMI)。
因为每个部件都藕断丝连,这么复杂的系统要稳定下来,绝非容事。所以,大家就看到了方方面面困难,芯片的电路设计、封装设计、背板连机器、铜缆走线,等等,都反复修改。
思科早在2000年互联网大爆发的时候,就用类似的cable互联架构做过核心路由器,经过7年的痛苦摸索后,最终放弃了。
既然,明知山有虎,为什么英伟达偏向虎山行呢?
因为在2024年,硅光、光互联技术还不成熟。以前产业链重视度不够,在硅光上的投资少,导致需求突然爆发时,还没有准备好。
所以,大家就看到了,台积电在2023年Q3开始奋起直追,投入200名精兵强将范弗里德弹药量攻关。进展神速,超过了市场的预期。
光互联,化整为零的架构
光互联的好处有四。
1、化整为零:系统工程学的基本原理,复杂系统必须解构,化整为零,才能治理。采用光互联后,2km之内光都没有衰减变形,所以,支持各个子系统分散部署,而不需要紧紧挨在一起。
2、互不干扰:经过光电隔离后,AI集群中的每个部件互不干扰,每个部件只需要关注自身子系统的SI、PI、EMI即可。
3、低功耗:电信号传输衰减大,光信号没有衰减。台积电完成高效的硅光芯片攻关后,光电转换的效率极大提高。初步测算,同样的NVL72系统,CPO光互联的功耗比Cable互联要低30%。
4、低成本:CPO AI集群的TCO成本,在scale-out场景下有40%的优势,在scale-up场景下有20%以上的优势。并且,集群规模越大,优势越明显。
总结
AI算力,最终要回到经济性学上来。英伟达、台积电要想锁住毛利,必须把价值都往芯片里面装。如果液冷来分一瓢羹,cable来分一瓢羹,核电站也来分一瓢羹,过几年nv就回归到xxxx亿市值了。
英伟达、台积电,是高科技公司,必须持续用科技进步,去解决各种问题。
至于投资机会,周末提一嘴,相关半导体和硅光今天反应都不错,就不啰嗦了。但是,在强调一次,产业趋势和技术是我的强项,看个股,没准星,不要盲目跟风。
$英伟达(NVDA)$ $台积电(TSM)$ $半导体ETF(SH512480)$
闷得而蜜的专栏
271篇文章 · 59195人关注
156
107
本文作者可以追加内容哦 !