转发一篇广发通信的会议纪要,比较客观,而且很多基础概念的科普,分享给需要的人。
2025年第一次调研会的汇报,主题集中在引起大家关注的AI互联互通的技术路线变化上。今天我们将汇报一下cpo技术对AI互联互通的影响。首先,做一个简单的解释,目前二级市场对于AI互联互通的研究和投资,既非常超前,又异常敏感。非常超前的意思是,我们现在研究的内容,很多已经到达科技需求的实验室中。也就是说,很多技术路线的发展,业内最顶尖的技术专家可能也无法做出令所有人满意的预测。
因为很多技术是否能够实现突破,以及这个突破是否能够使产品稳定,仍然存在变数。而且很多输出线的落地不仅仅是技术问题,更是商业模式问题,这里面涉及多个利益方的权衡和妥协。并不是说技术好就一定能够落地并盈利,很多技术路线能否落地,包括落地的节奏判断,难度仍然较大。另外,市场对技术路线的变化也非常敏感。因为A股市场喜欢炒新,相较于美股,敏感度要高得多。很多技术路线的调整,暂时看可能变化不大,但在A股价格上却可能表现得比较剧烈,这可能也是投资者博弈心态的一种体现。我们的研究基于当前掌握的一些技术发展情况和商业模式情况,对未来的发展方向进行探讨,虽然不一定完全准确。
因为很多实验室里的技术一旦实现突破,可能对未来的影响会比较大。因此,欢迎各位投资者与我们共同进行探讨和切磋。回到正题,cpo技术对AI互联互通技术路线的影响。为了让更多投资者理解,我们先对这个英文简称做一个定义。首先,cpo的英文全称是Coherent Optical Package,意指将光引擎和交换芯片封装在一起的光学产品。现在这个定义扩展为泛指将光引擎和芯片,包括交换芯片和计算芯片,包装在一起的产品。在这个定义中,光引擎是光电转换的核心部件,作用是将光转换为电或将电转换为光。
光引擎既可以作为光模块的核心部件,也可以单独使用。为什么要进行光电转换?因为在计算芯片或交换机芯片中,信号处理是以电信号为主,但电信号在传输过程中衰减严重,无法长距离传输,因此需要转换为光信号,在光纤中进行稳定的长距离传输。
需要强调的是,cpo目前有两个应用场景。第一个应用场景叫做“field”,通俗理解为在一个算力单元内部提升互联水平。什么是算力单元?例如,英伟达的Hopper这一代GPU,一个服务器就是一个算力单元。一个服务器的CCB可能有八个H100芯片,这是一个算力单元。对于不太重要的这一代,我们可以将一个机柜视为一个算力单元。到了如Ruin的下一代,算力单元的定义可能会再次变化,比如可能将几个机会叠加在一起,这算是一个算力单元。无论如何,cpo所指的互联是芯片到芯片的互联。这个芯片可以是cpo、GPU或交换芯片等。在ANV的后一代,芯片之间的连接是通过PCB上的铜线,也就是我们之前提到的NVLink,而在这一代是DAC,即无源铜线连接。cpo在这个场景下的应用是将芯片旁边放置一个硅光做的光引擎。计算芯片旁边进行光电转换,光影层与光影层之间通过光纤连接。这是cpo的第一种应用场景。该应用场景也有一个专有名词,称为optical IO,即光输入输出。需要强调的是,在这种应用场景中,本来就没有光模块,此应用场景是之前的PDD或同缆的应用场景,本身就没有光模块。
第二种应用场景是“scalout”,即设备到设备之间的扩展互联。什么是设备?服务器和交换机都是设备。这一场景就是服务器与交换机之间的连接,或交换机与交换机之间的连接。这是典型的光模块应用场景,可能还包括部分同缆的应用场景。在一般情况下,这一场景下光模块的用量还是比较大的。当然,在海外,大家在服务器与低层交换机之间也会使用很多DAC无源铜缆,因为铜缆相对光模块来说更便宜。由于海外很多大型厂商有降本诉求,他们的规模非常庞大,比如亚马逊和谷歌等。国内原本不太使用铜缆,更倾向于使用光模块,国内可能只有阿里一开始使用铜缆,因为阿里的架构实际上还是从海外学习过来的。
那为什么其他的都不太用铜缆呢?是因为国内的数据中心开始大规模建设比较晚,等开始建设数据中心的时候,国内的短距光模块已经很便宜了。实际上,2025年25G的光模块已经非常便宜了。因此,当时除了阿里,大部分都是用光,阿里用铜,主要是在一层互联这块。过去两年特别是在发布之后,英伟达做了示范之后,包括像DEC和AEC,后边我们会区分DECEC的定义,这种铜缆的方式才开始在国内数据中心慢慢流行。
如果cpo是在这种设备到设备的场景中使用,那就是把光引擎与交换机芯片封装到一起。它替代的主要是可插拔光模块的使用,这是第二种场景。因此,我们对cpo及其在C对cpo的应用场景做了一个定义。
在AI互联互通技术及通讯行业中,还有很多技术。例如,大家经常提到的AOCDACAECOCS,这个非常复杂,我这边也做一个简单的定义。首先,AOCAOC的英文全称是active optical cable,它很简单,就是两头是光模块,中间是光纤,这就是一个典型的光模块应用场景。我用光两头的光模块,中间用光纤,将交换机与服务器连接起来,或者将交换机与交换机连接起来。将来也有可能用作芯片与芯片之间的互联,完全有可能。第二种方案是DAC,direct attach cable,通常说的无源铜缆,中间是铜缆,两端是连接器。在这种情况下,我不用做光电转换,直接就是电信号到电信号。这就是现在英伟达的GB200,后边正在使用的方案。
第三种是AEC,active copper cable,有源铜缆。中间是铜缆,两边各有一个retimer芯片,retimer芯片可以对信号进行一些修复。因此,在高带宽的场景下,我可以尽量减少传输的长度或宽度。因为铜作为一种导体,其物理特性是传输电信号时可能会有一些损耗。为了减少损耗,要么减少长度,要么增加宽度。通过这些芯片,我可以尽量保持信号的完整性,减少传输过程中的损失。这就是AEC的能力。
当然,还有一个ACC,active copper cable,这个ACC大家可能不太熟悉,目前只有在英伟达的应用中使用,实际上用的总量不多。为了不增加讨论的复杂度,我们就不太讨论ACC了。主要的就是AOC光块方案、DAC无源铜缆和AEC有源铜缆。最后一个是OCS,OCS全称是optical circuit switch,这种交换机侧不再将光转换为电,电再转换为光,而是直接用全光的交换。这种方案的好处是光模块技术路线,目前海外的谷歌在用,国内的华为也在用。我认为这个方案有很好的应用场景,而且国内很长时间没有炒作过。如果有一些产业上的催化,可能会再次引发关注。
今天我们要讨论的主题是英伟达,特别是他们的下一代产品是否需要使用cpo技术,或者是否需要使用上面提到的AOCDACAECOCS等技术。如果需要使用的话,在什么情况下使用?这是我们今天讨论的一个问题。在回答这个问题时,我们首先要看一下原则
追加内容
本文作者可以追加内容哦 !