$沃尔核材(SZ002130)$ $博创科技(SZ300548)$ $博创科技(SZ300548)$
转发一篇广发通信的会议纪要,比较客观,而且很多基础概念的科普,分享给需要的人。
2025年第一次调研会的汇报,主题集中在引起大家关注的AI互联互通的技术路线变化上。今天我们将汇报一下cpo技术对AI互联互通的影响。首先,做一个简单的解释,目前二级市场对于AI互联互通的研究和投资,既非常超前,又异常敏感。非常超前的意思是,我们现在研究的内容,很多已经到达科技需求的实验室中。也就是说,很多技术路线的发展,业内最顶尖的技术专家可能也无法做出令所有人满意的预测。
因为很多技术是否能够实现突破,以及这个突破是否能够使产品稳定,仍然存在变数。而且很多输出线的落地不仅仅是技术问题,更是商业模式问题,这里面涉及多个利益方的权衡和妥协。并不是说技术好就一定能够落地并盈利,很多技术路线能否落地,包括落地的节奏判断,难度仍然较大。另外,市场对技术路线的变化也非常敏感。因为A股市场喜欢炒新,相较于美股,敏感度要高得多。很多技术路线的调整,暂时看可能变化不大,但在A股价格上却可能表现得比较剧烈,这可能也是投资者博弈心态的一种体现。我们的研究基于当前掌握的一些技术发展情况和商业模式情况,对未来的发展方向进行探讨,虽然不一定完全准确。
因为很多实验室里的技术一旦实现突破,可能对未来的影响会比较大。因此,欢迎各位投资者与我们共同进行探讨和切磋。回到正题,cpo技术对AI互联互通技术路线的影响。为了让更多投资者理解,我们先对这个英文简称做一个定义。首先,cpo的英文全称是Coherent Optical Package,意指将光引擎和交换芯片封装在一起的光学产品。现在这个定义扩展为泛指将光引擎和芯片,包括交换芯片和计算芯片,包装在一起的产品。在这个定义中,光引擎是光电转换的核心部件,作用是将光转换为电或将电转换为光。
光引擎既可以作为光模块的核心部件,也可以单独使用。为什么要进行光电转换?因为在计算芯片或交换机芯片中,信号处理是以电信号为主,但电信号在传输过程中衰减严重,无法长距离传输,因此需要转换为光信号,在光纤中进行稳定的长距离传输。
需要强调的是,cpo目前有两个应用场景。第一个应用场景叫做“field”,通俗理解为在一个算力单元内部提升互联水平。什么是算力单元?例如,英伟达的Hopper这一代GPU,一个服务器就是一个算力单元。一个服务器的CCB可能有八个H100芯片,这是一个算力单元。对于不太重要的这一代,我们可以将一个机柜视为一个算力单元。到了如Ruin的下一代,算力单元的定义可能会再次变化,比如可能将几个机会叠加在一起,这算是一个算力单元。无论如何,cpo所指的互联是芯片到芯片的互联。这个芯片可以是cpo、GPU或交换芯片等。在ANV的后一代,芯片之间的连接是通过PCB上的铜线,也就是我们之前提到的NVLink,而在这一代是DAC,即无源铜线连接。cpo在这个场景下的应用是将芯片旁边放置一个硅光做的光引擎。计算芯片旁边进行光电转换,光影层与光影层之间通过光纤连接。这是cpo的第一种应用场景。该应用场景也有一个专有名词,称为optical IO,即光输入输出。需要强调的是,在这种应用场景中,本来就没有光模块,此应用场景是之前的PDD或同缆的应用场景,本身就没有光模块。
第二种应用场景是“scalout”,即设备到设备之间的扩展互联。什么是设备?服务器和交换机都是设备。这一场景就是服务器与交换机之间的连接,或交换机与交换机之间的连接。这是典型的光模块应用场景,可能还包括部分同缆的应用场景。在一般情况下,这一场景下光模块的用量还是比较大的。当然,在海外,大家在服务器与低层交换机之间也会使用很多DAC无源铜缆,因为铜缆相对光模块来说更便宜。由于海外很多大型厂商有降本诉求,他们的规模非常庞大,比如亚马逊和谷歌等。国内原本不太使用铜缆,更倾向于使用光模块,国内可能只有阿里一开始使用铜缆,因为阿里的架构实际上还是从海外学习过来的。
那为什么其他的都不太用铜缆呢?是因为国内的数据中心开始大规模建设比较晚,等开始建设数据中心的时候,国内的短距光模块已经很便宜了。实际上,2025年25G的光模块已经非常便宜了。因此,当时除了阿里,大部分都是用光,阿里用铜,主要是在一层互联这块。过去两年特别是在发布之后,英伟达做了示范之后,包括像DEC和AEC,后边我们会区分DECEC的定义,这种铜缆的方式才开始在国内数据中心慢慢流行。
如果cpo是在这种设备到设备的场景中使用,那就是把光引擎与交换机芯片封装到一起。它替代的主要是可插拔光模块的使用,这是第二种场景。因此,我们对cpo及其在C对cpo的应用场景做了一个定义。
在AI互联互通技术及通讯行业中,还有很多技术。例如,大家经常提到的AOCDACAECOCS,这个非常复杂,我这边也做一个简单的定义。首先,AOCAOC的英文全称是active optical cable,它很简单,就是两头是光模块,中间是光纤,这就是一个典型的光模块应用场景。我用光两头的光模块,中间用光纤,将交换机与服务器连接起来,或者将交换机与交换机连接起来。将来也有可能用作芯片与芯片之间的互联,完全有可能。第二种方案是DAC,direct attach cable,通常说的无源铜缆,中间是铜缆,两端是连接器。在这种情况下,我不用做光电转换,直接就是电信号到电信号。这就是现在英伟达的GB200,后边正在使用的方案。
第三种是AEC,active copper cable,有源铜缆。中间是铜缆,两边各有一个retimer芯片,retimer芯片可以对信号进行一些修复。因此,在高带宽的场景下,我可以尽量减少传输的长度或宽度。因为铜作为一种导体,其物理特性是传输电信号时可能会有一些损耗。为了减少损耗,要么减少长度,要么增加宽度。通过这些芯片,我可以尽量保持信号的完整性,减少传输过程中的损失。这就是AEC的能力。
当然,还有一个ACC,active copper cable,这个ACC大家可能不太熟悉,目前只有在英伟达的应用中使用,实际上用的总量不多。为了不增加讨论的复杂度,我们就不太讨论ACC了。主要的就是AOC光块方案、DAC无源铜缆和AEC有源铜缆。最后一个是OCS,OCS全称是optical circuit switch,这种交换机侧不再将光转换为电,电再转换为光,而是直接用全光的交换。这种方案的好处是光模块技术路线,目前海外的谷歌在用,国内的华为也在用。我认为这个方案有很好的应用场景,而且国内很长时间没有炒作过。如果有一些产业上的催化,可能会再次引发关注。
今天我们要讨论的主题是英伟达,特别是他们的下一代产品是否需要使用cpo技术,或者是否需要使用上面提到的AOCDACAECOCS等技术。如果需要使用的话,在什么情况下使用?这是我们今天讨论的一个问题。在回答这个问题时,我们首先要看一下原则,为什么会有这样的选择。英伟达的产品是否使用也并非完全由英伟达说了算,英伟达还需要考虑客户的意见。客户主要是云厂商,包括谷歌、微软、亚马逊、SAI、Oracle等,因为他们是购买方,负责实际的部署和后期的运维。因此,他们会给英伟达提供一些参考意见。英伟达也要考虑客户对互联互通技术路径的需求,是否愿意使用cpo以及其他技术的使用方式。我们认为云厂商的评价维度至少包含以下几个方面:第一,稳定性;第二,带宽;第三,功耗;第四,部署的便利性;第五,维护难度及维护成本;第六,可扩展性;第七,采购成本。当然可能还有更多,我列出了主要的几个方面。
而且这几个维度从上到下,其实我觉得是从重要到不太重要,像采购成本对云南的考虑维度里边反而是一个不太重要的,前面的可能会更重要。第一个稳定性很好理解,像现在的训练集群动不动就是十万卡的集群,甚至有些厂商说未来可能会很快出现百万卡的集群。这样一个大集群,如果连接的互联互通技术方案的稳定性有问题,可能会造成整个算力网络的瘫痪和宕机,所以云厂商对稳定性的要求一定是极高的。如果有些方向稳定性达不到要求,即使在待省成本,即使在待省功耗,我觉得云厂商可能也不太敢用,因此稳定性非常重要。
第二点,带宽决定了互联互通能力的天花板,决定了能力的上限。比如说英伟达的NVLink,配的是C叉七网卡用的八百G的光模块,所以它的带宽可能就是一个瓶颈。到了GB三百,我配的是C叉八网卡,一点六T的光模块,带宽的瓶颈就没有那么严重。到了饼,我可能要用RUC叉九的网卡,这样在服务器侧用一点六T的带宽,在交换机侧就三点二T的带宽,这样是下一代产品。因此在带宽这方面,我们觉得光是有优势的。
对光快种方案或者对OCOIO这个方案是有优势的。刚才回到稳定性,稳定性我需要稍微补充一句,从稳定性这个角度,比如作为cpo的一种OPC,IO对它可能是一定的劣势。因为OPOIO这个技术的能力非常强,也是一步到位的。但是因为这个技术比较新,它的稳定性是否能够达到英伟达大规模部署的要求,在2026年年底或者2027年达到大规模部署的要求,我们还需要再去跟踪,不是说它不行,而是需要再去验证。
在稳定性这个维度上,像红莱、AOC这个高模块的优势就比较明显,因为大家已经用了这么长时间。刚才讲的第三个是功耗,功耗很好理解,大家都说AI的镜头是能源,功耗对于AI的应用就是一个非常重要的课题。如果能降功耗,这可能对很多云厂商来说是一个非常重要的课题。cpo相较光模块来说是降功耗的,铜缆整体的功耗也是要远低于光模块。因此在功耗这个维度上,像cpo、铜缆相对高模块是有优势的。
第四个是部署便利性,这个便利性主要体现在空间长度以及可弯折性上。比如在长度这个问题上,可能在一定带宽以下,像cpo、光、铜的性能都是差不多的。但是到了一定带宽以上,铜的传输是有极限的,不管是DAC还是EC,传输的距离都有极限。而光纤去传输的话就没有这个上限。因此在部署便利性上,光这一块,包括像AEC,相对DEC也是有一定的优势,这样在这个方向就比较吃亏。
在光还有EC是相对比较优势,包括cpo是比较有优势的。第五个维度是维护难度和维护成本,这也是cpo的一个比较劣势的地方。因为它是把光影擎和交换芯片,或者说GPU封装在一起,一旦这个坏了出问题,整套可能都要坏,因此它的维护成本会比较高。这一块是铜缆和光模块的优势,包括可扩展性,这六个可扩展性也是跟刚才的维护成本类似。第七个是采购成本,采购成本这一块目前来看光模块应该是最高的,光模块应该最高的。cpo略居中,铜的优势更明显。
以上几个是我们列举的一些技术上的维度。当然决定我是否使用这个方案,除了技术维度,还有商业模式的维度。我们可以看到这两年云厂商在做的一件非常重要的事就是解耦,原来英伟达在2024年时卖给云厂商的是一整套设备,包括服务器、交换机、光模块。现在云厂商在采购时可能会选择服务器或GPU,交换机可能会自己在外边自研或找白牌代工,光模块则可能到国内采购一些光模块。解耦的原因主要是为了降成本和保证技术路线的延续性。如果我所有的光模块、交换机、服务器打包买英伟达的设备,我就完全按照英伟达的技术路线走。现在云厂商的网络能力都非常强,想要按照英伟达的路线做,可能有自己的技术方向,解耦的采购可以保证他们继续沿着自己的路线走。
不一定要跟着英伟达,或者像博通这种去2025年这个周期路线。另外捷业我看还能保证供应链安全,提升云厂商的议价能力,所以在解耦这个问题上,我觉得云厂商应该还是比较重视的。除非未来他解耦的方案不能用了,只能用英伟达的方案。比如说我对带宽的需求,以及计算的需求非常强,其他公司都无法满足,云厂商底也无法满足,只有英伟达能做,那可能就只能听英伟达的。否则的话,解耦这个路线,我觉得云厂商一定是要继续往下走的。在这个维度上,对于cpo是不利的,对于光控和其他方案是有利的。因为cpo相当于把光引擎和芯片封装在一起,这其实就是一个耦合的过程。云厂商可能不希望上游这么集中,不希望技术路线完全依赖于英伟达。
综上,我们觉得技术路线的选择是一个非常复杂的系统性问题,这不是说某种技术实现突破了,有量产能力了,这个技术就一定能够很快大范围推广。最后再回到最初的问题,cpo到底用不用,怎么用,我们还是要分场景来讨论。第一个场景就是芯片与芯片之间的互联,包括最近周一周二出的台湾的新闻,应该是讲芯片与芯片之间的路线,因为他提到我跟台积电的GPU,不跟英伟达的GPU,跟博通的AP之间的互联。这种场景下,比如说英伟达的下一代如何选择技术路线。我们现在的观点是四种技术路线都有可能,分别是OQIO,这就是cpo的一种,还有DEA就是无源铜缆,AEC有源铜缆,AOC光模块,这四种方案都有可能。
为什么呢?这些都有可能,但需要继续跟踪哪些呢?比如说opto IO刚才提到的能力非常强,而且也是未来一个非常重要的技术路线。基本上如果看一个终极状态的话,是一定要用的,但这个技术其实这两年才刚刚成熟。我们在2025年年初去美国参加OFC的时候,也看了当时air lives的terrify芯片的一些演示,当时还做得比较大,还没有做得特别小。因此,OQIO这个技术路线是比较新的。现在他能不能在2025年、2026年做到足够稳定,让英伟达改用这个,我们觉得还需要再跟踪一下。比如说到2025年,现在已经2025年了,到2025年三月份的英伟达GPC以及三月底的OFC。我觉得那两个会上应该会有一个更明确的信息。
OQIO这个技术成熟度到什么样了?因为成熟度非常关键,因为整个英伟达如比这在网络里面最重要的就是英伟达的GPU,包括可能还会有cpo,剩下的重要的就是GPU之间的互联方案。因此OTRU这个方案的稳定性要求一定是非常高的,这是第一种方案,我觉得是有可能的。第二种方案是DEC,无源铜缆,现在基本上200G、300G在用的这种方案。我觉得也有可能不能排除,当然这种方案目前来看在下一代的发展是有一些挑战的。比如说现在在基本200G的情况下,英伟达的方案是单个线缆的带宽是224G,下一个就是448G。从224G到448G,刚才提到在无源铜缆、带宽提升时,要变粗或变短。我觉得没有厂商会选择变粗,因为线性增加一倍,表面积要增加三倍,截面积要增加三倍,变粗的会很多,基本上在空间上是不够的。大家可以想想,我记得200G的线缆,反正才5000根,已经密密麻麻的。如果到下一代,单个算单元里边芯片更多的话,可能是上万根,或者变粗的话一定不能用了。
所以说不能变粗的话,只能变短。变短的话,这样对传输距离是有限制的。比如说我现在的200G DAC可能在一米左右。如果我再变短,变到0.75米,或者0.5米,那我的使用场景肯定会非常受限。如果下一个如饼,我是真像传输的那样,把整个机会叠起来,那么这个最长的距离其实是很长的。因此我觉得DEC有可能如果突破不了变短的问题,他的使用场景会很受限。
我只能用在很短的距离内,或者说可能就不使用。所以说DEC能不能用在下一代,我觉得也需要再观察一下。我们要看一下,其实做裸线的公司,他们能不能在448G的情况下,依然能够把长度做得相对比较长一点。这是第二个方案。第三种AEC,第四种AOC,AEC就是有源铜缆,AOC就是光模块。这两种我觉得都有可能会用在这个rubin上,甚至有可能是大使用。比如说短距的话,我就用AEC这种方案。因为AEC的优势是我用retime芯片约束信号之后,比DEC能达到的距离更长。如果我AEC,比如说到了下一代448G,可能我的距离比如一米或两米,如果这个还不够,再长一点距离,我可能用AOC,用光模块转换去解决,可能是高级搭配。
总体来看,我觉得这四种技术路线都有可能,现在不能完全排除掉,需要再观察观察。
对,cpo应用的第二种场景是scar up的场景,即设备之间的连接,这对光光块形成一个挑战。我们的结论是,cpo在未来光传输领域是一个重要的技术路线,解决了带宽和功耗等天花板问题,但同样面临工程和商业模式上的挑战。我们预计渗透将发生在2025年,具体是在2025年下半年,但规模不会很大,后续渗透率将逐渐提高。真正的市场体量预计要到2027年之后,因为核心原因可能还是商业模式的问题。云厂商希望尽量使用可插拔的光模块。目前,可插拔的光模块在1.6T时已经有产品推出,在3.27T时尚未有产品面世,但许多做3.27T预言的公司反映可插拔方案是可行的。如果情况属实,那么cpo的渗透率可能要到3.27T模块的后半段,6.4T的模块前半段可能才开始大规模渗透。因此,这个时间可能比较往后。未来两到三年,我们认为在设备scar up场景下,cpo对光波高和通感的替代非常有限,可能低于市场上交易的预期影响。
从产业技术路线来看,cpo已经对一些光波公司产生了强烈的估值压制。这种估值压制在中长期的维度上逐渐减弱。我们认为cpo的短期渗透率不会快速提升,也不太影响这两年上市的光模块上市公司EPS。从长期来看,光模块上市公司因为技术和大量研发投入,能够直接与云厂商合作,而不一定需要与英伟达合作。定制的ACP也可以用cpo。如果cpo在未来某个时间点真正成为产业大趋势,云厂商也可以涉足光块。因此,从中长期来看,cpo对光模块的估值压制其实在减弱。
看短期情况,最近几天,特别是台湾产业的一些新闻出来后,市场对这块产生了一些误解。我见到很多投资人询问,因为台湾的新闻提到FUIO,与fiare up的cpo完全不是一回事。因此大家有误解,最近光模块调整非常剧烈,包括铜缆的也非常剧烈。我们认为这是一个超级反弹的机会,特别是光模块一直受到cpo的压制,后续大家可能逐渐明白这个事后,压制将解除。铜缆因为前段时间涨得比较快,炒作AEC,积累了一定获利盘。这次受到一些消息面的影响,回调幅度也比较大。因此,我们短期也非常看好光模块和铜缆的反弹。
至于铜缆,即使在rubin上有optive IO的一些担忧,其实铜缆的应用已经在云厂商中逐渐铺开,特别是在国内。铜缆即将招募DAC的较大订单,该订单将在2025年下半年到2026年全年交付,数量也相对可观,其他国内云厂也可能跟上。因此,无论是光模块还是铜缆,短期调整幅度已经比较大,现在是非常好的调节反弹机会。我们看好长期发展,无论是光模块还是铜缆,包括未来的cpo,在未来AI互联场景下都有良好的发展。具体情况还需要继续跟踪。欢迎各位投资者与我们私下交流,并关注广发通信在一些重要时间节点和会议上带来的研究成果。
本文作者可以追加内容哦 !