过去两年,AI基础设施的叙事更多围绕“算力供给”(GPU、HBM、先进封装)展开。但当集群规模继续外扩,网络与互联开始从“配角”变成决定体验与效率的“第二战场”。这一轮专家访谈的核心信息很明确:800G在真实的超大规模AI集群里几乎已经完成普及,1.6T正在从“验证”走向“爬坡”,而企业数据中心的节奏完全不同。更关键的是,1.6T这一代可能首次出现“领跑者不是Google”,从而改变DSP厂商、模块厂商与生态的权力结构。

下面按“市场节奏—产业结构—关键变量—下一代架构”的逻辑,把访谈要点与我的理解串起来。

一、宏观框架:同是数据中心,AI集群与企业机房不是同一个周期

共识:1.6T的讨论,本质上是2026年的“超大规模(hyperscale)AI集群讨论”,不是企业数据中心的同步升级。

原因也直白:AI集群追求“时间到市场(time-to-market)”与性能极限,而企业数据中心更在意可靠性、运维成本与系统级风险暴露。

专家把两类场景分得很开:

超大规模AI集群(尤其是AI训练/大规模推理)更像“性能机器”,迭代快、愿意承担新代际风险;企业数据中心则像“稳定运营机器”,升级一次牵一发而动全身,宁可慢也不愿出故障。

二、800G到1.6T:真实世界的进度条到底在哪

关键数据(访谈口径)

1)Hyperscaler侧:几乎全是800G,年底(未来不到一个月)1.6T占比仍低于5%。

2)若供应链与硅片问题顺利解决,到明年年中,1.6T可能加速到20%–30%;

3)企业数据中心侧:800G目前仍低于50%渗透;年底几乎不会有1.6T。即使到明年年中,1.6T可能仍低于10%。

我的理解:这组数字的价值在于,它把市场从“概念渗透”拉回到“工程节奏”。1.6T并不是需求不强,而是工程端的硅片挑战与迭代周期在决定节奏。专家提到一个很典型的现实:如果某个关键芯片需要re-spin,尤其是3nm/5nm这类先进节点,一次迭代带来的时间损耗就是3–6个月,这足以改变一整个年度的渗透曲线。

另外一个很有意思的点:微软可能从400G直接跳到1.6T,跳过800G。这不是“激进”,反而是“保守”的体现——升级成本太高、可靠性约束太强,所以宁可少折腾一次,把代际跨度拉大。

三、形态与距离:OSFP为什么压倒QSFP-DD,热设计正在成为第一约束

在800G形态上,专家的判断非常“单边”:

关键数据(访谈口径)

OSFP占比>80%,且在AI/hyperscale侧更极端:Nvidia基本100% OSFP。

QSFP-DD更多出现在企业侧与“后端”场景。

背后的第一性原理是:热(thermals)。在高速光模块里,热设计几乎决定了一切,甚至出现一种“行业趣事”:大家讨论规格时,最先问的不是功能,而是DSP用了什么制程节点(3nm/5nm等),因为这直接对应功耗与散热难度。

距离(reach)端,800G并不是经典的“80/20”结构,反而更分散:

SR8(~100m以内)**更像“近距离互联/scale-up与近距离scale-out”;

DR8(~500m以内)**更像“spine-leaf与更广域的scale-out”;

FR/LR(2–10km)**对应更大园区与园区互联。

而到了1.6T,专家倾向于认为:增量会主要集中在100m与500m(SR8/DR8),因为1.6T更贴合“scale-up优先”的演进路径;至于2–10km那段链路,未必需要跟着同步上1.6T,可能继续停留在800G甚至400G,通过其他系统设计去解问题。

四、DSP格局:Marvell“可口可乐”、Broadcom“百事”,剩下是Credo+MaxLinear

访谈里对DSP份额给了一个相对清晰的框架(当然这类数据天然难以精确,但方向很有参考意义):

关键数据(访谈口径)

Marvell:约40%–50%,中值~45%

Broadcom:约35%

Credo + MaxLinear:合计约20%

专家用一句话概括得很形象:Marvell是Coke,Broadcom是Pepsi,剩下两家像Dr Pepper。

更重要的是结构性解释:Marvell过去长期领先,核心来自其与Google的深度绑定。Google基于TPU路线往往要提前2–3年推动代际升级,因此Marvell也被迫提前2–3年做设计投入;而Google为了“补偿”这种超前投入,会在方案上给出极强的锁定与排他性。这种机制解释了“为什么Marvell长期是leader”。

五、这一代最关键的变化:1.6T首次由Nvidia领跑,逻辑不是“成本”,而是“控制权”

如果说前面都是“行业节奏”,那么这一段是访谈里最值得反复咀嚼的“产业权力变化”。

专家判断:1.6T这一代,Nvidia第一次跑到Google前面。并且Nvidia之所以这么做,不是因为它把自己当芯片公司,而是它越来越像一家“卖整机/卖机架的公司”。当你卖的是rack-level系统,光DSP在整机BOM里占比很小,企业决策会从“单位成本最优”转向“交付与节奏最优”。

更直白一点:疫情期间的供应链经历,让Nvidia见识过“就差一个光DSP,几亿美元的货出不去”。于是这代开始,Nvidia的优先级变成:我宁可DSP过度设计、贵一点,也要把关键环节握在自己手里,避免被卡住。

在这种目标函数下,访谈给出一个非常强的推演:Nvidia可能自己做DSP。理由也简单:DSP里最难的IP之一是SerDes,而Nvidia在交换机、DPU等产品上本来就有SerDes能力;以前不做,是因为“没必要”,Marvell总能提供提前量。现在当Nvidia要领先,提前量不再来自Google体系,Nvidia就需要把提前量内生化。

对供应链的含义:

Nvidia会更强势地驱动规格与性能指标;

Marvell/Broadcom等传统DSP厂商可能从“主供应”变成“追赶的二供”;

模块与代工链条上,Nvidia更依赖其JDM/EMS与模块伙伴体系(访谈点到的Coherent、InnoLight、Eoptolink等)。

这也引出一个现实的12个月变量:Marvell在Nvidia侧的份额可能面临波动,但如果Google选择更激进地对外扩张TPU生态,Marvell又可能获得对冲式的增量。

六、LPO与CPO:别把短期“热度”当成长期“渗透”,真正的拐点在2027–2029

1)LPO:更多是“成本玩家”的故事,不是性能玩家的主线

专家对LPO的态度比较克制:有热度、有尝试,但天花板不高。LPO更符合Meta、ByteDance这类“极度成本敏感、以大规模通用计算为主”的客户;而对Nvidia这种“性能与时间优先、毛利率高、光互联占整机BOM比例小”的玩家,LPO的吸引力很有限。

我的理解:LPO可以阶段性影响部分链条的定价与方案选择,但它更像“局部优化”,不是“代际迁移”。当更高阶的架构(CPO)开始逼近时,LPO的叙事会自然收敛。

2)CPO:2026几乎没有“收入故事”,真正的产业故事从2027开始

关键时间线(访谈口径)

2025–2026:CPO对市场几乎无实质影响

2027:Nvidia可能最先在小规模引入CPO(更偏加速器侧)

2028:Google可能跟进(约滞后一年)

2029:再向更广泛市场扩散

更“反直觉”的点是:即便2027 Nvidia开始做CPO,你也未必能在传统光模块/DSP厂商的收入里看到明显增量,因为这可能是Nvidia与制造伙伴(例如代工与硅光相关能力)更内部化的推进方式。传统意义上,CPO更像是一次“价值链重分配”,而不是简单的“端口数增加”。

七、怎么跟踪这条赛道:与其盯BER,不如盯“客户份额迁移”

专家给了一个很“投资化”的视角:他不太用技术指标(比如BER)去做外部判断,而更关注不同终端客户的采用节奏与供应链份额变化。因为玩家越来越集中,谁的份额变动,往往比单点技术参数更先反映趋势。

我会把可跟踪的指标整理成三类:

关键指标

1)终端客户节奏:Hyperscale侧1.6T渗透斜率

2)DSP结构:Nvidia是否继续强化自研/自控,Marvell在Nvidia侧的份额波动是否被Google侧对冲。

3)形态与热:OSFP占比是否继续上行,先进制程DSP供给是否成为瓶颈,SR/DR端口是否成为1.6T增量主要落点。

八、总结与展望:2026是1.6T的“真爬坡年”,但更大的变量在“谁定义规格”

把访谈压缩成一句话:800G已经是AI集群的现实,1.6T的核心看2026

市场气氛烘托到此,接下来一段时间,光互联的主线会从“端口数增长”逐步转向“体系权力变化”:谁能定义下一代互联,谁就更可能定义下一轮利润分配。

$中际旭创(SZ300308)$  $新易盛(SZ300502)$  $天孚通信(SZ300394)$  

追加内容

本文作者可以追加内容哦 !