事件:受益以太网通信芯片需求,博通FY24 Q2 AI相关营收达到创纪录31亿美元,将全年AI相关营收指引提升至超过110亿美元,同时认为110亿美元是较保守估计。公司宣布目前8个最大AI集群中有7个使用公司的以太网方案,预期25年所有超大规模GPU集群都将使用以太网协议,预计2025年底推出tomahawk6芯片,速率达到100T。 

本次调研走访北美相关科技公司以及相关产业专家。聊了部分公司IR(英伟达/supermicro/intel/tesla/equninix),在技术端以及产品应用端,聊了相关技术与产品专家(openai/adobe/google/meta/微软/amazon/nVidia/anthropic)。

1、当前大模型的能力是否依然在进步?模型的能力上限在哪里?

这个问题某种意义上决定整个AI产业的上限,模型能力的最终极限决定了算力的需求以及应用的想象空间。

从交流的专家来看,普遍对大模型的2-3年维度的持续迭代进步保持谨慎乐观的态度。但这种乐观某种意义上,与去年gpt3.5横空出世那种星辰大海不同,这个乐观更多是基于研发人员在模型端的具体进步而得出的结论,

- 比如说大语言模型在用户感知端的进步已经比较缓慢(也有专家表示这是为什么gpt5没有推出而是推出gpt4o的原因),进步更多的可能是用户感知不明显的数学能力等方面

- 通过相对较小的大模型的预研究仍然能够看到进步,也意味着更大规模的算力仍然能够带来模型的进步。

因此,从一年维度来看,模型进步对于算力需求的牵引应该是非常强的,一方面是基于本身研发端能够看到切实有价值的进步,同时这个调研可以非常明显感受到传统大厂在AI大模型落后之后的压力,比如google为此进行了比较多的组织架构调整,同时也是在薪资上给出了非常高的待遇(应届大牛工资+股票 100万刀,package唯一能匹配上openai的传统大厂)

对于大模型能否通向AGI,似乎并没有人主动提及。Google专家也表示,尽管大模型能够通过图灵测试(最公认的判定AGI的标准),其实现在大家似乎也很难认为当下的大模型就是AGI了,甚至某种意义上大模型现在是一种统计结果。或许,大模型再次出现类似于gpt3.5的能力跃升,更多的机会在于多模态(google专家演示了一个手机端gemini实时交互的视频),或者是当传统大模型的transformer架构有非常大的突破。

2、scaling law是否持续有效,能保证大厂高强度的capex得以持续

model的质量主要有以下三个环节构成

- 模型架构:目前来看transformer架构是公认主流,短期很难看到被颠覆的可能。

- 模型规模:规模越大,性能越好。    

- 数据质量(数据的多样性,质量,数量):训练数据的枯竭是被多次提到的问题。

从以上三个环节来看,数据的枯竭可能是限制scaling law的一个比较重要的问题,这个问题在大语言模型的训练中尤其明显。数据的scaling law可能依然有效,但是数据的规模可能不能支撑无限制扩张下去。相比之下,多模态的训练数据还没有遇到这个问题。

算力的堆叠目前来看是分歧最小的方向,一方面大模型仍在进步,另一方面硅谷巨头仍然处在格局未定的战备阶段。当前算力在美国的制约是电力,为了应对电力短缺,谷歌已经开始尝试多数据中心协同计算。

3、竞争格局:

目前来看,openai、google、meta是综合来看比较领先的,anthropic作为amazon和google共同投资的独角兽也是有背书的。马斯克的Xai在起步阶段,但是专家表示马斯克在高端人才的号召力很大,xai也有非常强的人才储备。

北美几个龙头与openai的差距某种意义上应该是在缩小的,一方面是传统巨头在人才储备上是完全够用的,尤其是google,在硅谷的技术人才储备上是公认的最领先的。其次,硅谷之间的技术交流相对便利,并且没有禁业协议。Meta专家表示除非openai在架构上再次出现跃升,否则即使他没有开源,对于业内专家而言他的技术实现也不是秘密,很快能追上。对于openai如何维持这个领先,openai的专家表示更多还是依靠本身的人才密度(现在的招聘门槛很高),以及chatgpt积累的数据资源。

国内模型研发的差距,从最前沿的科学角度差的依然比较大,硅谷的环境非常与世隔绝,科技大厂对于研发的投入更纯粹(meta,amazon的专家表示公司烧百亿美金,也并没有要求一定药做出啥产品来),因此在前沿架构的探索上,和硅谷差距非常大。但是考虑到当前硅谷整体模型的迭代也出现一定程度放缓,国内模型应该能够保持不被拉开。         

4、应用创新:北美在创新方面一样迷茫,瓶颈何在?

以微软和adobe为例,两个公司是产品广度和深度最强的,并且过去一年在应用端的产品发布也比较频繁,但是从最终用户付费订阅的比例来看,这个结果是低于预期的。以微软为例,他的M365 copilot热门应用主要集中在企业搜索,m365chat,summarization,reference(emails)等环节,而最好的产品teams ai的日活大概在几百万左右。对于去年PR视频中给予厚望的PPT和EXCEL而言,专家坦诚是不够好的,主要问题是,    

1) PPT与EXCEL的产品是一个从0-1创作的过程,但是对当前大模型的能力而言,从0-1这个生成过程是非常难匹配用户预期的。

2) 这类产品需要用户从零开始去构建promt(提示词),对于用户的使用门槛也非常高。

3) PPT的创作是个长流程的过程,类似于化工,每一步的生成误差,积累到最后也是非常大的,会带来整个产品的偏差比较大

而回到大模型能力的制约上,比较认同meta技术专家的一个观点,就是大模型本身现在展现出来的功能,很多时候对用户而言仅仅是nice to have,但是没有这个功能其实对大家并不是一个不能接受的退步。

总体上,对于应用的拓展,类似移动互联网时代的原生AI应用的,相比于创造需求,解决当下需求,提高效率应该是当前AI能够看到机会,因此从B端角度入手,会是当前AI应用的主力方向。此外以AIpc和AIphone这种系统级别的终端创新,打破单个APP的数据割裂,会是C端应用最重要的尝试方向(anthropic专家观点)。       

小结:

本次调研主要走访硅谷AI相关公司,总体印象是,AI的大模型和算力的技术进步仍在持续,其中大模型的进步已经度过了去年chatgpt的惊艳阶段,模型能力的演进相对平缓。但算力的需求仍然旺盛,相比模型的进展本身,算力由于存在比较明确的供需紧缺,整个环节看起来更加景气。

应用端的创新也面临着一定瓶颈。从应用端,落地的产品并不多。应用目前c端原生产品遇到瓶颈,更多的是B端需求,以及可能需要依赖手机,电脑等终端厂商对产品形态进行调整释放创新空间。

落实到投资维度,主要相关的在算力与应用端。算力板块在一年维度仍能保持比较强的景气可见度,甚至不排除继续超预期的可能。仍是AI方向最值得配置的板块。应用领域,调低国内AI原生应用以及国内大模型公司c端商业化进展的预期,关注有B端布局的公司。更关注AIpc和AIphone的带来的潜在的用户体验的超预期。

【1.6T光模块演绎路径】

800G光模块在当前市场中的表现如何?其良率和成本对市场推广有何影响?

目前,800G光模块的良率较低,这直接导致其成本优势不明显,利润率也不高。因此,模块商缺乏足够的动力去推广硅光技术。此外,客户需求急迫,对交付时间和数量要求较高,这进一步加剧了良率低对交付质量的影响。在这种情况下,今年800G硅光模块的出货量仍将主要以传统的EML方案为主。根据行业调研,目前800G硅光模块的良率确实不高。

为什么认为1.6T时代硅光技术会快速提升其市场占比?

在 1.6T时代,硅光技术等方案处于同一起跑线。例如,1.6T硅光模块的成本可能在 600-700美元之间,而其良率约为 60%。相比之下,1.6T EML,方案的良率也是60%,但成本可能高达900美元。在这种情况下,对于光模块厂商而言,同样的价格下更倾向于选择成本较低的硅光技术。因此,预计明年1.6T硅光技术的渗透率将显著提升。此外,由于今年800G硅光模块的良率在五六成左右,预计明年随着技术进步,其良率也会快速提升,与EML方案达到相似水平,从而体现出成本优势。初步估计,明年无论是 800G还是1.6T规模,其整体渗透率可能达到 30%-40%甚至更高。

在 3.2T 时代,单通道 400G 速率面临哪些挑战?薄膜磷酸锂材料是否具备优势?

在 3.2T时代,如果采用八通道设计,每个单通道需要达到 400G 速率,这对现有材料体系提出了很大挑战。例如,磷化铟材料在 200G 速率时已接近极限,因此难以实现 400G 速率。相比之下,薄膜磷酸锂材料具有较高理论带宽,可达 THz 级别,而当前 100GE 和 200GE 对应带宽仅为60GHz 左右。因此,从理论上讲,薄膜磷酸锂可以实现单通道 400G 甚至更高。然而,目前产业化应用受限于器件封装问题和产业链优势问题。尽管薄膜磷酸锂芯片本身成本较低,但其电极长度和驱动情况等封装问题影响了实际应用。此外,由于主要市场在海外,对中国优势方案接受度存疑,这也是薄膜磷酸锂未能快速上量的重要原因。

电信号传输速率与光信号相比有哪些差异?未来发展趋势如何?

电信号传输速率通常比光信号慢一代,即速率差一倍。这主要由于电信号频带越高,其走线损耗越大。目前 1.6T 光模块电口仍为 16 通道 100G 设计,通过内部变速后实现 8x200G 输出。而下一代 1.61,将采用单通道 224G 设计,实现 8X224G 电口与 8x200G 光口对齐。这对电信号传输提出更高要求。当前 800GLPO(Low Power Optical)方案性能优异,但在 1.6T 时代,大概率需要升级为具有部分 DSP 功能的 TRO(Transmitter-Receiver Linear Optical)方案,以平衡功耗、时延和投入产出比。

总结来看,不同代际技术的发展路径是什么?

总体来看,目前 800G以EML方案为主,而明年的 800G和1.6T硅光由于良率和成本优势,将逐渐提升渗透率。在3.2TE 时代,为满足单端口400G带宽需求,更高带宽材料如薄膜磷酸锂将成为重要方向。对于电信号部分,目前 112Gbps LP0 方案适用于 800GE,但在 1.6TE 时代需要升级为 TRLO 等具有部分 DSP 功能的方案,以提高效率并降低功耗。因此,不同代际技术的发展路径可以总结为:800GE EML->1.6TE 硅光->3.2TE 薄膜磷酸锂,同时电信号部分从 LP0 逐步升级到 TRLO 等新型方案。

1.6T 光模块的 DSP(数字信号处理器)何时会推出?其功耗和封装方式有何变化?

1.6T 光模块的 DSP 预计将在 2024年上半年或下半年推出样品。与传统的光模块相比,1.6TDSP的功耗显著增加,DSP 芯片占据了光模块总功耗的 40%至 50%。因此,为了降低功耗,当前 800G单模光模块已经开始采用裸芯片直接封装到 PCB 板上的方式,而非传统的封装好的 DSP 贴片方案。预计 1.6TDSP 也将采用裸芯片封装方式,这不仅有助于降低功耗,还可能改善连接性能。

光模块在交换机侧的变化有哪些?

随着速率的提升,交换机侧发生了显著变化。许多光模块中的数字信号处理和驱动功能逐渐转移到交换机芯片上。例如,在 224G及以上速率下,传统PCB走线方案面临较大损耗,因此出现了通过铜线直接连接交换机芯片端口与光模块电接口的新方案。这种 CPC(共封装铜)方案不仅减少了损耗和功耗,还提高了可维护性,使得可插拔光模块的使用寿命得以延长。

当前行业基本面情况如何?未来需求量预期如何?

尽管近期市场行情波动较大,但行业基本面表现良好。从出货量、海关数据以及上下游订单情况来看,整体表现强劲。海外市场如英伟达等公司在四五月份需求旺盛,而国内市场则呈现震荡行情。投资者普遍看好光模块赛道,并期待更多催化因素推动市场。对于 2025年的需求量预期,各方普遍认为 1.67T 光模块需求量在 400 万至 500 万只之间,而 800G 光模块需求量约为 1,000 万只。尽管各家对具体厂商如谷歌、Facebook 等的需求预期有所不同,但总体需求量大致如此。目前市场等待的是具体订单下达,以进一步明确未来需求。

光模块价格和份额预期如何?哪些厂商可能受益?

对于 800G 和 1.6T光模块的价格和份额,目前已有初步预期,但具体分歧仍存。由于高质量交付能力仅限于少数厂商,这些龙头企业在 2024 年和 2025 年的市占率有望进一步提升。例如,北美厂商如亚马逊、谷歌等已经下达大量的AI 芯片和交换机芯片订单,这反映出巨大的市场需求。因此,未来几个月内可能会出现明确催化因素,从而推动估值切换。

总结来看,当前市场对光模块赛道持何种看法?

当前市场并无明显利空因素影响光模块赛道的发展。相反,随着时间推移,对 2025 年需求量的确定性不断提升。在此过程中,高质量交付能力强的龙头企业将继续受益,其盈利能力和营收有望持续增长。因此,应重点关注如中际旭创、天孚通信、新易盛等在AI赛道上的领先企业。这些企业凭借其技术优势和前瞻研发能力,将在未来竞争中占据有利地位。

追加内容

本文作者可以追加内容哦 !