报告出品方:中泰证券
以下为报告原文节选
------
一、使用光交换机能够显著提升AI超算集群效率
谷歌为何要发展OCS光交换机:提升计算集群性能支撑大模型
2023年12月7日,谷歌推出自身首个多模态大模型Gemini 1.0,其中高性能版本Gemini Ultra可对标GPT-4
2024年2月16日,谷歌Gemini模型Pro版迭代出1.5版本:
该模型在长语境理解方面取得突破,显著增加可处理信息量,持续运行多达100万个tokens,是迄今为止基础模型中最长的上下文窗口
Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库
谷歌透露其在研究中还成功测试了多达1000万个tokens
2024年2月22日,谷歌推出新型开源模型系列“Gemma”:该开源模型基于Gemini研究和技术开发,与Gemini相比,Gemma展示了更高的效率和轻量化设计,同时免费提供全套模型权重,并明确允许商业使用
谷歌不断加速迭代大模型,大模型性能提升除了软件层面优化,更需强大算力支撑,算力一方面来自底层的芯片性能,另一方面则来自计算集群效率,为了高效地将多个计算芯片连接起来,谷歌在通用解决方案基础上,创造性地引入OCS光交换机(Palomar)
电子行业AI系列:光是通信的必由之路,OCS已成功应用
谷歌大模型 Gemini快速迭代,亟需算力支撑
谷歌大模型的迭代动作加快:
2023年初推出聊天机器人Bard:2023年2月6日,谷歌宣布将推出一款聊天机器人Bard,2023年3月21日,谷歌向公众开放Bard 的访问权限
2023年12月推出首个多模态大模型Gemini 1.0:模型共分为Ultra、Pro、Nano三个版本,同时将聊天机器人Bard背后的模型从PaLM2换成了
Gemini Pro,其中高性能版本Gemini Ultra可对标GPT-4,Gemini Ultra 在大型语言模型(LLM) 研发中使用的32 个广泛使用的学术基准中,有30个的性能超过了当前最先进的结果
2024年2月16日,Gemini 1.0 Pro迭代至1.5:在文本、代码、图像、音频和视频评估达到了与Gemini 1.0 Ultra相当的质量,但减少了计算资源
2024年2月22日,谷歌推出新型开源模型系列“Gemma”
电子行业AI系列:光是通信的必由之路,OCS已成功应用
谷歌自研TPU单芯片性能不足,提高计算集群效率是破局关键
谷歌2016年涉足ASIC芯片,截止目前已推出6代版本:
2015年谷歌首次发布了第一代TPU,正式涉足定制ASIC芯片,2017年发布第二代TPU v2,2018年发布第三代TPU v3,第四代TPU v4于2021年5月正式推出,此次迭代间隔三年,并于2023 年8月推出第五代TPU v5e,以及2023年12月6日最新发布TPU v5p
单芯片性能不足,提高计算集群效率(POD)是同英伟达竞争的关键:谷歌训练 Gemini Ultra所使用芯片为TPU v4、TPU v5e,性能无法与英伟达H100相比,TPU v5e峰值算力只有英伟达三年前发布的A100 的六成,最新版本TPU v5p峰值算力不到H100的三成,且英伟达将于2024年推出更高性能的B100产品
电子行业AI系列:光是通信的必由之路,OCS已成功应用
既有网络架构使用电交换机,相比光交换机延迟和功耗较高
传统三层架构:包括接入层、汇聚层和核心层,对应位置均采用电交换机,一台下层交换机会通过两条链路与两台上层交换机互连,实际承载流量的只有一条,其它上行链路,只用于备份,一定程度上造成了带宽的浪费,因此传统网络架构有网络带宽阻塞,上层带宽小于下层带宽和
叶嵴拓扑结构:相比于传统网络的三层架构,叶嵴网络进行了扁平化,变成了两层架构,叶交换机相当于传统三层架构中的接入交换机,嵴交换机,相当于核心交换机
胖树架构和英伟达Infiniband架构:
传统三层架构存在网络带宽阻塞,在叶嵴架构中,视各家具体方案不同,汇聚层或核心层也存在网络带宽阻塞,胖树架构下,自下而上不存在网络带宽阻塞,英伟达infiniband架构采用两层的胖树架构,即叶嵴和胖树的结合
以上网络架构中,各层交换机均采用电交换机,与光交换机相比存在一些不足:首先耗电量较大,同时因为需要对数据包进行编解码导致延迟较高,另外在摩尔定律下,电交换机相关芯片迭代速率较快,电交换机2-3年迭代一版,频繁迭代下资本支出较大
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4时期首次引入Palomar OCS提升计算集群性能
谷歌从TPU v2版本开始构建超级计算机集群:谷歌在2017年发布TPU v2的同时,宣布计划研发可扩展云端超级计算机TPU Pods,通过新的计算机网络将64块Cloud TPU相结合
TPU v3集群(Pod):2018年与TPU v3芯片一同推出,每个Pod最多拥有1024个芯片
TPU v4集群首次引入OCS:首次引入Palomar OCS(Optical Circuit Switches,光交换机),一个集群总共有4096个TPU,是TPU v3的4倍
TPU v5p集群:每集群TPU数量达到8960个,每集群可用 FLOP总数是TPU v4的4 倍,每秒浮点运算数(FLOPS)比TPU v4 提高一倍,每Pod芯片数量增加一倍,可以提高训练速度的相对性能;TPU v5p集群同样使用了Palomar光交换机
短时间内,谷歌在单颗芯片性能上超过英伟达难度较大,通过其擅长的软硬件集成,提高计算集群效率,在支撑自身大模型训练的基础上,可以通过出售算力资源获取收入,Salesforce 和 Lightrick等客户已经在使用Google Cloud 的 TPU v5p 超级计算机来训练大模型
电子行业AI系列:光是通信的必由之路,OCS已成功应用
并且将Palomar光交换机引入数据中心迭代Jupiter架构
谷歌数据中心早期架构:2004年推出,被称为4-Post架构,由4 个大容量交换机和512台ToR交换机连接组成,每台ToR 交换机与 40 台服务器相连,从而形成了一个512×40,约 2 万台服务器的集群。这种架构缺点是可扩展性差,不适用于大带宽应用场景
2005年~2012年:2005年推出第一代自研架构 Firehose,通过定制软硬件构建集群,经历五代演进,2015年Jupiter可实现3万台服务器组网
电子行业AI系列:光是通信的必由之路,OCS已成功应用
引入Palomar光交换机降低计算集群功耗、延迟和生命周期成本
早期Jupiter采用“Clos”拓扑:也称为嵴叶配置:spine and leaf configuration,机架装有【CPU、GPU、FPGA、存储和/或ASIC 】,然后该机架连接到叶(leaf,汇聚层)或架顶交换机,然后通过各种聚合层连接到主干(spine)
Clos拓扑下电交换机的资本开支和功耗较大:Clos拓扑中,主干层使用电交换机 (EPS:Electronic Packet Switch),通常由 Broadcom、Cisco、Marvell 等提供,EPS 耗电量大,此外,每 2 到 3 年网络速度翻一番,需升级现有spine层EPS,每一代更新都会带来巨大的资本支出
2022年谷歌引入光交换机替代主干层电交换机降低功耗、延迟和资本开支:引入光交换机取代Spine层传统电交换机,主干层功耗显著下降,同时由于不必解码数据包导致延迟显著降低,且主干层交换设备无须再进行设备代际更新,使用寿命增加,节约全生命周期资本开支;
引入光交换机也存在一些缺点:1)尽管全生命周期成本下降,但前期资本开支较大;2)信号插入损耗:光要多次反射折射才能到达接收端,存在信号功率损失;3)重新配置时间:光交换机的光路是提前设置好的,如果要与不同的端口通信,光开关必须重新配置这些镜像;
谷歌数据中心网络和TPU超级计算集群引入Palomar光交换机,未来随着其自身算力需求的不断扩大,以及外部客户的采购,光交换机产业链有望持续放量,迎来投资机会
电子行业AI系列:光是通信的必由之路,OCS已成功应用
二、光交换机产业链增量明显,相关标的受益
TPU v4集群:总共4096个TPU互联
TPU v4集群:谷歌目前训练大模型的主要集群,一个集群共有4096个TPU互联,未来升级到TPU v5p集群,届时将有8960个TPU互联,由于目前最新资料是基于TPU v4,本文后续将基于TPU v4论文进行OCS架构和产业链分析
TPU v4集群中4096个TPU芯片的构成:一个集群有64个机架,每个机架16个tray盘,每个tray盘上4个TPU,共计4096个芯片
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:64个机架之间通过48个OCS光交换机互联
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:为什么是48个OCS光交换机
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:使用OCS光交换机对光模块用量的影响
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:OCS光交换机架构
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:OCS光交换机架构(内部俯视)
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:OCS光交换机内MEMS阵列介绍
电子行业AI系列:光是通信的必由之路,OCS已成功应用
TPU v4集群:OCS光交换机核心单元供应商
电子行业AI系列:光是通信的必由之路,OCS已成功应用
三、光是AI时代高速传输的必由之路
从网络架构看光连接的驱动力:从电信到数通
电信市场:FTTx(光纤到任意终端)不断拓展、5G网络建设推进,整个电信网络各级光传输节点的数量和端口速率要求明显提升
数通市场:AI对算力的需求持续提升,数据中心、机架、服务器、计算芯片之间的互联架构变革,更多地使用光连接,且速率要求不断提升
从整个网络架构的演进来看,随着数据交换速率的需求持续提升,光连接对应的线缆、组件、芯片需求不断提升
电子行业AI系列:光是通信的必由之路,OCS已成功应用
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派
科技 / 电子 / 半导体 /
人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |
追加内容

本文作者可以追加内容哦 !