新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存_财富号

新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存

今天分享的是：《新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存》

（内容出品方：国信证券）

报告共计：24页

摘要

AI大模型训练和推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看，模型能力持绒提升依赖于更大的训练数据量和模型参数量，对应更高的算力需求;从模型的数量来看，模型种类多样化(文生图、文生视频)和各厂商自主模型的研发，均推动算力需求的增长。b)未来AI应用爆发，推理侧算力需求快速增长:各厂商基于A大模型开发各类A应用，随着AI应用用户数量爆发，对应推理侧算力需求快速增长。

智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心，集约化建设的新型数据中心:随着大模型普遍进入万亿规模，算力、显存、互联需求再次升级，高速互联的百卡“超级服务器”可能成为新的设备形态，智算中心将走向超级池化阶段，对设备形态、互联方案,存储、平台、散热等维度提出新的要求。

网络互联:节点内外多方案并存。1)节点内:私有方案以英伟达NLink为代表，NLink已经发展至第五代产品，同时支持576个GPU之间的无缝高速通信;开放技术方案以0AM和UB8为主，0CP组织定义了业内通用的A1扣卡模组形态(0AM)-基板拓扑结构(UB8)设计规范。2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、Infiniand交换机、Subnet Management(sm)、连接件组成:ROCEV2网络是一个纯分布式的网络，由支持RoCEv2的网卡和交换机、连接件、流控机制组成。|nfiniBand在网络性能、集群规模、运维等方面具备显著优势。

智能算力需求:训练数据量+参数量大幅提升，模型能力“涌现”

训练数据量+参数量大幅提升，模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《Emergent Abilities ofLarge Language odels》，很多新能力在中小模型上线性放大都得不到线性的增长，模型规模必须呈指数级增长并超过菜个临界点,新技能才会突飞猛进。同时，横型的参数量和数据量在一定程度下是正相关的，因为:a)在小规模数据上训练模型时，若模型参数量过大，可能出现过拟合情况;b)在大规模数据上训练模型时，若不增加模型参数量，可能造成新的知识无法存放的情况。

追加内容

本文作者可以追加内容哦 !

代码	名称	最新价	涨跌幅
查看更多

代码

名称

总收益	20日收益	日收益
--	--	--

最新操作
-	-	-