今天分享的是:《新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存》

(内容出品方:国信证券

报告共计:24页

摘要

AI大模型训练和推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持绒提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于A大模型开发各类A应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。

智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心:随着大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案,存储、平台、散热等维度提出新的要求。

网络互联:节点内外多方案并存。1)节点内:私有方案以英伟达NLink为代表,NLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以0AM和UB8为主,0CP组织定义了业内通用的A1扣卡模组形态(0AM)-基板拓扑结构(UB8)设计规范。2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、Infiniand交换机、Subnet Management(sm)、连接件组成:ROCEV2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。|nfiniBand在网络性能、集群规模、运维等方面具备显著优势。

智能算力需求:训练数据量+参数量大幅提升,模型能力“涌现”

训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《Emergent Abilities ofLarge Language odels》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过菜个临界点,新技能才会突飞猛进。同时,横型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。


追加内容

本文作者可以追加内容哦 !