近日,在中国联通集团建设发展部,智算发展专班指导下,中国联通研究院与上海分公司联合产业合作伙伴,在中国联通临港智算中心成功完成AI大模型300公里分布式协同训练技术验证。通过智算、网络多项创新技术的综合运用,实现了300公里跨域分布式训练等效算力达到单集群的95%以上,跨域带宽收敛比大于16:1。充分验证了跨DC协同训练技术的商用可行性,为AI大模型训练模式提供了全新的解决方案。
跨智算中心分布式协同训练存在两大需求:一是大模型训练对算力的需求激增,但单体智算中心存在电力、空间等容量上限,超大规模的模型训练需要多DC资源协同;二是多租户场景下产生了算力资源碎片化问题,亟需进行多DC的空闲资源整合和利用。在此背景下,跨DC分布式协同训练兴起,长距无损的联算网络技术成为刚需。
中国联通深耕长距无损网络关键技术,针对跨DC长距RDMA传输场景,创新长距拥塞控制和精准流控协议,在智算网关实现近端拥塞的快速识别和反馈;同时通过优化智算模型并行策略,适配广域带宽超大收敛比的解决方案,压缩超大规模智算中心互联场景中对拉远带宽的巨额需求。积极开展智算网络标准化工作,在ITU-T立项下一代网络广域无损管控功能要求Y.WALNC,在IETF推进广域无损需求和技术框架研究,在CCSA牵头立项智算网关、长距拥塞控制技术要求等行业标准,联合产业伙伴共同构建长距无损网络技术生态。
追加内容
本文作者可以追加内容哦 !