随着前几日NVIDIA市值突破3.6万亿美元的历史性里程碑,算力在科技产业中的重要性愈发显著。算力不仅是AI模型训练与推理的基石,更是数字化转型与智能化升级的关键驱动力。在此过程中,网络成为影响算力利用率的重要因素之一。高效稳定的网络能确保算力资源得以充分利用,加速训练效率,缩短模型迭代周期,有力促进AI技术的快速发展和广泛应用。因此,构建完善的算力网络对于提升算力利用率、加速AI技术进步具有深远意义。
RichNet下一代AI原生云计算架构
AI大模型对网络性能需求是大带宽、高负载、零丢包的无损网络。随着技术的发展,现在数据中心内的高性能网络传输机制,已经从TCP/IP逐步切换到RDMA,即远程直接内存访问。RoCE(RDMA over Converged Ethernet),是一种能在以太网上进行RDMA的集群网络通信协议,它可以大大降低以太网通信的延迟,提高带宽的利用率。
彩讯股份RichNet的RoCE网络交换机,聚焦于下一代高性能网络,提供先进的RoCE网络整体解决方案,提供端到端RDMA计算通信互联系统,基于ROCE以太网络实现IB网络带宽,显著降低了网络延迟,提高了带宽利用率。
稳定性:传输抖动程度的降低
RoCE网络通过自研系统实现了精细化的流量控制机制,能够实时监测网络流量并动态调整数据传输速率,有效避免网络拥塞,同时引入优先级流控(PFC)等技术确保高优先级数据流的顺畅传输,进一步降低了传输抖动。此外,RoCE网络还采用了先进的错误检测和恢复算法,迅速发现并纠正数据传输中的错误,提高了数据传输的可靠性,并显著减少了因错误重传引起的传输抖动。同时,自研系统对数据包处理流程进行了优化,减少了处理时间和等待时间,从而降低了传输延迟和抖动,提升了数据传输的平滑性和稳定性。
高性能:链路利用率的提升
高性能的RoCE网络通过一系列创新技术显著提升了链路利用率。首先,RoCE网络利用自研算法实现了高效的资源分配机制,该机制根据网络负载和流量模式动态调整资源,确保网络资源得到最大化利用,有效避免了资源浪费和瓶颈现象。其次,RoCE网络支持多路径传输技术,能够同时利用多条网络路径传输数据,不仅提高了数据传输的并行性和量,还实现了负载均衡和容错处理,进一步提升了链路利用率。RoCE通过绕过TCP/IP协议栈,直接在网络适配器和内存之间传输数据,实现端到端RDMA计算通信互联,带宽利用率可达IB网络90-96%,为AI模型的快速迭代和优化提供了强有力的支持。
智能性:网络自动化与智能化管理
RichNet不仅注重硬件层面的高性能,还在网络管理与自动化方面实现了重大突破。通过集成的网络自动化监控系统,可以实时掌握网络状态,实现故障预警与自动恢复,确保网络的高可用性。此外,RichNet引入了自容错机制,支持弹性故障迁移,能够根据应用需求进行细粒度的流量调度,实现基于应用感知的自适应路由,进一步提升网络的灵活性和效率。自研系统提供了智能化的网络管理功能,能够实时监测网络状态和性能指标,便于及时发现并解决潜在的网络问题,从而确保网络的稳定运行。
通用性:成本效益与快速交付
RichNet RoCE网络基于以太网技术,具有出色的兼容性和通用性。RoCE可以与其他网络设备和协议无缝集成,可以灵活地部署在不同的网络拓扑和环境中,能够满足各种复杂场景的需求。方案通用性高,支持快速交付与响应,相较于传统IB网络长达数月的交货周期,RichNet RoCE解决方案的交货周期缩短至数周,大大加快了部署速度。同时,在千卡规模的集群中,RichNet能够帮助客户节省超过数千万元的成本开支,显著提升经济效益。
创新性:DDC网络技术的实践
RichNet当前正引入DDC网络技术,通过解耦硬件与软件,实现了更灵活、更经济的智算中心构建方式。据悉,美国电信运营商AT&T目前52%的流量运行在基于DDC架构的网络上,DDC架构相比传统机箱配置方案可以节省90%的成本,同时达到99.999%的高可用性,部署工作完成比预期提早数月,为智算中心运营带来了革命性的改变。
彩讯股份RichNet RoCE网络解决方案目前为多个大模型及AI应用提供了算力加速保障:成功助力某市超算平台训练千卡七百亿参数大模型,为当地AI产业发展提供平台保障;在某科技公司1600张英伟达GPU集群中进行方案部署,支持千亿参数的大型训练,并提升生产环境超20%性能,有效提高研发效率,加快AI产品和服务的推出和升级。
未来,彩讯股份将持续深耕AI算力领域,凭借专业的技术实力和丰富的行业经验,推动算力、数据、算法之间的深度融合,不断探索新型技术和解决方案,为各行各业提供更加优质的算力支持和服务,驱动新产业、新业态、新模式的创新发展,为数字经济的蓬勃发展和实体经济的数智化转型构建坚实的数字基座。
推荐阅读