2024年7月26日,中国上海——锐捷网络今日宣布与燧原科技签署战略合作协议,双方将联合研发面向人工智能数据中心的高性能网络互联解决方案,应对超大规模集群的网络挑战,提升大模型计算效率,确保智算中心网络的可靠性,为客户提供更好的服务,推动人工智能领域的创新和发展。

破局之道:强强联合,共筑人工智能

数据中心的高性能网络互联解决方案

技术突破与兼容性适配:燧原科技的二代训练产品已成功完成与锐捷RoCE交换机的互操作兼容性适配,并通过了锐捷RALB和AILB等负载均衡技术的严格测试,实现了网络无阻塞传输,实测带宽利用率高达97%。这一突破性成果,不仅满足了超大规模集群对于大量数据传输和实时响应的严苛需求,更为AI大模型的快速训练与迭代提供了强有力的网络支撑。

共创智算中心AIGC网络解决方案:基于锐捷网络智算中心AI-Fabric网络解决方案,该方案充分利用以太网RoCE技术生态,实现基于业务流量模型的多轨道互联架构,提供大带宽接入能力,确保在万卡级别场景下实现可扩展、更高效和灵活的集群组网。同时,通过创新性的应用链路负载和拥塞控制技术,有效解决网络拥塞冲突问题,进一步提升计算效率和系统性能。

开创智算组网仿真模型:双方还将通过建模和仿真技术,收集规模级智算网络参数、环境,生成组网仿真体系的大模型,不断拟合和迭代,确保真实AIGC业务的网络解决方案能够发挥硬件性能,推算不同纵向扩展(Scale-Up)下的模型性能收益,为AI大模型的训练提供更佳的网络环境部署方案。

(扫码进一步了解锐捷智算中心AI-Fabric网络解决方案)

锐捷网络企业系统部总经理夏国卿阐述:锐捷网络与燧原科技的深度合作,不仅根植于我们双方坚实的合作基础,更是基于对未来技术发展趋势的深刻洞察。锐捷网络连续多年在中国数据中心交换机市场占据领先地位,特别是在200G/400G领域的卓越表现,充分证明了我们在高速、高效网络构建上的强大实力。燧原科技作为AI加速卡和解决方案的佼佼者,其在AI计算领域的深厚积累与锐捷网络的网络基础设施优势相得益彰。锐捷的AI-Fabric解决方案与燧原的AI加速卡技术相结合,将能够进一步优化GPU计算集群的网络架构,解决AI大模型训练中的数据传输瓶颈,提升整体计算效率与资源利用率。同时,双方还将共同探索在业务仿真测算、智能运维等方面的深度合作,为客户提供从硬件到软件、从基础设施到上层应用的全方位、一体化解决方案,助力客户在AI时代抢占先机。

燧原科技研发副总裁邓辉进一步表示:在处理AIGC大模型预训练的大规模数据、高并发请求和分布式计算的场景下,高性能、低延迟的网络互联系统至关重要。由此,超大规模计算集群也由“算力墙”、“存储墙”演进到了“IO墙”,如何打造一个AI加速卡间的高可用且高可靠的网络系统已成为智算中心释放算力的关键。面对AI产业发展的新挑战,燧原将与锐捷携手合作,发挥各自产品的技术优势,提供超大规模AI集群的网络互联解决方案,提升计算效率和系统性能,构建新一代AI大模型算网融合平台,加速发展新质生产力,赋能千行百业‘数智化’转型。

关于锐捷网络

成立于2003年的锐捷网络,目前也已经发展成为行业领先的网络基础设施及解决方案提供商。IDC报告显示,2022和2023年中国200G/400G数据中心交换机市场占有率第一,2024年1季度中国200G/400G数据中心交换机市场占有率第一,2019年至2023年中国以太网交换机市场占有率排名第三。

关于燧原科技

燧原科技专注人工智能领域云端和边缘算力产品,致力为通用人工智能打造算力底座,提供原始创新、具备自主知识产权的AI加速卡、系统集群和软硬件解决方案。凭借其高算力、 高能效比的创新架构和高效易用的软件平台,产品可广泛应用于泛互联网、智算中心、智慧城市,智慧金融、科学计算、自动驾驶等多个行业和场景。燧原科技秉承开源开放的宗旨,携手产业伙伴共创生态,成为通用人工智能时代产业的驱动力。

(锐捷网络)

追加内容

本文作者可以追加内容哦 !