“万卡集群”被业界视作是这一轮大模型竞赛的“入场券”,现在,“十万卡集群”成为科技巨头们竞逐的新高地。
百度集团执行副总裁沈抖在百度智云大会上曾表示“很快就会有更多的10万卡集群出现。”
他提到,过去一年已经感受到客户的模型训练需求猛增,需要的集群规模越来越大,与此同时,大家对模型推理成本的持续下降的预期也越来越高。这些都对GPU管理的稳定性和有效性提出了更高要求。当天,百度升级AI异构计算平台百舸4.0,具备了10万卡集群部署和管理能力。
事实上,这一轮生成式人工智能爆发的背后,一定程度上归功于“大力出奇迹”,业界通过不断增加算力堆叠,实现大模型性能的飞跃。万卡集群也因此被业界视作是进入AI核心圈的“标配”。但现在,即便是万卡也不能够完全满足需求。不仅百度,越来越多的行业巨头正在布局十万卡集群,以追求更高的计算效率和大模型性能。
不久前的云栖大会上,阿里云展示了围绕 AI 时代的新基建,其中单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的 AI 先进基础设施。
9月初时马斯克在社交媒体上宣布,旗下AI初创公司xAI 打造的超级 AI 训练集群 Colossus 已经正式上线,搭建用时 122 天,共有 10 万块英伟达 H100 GPU 加速卡,而在未来几个月将再翻倍增加10万块GPU,其中5万为更先进的 H200。
更早之前,Meta首席执行官马克·扎克伯格曾在年初宣布计划购买35万块英伟达H100 GPU,将Meta的算力扩展到相当于60万块英伟达H100 GPU的水平。OpenAI没有透露过确切的GPU使用量,但业界猜测接近十万块。百川智能CEO王小川曾对第一财经记者透露,自己此前在硅谷走访时,OpenAI正在设计能够将1000万块GPU连在一起的计算模型,“这种想法像登月一样。”
“今天一家通用大模型公司如果没有万卡,就不好说自己是大模型公司了。” 香港科技大学校董会主席沈向洋更在不久前调侃:“谈卡伤感情,没卡没感情”。而摩尔线程CEO张建中也在接受记者采访时表示,在AI主战场,万卡是最低标配,因为大模型竞争激烈,缩短训练时间是企业的基本诉求。
本文作者可以追加内容哦 !