【来源:ICT产业观察圈】9月24日至26日,第20届CCF全国高性能计算学术年会(CCF HPC China 2024)在武汉市中国光谷科技会展中心盛大举行。大会以“华章廿载 新质未来”为主题,由12位院士领衔、400多位算力领域的大咖进行专题分享。

在主论坛上,北京并行科技股份有限公司董事长陈健就《基于大模型(应用运行特征)的算力产品选型分析和性能优化》这一主题进行了精彩分享。并行科技作为国内领先的超算云服务和算力运营服务提供商,在算力领域有着深厚的积累与独特的见解。

毋庸置疑,人工智能将引领新一轮工业革命,而大模型技术是驱动本轮人工智能浪潮的关键支撑。陈健表示,大模型训练是超算应用,而超算系统设计需要考虑计算、访存、高速互连等协同设计,避免出现“木桶”短板,这样才能更好地为大模型训练提供高效的算力支撑。

同时,受参数规模、并行方法等多种因素影响,不同的算力模型训练应用运行特征不尽相同,这就要求基于具体的应用运行特征进行设计,选择与之相适应的超算架构算力产品平台,从而更精确、更高效地提升大模型的训练性能。

陈健从超算架构算力平台出发,围绕如何提升大模型训练和推理性能,抽丝剥茧,介绍了具体的方法与实施方案。他表示,在过去的 15 年中,并行科技一直专注于应用运行特征的研究,从 2008 年、2009 年便开始致力于此。早期为 HPC 产品,核心工作包括深度分析用户应用以帮助其选择最适合的算力产品及建设,以及在选定的算力产品上通过系统和应用优化,让客户获得最佳性能。

在大模型训练方面,陈健表示这在超算人眼中是超级计算机上的新应用,是标准的并行计算程序,不过其特征与传统的科学计算、工程计算存在差别。如今,并行科技在国产算力推广方面有着丰富的实践经验,将超算细分出尖端超算、通用超算、业务超算以及智能超算等类别。其中,通用超算指的是万核以下的单作业并行计算应用,规模相对较小,有更多机会选择合适的算力产品并进行优化;业务超算则是面向行业,如并行科技已成为赛力斯的算力提供方之一。

谈到当前大模型训练的算力市场,陈健分析称,从 2023 年到 2024 年,传统的基于云主机、虚拟化的云服务平台在面对大模型训练时存在不足,尤其是在解决卡与卡之间的性能、带宽等问题上表现欠佳。超大规模的大模型训练目前主力为以 GPU 算力为核心的超算架构超级计算机,2000 卡 H(H800 或 H100)以上的算力需求供不应求,而 2000 卡 H 以下的常规大模型训练则供大于求。

对于推理市场,英伟达的卡暂时短缺,但大量国产卡做推理基本可行,只是存在移植成本。陈健强调,算力的复杂度远高于电力,且算力中心在服务客户的全过程无法脱离。在智算芯片适配过程中,华为在生态方面走到了前列。

在应用运行特征分析方法上,并行科技能够高精度、低负载采集数据,分析应用类型,通过测试、分析瓶颈点等方式预测未来平台的性能,为用户的早期决策提供辅助。在大模型训练的应用中,性能和加速比是核心关键要素,不同的模型有着不同的应用特征。

最后,陈健提到并行科技去年 11 月在北交所上市,成为中国 A 股算力服务第一股,近期又新增算力运营第一股的称号。并行科技还在内蒙古和林格尔新区联合共建大规模的算海计划,推出“算海计划二期”,与内蒙古算力基地合作建设10万卡单一大集群,计划于2025年10月开始对外运营。

并行科技在陈健的带领下,不断探索算力领域的新发展,为大模型时代的算力服务提供了有力的支持和保障。相信在未来,并行科技将继续在算力领域发挥重要作用,推动行业的不断发展。

追加内容

本文作者可以追加内容哦 !