人工智能应用推动数据存储技术变革

算力底座的变化使得数据存储技术必须做出 相应的改变。AI 的爆发催生了对高性能大规模并行计算能力的需求,算力成本急剧上升,存储再一 次成为制约系统性能和使用成本的关键部分。

1.1 AI 时代的存储系统围绕提升 AI 算 力利用率而设计

在大模型时代,提升算力利用率(MFU)成为了 当前系统设计中的核心目标。人工智能大模型在具 备优异性能的同时,其模型参数、资源消耗也来到了 一个新的台阶,并且其规模仍处于快速增长阶段。单 个模型的研制和应用往往需要数千甚至数万颗 AI 算力芯片同时运算,耗费数百万元,例如,根据字节 跳动公开的万卡集群大模型训练架构 MegaScale 的 数据[2],训练拥有 1750 亿参数的大模型需要在千卡 集群上训练接近 20 天或者万卡集群上训练近 2 天, 按照图形处理器(GPU)使用机时计算,单次训练费 用超过 200 万元,其算力利用率约为 50%-60%。在 当前算力获取成本高昂的环境下,提升算力利用率 成为了有效提升性能和降低成本的关键。 围绕算力利用率的提升,存储系统也需要满足 不同应用需求。大模型的全生命周期主要可以分为 三个阶段,包括数据的准备、训练(微调)、推理:在 数据准备阶段,存储系统需要高效地存储和调度大 规模的数据,包括结构和非结构数据,可能包含文 字、视频、音频等多种多样的数据类型。这就要求存 储系统必须是大容量、可扩展的,同时支持文件和对 象访问协议;在训练(微调)阶段,存储系统必须足 够快速地为 AI 算力芯片提供训练所需数据,以提升 算力利用率,同时定期保存训练中的检查点(checkpoint),这就要求算力芯片主存具备更高的数据带 宽,并且整个存储系统需要具备更优的并行扩展性 和数据调度能力;在推理阶段,存储系统需要可靠 地存储模型参数,并且具有更快的响应速度,同时还 需要兼顾成本和经济性。

1.2 AI 算力的快速发展使得 HBM 和 GDDR 等高带宽存储成为关键

当前的 AI 算法通常将大型数据分割为多个批 次(Batch),算法内也包含大量的矩阵乘法运算,这 都导致 AI 运算具备天然的并行计算特点,对单个计 算单元的复杂度要求低,但对众多计算单元的并行 度要求高。这一特性与图像处理类似,因而 GPU 成为了当前 AI 计算的主流算力芯片,专为 GPU 开发 的图形双倍数据速率内存(GDDR)和高带宽内存 (HBM) 成为 AI 计算系统中的主存储器,“GPU+ GDDR/HBM”在 AI 应用中逐步替代了“CPU+DDR”。 GDDR 和 HBM 均是在双倍数据速率内存(DDR)基 础上重新开发的面向高并行应用需求的内存产品, 在存储阵列工艺相同的情况下,通过不同的总线组 织形式实现迥异的性能表现[3]。例如,DDR 通常单个 裸片(die)提供 8 位总线,8 颗芯片组成 64 位数据总 线,实现 15-25GB/s 的数据传输速率;GDDR5 的单 die 则可以提供 16 位总线,由 4 颗芯片组成 64 位数 据总线,数据传输速率可以达到 48GB/s;而 HBM2 由于采用了中间层和硅通孔(TSV)技术,不再受制 于芯片焊球尺寸,可以做到单 die 带宽 128 位,单颗 芯片包含 8 个 die,数据带宽达到 1024 位,传输速率 256GB/s。HBM 具备突出的性能优势,但由于成本高 昂,通常只用于相对昂贵的训练芯片,在推理芯片中 多采用 GDDR。

1.3 AI 应用对高效使用大规模数据集的需求促进了大容量存储技术更迭

在 AI 应用中,大容量存储技术的选择对于处理 和分析海量数据至关重要,近年来涌现了多种适应 于 AI 的数据存储技术。其中,在存储设备方面,全闪 存存储提供更高的 I/O 性能和更低的延迟。根据华 为公司《数据存力——高质量发展的数字基石》研究 报告,全闪存数据中心相比传统使用机械硬盘为主 的数据存储系统在响应速度、空间尺寸、能耗等方面 具有显著优势,在热数据存储应用中能够显著降低 数据中心的的综合成本。另外,在存储架构方面,数 据湖存储技术正受到越来越多的关注。数据湖是 2010 年由 Pentaho 公司创始人 James Dixon 提出的 一种新兴的数据管理技术,它允许以自然格式存储 来自不同来源的大量原始数据,包括结构化、半结构 化和非结构化数据。相比于传统的数据仓库,数据湖 直接存储原始数据,能够解决此前数据仓库中数据 细节丢失的问题,这一点对于大模型训练尤其重要。 此外,数据湖还具有扩展性强、使用灵活、成本低等优势,受到国内外云存储厂商的广泛关注。

2 全球存储产业发展现状

存储器具有高度标准化的特点,全球产业高度 集中,韩国的三星、SK 海力士和美国美光三家企业 在 DRAM 和 NAND Flash 等主流存储器领域占据 90%以上市场份额。面临人工智能应用的新需求,传 统存储厂商凭借已有技术优势继续保持产业领先, 同时英伟达、英特尔等算力芯片企业越来越深入参 与存储产品的定义和研发。

2.1 传统存储巨头仍然把控 HBM 等先 进存储技术

当前,SK 海力士、三星和美光三大厂商占据全 球 HBM 产业主导地位,全面掌控相关技术和市场。 (1)技术方面。全球三大存储原厂依托在高端 DRAM 领域的优势和壁垒,率先掌握 HBM 量产工 艺并引领核心技术发展。HBM 制造需要 DRAM 颗 粒量产能力作为基础、先进封装技术作为支撑,来实 现 DRAM 颗粒的垂直堆叠、高效互联及散热控制。


2025-01-09 12:02:10 作者更新了以下内容

1月8日,美光科技在新加坡的新工厂破土动工,未来将投资70亿美元,于2026年开始运营,并从2027年开始扩大美光的先进封装总产能。该类模块广泛应用于人工智能数据中心,受益于人工智能对先进存储的需求提振。HBM是能够满足AI算力高速传输需求的新型存储,于2014年推出,配套算力需求持续爆发式增长,我们测算至2025年全球HBM容量需求将接近17亿GB,占DRAM出货总容量超10%,占DRAM市场产值超30%。

  点评:随着Open AI等大模型参数增长至万亿级别,对应的算力需求也呈现指数级增长的趋势,海量的算力必然需要海量的存力,各大科技巨头也加码研发用于AI的HBM存储模块,在AI增长的推动下,产业整体的HBM消耗量将显著提升,2024年预估增速超过200%,2025年HBM消耗量将再翻倍。预计2025年新增产量将达到27.6万个单位,年增长率将达到105%,产能实现翻倍,HBM需求强劲也让封装、材料、设备等环节随之受益。概念股包括同有科技,强力新材,三超新材等。


追加内容

本文作者可以追加内容哦 !