$北京君正(SZ300223)$ MCAIMem才是本次炒作的逻辑

 人工智能芯片通常使用 SRAM 存储器作为缓冲器(buffers),其可靠性和速度有助于实现高性能。然而,SRAM 价格昂贵,需要大量的面积和能耗。以前的研究曾探讨过用非易失性存储器等新兴技术取代 SRAM,因为非易失性存储器具有快速读取内存和单元面积小的特点。尽管有这些优势,但非易失性存储器的写入内存访问速度慢、写入能耗高,因此在需要大量内存访问的人工智能应用中,非易失性存储器的性能无法超越 SRAM。一些研究还将 eDRAM 作为一种面积效率高的片上存储器进行了研究,其存取时间与 SRAM 相似。但是,刷新功耗仍然是一个令人担忧的问题,性能、面积和功耗之间的权衡尚未解决。


为了解决这个问题,在本文中我们提出了一种新型混合 CMOS 单元存储器设计,通过结合 SRAM 和 eDRAM 单元,平衡了人工智能存储器的性能、面积和能效。我们考虑了存储器中一个 SRAM 和七个 eDRAM 单元的比例,以利用混合 CMOS 单元存储器实现面积缩减。


此外,我们还利用 DNN 数据表示的特点,集成了非对称 eDRAM 单元,以降耗。为了验证我们提出的 MCAIMem 解决方案,我们进行了大量仿真,并对传统 SRAM 进行了基准测试。结果表明,MCAIMem 在面积和能效方面明显优于这些替代方案。具体来说,与 SRAM 设计相比,我们的 MCAIMem 可以减少 48% 的面积和 3.4 倍的能耗,而且不会造成任何精度损失。

2024-02-20 22:18:02 作者更新了以下内容

Mcaimem完美替代替代昂贵的SRAM


半导体行业观察



摘要:


人工智能芯片通常使用 SRAM 存储器作为缓冲器(buffers),其可靠性和速度有助于实现高性能。然而,SRAM 价格昂贵,需要大量的面积和能耗。以前的研究曾探讨过用非易失性存储器等新兴技术取代 SRAM,因为非易失性存储器具有快速读取内存和单元面积小的特点。尽管有这些优势,但非易失性存储器的写入内存访问速度慢、写入能耗高,因此在需要大量内存访问的人工智能应用中,非易失性存储器的性能无法超越 SRAM。一些研究还将 eDRAM 作为一种面积效率高的片上存储器进行了研究,其存取时间与 SRAM 相似。但是,刷新功耗仍然是一个令人担忧的问题,性能、面积和功耗之间的权衡尚未解决。


为了解决这个问题,在本文中我们提出了一种新型混合 CMOS 单元存储器设计,通过结合 SRAM 和 eDRAM 单元,平衡了人工智能存储器的性能、面积和能效。我们考虑了存储器中一个 SRAM 和七个 eDRAM 单元的比例,以利用混合 CMOS 单元存储器实现面积缩减。


此外,我们还利用 DNN 数据表示的特点,集成了非对称 eDRAM 单元,以降耗。为了验证我们提出的 MCAIMem 解决方案,我们进行了大量仿真,并对传统 SRAM 进行了基准测试。结果表明,MCAIMem 在面积和能效方面明显优于这些替代方案。具体来说,与 SRAM 设计相比,我们的 MCAIMem 可以减少 48% 的面积和 3.4 倍的能耗,而且不会造成任何精度损失。


引言


深度神经网络(DNN)加速器已成为各种机器学习系统的重要组成部分。DNN 需要存储大量参数才能实现高精度,因此对内存的要求很高。DNN 已在图像识别、物体检测、语言翻译和自动驾驶等广泛应用中证明了其有效性。最先进的 DNNs 需要数十亿次运算和巨大的内存来存储激活和权重,transformer的大小在两年内增加了 240 倍就是证明 。专用内存导致尖端 DNN 加速器更多地使用较大的片上内存。例如,在 Eyeriss(如图 1.(a) 所示)中,SRAM 占芯片面积的 79.2%,占功耗的 42.5%;在 Simba 等芯片设计中,SRAM 占芯片面积的 67%;而最新的晶圆级芯片可容纳高达 18 GB 的片上存储器。由此可见,使用片上 SRAM 存储器需要更高的功耗和面积。



6T SRAM 长期以来一直是嵌入式存储器的首选,因为它具有逻辑兼容的位单元、快速差分读取和静态数据保持能力。然而,由于其相对较大的单元尺寸以及在低工作电压下读写的竞争要求,使得 6T SRAM 难以在先进的 CMOS 技术中扩展。


最近,非易失性存储器因其单元尺寸小、单元泄漏低和快速读取访问操作而引起了研究界的兴趣。早期的研究试图用 ReRAM、FeFET 等非易失性存储器取代片上 SRAM。然而,非易失性存储器的写入操作比读取操作更慢,能耗更高。这会对 DNN 应用中的人工智能芯片性能产生负面影响,例如片上学习,片上读取和写入操作都是必须的。


片上 SRAM 的另一个替代品是嵌入式动态随机存取存储器 (eDRAM)。表 I 比较了采用相同 65 纳米低功耗 CMOS 工艺的不同嵌入式存储器。我们发现,与 6T SRAM 相比,1T1C eDRAM(1 个晶体管和 1 个电容器)的位元密度高 4.5 倍,静态功耗低 5.0 倍,甚至包括刷新功耗。这使得芯片尺寸更小、存储器访问速度更快、存储器密度更高,这是在给定功耗限制条件下提高微处理器性能的最有效方法。


然而,非易失性存储器和传统 eDRAM(1T1C)需要复杂的制造工艺,因为它们需要专门的材料才能在晶圆上部署。


3T(三晶体管)和 2T(双晶体管)CMOS eDRAM 增益单元设计是嵌入式动态随机存取存储器电路,与传统 SRAM 相比,每个存储单元使用的晶体管数量更少。因此密度更高,面积更小。3T/2T eDRAM 单元使用逻辑器件制造,因此只需进行极少的修改即可在标准 CMOS 工艺中构建。工业设计表明,使用三个晶体管可实现比 SRAM 高约 2 倍的位元密度。为此,eDRAM 增益单元(3T 和 2T)可在不改变制造技术的情况下减少片上 SRAM 面积。


如表 I 所示,与片上 SRAM 相比,eDRAM 增益单元在面积和能耗方面都有优势。具体来说,与 SRAM 相比,2T eDRAM 的静态功耗降低了 5.26 倍。然而,由于保持时间较短,使用 eDRAM 增益单元会导致大量刷新功耗,从而限制了 eDRAM 增益单元相对于片上 SRAM 的功耗优势。因此,在人工智能芯片中实施 eDRAM 增益单元仍然是一个可行的考虑因素。


在深度学习应用中,INT8 已成为理想的数值表示方法,可在各种任务中保持精度。在作为 DNN 量化标准的 8 位整数格式中,发生在最重要位(MSB:Most Significant Bits)上的错误比发生在最不重要位(LSB:Least Significant Bits)上的错误权重更大。根据量化后 DNN 的 8 位整数数据往往聚集在零点附近的观察。对于这种接近零的小整数,正值的 MSB 通常为 0,负值的 MSB 通常为 1。这种模式提供了通过位翻转来增加正整数中 1 的数量的机会,从而在 DNN 数据中形成 1 的优势。零位较多的 LSB 由于重要性较低,可以承受误差,对最终精度的影响很小。


最近的一项研究提出了一种非对称 DNN 数据编码器,在保持 DNN 性能的同时,提高了 INT8 表示法中 0 位的频率。这一想法可与使用 2T eDRAM 的片上数据存储结合起来进一步利用,2T eDRAM 显示了位-1 和位-0 之间数据保留的不对称性,其中位-1 比位-0 提供更少的静态和访问能量。


将 6T SRAM/2T eDRAM 混合设计与一个增强型数据编码器(增强 INT8 表示法中位-1 的普遍性)相结合,可以优化芯片的面积和能耗。因此,我们推出了 MCAIMem,一种基于 SRAM 和非对称 eDRAM 的混合存储单元,设计用于节省面积和能耗的片上人工智能存储器。MCAIMem 适应性强,能够满足各种内存容量和性能需求,因此适用于从紧凑型边缘设备到大型数据中心等各种人工智能应用。我们的贡献如下:


据我们所知,我们首次提出了用于片上人工智能存储器的 6T SRAM 和 2T eDRAM 混合单元。我们对 2T eDRAM 单元进行了修改,使其与 SRAM 单元保持一致,并提高了容量以延长保留时间。我们的混合存储器单元大大减少了人工智能加速器的片上存储器占用空间

我们提出的共电压检测放大器(CVSA:common voltage sense amplifier)可同时用于 SRAM 和 2T eDRAM 单元。通过控制 CVSA 的参考电压,我们可以延长 2T eDRAM 的刷新周期,从而降低 MCAIMem 的动态刷新能耗。

我们利用了非对称 2T eDRAM,其中存储 bit-1 比 bit-0 消耗更少的能量。结合 DNN 数据的单增强编码器/解码器解决了 eDRAM 的可靠性问题,如刷新率和保持时间,从而显著降低了 MCAIMem 的静态功耗。

如图 1.(b) 所示,我们的 MCAIMem 通过融合 6T SRAM 和 2T eDRAM 的优势,创建了高性能、高能效和紧凑型混合存储器解决方案,从而将片上人工智能存储器系统的面积消耗减少了 48%,能效提高了 3.4 倍。

在第二节,我们介绍了增益单元 eDRAM、外围电路以及 DNN 数据表示中使用的二乘法的背景信息。第三节详细介绍了人工智能存储器的综合设计和运行机制。第四节讨论了 MCAIMem 对人工智能应用的影响。第五节介绍了 45 纳米工艺技术的硬件评估结果,包括电路和系统两个层面。第六节探讨了在人工智能应用中采用 eDRAM 的最新研究成果。最后,第七节得出结论。


背景


本节介绍了采用全 CMOS 技术和操作的 2T/3T eDRAM 增益单元电路设计的背景,回顾了 DNN 中的二乘表示法,并总结了为 AI 芯片设计混合 SRAM 和 eDRAM 单元存储器所面临的挑战和要求。


1.嵌入式 DRAM 单元和传感设计


3T 和 2T eDRAM:

与传统 SRAM 相比,3T 和 2T eDRAM 设计每个存储单元使用的晶体管更少,因此面积更小,密度更高,位元密度大约提高了 2 倍。最近的研究表明,eDRAM 的增益单元目前正在积极开发中,最新的实现采用了 7-10 纳米 FinFET 技术。如图 1.c 所示,在休眠模式下,eDRAM 单元的漏电流低于 SRAM,从而降低了静态功耗,包括漏电功耗和刷新功耗。


eDRAM 单元的单元写入边际优于 SRAM,因为在增益单元(gain cell)中,存取器件(access device)和交叉耦合锁存器(cross-coupled latch)之间不存在竞争。然而,传统增益单元的存储电容较小,漏电流在工艺-电压-温度(PVT:

Process-Voltage-Temperature)变化下呈指数变化,导致刷新功耗较高和/或读取电流较小,因而保持时间较短。前者源于更频繁的刷新操作,后者则源于更快的单元电压损耗。


要理解 eDRAM 增益单元,可以考虑传统 3T 增益单元的基本保持特性。在图 2.(a) 所示的 3T NMOS 单元中,PW 代表写入访问器件,PS 代表存储器件,PR 代表读取访问器件。在 3T eDRAM 中,PS 的栅极电容用于存储比特-1 或比特-0 表示的电荷电压。与 1T1C eDRAM 相比,PS 的容量较小。因此,3T 增益单元采用解耦读写结构,读取数据时使用独立的读字线(RWL)和读位线(RBL),写入数据时使用写字线(WWL)和写位线(WBL)。这提高了位元设计中的读写边际和灵活性,使增益单元在未来的技术节点中能够很好地扩展。


在数据保留模式下,PW 和 PR 将被停用,使存储节点处于浮动状态。周围器件的次阈值、栅极和结漏会导致浮动电压随时间变化。数据保留时间取决于进入存储节点的总漏电流。在 SPICE 中进行的蒙特卡洛仿真,显示了采用低功耗 CMOS 45nm 技术的 1 Mb 存储器宏中单元与单元之间的变化,如图 2.(a) 所示。当读取参考偏置电平为 0.65 V 时,位 1 电压和位 0 电压会在相同的保持时间内接近读取参考偏置电平。



创新的 2T 增益单元设计采用了更少的晶体管,其特点是由 RWL 驱动的单个高驱动电流 NMOS 读取器件和一个 PMOS 写入器件,可保持临界 bit-1 电压在 VDD 附近。图 2.(b) 展示了 2T eDRAM 单元,其结构和工作原理与 3T eDRAM 有很大不同。之前的 3T eDRAM 单元使用 PMOS 器件作为写入访问晶体管,通过 PMOS 栅极重叠和结点泄漏来抵消 NMOS 栅极泄漏,从而延长单元保持时间。


然而,在 PVT 变化下,漏电补偿证明是不够的,因为 NMOS 存储设备的反相沟道栅极漏电在比特-1 中占主导地位,如图 2(a)所示。


在图 2.(b) 所示的 2T eDRAM 单元中,读取访问晶体管由 RWL 信号取代,预充电电平设置为 VDD。存储晶体管基本上处于关闭状态,因此其栅极漏电流微不足道。由于读取路径不存在阈值下漏电,因此建议采用低 Vth 晶体管,以进一步提高读取速度。在 0.65V 读取参考偏置下,存储单元表现出不对称性,位-1 不会改变,而位-0 容易翻转为位-1。均衡的 P 和 N 扩散密度是所提出的 2T 不对称单元的另一个优点。本文旨在利用这一特性最大限度地减少静态和动态能耗,因为位-0 的翻转需要更多的能量。


2T eDRAM 检测放大器:

在增益单元中,NMOS 栅极电容用于存储电荷,使其对电压变化非常敏感。直接访问 NMOS

追加内容

本文作者可以追加内容哦 !