更新时间:作者:佚名
老铁们,大家好,相信还有很多朋友对于一篇文章读懂“存储与计算一体化”和的相关问题不太懂,没关系,今天就由我来为大家分享分享一篇文章读懂“存储与计算一体化”以及的问题,文章篇幅可能偏长,希望可以帮助到大家,下面一起来看看吧!
今天这篇文章,我们要讲一个近几年非常流行的概念:——存储计算一体化。
为什么提出“存储与计算一体化”?

内存中计算,英文称为Compute In Memory,简称CIM。顾名思义,它将存储和计算结合在一起。
众所周知,存储和计算是我们处理数据的两种基本方式。自从计算机诞生以来,我们采用的主流计算架构就是著名的冯诺依曼架构。在该架构中,存储和计算是两个相对独立的模块。存储负责数据访问,计算负责运算。
冯·诺依曼架构
我们可以将存储视为配菜,将计算视为炒菜。只有两者共同努力,才能完成菜肴的准备(完成计算任务)。
从理论上讲,如果想要更快地烹饪食物,一方面需要加快烹饪速度(通过提高芯片的计算能力,比如采用更先进的工艺),另一方面需要加快配菜速度。
这个速度,简单来说,就是存储设备和计算芯片(CPU、GPU等)之间的数据传输能力。如果配菜上得太慢,炒菜厨师就得等待,影响整体效率。
之前给大家介绍存储的时候,我说过计算机存储是典型的分层策略。存储设备距离处理器(计算单元)越近,速度越快,容量越小。存储设备(单元)有缓存(一级/二级/三级)、内存、磁盘(固态/机械)、外部存储(本地磁盘阵列、云存储)等不同类型。
这是由存储设备的成本决定的。存储设备速度越快,成本就越高。所有的事情都用最快的存储是不现实的,而且代价也太高,所以就有了分层存储机制。
我们已经使用冯·诺依曼架构数十年了。由于数据存储和计算明显分离,因此也称为存储和计算分离。
进入互联网时代后,由于数据量爆发式增长,对数据计算效率的要求越来越高。这种传统架构开始暴露出能力缺陷。
尤其是近年来,人工智能的兴起,让数据计算的强度提升了几个层次。计算芯片疯狂加速,但存储传输速率却跟不上,从而产生了著名的两堵墙——“存储墙”和“电源墙”。
所谓“存储墙”,是指存储设备与处理器之间的数据传输速度,远远落后于处理器的运算速度。就像炒菜师傅再好,配菜师傅跟不上节奏也只能匆匆忙忙。
业界提出AI计算所需的存储和计算通道速率为1PB/s。 SRAM的10-100TB/s和DRAM的40GB-1TB/s还远远不能满足要求。
“电力墙”是指数据传输过程中能源消耗巨大,导致整个系统的能效比不理想。这就像必须雇佣很多帮手来快速准备菜肴一样,导致劳动力成本大幅增加。
例如,在7nm工艺下,数据传输的功耗甚至达到惊人的63.7%,远远大于数据计算的功耗。
大家应该都听说过HBM技术。
HBM(高带宽内存)是一种试图解决“存储墙”和“电源墙”问题的新型存储技术。 Nvidia 等芯片制造商使用3D 封装等先进工艺将存储单元和计算单元封装在一起。通过缩短两者之间的距离,可以提高数据传输速度并降低能耗。
HBM在一定程度上缓解了这个问题,但并没有从根本上改变存储与计算分离的现状。因此,业界提出了新的解决方案,就是——存储与计算一体化。
既然存储和计算分离会导致带宽瓶颈,那么直接将存储和计算结合起来,让数据可以在存储过程中进行计算,或者可以在计算过程中直接访问存储,从而减少数据传输次数不就可以了吗?
这样可以提高整体计算效率,也可以降低功耗,彻底解决“两堵墙”问题。
事实上,我们的大脑就是一个典型的存储和计算结构。神经元负责存储信息(记忆)和处理信息(思考)。这种结构使大脑能够以极高的效率和极低的能耗处理复杂的任务。
存储计算一体化的发展历史
存储与计算一体化的研究其实很早就开始了。
早在1969年,斯坦福研究院的考茨等人就首先提出了存储与计算一体化计算机的概念。但受限于当时的技术和工艺,这一概念仅停留在理论研究阶段,并未得到实际应用。
后来,为了实现存储和计算的一体化,科学家们进行了大量的研究和尝试,但进展仍然缓慢。
进入21世纪后,芯片和半导体技术日益成熟,存储与计算融合的曙光逐渐显现。科学家发现,某些特殊材料或设备可以在存储数据的同时在存储单元内部执行简单的逻辑运算。这将*减少数据传输的数量和功耗。
2010年,HP实验室的Williams教授团队提出并验证了利用忆阻器来实现简单的布尔逻辑函数(并、交、减等)。
2016年,加州大学圣塔芭芭拉分校(UCSB)谢元教授团队提出利用电阻式开关存储器(RRAM)构建存储与计算一体化架构的深度学*神经网络(PRIME)。与传统冯诺依曼架构解决方案相比,PRIME可降低功耗约20倍,速度提升约50倍。
2017年,在顶级微处理器年度大会(Micro 2017)上,英伟达、英特尔、微软、三星、苏黎世联邦理工学院和加州大学圣塔芭芭拉分校均推出了各自的存储计算一体化系统原型,在学术界和工业界掀起了“存储计算一体化”的热潮。
近年来,随着AI浪潮的到来,海量大模型训练和推理计算需求爆发,引发算力行业新一轮增长。存储与计算融合已进入快速发展的快车道。
除了传统芯片巨头加紧研究外,还有不少创业公司“扎堆”进军市场。国内公司有平芯科技、厚墨智能、智存科技、一竹科技、智芯科、千芯科技、九天瑞芯等,国外有Mythic、Syntiant等公司。
2023年9月,清华大学团队宣布研发出全球首款全系统集成、支持高效片上学*的忆阻器存储计算一体化芯片,再次让“存储计算一体化”成为热搜话题。
如今,存储与计算的融合已成为业界最热门的研究方向,并正在加速从理论研究到产业落地。
存储与计算一体化的技术路线
接下来我们看一下存储与计算一体化的具体技术分类。
目前,业界根据存储和计算的距离将存储和计算分为三类,即近存计算、内存处理和内存计算。
处理近内存(PNM)
近存计算通过芯片封装和电路板组装将存储单元和计算单元集成在一起,以增加内存访问带宽,减少数据移动,提高整体计算效率。
前面提到的HBM共封装就是近内存计算。
近存计算分为存储上移和计算下移。 HBM属于存储迁移。使用板集成技术将计算能力下移,将数据处理能力转移到内存。典型的解决方案是CSD 计算存储。
严格来说,近内存计算仍然是一种存储计算分离的架构。该路线比较容易实现,目前广泛应用于人工智能、大数据、边缘计算、物联网等场景。
内存处理(PLM)
内存内处理是在芯片制造过程中将“存储”和“计算”集成到同一个芯片中,使内存本身具有一定的计算能力。
内存处理本质上仍然是存储和计算的分离。与近内存计算相比,“存储”和“计算”的距离更近。
目前,业界大部分内存内处理解决方案都是为内存(DRAM)芯片添加“计算能力”。比较典型的产品形式有HBM-PIM(三星)和PIM-DIMM。此类方案适用于语音识别、数据库索引搜索、基因匹配等场景。
内存计算(ClM)
内存计算是真正的存储与计算的融合(也属于业界狭义上所说的存储与计算的融合)。
在芯片设计过程中,不再区分存储单元和计算单元,直接消除“存储”和“计算”的界限,真正实现存储和计算的完全融合。
该方案主要服务场景为AI计算。
AI深度学*算法中包含大量的矩阵乘法运算,本质上是乘加(MAC)运算。
存储与计算一体化技术可以将这些操作直接映射到存储结构中,对存储单元的核心电路进行修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。这会带来极高的能源效率和极低的延迟。
存储计算一体化芯片总体架构
集成存储和计算存储介质
之前肖枣君给大家介绍半导体存储的时候说过,存储器分为易失性存储器和非易失性存储器。
内存计算电路也可以基于这两个存储器。
易失性是指当电源关闭时数据就会丢失的一种存储器,例如SRAM和DRAM。
非易失性,断电时数据不会丢失,如传统闪存NOR Flash和NAND Flash,以及一些新型存储器:电阻式存储器RRAM(ReRAM)、磁存储器MRAM、铁磁存储器FRAM(FeRAM)、相变存储器PCRAM(PCM)等。
SRAM、DRAM、Flash等都是基于电荷的移动来完成数据存储的成熟技术。
DRAM成本低、容量大,但可用的eDRAM IP核工艺节点并不先进,读取延迟(Latency)也较大,需要定期刷新数据。 Flash是一种非易失性存储设备,具有成本低廉的优势,一般适用于算力较小的场景。 SRAM在速度方面有很大优势,能效比几乎是最高的,容量密度稍小,精度增强后可以保证更高的精度。一般适用于云计算等大算力场景。
目前,新型记忆的研究非常热门。例如RRAM、MRAM等,根据电阻大小的变化来完成数据存储功能。
在新型存储器中,忆阻器(RRAM)是研究最活跃的。
RRAM采用电阻调制来实现数据存储,并读出电流信号代替传统的电荷信号,以获得更好的线性电阻特性。然而,当前RRAM工艺良率提升仍在进行中,非易失性存储器固有的可靠性问题仍然需要面对。
需要说明的是,内存计算主要包括模拟和数字两种实现方式。
模拟内存计算能效高,但误差较大。它实现了低功耗、低位宽的整数乘法和加法计算,适用于低精度、低功耗的计算场景,例如端侧可穿戴设备。模拟内存计算通常采用FLASH、RRAM、PRAM等非易失性介质作为存储设备,这些介质具有高存储密度和高并行性,但对环境噪声和温度非常敏感。
数字内存计算误差低,但单位面积功耗较大。适用于高精度、功耗不敏感的计算场景,例如云AI场景。数字存储与计算一体化主要采用SRAM和RRAM作为存储器件,具有高性能、高精度的优点,并具有良好的抗噪声能力和可靠性。
存储计算一体化应用场景
前面说过,存储与计算的融合自然适合AI相关的计算场景。
自然语言处理、信息检索、图神经网络、智能决策、体现智能等人工智能应用对算力效率和系统能耗有着极高的要求。传统的“存储与计算分离”很难处理,但存储与计算一体化就非常合适了。
除了AI之外,还有AIoT智能物联网产品。碎片化的AIoT市场对先进工艺芯片的需求并不强烈。而是更关注芯片的成本、功耗、开发难度。
存储与计算一体化芯片在这些方面都具有优势,非常适合采用。
在一些算力较大的场景,比如云AI计算,也会用到存储和计算。
目前的AI计算基本上都是基于GPU的。 GPU 在计算能力和能源效率方面都无法与专用加速芯片(ASIC)竞争。在云计算算力市场,GPU单一架构已经无法适应不同AI计算场景的算法离散化特点。比如图像、推荐、NLP领域,各自都有自己的主流算法架构。
新型存储计算一体化芯片具有能效优势,也适合固定场景的计算任务,应用潜力巨大。
此外,存储与计算集成芯片还有一些其他的延伸应用,比如集成传感、存储与计算、类脑计算等,这些也是潜力巨大的市场领域。
存储与计算融合面临的挑战
存储与计算融合的技术前景非常广阔,但我们也必须认识到,这项技术的落地和普及还面临诸多挑战。
首先,存在技术挑战。
存储与计算一体化采用了新的存储技术,这对半导体技术提出了更高的要求。在芯片架构、电路设计、材料选择等方面,还需要进一步研究和创新。
其次,是生态挑战。
作为一个新兴领域,存储与计算一体化技术尚未完全建立其生态系统。
例如,在芯片设计阶段,由于存储计算一体化芯片与常规芯片设计方案不同,目前市场上还没有成熟的专用EDA工具来辅助设计和仿真验证。芯片流片后,没有成熟的工具辅助测试。在芯片实现阶段,还没有专门的软件与之相匹配。
为此,需要行业协同,进一步提高设计工具链的成熟度,实现对自动化EDA工具和跨平台编译器的支持,加强代工厂标准IP库建设,优化多场景制造成本,从而提高产业链整体协同能力。
最后,还有来自市场的挑战。
尽管存储与计算一体化技术具有广阔的市场前景,但市场仍存在诸多不确定因素。存储计算一体化芯片架构场景通用性和规模扩展能力较差。传统的存储计算分离架构仍然占据主导地位,存储计算一体化技术需要与传统架构竞争。
内存计算只适用于已经有大存储需求的场景。对于存储要求不高的场景,增加大内存引入内存计算会增加成本,而且会适得其反。
用户非常关心性价比,需要考虑用户的需求和场景是否能够接受存储和计算的融合。存储与计算融合,我们在AI的发展过程中也必须找到自己的实现场景。