相变存储的“存算一体”觉醒:从存储级内存到AI加速的产业跨越
发布时间:2026-06-26 03:14 浏览量:1
在存储技术的层级结构中,DRAM速度快但容量有限且易失,NAND闪存容量大但速度慢且写入寿命有限,两者之间的性能鸿沟是计算机体系结构中最顽固的瓶颈之一。相变存储器(PCM)利用硫系化合物在晶态和非晶态之间的电阻差异来存储数据,其读取延迟接近DRAM,容量可扩展至接近NAND的水平,且具有非易失性——这些特性使其被视为"通用存储器"的最有力候选之一。相变存储器正处于从"特定应用存储"向"通用存储级内存"的产业化跨越阶段,其在人工智能加速和存内计算中的差异化价值正在获得系统性验证。
相变存储器的核心材料是硫系化合物(如GST合金),其在晶态下具有较低的电阻率,在非晶态下具有较高的电阻率,两种状态之间的电阻差异可达数个数量级,足以可靠地编码二进制信息。写入操作(从晶态到非晶态)通过将材料加热至其熔点以上后快速淬火来实现,快速冷却使原子排列冻结在无序的非晶态。从非晶态到晶态的擦除操作通过将材料加热至结晶温度以上并维持一定时间,使原子重新排列为有序的晶格结构。
上图展示了相变存储单元的结构原理:左图为传统存储单元与投影式存储单元的对比,展示了晶态与非晶态相变区域;中间图展示了存储阵列中通过晶态("1")和非晶态("0")编码数据的机制;右图展示了RESET(写入)、SET(擦除)和READ(读取)三种操作的电压/温度脉冲波形,RESET脉冲需将材料加热至熔点(T_melt)以上后快速冷却,SET脉冲则需将材料维持在结晶温度(T_cryst)以上一段时间。
相变存储器的读取操作通过施加低电压测量电阻值来完成,读取过程不改变材料的相态,读取功耗远低于写入功耗。在读取操作期间,施加的电压必须足够低以避免无意中加热材料改变其相态,这限制了读取速度的上限。相变存储器的电阻漂移——非晶态在长时间存储后电阻值逐渐上升——在多位存储单元中可能使状态之间的裕量随时间缩小,在特定存储周期后导致读取错误。
相变存储器的非易失性、纳秒级读取延迟和字节可寻址特性使其可以部署在"存储级内存"(SCM)的位置——一个位于DRAM和固态硬盘之间的新存储层级。
上图左图为存储层级金字塔,清晰展示了SCM在SRAM、DRAM与SSD/TLC NAND之间的定位;右图为经典的处理器-内存性能差距图(Hennessy & Patterson),直观展示了处理器与内存性能之间持续扩大的鸿沟,这正是SCM技术试图弥合的核心问题。
在SCM架构中,操作系统的页面缓存和文件系统可以直接映射到相变存储器的地址空间,应用程序通过内存映射I/O直接访问持久化数据,省去了从固态硬盘读取数据到DRAM的块级传输开销。SCM的延迟比固态硬盘低数个量级,在数据库事务处理和键值存储等I/O密集型应用中,将热数据从固态硬盘迁移至相变存储器可将读写延迟压缩至原延迟的较小比例,吞吐量在特定工作负载下可提升至原来的数倍。相变存储器的写入寿命(每位可擦写次数)远低于DRAM(DRAM的写入寿命几乎无限),在SCM部署中需通过磨损均衡算法和写入缓冲策略避免频繁写入集中在同一存储单元上,在特定的写入放大系数下,SCM的有效使用寿命可达到与固态硬盘在类似工作负载下相当的水平。
相变存储器作为存储设备的角色之外,其存储单元的模拟电阻特性使其具备执行存内计算的能力。在深度神经网络的推理中,矩阵乘法是占比最大的运算,其本质是输入向量与权重矩阵之间的乘加操作。
上图展示了存内计算的核心架构:左上为神经网络层间连接与矩阵乘法映射;右上为基于交叉阵列的存内计算原理——输入向量以电压形式施加于行线,各列输出电流即为电阻与输入电压的乘积之和(基尔霍夫定律),直接完成向量-矩阵乘法;左下为存内计算芯片实物照片;右下为边缘AI部署的主流硬件加速方案。
相变存储器的每个存储单元可以存储一个权重的值(以其电阻大小来模拟权重的大小),当输入向量以电压的形式施加在存储阵列的行上时,每列的输出电流等于该列各单元的电阻与输入电压的乘积之和(基尔霍夫定律),这恰好完成了输入向量与权重矩阵的乘加操作。整个运算在存储阵列内部完成,数据不需要从存储单元搬运到计算单元,消除了"冯·诺依曼瓶颈"的数据搬运开销。
基于相变存储器的存内计算在AI推理任务中展现出显著的优势。在特定规模的神经网络推理中,相变存内计算系统的能效(每瓦特可完成的乘加操作次数)在特定精度和网络规模下可达到GPU的数倍至数十倍,其推理延迟在批量处理下的数据交换阶段与GPU的可比性评估需结合整体吞吐量进行综合分析。相变存储器的模拟计算精度(通常4-8位)满足推理任务的需求,但由于模拟计算的非理想特性(单元间电阻值分布的变化和温度漂移)需要进行系统级校准,其有效精度在特定温度区间内需在出厂时进行校准并在运行过程中定期更新校准值。
相变存储器的存储密度可通过"多层存储单元"(MLC)技术来提升——在单个存储单元中区分多个电阻状态,每个状态对应两位或更多位的数据。
上图清晰展示了SLC(单层单元,1 bit/cell)、MLC(多层单元,2 bits/cell)和更高密度MLC(4 bits/cell)的电阻区间划分原理。从SLC的"0/1"两个区间,到MLC的"00/01/10/11"四个区间,再到16个状态的4 bits/cell,存储密度成倍提升的同时,对电阻区分精度的要求也大幅提高。
在四层存储单元中,晶态(低电阻)表示"00",部分晶态表示"01"和"10",非晶态(高电阻)表示"11"。MLC的密度提升以读取和写入的复杂度为代价——写入时需要精确控制加热和冷却的脉冲序列来达到目标电阻状态,其写入延迟比单层存储单元更长,写入脉冲的精度在器件之间的温度变异和材料老化的影响下需经过程序验证步骤来校准。MLC的读取需要模数转换器将模拟电阻值转换为数字编码,其转换精度和速度在多位数据的区分中决定了读取操作的有效性和延迟。MLC相变存储器的有效存储密度在消费级产品中已与NAND闪存的密度位于可比的区间,但在写入寿命和数据保持时间方面与单层存储单元存在差异。
相变存储器的制造与CMOS逻辑工艺兼容,可集成在逻辑芯片的"后道工序"(BEOL)中。
上图展示了CMOS后道工序(BEOL)集成的技术细节:左图为3D顺序集成的截面透射电镜(TEM)图像,展示了M1-M8金属层、FDSOI CMOS层和键合界面的结构;中间图为BEOL中集成TFT/存储器件的截面示意图,展示了从FEOL到M9的金属层堆叠结构;右图为相变存储单元的扫描电镜(SEM)图像,展示了Top Electrode、OTS选择器、PCM层和Bottom Electrode的垂直结构。
相变存储单元(包括加热电极、GST材料和顶部电极)在CMOS晶体管完成前端制造后沉积和刻蚀,位于金属互连层之间。BEOL集成的热预算受限于铝互连线的熔点和低k介电材料的稳定性,GST的沉积和退火温度必须保持在低于特定值以下。相变存储器的制造在特定制程节点上已嵌入到标准CMOS工艺平台中,与逻辑电路的单芯片集成使其在嵌入式存储和存内计算领域的部署具有成本优势。相变存储器的BEOL工艺缺陷密度(单元与晶体管之间的接触电阻和GST薄膜的均匀性)与NAND闪存的制造良率在相同晶圆尺寸下的对比中,其单元级缺陷率的变化趋势与工艺平台的成熟度和晶圆厂之间的转移能力相关。
上图展示了相变存储技术的产业化面貌:左图为Phase-Change Memory (PCM)集成电路芯片实物照片,展示了封装在PCB板上的PCM芯片;中间图为投影式相变存储器件的微观结构(Nature Communications),对比了传统单元与投影式单元在写入和读取过程中的物理机制;右图为GST合金的原子结构(Communications Physics),展示了亚稳态岩盐结构、立方相和六方相的晶体排列,以及Ge/Sb/Vc层的原子分布。
相变存储器正从实验室走向产业化,其在存储级内存(SCM)和存内计算(In-Memory Computing)两大方向的突破,有望重塑存储与计算的边界。从Intel Optane的先行探索,到IBM、三星等厂商在3D XPoint和PCM阵列上的持续投入,相变存储的"存算一体"觉醒正在从概念验证走向规模化应用。在AI推理加速领域,基于PCM的模拟存内计算架构以其高能效、低延迟的特性,为边缘计算和数据中心提供了超越传统冯·诺依曼架构的新范式。随着GST材料工程、MLC精度控制和BEOL集成工艺的持续优化,相变存储器有望在未来五到十年内实现从"特定应用存储"到"通用存储级内存"的产业化跨越,成为后摩尔时代存储技术栈中的关键层级。