忆阻深度学习系统的建模与仿真：现有工作及未来展望

33 浏览量更新于2023-12-05 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列13（2022）100116内存中忆阻深度学习系统的建模和仿真：当前工作CoreyLammiea，WeiXiangb，MostafaRahimi Azghadia，a詹姆斯库克大学科学与工程学院，昆士兰4814，澳大利亚b拉筹伯大学工程与数学科学学院，维多利亚3086，澳大利亚A R T I C L E I N F O保留字：器件建模电路仿真忆阻器内存计算深度学习A B S T R A C T深度学习（DL）系统在许多具有挑战性的工程应用中表现出无与伦比的性能。随着这些系统的复杂性不可避免地增加，它们需要更高的处理能力并消耗更大的功率，而这在资源受限的处理器（如物联网（IoT）边缘设备）中是不容易获得的。忆阻内存计算（IMC）系统对于DL，名为忆阻深度学习系统（MDLS），使用新兴的存储器设备在相同的物理位置执行重复操作的计算和存储，可以用于增强传统DL架构的性能;大幅降低功耗和延迟。然而，忆阻器件（诸如电阻式随机存取存储器（RRAM）和相变存储器（PCM））难以小批量制造并且成本过高，并且易于产生必须考虑的各种器件非理想性。因此，流行的仿真框架，用于模拟MDLS电路级实现之前，正在蓬勃发展。在本文中，我们提供了一个调查现有的模拟框架和相关工具，用于模拟大规模MDLS。此外，我们对现代化的开源仿真框架进行了直接的性能比较，并为未来的建模和仿真策略和方法提供了见解。我们希望这篇论文对大型计算机和电气工程社区有益，并能帮助读者更好地了解MDLS开发的可用工具和技术。1. 介绍传统上，机器学习（ML）和深度学习（DL）系统使用采用冯·诺依曼计算架构的硬件平台来训练和部署。虽然近年来，图形处理器单元（GPU）已被用于大规模并行化和加速这些工作负载的性能[1]，但它们仍然容易出现性能瓶颈，这是由于在物理上分离的内存和处理单元之间来回移动的数据量造成的IMC是一种新颖的非冯·诺依曼方法，其中某些计算任务在存储器本身中执行[2]，这有可能缓解这一瓶颈。IMC系统可以通过将存储器设备布置在交叉结构中来实现，其中它们可以用于执行各种逻辑和算术运算[3]。这些存储器器件可以使用传统的基于电荷的存储器技术（诸如静态随机存取存储器（SRAM））或新兴的忆阻器件技术（诸如RRAM）来制造，这些技术在第2节中被介绍和讨论。特别是记忆器件，以促进加速和改善功率效率ML和DL系统，因为它们可以是被动的，可重新编程的，非易失性的[3如图所示 1，使用阻RRAM器件构造的交叉开关架构可以用于有效地实现各种存储器内计算操作，包括乘法累加（MAC）和VMM操作。文献中的先前工作已经利用忆阻器件的物理特性来实现神经形态架构的各种常用操作和组件[9传统上，IMC系统已被用于实现大脑启发的异步神经形态架构[14]，使用忆阻器件实现人工突触。然而，它们也能够加速VMM，这是DNN中最主要的操作，这使得它们对深度学习系统更具吸引力[15，16]。目前，几种忆阻器件技术，包括RRAM，和PCM，如图2所示，正在积极研究[3]。然而，尽管持续不断的努力，他们往往是各种各样的∗ 通讯作者。电子邮件地址：mostafa. jcu.edu.au（M. Rahimi Azghadi）。https://doi.org/10.1016/j.array.2021.100116接收日期：2021年7月22日;接收日期：2021年10月28日;接受日期：2021年11月30日2021年12月20日在线提供2590-00562021的自行发表通过Elsevier Inc.这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayC. Lammie等人阵列13（2022）1001162−∞−∞Fig. 1. （a）一种模块化忆阻交叉杆平铺架构，包含来自两个线性和展开卷积层的参数;这两个都是传统CNN的关键组件。唯一的颜色表示来自不同层的映射参数。(b)在用于在内存中执行VMM操作的模块化交叉开关片中，SL可用于隔离列器件（BL），其中输入作为WL电压施加。使用ADC读出BL电流，其可以与矢量矩阵乘积元素线性相关。资料来源：此图改编自[17]。设备的非理想性，这限制了它们在实际工程设置中使用的准确性和可靠性[18]。因此，已经使用脑启发异步神经形态系统[19虽然这些模拟传统上使用基于集成电路强调（SPICE）的通用模拟程序来执行，但是随着被模拟的底层系统和神经形态架构的复杂性的增加，已经开发了定制的模拟框架。这些框架用于快速原型化新型网络架构，作为使用成熟的计算机辅助设计（CAD）工具进行电路级验证和布局之前的初步步骤;用于最终的电路级实现和大规模制造。与传统的基于SPICE的仿真相比，现代CAD仿真框架采用了现代软件工程方法。此外，它们能够准确地对非理想器件特性、外围电路和模块化交叉开关瓦片进行建模，同时可使用高级语言API进行接口。我们将本文的范围限制在MDLS，即，忆阻IMC系统的DL系统部署，并提供了一个调查现有的仿真框架和相关工具，用于模拟大规模MDLS。本文其余部分的结构如下。在第2节中，介绍了与内存中MDLS建模和仿真相关的基础知识。在第3节中，概述了用于内存MDLS的现有CAD工具。在第四节中，对内存MDLS的现代仿真框架进行了比较，并对两种MDLS体系结构进行了仿真。在第5节中，我们提供了一个展望MDLS模拟框架。最后，在第六部分，对本文进行了总结。2. 预赛忆阻器，通常被称为第四基本电路元件，是特征在于具有第四基本电路元件的双端子无源电路元件。电阻/电导值，并且输入作为WL电压。平铺交叉结构包含使用共享总线连接的若干模块化交叉瓦片。这些还连接到用于实现批量归一化、池化、激活函数和其他不能在内存中执行或效率不高的计算的附加电路。模块化交叉杆瓦片由具有支持外围电路的交叉杆阵列组成。我们建议读者参考[12]，以获得用于DL加速的IMC加速器的全面描述和概述。在图2中，描绘了流行的阻性器件技术的典型开关模式和原理图。忆阻器与电阻器不同，因为它们具有依赖于电压或电流的电阻状态，这取决于构造它们所使用的材料的电性质。如图2（c）所示，RRAM器件由金属-绝缘体-金属（MIM）堆叠组成。RRAM器件的电阻状态可以通过产生和破坏导电丝（CF）来调制，导电丝（CF）用于指允许电流在顶部电极和底部电极之间流动的缺陷的局部集中。如图所示如图2（d）所示，典型的PCM器件具有蘑菇形状（非晶区域），其中底部电极限制热量和电流。通过使非晶区结晶，可以获得不同的电阻状态[3]。如图在图2（e）中，CBRAM器件由夹在可氧化电极和惰性电极之间的薄固态电解质层组成。CBRAM器件的电阻状态可以通过驱动灯丝（固态电解质层）中的氧化还原反应来调制[23]。最后图图2（f）示出了STT-MRAM的器件结构，其包含两个铁磁层和一个隧道势垒层。STT-MRAM器件的电阻可以通过修改磁性隧道中的磁性层的取向结或自旋阀使用自旋极化电流[24]。由于忆阻器件只能被编程为正电阻状态，因此权重可以使用双阵列方案、双行方案来表示，其中行的数量加倍，电荷之间的关系，�� 磁链与磁链所需的，或电流镜方案，这是能够使用操作��[22]. 忆阻器能够进行非易失性存储。一个奇异的装置来代表每个权重[25]。我们描述了典型的单极和双极��开关特性��，以及流行的忆阻器件技术的原理图。二、DL系统内的展开卷积层和线性（密集）层可以使用一系列MAC和VMM操作来实现，这些操作可以使用忆阻交叉阵列在存储器中计算，如图1所示。 1，通过将权重编码为如图所示。如图1所示，在1-晶体管1-忆阻器（1 T1 R）布置中，SL可以用于单独地选择忆阻器件。在映射和编程权重之后，为了执行MAC操作，输入在被呈现给WL之前被缩放和编码为电压。来自每个BL的电流使用ADC读出，或者使用每列一个ADC并行读出，或者使用时间复用顺序读出C. Lammie等人阵列13（2022）1001163图二. 忆阻器件的典型（a）单极和（b）双极开关模式以及流行器件技术的示意图：（c）RRAM、（d）PCM、（e）CBRAM和（f）STT-MRAM。表1MDLS仿真的传统仿真框架的比较 †本机不支持。国际⋄和传统NAND闪存。和传统NAND闪存。和混合非易失性系统。和传统NAND闪存。[36]第三十六和传统NAND闪存。最后，BL电流可以使用线性回归与期望的确定性输出元件相关。通过对输入的呈现进行时分复用或复制模块化交叉开关瓦片，VMM操作可以分别在[1]（1）或[2]（1）中执行CAD工具可用于将传统DNN转换为使用模块化平铺架构的等效表示。这些工具可用于模拟MDLS的推理和训练，以及当各种阻性器件集成在互补金属氧化物半导体（CMOS）工艺内时估计端到端实现的功率/面积/延迟。模型用于模拟外围电路和忆阻器件的行为，可以大致分为经验或分析（功能）。经验模型基于、涉及或通过实验数据验证，而分析模型基于从设备的基本物理导出的分析或逻辑。在本文中，我们不强调特定的忆阻器件和交叉开关电路模型，因为这些模型之前已经在其他作品中进行了调查[263. 现有CAD工具在表1和表2中，我们呈现了现有的常规方法的概述。和现代化的模拟框架，可以用来模拟使用非易失性存储器和传统NAND闪存设备的MDLS和IMC系统进行比较。我们将现代化的仿真框架归类为支持预先训练的DNN转换和TF和/或PyTorch集成的框架。通用SPICE [39]模拟工具，如如PSPICE和LTSPICE，不进行比较。虽然它们是模拟电路仿真最常用的工具[40]，但它们很难并行化并且速度非常慢;即使在使用重要的近似方法[41，42]模拟大型交叉阵列时也是如此。因此，与现代ML框架直接集成的专用和/或并行化CAD工具，如PyTorch [43]和Tensorflow [44]，更常用于模拟MDLS。表1和表2表明，虽然大多数成熟的传统基于SPICE的仿真框架（如NVMSpice，NVSim和NVMain）都是中央处理器（CPU）限制的，并且不支持预先训练的DNN转换，推理和训练建模，但它们确实支持各种设备类型。此外，他们主要专注于非易失性存储器和传统NAND闪存设备的高精度和高速仿真。相比之下，最近开发的现代化框架，如DNN +NeuroSIM，MemTorch和IBM模拟硬件加速工具包，抽象了GPU上的性能关键操作，直接与流行的ML框架集成，并具有良好的API文档。而且他们仿真框架Prog. 中文（简体）GPU预先训练的DNN转换TF/PyTorch推理培训外围电路支持的设备开源NVMSpice [29]未指明（SPICE样）✓†✓†非易失存储器NvSim [30]C++、C语言✓†✓†✓非易失存储器✓NVMain，NVMain 2.0[31，32]C++，系统Verilog，Python✓†✓†非易失存储器加上DRAM内存✓MNSIM [33]未指定✓†✓†✓非易失性存储器✓[34]第三十四话Python✓✓✓✓✓非易失存储器[35]第三十五话C++✓†✓✓✓✓非易失性存储器非理想电阻突触器件Python✓✓✓✓✓非易失存储器推理准确度RRAM器件[37]Python✓✓✓RRAM。RxNN [38]C++✓✓✓✓非易失性存储器C. Lammie等人阵列13（2022）1001164表2MDLS仿真的现代化仿真框架比较使用Google云端硬盘共享模型，不使用API。 PITTF/PyTorch集成。国际⋄装置.和传统NAND闪存。[48]第四十八话NeuroSim及其衍生物[52和传统NAND闪存。C++，Python非易失性存储器和传统NAND闪存。IBM模拟硬件加速套件[56]C++，Python，CUDA✓非易失性存储器。 ✓图三.支持预训练DNN转换和TF/PyTorch集成的现代仿真框架的比较。支持和准确性。覆盖度采用现代软件工程方法，并能够准确地模拟非理想器件和电路特性、外围电路和纵横制瓦片。它们也可以直接与其他工具接口，使用可访问的通用高级编程语言;从传统的SPICE为基础的模拟范式转变4. 现代仿真框架虽然现代化的仿真框架表面上看起来很相似，但仔细检查后，它们在本质上是互补的。为了使这一点更清楚，在图。3、我们比较了现代仿真框架，即，那些支持预先训练的DNN转换和TF/PyTorch集成更详细的，使用雷达图。如图所示，在已经比较的仿真框架之间没有太大的重叠：RAPIDNN、MADA、DL-RSIM、微小但准确的基于超高效忆阻器的DNN、MemTorch、DNN + NeuroSIM和IBM模拟硬件加速套件。虽然这些模拟框架中的许多仍处于积极的开发中，并且还不完全成熟，但它们显然采用了不同的设计和可用性方法。比方说都微小但准确且超高效的基于忆阻器的DNN构建在NVSim上，而所有其他仿真框架要么用低级语言从头开始编写，要么扩展现有的高级GPU加速计算库以抽象性能关键操作。此外，虽然RAPIDNN、ARMA、Tiny but Accu-rate、Ultra-Efficient Memristor-Based DNN和DNN + NeuroSIM可用于生成功率/面积/延迟报告，但MemTorch和IBM模拟硬件加速工具包支持大量不同的层类型，并可用于准确地对设备非理想性建模以鲁棒和模块化的方式。通过采用不同的设计和可用性方法，所有的仿真框架可以是有益的，并相互补充，以供具有不同需求的各种用户使用。为了确定每个现代化仿真框架的可用性和性能，如果可能，我们使用每个框架来仿真框架Prog. 中文（简体）GPU预先训练的DNN转换TF/PyTorch推理训练外围电路支持的设备开源RAPIDNN [45]C++、SPICE✓✓✓✓单电平忆阻[46]第四十六话C++✓✓✓✓非易失存储器DL-RSIM [47]Python✓✓✓✓✓非易失性存储器微小但MATLAB✓✓✓✓非易失性存储器✓‡超高效[49]第四十九话C++、MATLAB✓✓✓✓非易失存储器✓‡MemTorch [50，51]Python，C++，CUDA✓✓✓✓✓非易失存储器✓C. Lammie等人阵列13（2022）1001165模拟VGG-8 [57]网络架构的训练例程和GoogLeNet [58]网络架构的推理例程。使用CIFAR-10数据集评估了训练和推理例程。使用两个独立的网络架构进行评估，因为在使用单个GPU时，即使使用32 GB的视频随机存取存储器（VRAM），也无法使用具有计算统一设备架构（CUDA）支持的现有仿真框架可靠地训练更大和更复杂的网络。此外，并非所有模拟框架都支持具有非零组（输入和输出之间的连接）的卷积层，这意味着许多基于ResNet的架构无法实现。在可能的情况下，使用差分权重映射方案将来自线性和卷积层的权重映射到大小为（16 × 16）的模块化1T1R crossbar tile上，并通过从正态分布中采样CNOON和CNOOFF来对设备间变异性进行建模，��平均值分别为10 kΩ和100 kΩ，标准差分别为1000和10，000，即，��ON=10kΩ，��OFF =100kΩ。假设器械具有有限数量（6）的电导状态，并且ADC假定以6位分辨率工作。对于推断常规模拟，进行了10次运行，并报告了所有运行的平均值和标准差值。对于训练常规模拟，报告所有训练时期的平均值和标准偏差值用于执行比较的所有代码都是公开访问的，1并且可以修改以使用不同的硬件技术，网络架构和超参数执行比较。RAPIDNN、RAPIDA和DL-RSIM仿真框架不是开源的，因此无法对其进行评估和直接比较更详细地描述。类似地，虽然全精度和量化的训练模型可用于DL-RSIM和微小但准确的框架，但用于模拟推理例程的代码不可用因此，在Fig. 4、比较了DNN + NeuroSim和IBM模拟硬件加速工具包的训练例程，并在图4中给出了DNN + NeuroSim的训练例程。5、比较了MemTorch、DNN + NeuroSim和IBM模拟硬件加速工具包的推理过程。4.1. 仿真配置所有模拟均使用高性能计算（HPC）群集进行，其中使用SimpleLinux Utility for Resource Management（SLURM）工作负载管理器设置了以下运行时硬件配置：1个节点和8个CPU内核（Intel Xeon 6132系列CPU插槽）、100 GB DDR4 3200 MHz随机存取内存（RAM）和一个 PCI-E 32 GB Volta V100 GPU 。使用 torch.cuda.Event 和timer.time（）来确定各种仿真组件的执行时间。我们重申，1中提供的所有脚本都可以用于使用不同的软件、硬件和环境配置对所有仿真框架进行基准测试。4.1.1. MemTorch使用MemTorch，模拟了使用差分权重映射方案排列的（16 × 16）通用RRAM器件的2个对于每种器械，通过从正态分布中采样导通和关断来模拟器械间变异性，平均值分别为10 kΩ和100 kΩ，标准差值分别为1000和10，000。假设器件具有有限数量（6）的均匀间隔的电导状态。ADC的工作分辨率设置为6位。4.1.2. NeuroSim使用DNN_NeuroSim_V2.1，模拟了使用差分权重映射方案排列的（16 × 16）通用RRAM器件的3个模块化交叉条瓦片。将每个装置设置为具有10的��O/ NscinO��/FF比，装置间变化为10%。这是因为NeuroSim没有直接设置��ON和��OFF值的功能。每台设备的重量精度和操作分辨率ADC设置为6位。4.1.3. IBM模拟硬件加速工具包使用IBM Analog Hardware Acceleration Kit（简称为aihwkit4），无法模拟模块化交叉杆，因为它们不受支持。相反，使用使用差分权重映射方案来映射线性和卷积层的权重。代替对具有任意��ON和��OFF值以及��ONscinO��FF比的通用RRAM器件建模的支持，[ 59 ]中表征的器件被模拟为具有10%的器件间变化。无法直接设置每个器械的重量精度ADC的工作分辨率设置为6位。4.1.4. 基线除了使用MemTorch、DNN_NeuroSim_V2.1和IBM模拟硬件加速工具包模拟训练和推理例程外，还使用原生PyTorch ML库模拟基线训练和推理例程对于所有基线实现，使用完全相同的超参数使用torch.cuda.amp来配置所有网络参数，16-位来提高性能。4.2. 训练常规比较图4.比较了使用CIFAR-10数据集的VGG-8网络结构的训练例程的性能。对于Neu- roSim和IBM模拟硬件加速工具包，使用默认的非线性权重更新参数.所有网络都使用具有动量和交叉熵损失的随机梯度下降（SGD）初始学习率为0.1，动量值固定为0.9。未使用支持自适应学习率的优化器，因为DNN_NeuroSim_V2.1不支持这些优化器。相反，在训练过程中，学习率在第100、200和250个时期衰减一个数量级（这些时间表是根据经验确定的），以防止停滞。每个模拟框架的功能以前已经过研究和验证[51，55，56]。因此，没有报告或比较训练和测试集的损失和准确性，因为它们对每个模拟框架的性能没有影响。如图4所示，IBM模拟硬件加速工具包消耗了最多的RAM和GPU VRAM。虽然DNN_NeuroSim_V2.1比基线实现消耗更多的RAM，但有趣的是，它消耗的VRAM明显更少。这在很大程度上可以归因于在CPU上和/或在GPU上顺序执行的大量操作，而不是并行执行，并且可以用于解释DNN_NeuroSim_V2.1报告的每个训练时期相对较大的经过时间，如图所示。4（c）.为了量化GPU VRAM使用率和训练时间之间的性能权衡，4（f）已建成。基线训练例程清楚地展示了最佳性能权衡。我们的研究结果表明，DNN_NeuroSim_V2.1能够模拟更大，更复杂的网络架构的训练例程，但是，它没有充分利用CUDA，并且比其他模拟框架慢得多。相比之下，IBM模拟硬件加速工具包1https://github.com/coreylammie/Modeling-and-Simulating-In-Memory-忆阻深度学习系统2https://github.com/coreylammie/MemTorch。3 https://github.com/neurosim/DNN_NeuroSim_V2.1。4 https://github.com/IBM/aihwkit。C. Lammie等人阵列13（2022）1001166图四、 DNN + NeuroSim和IBM模拟硬件加速套件的训练例程的比较，用于VGG-8网络架构，使用CIFAR-10数据集。图五. 比较MemTorch、DNN + NeuroSim和IBM模拟硬件加速工具包的推理例程，用于VGG-8网络架构，使用CIFAR-10数据集。完全利用CUDA，并且在性能上与原生torch库相当。然而，IBM模拟硬件加速工具包消耗大量的VRAM，无法模拟模块化交叉杆瓦片，因此无法模拟更大和更复杂的网络架构的训练例程。4.3. 推理程序比较图5、比较了使用CIFAR-10数据集的GoogLeNet网络架构的推理例程的性能。使用128的批量进行参考。如可见于C. Lammie等人阵列13（2022）1001167图 5 （ c ）， IBM 模拟硬件加速工具包能够比 MemTorch 和DNN_NeuroSim_V2.1仿真框架更快地仿真推理例程。这是在消耗更多的VRAM和大约相同数量的RAM。我们在很大程度上将此归因于IBM模拟硬件加速工具包无法模拟模块化交叉杆瓦片，这很难使用CUDA进行并行化。当没有模拟模块化交叉杆瓦片时，当使用足够小的WL电压来编码输入时，常规VMM可以用于在对1T1R交叉杆进行建模时确定输出电流。MemTorch和DNN_NeuroSim_V2.1消耗类似数量的RAM和VRAM，然而，MemTorch比DNN_NeuroSim_V2.1慢大约一个数量级，尽管具有更高的GPU利用率。我们认为这在很大程度上归因于MemTorch低效的默认权重映射方案，如图所示。5（c）和（d）。这在用许多小卷积层模拟大型CNN时尤其明显，例如GoogLeNet。MemTorch以交错排列的方式存储卷积核，并且在层之间不共享相邻的模块化crossbar瓦片。DNN_NeuroSim_V2.1利用专有的权重映射和数据流方案[60]，这显著提高了性能。我们注意到，DNN_NeuroSim_V2.1和MemTorch在推理期间都未充分利用VRAM，并且都顺序地和/或在CPU上执行一些操作。如可见于图5（d），我们的研究结果表明，IBM模拟硬件加速工具包能够在最大程度上利用VRAM，但是，它无法模拟模块化纵横瓦片。DNN_NeuroSim_V2.1能够比MemTorch更快地模拟推理例程，但是，它不是可定制的，因为它使用专有的权重映射和数据流方案，这些方案不能轻易修改。5. 观很明显，MDLS和忆阻仿真框架正变得越来越有用和流行。虽然可重构MDLS的可靠、大规模操作仍然是一个悬而未决的问题[61]，但现代化的仿真框架和工具使来自各种学科的研究人员能够快速准确地对MDLS的行为和操作进行建模，而无需专门的电路级SPICE仿真专业知识。这是除了与现有的现代化ML库协同工作的能力之外。随着这些模拟框架和用于模拟非理想电路和器件特性的模型的成熟和普及，创新器件技术和MDLS架构的开发周期和生产也将继续。这些新的设备和架构可以方便地集成到现有的工具中，促进它们的快速大规模采用。越来越多的仿真框架已经使用来自实验数据的测量值进行了改进，验证了它们的可靠性和准确在未来，我们希望CAD工具(i)支持忆阻器件的端到端表征，（ii）本机集成在更成熟和标准化的MDLS设计流程中，以及（iii）能够对未来的物理可重新编程忆阻电路进行编程[62这种IMC仿真框架将有助于下一代人工智能（AI）硬件的设计[56]。6. 结论本文综述了目前用于IMC MDLS建模与仿真的仿真框架和相关工具。此外，我们还详细比较了支持预训练DNN转换和TF/PyTorch集成的现代仿真框架。这是通过直接比较两种流行的CNN架构的训练和推断例程来现代化的模拟框架。此外，我们提供了一个展望/透视到未来的CAD工具建模和模拟MDLS。我们证明了现代仿真框架在本质上是互补的，并且可以由具有不同要求的各种用户使用，以促进IMC和非常规计算领域中的当前研究工作。CRediT作者贡献声明Corey Lammie：概念化，方法论，软件，验证，形式分析，调查，资源，数据策展，写作-原始草案，写作-审查编辑，可视化，资金获取。魏翔：写作Mostafa Rahimi Azghadi：概念化，方法论，验证，写作竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢Corey Lammie承认詹姆斯库克大学（JCU）DRTPS和IBM博士奖学金。穆斯塔法·拉希米·阿兹加迪获得了JCU新星ECR奖学金。引用[1]Chellappa R，Theodorphos S，van Schaik A.机器学习和深度神经网络的进展。Proc IEEE2021;109：607-11.[2] [10]张斌，陈立元. 内存计算：进展和前景。IEEE固态电路杂志2019;11：43-55。[3][10] Sebastian A，Le Gallo M，Khaddam-Aljameh R，Eleftheriou E. 用于存储器内计算的存储器设备和应用。Nature Nanotechnol2020;15：529-44.[4]Joshi V，Le Gallo M，Haefeli S，Boybat I，Nandakumar SR，Piveteau C，DazziM，Rajendran B，Sebastian A，Eleftheriou E. 使用计算相变存储器进行精确的深度神经网络推理。Nature Commun 2020;11：2473.[5] Hu M，Graves CE，Li C，Li Y，Ge N，Montgomery E，Davila N，Jiang H，Williams RS，YangJJ，Xia Q，Strachan JP.基于忆阻器的模拟计算和带有点积引擎的神经网络分类。Adv Mater2018;30：1705914.[6][10]李文辉，李文辉.面向医疗保健和生物医学应用的深度网络加速器的硬件实现。IEEE Trans Biomed Circuits Syst2020;14：1138-59.[7]Ielmini D，Wong H-SP。使用电阻开关器件的内存计算。Nat Electron2018;1：333-43.[8] 2005年10月27日，中国科学院院士。用于神经形态计算的互补金属氧化物半导体和忆阻硬件。Adv IntellSyst 2020;2：1900189.[9]刘X，曾志.用于实现深度神经网络的忆阻器交叉开关架构。2021年复杂的Intell系统。[10] 沙赫萨瓦里湾从数字到类脑神经形态的非常规计算：记忆计算。欧洲大学出版社;2017年。[11] Azghadi MR，Linares-Barranco B，Abbott D，Leong PHW.一种CMOS-忆阻器混合神经形态突触。IEEE Trans Biomed Circuits Syst 2017;11：434 - 45.[12] Mehonic A，Sebastian A，Rajendran B，Simeone O，Vasilaki E，Kenyon AJ. 忆阻器-从内存计算、深度学习加速和尖峰神经网络到神经形态和生物启发计算的未来。Adv Intell Syst2020;2：2000085.[13] Lammie C，Eshraghian JK，Lu WD，Azghadi MR. Memristive随机计算用于深度学习参数优化。IEEE跨电路系统II2021;68：1650-4。[14] 马子丹，陈A，因迪瓦里，卢伟德 .忆阻计算设备和应用。 Cham： SpringerInternational Publishing; 2022，p. 5-32. http：//dx. doi.org/10.1007/978-3-030-42424-4_2网站。C. Lammie等人阵列13（2022）1001168[15] Lammie C，Krestinskaya O，James A，Azghadi MR. Variation-aware binarizedmemristive networks. 2019年第26届IEEE电子、电路与系统国际会议（ICECS）2019年，第490-3页。http://dx.doi.org/10.1109/ICECS46596.2019.8964998.[16] 孙志，黄瑞.内存中矩阵向量乘法的时间复杂度。IEEE跨电路系统II 2021。[17] 放大图片作者：Lammie C，Rahimi Azghadi M，Ielmini D.用于深度学习模拟的经验金属氧化物RRAM器件耐久性和保持模型。Semicond SciTechnol2021;36：065003.[18] Zidan MA ， Strachan JP ， Lu WD. 基于忆阻系统的电子学的未来。 NatElectron2018;1：22-9.[19] [10]杨文，李文，李文.使用xnet事件驱动模拟器的忆阻器尖峰神经形态架构的设计探索方法。2013年IEEE/ACM国际纳米结构研讨会（NANONOTES）。2013年，第7-12页。http://dx.doi.org/10.1109/NanoArch.2013的网站。6623029。[20] 张文辉，张文辉，张文辉. 具有相变记忆突触的脉冲递归神经网络的在线训练。2021，CoRRabs/2108.01804。[21] Boulet P，Devienne P，Falez P，Polito G，Shahsavari M，Tirilly P. N2s3，一个开源的可扩展尖峰神经形态硬件模拟器。2017年。[22] 蔡湖忆阻器-缺失的电路元件。IEEE跨电路理论1971;18：507-19.[23] [10]张文辉，张文辉.导电桥接随机存取存储器（cbram）：一种新兴的可扩展到20纳米以下的非易失性存储器技术。参加：IEEE国际电子器件会议，2005。IEDM技术摘要。 2005年，第754-7页。 http://dx.doi.org/10.1109/IEDM的网站。2005.1609463。[24] Khvalkovskiy AV，Apalkov D，Watts S，Chepulskii R，Beach RS，Ong A，TangX，Driskill-Smith A，Butler WH，Visscher PB，Lottis D，Chen E，Nikitin V，Krunbi M. 存储器阵列中STT-MRAM单元操作的基本原理2013;46：074001.[25] 王Q，王X，李世华，孟芳华，陆伟东.基于平铺RRAM架构的深度神经网络加速器。 2019 年 IEEE 国际电子器件会议（ IEDM ）。 2019 年，第 14.4.1-4 页。http://dx.doi.org/10.1109/IEDM19573.2019的网站。8993641。[26] 哈立德·M综述了忆阻器的各种模型、特性、潜在应用和未来工作。电子材料2019;20：289[27] Woods W，Taha MMA，Dat Tran SJ，BürgerJ， Teuscher C.忆阻器恐慌-交叉开关架构中不同器件模型的调查。在：2015年IEEE/ACM国际纳米级架构研讨会论文集（ NANOMENT15 ）。 2015 年，第 106-11 页。http://dx.doi.org/10.1109/NANOARCH的网站。2015.7180595。[28] 穆罕默德B，霍穆兹D，埃尔加布拉H。鲁棒的混合忆阻器-CMOS电路：建模与设计。IEEE Trans Very Large Scale Integr（VLSI）Syst2013;21：2069-79.[29] Fei W，Yu H，Zhang W，Yeo KS.利用新修正节点分析法探讨CMOS与忆阻器混合电路之设计。IEEE Trans Very Large ScaleIntegr（VLSI）Syst2012;20：1012-25.[30] Dong X，Xu C，Xie Y，Jouzhou NP. NVSim：一个新兴的非易失性存储器的电路级性能，能量和面积模型。IEEE跨计算辅助集成电路系统2012;31：994-1007。[31] 作者：Zhang Yu，Xie Y. NVMain：一个架构级的主存模拟器，用于新兴的非易失性存储器。2012年IEEE Computer Society Annual Symposium on VLSI2012年，p.392-7 http://dx.doi.org/10.1109/ISVLSI.2012.82网站。[32] 张涛，谢勇. NVMain 2.0：一个用户友好的内存模拟器，用于模拟（非）易失性内存系统。IEEE Comput Archit Lett 2015;14：140[33] 夏丽，李波，唐婷，顾萍，尹霞，皇甫伟，陈平，余S，曹毅，王毅，谢毅，杨华。MNSIM：基于忆阻器的神经形态计算系统仿真平台。参加：2016年欧洲设计、自动化测试会议展览会（日期）。2016，p.四六九比七四[34] Roy S，Sridharan S，Jain S，Raghunathan A. TxSim：在电阻交叉系统上对深度神经网络进行建模训练。2021，arXiv：2002.11151[cs，eess，stat].[35] 宋丽，钱晓，李宏，陈艳. PipeLayer：一个用于深度学习的基于流水线的重命名加速器。2017年IEEE高性能计算机架构国际研讨会（HPCA）。2017年，第541-552页。http://dx.doi.org/10.1109/HPCA.2017.55.[36] Sun X，Yu S.电阻突触器件的非理想特性对实现卷积神经网络的影响。 IEEE JEmerg Sel Top Circuits Syst2019;9：570-9.[37] Mehonic A，Joksas D，Ng WH，Buckwell M，Kenyon AJ.使用真实RRAM器件模拟推理精度。13.第十三届中国国际医疗器械博览会[38] Jain S，Sengupta A，Roy K，Raghunathan A. RxNN：一个评估框架电阻交叉杆上的深度神经网络。IEEE跨计算辅助设计集成电路系统2021;40：326-38。[39] 佩德森·纳格尔SPICE（SimulationProgramwithIntegratedCircuitEmphasization），集成电路仿真程序。技术报告UCB/ERL M382，伯克利：加利福尼亚大学EECS系;1973年。[40] Gielen G ， Rutenbar R. 模拟和混合信号集成电路的计算机辅助设计。 ProcIEEE2000;88：1825-54.[41] 宋亮，张杰，陈阿，吴华，钱宏，于忠。一种有效的RRAM交叉阵列性能评估方法。固态电子2

下载后可阅读完整内容，剩余1页未读，立即下载