没有合适的资源?快使用搜索试试~ 我知道了~
存储器-材料,器件,电路和系统4(2023)100035非易失性寄存器嵌入式RISC-V CPU的设计软件控制的数据保留和硬件加速功能MasanoriNatsui,Keisuke Sakamoto,Takahiro Hanyu东北大学,仙台市青叶区片平2-1-1,邮编980-8577A R T I C L E I N F O关键词:电源门控物联CMOS/MTJ混合工艺非易失性CPU单元级内存计算A B S T R A C T本文介绍了一种基于RISC-V的非易失性CPU的设计,RISC-V是一种开源的、高度灵活的指令集架构。该CPU结合了利用磁性隧道结(MTJ)器件的非易失性寄存器,以及专用于控制这些非易失性寄存器的定制指令,嵌入到CPU架构中的加速器模块。这些技术使得能够高效执行适合于能量受限的物联网(IoT)应用的间歇性操作。通过对采用55 nm CMOS/MTJ混合工艺设计的CPU的性能评估,我们表明,与传统CPU相比,我们的CPU可以节省高达56.9%的功耗,平均功耗为 3.91μW/MHz。1. 介绍为了实现基于物联网技术的智能分布式系统,迫切需要开发创新的集成电路技术,这些技术既提供可以由能量收集驱动的超低功耗,又提供可以处理诸如AI技术等高级功能的高性能。特别地,与半导体器件的超小型化相关联的泄漏电流已经增加到它们占集成电路消耗的能量的大部分的程度。 抑制这种漏电流对于物联网设备来说是一个重要的问题,因为物联网设备需要在有限的电源下工作用于抑制泄漏电流的最流行的技术之一被称为功率门控。电源选通通过以下步骤来执行:(1)将待保留的中间数据临时存储在外部非易失性存储器中,以及(2)在完成中间数据的数据传送之后关断电源。通过在系统重新启动时执行相反的过程,可以间歇地中断电源,同时保持电源门控前后的内部状态的一致性。 然而,由于这些操作需要用于读取和写入外部存储器的能量消耗和用于电源状态转换的时间裕度,所以除非待机时间足够长并且电源中断的能量减少效果超过这些开销,否则功率门控将不能有效地工作。功率门控有效的最短待机时间称为盈亏平衡时间(BET)。针对这一问题,提出了一种实现功率放大的电路设计方法,并且已经提出了通过利用非易失性存储器元件和以极小的开销实现功率门控∗通讯作者。电子邮件地址:tohoku.ac.jp(M. Natsui)。https://doi.org/10.1016/j.memori.2023.100035具体地,通过将非易失性存储元件结合在即使电源被切断也不会丢失数据的逻辑单元中,并且通过消除将数据存储到外部存储器/从外部存储器恢复数据的需要,可以构建在电源门控期间具有极小时滞的系统。这种电路方案被称为非易失性存储器中逻辑(NV-LIM),并且已经积极地研究了利用下一代存储器设备(诸如ReRAM、STT-MRAM和CAAC-IGZO)的NV-LIM型处理器[1正如调查论文[9]中经常提到的那样,从减少计算和内存之间的瓶颈的角度来看,内存计算的基本概念和NV-LIM的基本概念是相同的。这两种方法之间的主要区别是计算和内存的粒度。如[10]所示,NV-LIM实现可以定义为 作为目前提出的大多数非易失性处理器都使用基于ARM [1]和MSP430 [2]等商业产品的CPU。这些CPU的指令集体系结构(ISA)由于其兼容性的历史背景而非常复杂,并且对其修改的许可限制使得用户难以添加他们自己的指令。因此,特定于非易失性处理器的操作必须通过冗余方式使用依赖于体系结构的汇编语言的嵌入式编程来实现,例如通过保留的存储器地址进行间接数据传输,这阻碍了性能的提高。为了解决这个问题,它是必不可少的,以开发处理器本地配备特定的非易失性处理器操作的指令。基于上述观点,本文描述了一种基于RISC-V [11]的物联网应用的非易失性CPU,RISC-V是一种开源且灵活的ISA,通过磁性隧道结(MTJ)接收日期:2022年11月27日;接收日期:2023年2月27日;接受日期:2023年2月28日2773-0646/©2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。目录可在ScienceDirect存储器-材料、器件、电路和系统期刊主页:www.elsevier.com/locate/memoriM. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000352Fig. 1. 两种不同的CPU实现在间歇操作中的功耗:(a)传统的易失性CPU。 (b)加速器配备的非易失性CPU应用电源门控。设备[12通过对物联网应用中间歇操作的实验性能评估,我们表明所提出的CPU对物联网设备的节能是有效的作者在以前的工作中提供了拟议CPU的概述[17]。本文通过添加由于页面限制而无法在参考文献[17]中写入的内容,例如在电源门控之前和之后必不可少的非易失性触发器控制指令以及与现有技术的性能比较,更详细地展示了所提出的CPU的新颖性和有效性本文的主要贡献可以概括如下:(1)基于RISC-V架构,设计了一种面向物联网传感器节点的非易失性CPU,其指令集中包含加速器控制(2)在考虑MTJ器件特性的非易失性触发器性能评估的基础上,对功率门控前后的开销进行了详细的估算。(3)通过对物联网传感器节点中预期的典型操作进行基准测试,我们证实,与传统CPU相比,采用55 nm CMOS/MTJ混合工艺技术设计的平均功耗为3.91 μW/MHz。2. 基本概念通过将CPU配置为包含非易失性存储器设备的触发器(非易失性触发器:NVFF)[2],可以打开和关闭CPU的电源,而无需将中间数据保存和恢复到外部非易失性存储器。 这种非易失性CPU可以在间歇操作中应用电源门控 通过仅在NVFF中执行本地数据传输,从而大大减少待机状态期间的漏电流,并缩短盈亏平衡时间。这种效果可以通过将加速器连接到CPU来进一步增强,以高速和高能效执行传感器节点中假设的操作,如图所示。1[3,10]。非易失性CPU的操作需要根据内容生成信号来控制NVFF和加速器(ACC要执行的程序。然而,很难将这些控制指令添加到传统的基于商业现货的CPU中,因为很难扩展它们的指令集以满足用户需求。因此,这些过程必须通过一个复杂的过程来实现,例如通过使用依赖于体系结构的汇编语言的嵌入式编程通过保留的存储器地址进行间接数据传输。为了解决这个问题,它是必不可少的,以开发一个处理器的指令原生专用于非易失性处理器操作。因此,本文重点介绍RISC-V架构,近年来,作为一个开源的ISA,它引起了人们的关注。RISC-V提供了一个自定义指令字段,用户可以自由地将其添加到基本指令集。换句话说,设计人员可以自由地添加他们希望加速的应用程序所需的指令。通过利用这种灵活性和实现独特的instruc- tions为非易失性CPU在ISA级,直接控制的CPU是可能的,而无需在传统的CPU复杂的程序图图2比较了在传统的非易失性CPU中通过嵌入式编程执行的加速器控制,以及在所提出的非易失性CPU中实现的由自定义指令控制的加速器控制。如图2中的表所示,常规方法需要经由存储器的五个控制步骤,但是定制指令的实现消除了对基于存储器的过程的需要,并且减少了对基于存储器的过程的需要。 只有两个步骤。类似地,NVFF控制指令可以被实现为定制指令以实现基于软件的控制。这使得非易失性存储/恢复操作与适当的时间,ING和频率的实际应用程序,并通过消除不必要的操作,减少开销。下一章将详细介绍基于RISC-V的非易失性CPU的配置和操作,以及上述加速器控制指令和NVFF控制指令。3. 具有自定义指令的非易失性RISC-V CPU设计图3示出了所提出的CPU的配置,其基于32位、5级RISC-V架构。除了算术逻辑单元(ALU)和乘法/除法单元(MUL/DIV)之外,CPU还具有加速器(ACC),用于高效地执行在目标应用中频繁执行包括在该CPU中的寄存器使用具有磁性隧道结(MTJ)器件的NVFF来配置[3,14],以提供非易失性存储器功能。MTJ器件是非易失性存储器元件,当施加一定幅度和方向的电流时,其在低电阻状态和高电阻状态之间切换。NVFF具有两个MTJ器件(MTJ 1、MTJ 2),这两个MTJ器件具有互补的电阻状态并且以非易失性方式保持具有逻辑值0或1的1位数据图图4示出了使用55-nm CMOS工艺设计的NVFF和由HSPICE电路模拟器模拟的MTJ器件的示例波形。在本文中,我们使用由我们的研究小组创建的MTJ器件的Verilog-A器件模型,并基于55 nm直径MTJ设备.在无偏置状态下,高电阻和低电阻的典型值分别为12.4 k Ω和5.8 kΩ;写电流的典型值分别为高电阻到低电阻和低电阻到高电阻:116 μA和125 μA。 虽然NVFF通常像一般DFF一样操作,它将存储器数据存储和恢复到MTJ器件,M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000353图2. 执行加速器控制指令时的行为比较:(a)传统的 非易失性CPU,(b)提出的基于RISC-V的非易失性CPU。图3. 建议的CPU的架构。控制信号WB和LB的值。 具体地,当WB被解除断言时,易失性存储器中的数据被保存到MTJ器件,并且当LB被解除断言时,数据从MTJ器件恢复。 由于当WB或LB改变时,时钟信号必须固定在0,所以图1中所示的外围逻辑电路被设计为:5被添加到输入侧的NVFF,以实现期望的操作,而无需对CPU的控制部分。非易失性寄存器的存储/恢复操作和电源门控开关的ON/OFF操作分别由新添加到CPU的非易失性存储器(NVM)控制器和电源门控(PG)控制器生成的存储/恢复信号和PG信号控制。作为本文提出的CPU的具体应用,我们设想了一种传感器节点,该节点由通过能量收集获得的电力驱动,定期采集图像等信号,并使用AI进行特征提取和对象识别等处理。为了能够在这种应用中以有限的电源进行操作,必须应用功率门控技术以最小化在间歇过程之间的待机时间期间的功率消耗。此外,用于诸如特征提取之类的过程的加速器可以用于以高能效的方式执行这些相对计算密集的过程。 从上述观点来看,我们认为,非易失性存储器控制,其中管理数据M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000354见图4。 NVFF的采样波形图5. 带外围逻辑的NVFF。电源门控前后的保存和恢复以及加速器控制是本文所针对的应用程序的CPU操作中最重要的点。因此,对于该CPU的指令集,除了RISC-V标准RV 32 I基本指令集和RV 32 M扩展指令集(包括乘法和除法)外,我们决定应用加速器控制指令(acc)和非易失性寄存器控制指令(nvc)作为自定义指令。图6示出了在所设计的CPU上运行的C程序以及通过编译该程序获得的汇编代码的示例。 acc指令(由操作码(opcode)0001011标识)使用存储在预定义寄存器中的八个值作为ACC输入来执行多变量积和运算。的结果该操作被存储在由RD指定的目的地寄存器当在传统CPU中使用ACC时,需要通过嵌入式编程来执行一系列处理,诸如将用于运算的八个变量的数据存储在存储器中的保留地址中并执行ACC运算。另一方面,在以acc指令作为指令集的所提出的CPU中,通过将acc指令定义为宏指令并进行编译,来自动生成使用该指令的由于该指令通过直接引用CPU中的寄存器来执行,因此不需要经由存储器与ACC通信。这不仅提高了应用程序的性能,而且还显著减少了代码大小。图图7示出了当ACC中实现的8输入、1输出乘积和运算由新实现的自定义指令控制时的仿真波形。通过执行ACC指令,ACC的控制信号被适当地产生,并且乘积和操作,其通常需要165个时钟用于CPU的顺序处理,可以通过使用ACC在5个时钟内执行。另一方面,nvc指令由操作代码0101011标识。当此指令被提取时,易失性存储器块中的中间数据被存储到非易失性存储器块中,然后电源门控开关在参数指定的时间内关闭。图8示出了当执行nvc指令时的操作的模拟波形。在nvc信号的断言(其指示该指令已经被执行)之后,NVM控制器的控制信号(NV-Store)被断言,并且NVM控制器中的寄存器被断言。 CPU将内部数据保存到非易失性存储器。然后,PG,控制M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000355图6. 带有自定义指令的示例程序。图第七章8输入乘法累加运算的性能比较:(a)使用内置指令,(b)使用自定义指令。图8. nvc操作的模拟波形。M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000356图9. 8输入乘-累加运算所需指令数的比较:(a)没有ACC,(b)使用存储器保留地址的数据作为变量的ACC, 以及(c)直 接 使用寄 存 器 的数据作为变量的ACC。PG控制器的信号被断言,并且CPU进入睡眠状态。在一段时间之后,PG被解除断言,然后NV-恢复被断言以恢复保存在非易失性存储器中的信息并恢复操作。与acc指令一样,可以用简单的程序格式来描述这个指令。可以从软件侧控制执行定时,允许根据程序的内容以适当的定时和频率执行数据存储/恢复处理。 结果,可以减少与冗余数据传送相关联的时间和能量开销,并且可以提高功率门控的效率在下一章中,通过对物联网传感器节点应用中的典型操作进行基准测试来评估所设计的CPU的性能。4. 评价结果表1使用HSPICE电路仿真器比较了采用55 nm CMOS/MTJ混合技术设计的NVFF和传统DFF在每个操作中的功耗方面尽管增加了在易失性和非易失性存储器部分之间存储和恢复数据的功能,但正常操作期间的功耗与DFF相当。另一方面,涉及写入MTJ器件的数据存储操作需要大约10 pJ的能量。然而,考虑到访问具有类似工艺规则的外部DRAM所需的能量约为20 pJ/位[18],并且可以用大约一半的能量来存储非易失性数据,我们可以认为这是一个足够小的值。使用这些值作为基本数据,可以详细估计PG操作之前和之后的数据存储和恢复操作的开销。图 9显示了8输入求和所需的指令数,在无ACC的CPU上进行积的运算,在有ACC的CPU上以存储器中的保留地址数据为变量进行积的运算,在有ACC的CPU上直接以寄存器中的数据为变量进行积的运算。使用ACC可以减少操作本身所需的指令数量,并且自定义指令的实现消除了通过内存与ACC交换数据因此,拟议的表1DFF和基于MTJ的NVFF中各种操作的能量比较易失性存储(NVFF)存储数据的转换能量[fJ]存储数据的转换能量[fJ]0 012.5890 07.99811.765 18.88010.835 13.29911.295 11.720非易失性存储(NVFF)非易失性恢复(NVFF)存储数据的转换能源 [pJ]存储数据能量[pJ]0 08.87400.20210.20210.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.20.21000 8.69418.875美元CPU可以用不带ACC的常规CPU的38%的指令数执行操作我们使用55 nm CMOS/MTJ混合技术设计了这款CPU,并评估了在图10示出了每次操作的平均功耗和间歇操作间隔总的趋势是,PG降低静态功率的效果随着间歇运行间隔的增加而增加。此外,可以确认的是,ACC的使用提高了每个处理的功率效率,并且还降低了平均功耗。在该评价中使用的操作中,DFT的减少最大,确认了当间歇操作间隔被设置为5ms时,与不使用ACC和PG的情况相比,图11示出了每次间歇操作消耗的能量的分解,每次操作的间隔为5ms。ACC的使用提高了操作效率并降低了动态能量,M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000357图10. 平均耗电量与间歇运行间隔的关系。图11. 每次间歇操作的能量击穿。M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000358表2性能比较。[1][2][3]这项工作指令集架构MSP430 ARM Cortex-M0自制RISC(12指令)RISC-V(RV32I,RV32M)字数16 32 32 32NV-CPU说明嵌入式a(NVFF的加载/存储)没有没有嵌入式(NVFF、ACC控制的加载/存储)频率20 MHz30 MHzN/A100 MHzACC没有没有没有嵌入式NV-memory技术三端垂直MTJCAAC-IGZO双端平面内MTJ双端垂直MTJ技术90 nm65纳米90 nm55 nm电路面积0.644毫米2b0.179毫米2b1.440毫米20.125毫米2平均功率75 mW/MHz(SRAM16.5 mW/MHzN/A3.91 mW/MHz170 mW/MHz(NV-RAM模式)a需要用机器语言手动重写程序以使用指令。b根据芯片布局估计。图12. 提出的非易失性CPU的芯片布局。而静态能量随着ACC并入电路中而增加。因此,根据操作的性质,总能量可能增加。相反,通过应用PG,由于ACC的添加引起的静态能量的增加可以被PG抵消,从而提高能量效率,而与处理内容无关。图图12示出了在55 nm CMOS/MTJ混合工艺中设计的所提出的非易失性CPU的芯片布局。利用开发的NV-LIM设计环境和单元库对芯片进行了该芯片包含约2000个NVFF,芯片尺寸为354×354 μm2。表2将我们的CPU与现有论文中提出的非易失性CPU进行了比较。与现有的非易失性CPU相比,我们的CPU在操作频率、面积和功耗方面表现出优越的性能,同时具有内置的ACC并能够使用RISC-V的丰富指令集,包括非易失性CPU特有的自定义指令虽然报告的预计这些结果的有效性将通过实际制造的CPU上的实际测量来进一步证实。5. 结论本文提出了一种基于RISC-V体系结构的非易失性CPU配置,并证实了通过添加自定义指令可以提高非易失性CPU的性能。在未来,我们计划通过添加更高效的非易失性操作所需的其他自定义指令,考虑应用程序行为调整加速器功能,以及优化PG调度方法,来研究进一步提高非易失性CPU性能的方法。竞争利益作者声明,以下经济利益/个人关系可能被视为潜在的竞争利益:Masanori Natsui报告称,JST CREST(JPMJCR 19 K3)、JST OPERA和JSPS科学研究补助金(17 KK 0001、21 H 03405、21 H 04868)提供了经济支持。数据可用性没有数据用于文章中描述的研究致谢这项工作得到了JST CREST(JPMJCR19K3),JST OPERA和JSPS科学研究资助(17KK 0001,21H03405,21H04868)的部分支持。引用[1]T. Onuki等人,嵌入式存储器和ARM cortex-M0内核使用60 nm C轴对准晶体铟镓锌 氧 化 物 FET 与 65 nm Si CMOS 集 成 , IEEE J. Solid-State Circuits 52(4)(2017)925-932。[2]N. Sakimura等人,10.5一个90纳米20兆赫完全非易失性微控制器的备用电源关键应用,IEEE国际固态电路会议。Tech. 2014年,第104页。184-185.M. Natsui,K.Sakamoto和T.涵予存储器-材料,器件,电路和系统4(2023)1000359[3]M. Natsui等人,基于STT-MRAM和FPGA的47.14 W��� 200 MHz MOS/MTJ混合型 非 易 失 性 微 控 制 器 单 元 , 适 用 于 物 联 网 应用 。 固 态 电 路 54 ( 11 )(2019)2991-3004。[4]T. Hanyu 等 人 , Standby-power-free integrated circuits using MTJ-basedVLSIcomputing,Proc. IEEE 104(10)(2016)1844-1863.[5]Y. Liu等人,4.7 A 65 nm RAM使能的非易失性处理器,具有6倍缩减在使用自适应数据保持和自写终止非易失性逻辑恢复时间和4倍更高时钟频率中,在:Proc. IEEE Int. Solid-State CircuitsConf,2016,pp. 84比86[6]Y. Tsuji等人,Sub-���W待机功率,<18��� W/DMIPS@25MHz MCU,带嵌入式原子开关可编程逻辑和ROM,载于:2015年超大规模集成电路研讨会(VLSI电路),2015年,pp. T86-T87[7]M. Zwerg等人,一个82��� A/MHz的微控制器与嵌入式FeRAM的能量收集应用,在:2011年IEEE国际固态电路会议,2011年,pp。334-336[8]H. Koike等人, 使用基于MTJ的非易失性触发器的具有3微秒进入/退出延迟的电源门控MPU,在:2013 IEEE亚洲固态电路会议,2013,pp. 317-320[9]S. Jain,A. Ranjan,K. Roy,A. Raghunathan,用自旋转移矩磁性RAM在存储器中计算,IEEE Trans. VLSI 26(3)(2018)470[10]Y. Wang,H. 于湖,加-地 Ni,G.- B. Huang,M. 延角,澳-地 Weng,W. 杨军,赵军,一种基于畴壁纳米线器件的极限学习机的高能效非易失性内存计算架构,IEEE Trans.Nanotechnol。14(6)(2015)998-1012.[11]A. Waterman等人,The RISC-V Instruction Set Manual,Volume I:UnprivilegedISA,Document Version 20191213,CS Division,EECS Department,Universityof California , Berkeley , 2019 , [Online]. 可 通 过 以 下 网 址 获 得 :https://riscv.org。[12]S. Ikeda等人,磁隧道结的自旋电子存储器和超越,IEEETrans. 电子器件54(5)(2007)991[13]S. Ikeda等人,磁隧道结的磁各向异性CoFeB-MgO,Nat.Mater. 9(2010)721-724。[14]H. Sato等人,MgO/CoFeB/Ta/CoFeB/MgO recording structure in magnetictunneljunctions with vertical easy axis,IEEE Trans.Magn.49(7)(2013)4437-4440.[15]C. Yoshida等人,通过STT-MRAM中的接口工程演示非易失性工作存储器,IEEESymp。超大规模集成电路技术 Tech. Pap,2012,pp. 59比60[16]H. Sato等人,14 Ns写入速度128 mb密度嵌入式STT-MRAM,使用新型低损伤MTJ集成工艺,耐久性>1010和10年保持@85℃,2018年IEEE国际电子器件会议,2018年,第27.2.1-27.2.4.[17]L. Calicchia等人,RISC-v的数字信号处理加速器,在:2019年第26届IEEE电子,电路和系统国际会议,ICECS,2019年,第11页。703-706[18]M. Horowitz,Computing's Energy Problem(and What We Can Do About It),IEEE International Solid-State Circuits Conference Digest of Technical Papers ,2014,pp. 10-14
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功