没有合适的资源?快使用搜索试试~ 我知道了~
芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,41月11K正+ +芯片评论NON-VON NEUMANN认证DOI:10.1016/j.chip.2022.100004基于随机存取存储器的电路和宏内存计算系统魏松涛1,高斌1,2,吴东1,2,唐建始1,2,何谦1,2,吴华强1,2,1清华大学集成电路学院2北京清华大学未来芯片创新中心(ICFC),北京,中国电子邮件:gaob1@tsinghua.edu.cn(Bin Gao),dongwu@tsinghua.edu.cn(DongWu),wuhq@tsinghua.edu.cn(Hua-Qiang Wu)Cite as:Wei,S.- T. 等人Chip1,4(2022)。https://doi.org/10.1016/j.chip.2022.100004收到日期:2021年接受日期:2022年在线发布:2022年传统的冯诺依曼架构面临着许多挑战,在各种神经网络(NN)中,虽然尖峰神经网络(SNN)的原理似乎与我们大脑的原理更相似,但4各个卷积神经网络(CNN)已成为与图像处理相关的任务的最受欢迎的选择8,9。通常,权重核在输入特征图(IFM)上滑动并在相应的元素之间相乘每个滑动步骤生成一个输出特征图(OFM)的元素。通过这种方式,从IFM中提取特定信息并发送到后续的激活函数和池化层。OFM的(x,y)元素定义如下:高效处理数据密集型人工智能任务,出来你好i−1k。x−1k。y−1涉及物理上分离的数据计算和存储单元之间的大量数据移动新型内存计算(CIM)fk(x, y)=σj=0 s=0t= 0fj(x+s, y+t)<$Kk, x, y(j, s,t)<$(1)这种架构在同一个地方实现数据处理和存储,因此比最先进的冯·诺依曼架构节能得多。与它们的同行相比,基于电阻随机存取存储器(RRAM)的CIM系统在处理相同数量的数据时可以节省更少的功率和面积。其中Ni、Kx和Ky分别表示3D内核的层数、长度和宽度,并且k是指3D内核的数量因此,fj(x s, y t)是IFM的第j层的位置(x,y)处的神经元,K(k, x, y)(j, s, t)是第k个内核的位置(j,s,t)处的权重,σ是非线性激活函数,并且fout(x, y)是位置(x数据在本文中,我们首先介绍的原则和挑战有关的RRAM为基础的CIM系统。然后,对RRAM-CIM系统的电路和宏观层面上的最新工作进行了回顾,以突出这一领域的趋势和挑战。介绍如今,人工智能(AI)已经成功地在这样一个以数据为中心的时代处理越来越复杂和实际的问题。在某些特定类别的问题中,AI甚至可以超越人类的能力。传统的冯·诺依曼体系结构由于其高精度和逻辑运算能力以及执行密集型任务的能力,在过去的几十年中得到了很好的研究。然而,在处理需要向AI系统提供大量数据的数据密集型任务时,冯·诺依曼架构面临许多挑战,例如存储器墙以及由于存储器和处理元件的分离而导致的高能源和时间成本(图1)。 1a)。CIM作为一种新颖的体系结构,在人脸分类、1图像和语音识别、2、3等广泛的人工智能任务中表现出了优异的性能。由于数据存储和计算单元的集成,CIM系统可以节省这两个单元之间的额外数据移动(图1)。 1 b),其主导整个系统的延迟和能量消耗。y)的第k层OFM。11很明显,在CNN的算法中有很多矩阵向量乘法(MVM)操作如图所示。在图2中,权重核被映射到列中的电阻器,并且输入特征被注入为行电压。然后由基本欧姆定律和基尔霍夫定律得到MVM的输出为柱以这种方式,MVM可以以高度并行的方式操作。各种非易失性存储器可以根据要映射的目标来改变它们的电阻在这些候选的非易失性存储器中,RRAM具有许多优点,例如快速编程、良好的保持性和耐久性、相对低的编程功率以及与CMOS技术兼容。中列出了各种类型嵌入式存储器的一些重要性能指标12与基于SRAM的CIM相比,尽管SRAM13-因此,RRAM是一个更有前途的候选人CIM系统具有高的能量效率(EF)和面积效率,为未来的应用。36然而,在基于随机存取存储器的系统中也存在一些挑战。CIM系统设计。实现这样一个具有高计算密度、高能效、高计算精度和片上学习能力的系统是一个涉及算法、架构、电路、阵列和器件设计的协同设计任务。37本文主要侧重于宏观和电路设计的挑战,并将组织如下。在第二节中,审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,42月11日图 1|(a)冯·诺依曼架构(b)内存计算架构。图 2|用于卷积运算的RRAM阵列中的MVM的实现。 WL决定选择哪一行; BL施加输入电压; SL收集输出电流。第二部分,讨论了RRAM器件的特性和工作背景。第三节介绍了一些基于RRAM的CIM阵列和宏的最新创新。第四节和第五节分别回顾了输入和输出外围电路的一些考虑,并介绍了最近的硅验证RRAM-CIM系统和体系结构级的考虑。结论和未来展望见第六节。RRAM器件特性和操作典型的RRAM器件是由顶部和底部金属电极以及阻变层构成的夹层结构通过改变施加在器件两端的电压,可以改变氧空位的分布,从而改变导电丝的形状。通过将电导从高阻态(HRS)写入低阻态(LRS),即,设置或相反,重置,我们可以调整神经网络中的权重,如图3所示。我们可以施加低于阈值的电压,以防器件被无意编程,读取电流以识别其当前电阻状态。我们必须认识到,在不同的应用中,对RRAM有不同的特性要求。对于存储应用,我们可能更关注其产量和耐久性。然而,线性、对称性和其他一些特性对于内存计算系统更重要。38阵列和宏观考虑因素基于随机存取存储器的CIM阵列的操作单元通常包括无源交叉阵列(1R)、伪交叉阵列(1T1R)等。除此之外,2T2R结构可以使用两个差分1T1R单元来表示正或负权重另一个更高层次的考虑本节的其余部分回顾了一些硅验证的基于RRAM的CIM系统,重点是阵列和宏。细胞结构。Liu等人39使用一对1T1R审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,43月11日图 3|基本RRAM器件编程操作。LRS:低电阻状态; HRS:高电阻状态。图4|标记重量2T2R结构。BLP,BLN适用于有符号的输入电压,年龄和WLP和WLN确定这对RRAM的选择。在2T2R单元格内以及在同一列中的正权重和负权重之间都有一个新的定义。除此之外,重量介绍是德-根据器件中间状态进行精细化,因为器件电导可以连续调谐。宏权重定位和结果管理。Cheng等人42提出了具有8位权重的RRAM宏,其使用跨8列的8个单级单元(SLC)来表示2的补码格式中的8位但每列只有4个累加,以保证足够的信号裕度(SM),从而牺牲并 行 性 。 Cheng 等 人 还 示 出 了 称 为 加 扰 2 的 补 码 权 重 映 射(S2CWM)43的映射方案此外,奇位和偶数位SLC权重单元被分为全值和半值组,并通过输入感知源极线偏置来区分它们。上述两种方案都是利用电流镜在模拟域完成移位,而不是利用额外的ADC(模数转换器)在数字域进行移位和加法。Cheng等人44使用4个SLC RRAM单元来存储3位带符号权重,并且每个3位带符号权重存储在正组或负组中。在每个组中,最高有效位(MSB)和最低有效位(LSB)位于偶数列和奇数列中。除模拟移位外,本工作还利用正负电流转换器输出正负组电流之差。通过这种方式,将有更少的模拟电流发送到顺序ADC,从而降低设计复杂性并缩短响应时间。基于RAM的CIM提高输入的精度是实现更高的推理精度所必需的。然而,在延迟、功率和面积之间存在固有的权衡。由幅度差表示的多位输入需要高耗能的数模转换器(DAC),DAC需要在短时间内建立以保持整个系统的吞吐量。通常,输入方案包括:单比特串行输入、在一个周期内的多比特输入以及它们之间的折衷,这意味着与单比特方案相比,周期更少,与多比特方案相比,在一个周期内的比特更少审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,44月11日图 5|一些多位输入分裂方案:(a)2-3-3分裂方案(经参考文献10许可采用); (b)BL输入方案。图 6|输入感知动态IREF生成。多位输入-位分裂。趋势是当多位输入应用于基于RRAM的系统时,上述第三种模式可能是首选。Cheng等人42将8位输入分为3个子组(从MSB到LSB 为2-3-3),以确保2b MSB有足够的裕度(图10)。 5(a))。Cheng等人43将4位输入分成两个连续的2位输入。 除此之外,2位输入由4个位线电压而不是字线表示,因此与多激活WL方案相比,可以实现更弱的BL电流和更精确的BL箝位(图11)。 5(b))。考虑到准确性的其他输入管理方法。有些方法也可以应用于数组的输入。Chen等人45提出,当输出电流被量化时,尤其是当R比不够大时,开路行数的不确定会导致精度下降。为了应对这一挑战,他们提出了一种称为输入感知动态IREF生成的方案。首先,记录输入模式中的然后,参考电流生成在另一个子阵列中打开之前记录的相同数量的行,以避免乘法和累加(MAC)值重叠,如图所示。第六章从电路到架构级的输出考虑。一般来说,将阵列列电流转换为数字信号的输出电路是整个CIM系统的瓶颈。39因此,大多数工作都致力于优化输出电路,以提高整个CIM系统的能效和吞吐量在这里,我们回顾了最近在不同方面的一些创新,包括ADC/传感放大器(SA)本身和架构级安排。电路级放大-ADC SA。由于设备变化和降低的R比,不同MAC值之间的感测裕度因此,ADC/SA等输出电路很难在合理的时间内区分MAC电流和参考电流这种困难要求输出电路具有小的失调和良好的性能。但速度和失调总是矛盾的,因为失调抵消需要额外的相位,这是耗时的。下面列出了一些计划,以显示最近的工程如何处理这些问题。首先,下面回顾一些致力于压缩输出电路失调的工作。Lee等人46提出了补偿补偿审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,45月11日+图7|偏移消除技术(a)Vth失配消除(经参考文献46许可采用);(b)跳变点失配消除(经参考文献46许可采用) 47)。图 8|具有扩大的感应裕度的SA:(a)距离竞赛电流模式感应放大器(经参考文件许可后采用)(b)三重保证金CSA(经参考文件许可采用)。 44)。传感放大器如图所示。 7(a). 它利用电容存储和耦合阈值电压,使输入晶体管的阈值电压与Vth失配无关。Lo等47号找到了一种类型使用动态跳变点失配采样方案的电流感测放大器(CSA),如图7(b)所示。该电路还采用了额外的开关和电容来采样第二阶段中两个NMOS PMOS对的输入和输出短路时的跳变点失配。第二,扩大感测裕度是提高速度和放宽偏移要求的另一种方式。Chen等人45提出了一种距离竞赛电流模式传感放大器,如图所示。 8(a). 通过使用电容器C1和C 0,以采样位线电流和高参考电流,交叉耦合对N3/N4的输入端处的电压差为(2μ IBL与传统的中点CSA相比,该工作可以实现2倍的感测裕度,从而获得正审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,46月11日图 9|(a)双比特小偏移CSA(经参考文献104的许可而采用) 41;(b)混合精度电压模式读出方案;(c)LPAR-ADC。反馈可以更快地到达“0”或“1”。除此之外,在参考文献1中还介绍了一种三重边距CSA。 44(如图所示) 8(b))。使用电容器来耦合,倍的电压到2倍大小的晶体管,电流之间的差异,通过交叉耦合的输出流是传统的中点CSA的三倍第三,还有一些其他方法来提高感测速度和能量效率。Cheng等人43示出了一种新颖的电路结构,其仅使用2个参考电流来产生2位输出。充分利用了两对内部节点Q/QB和Q2/Q2 B的信息在第一步中,确定MAC电流是否在两个参考电流之内。然后在下一阶段获得MSB值(如图11所示)。 9(a))。 在Ref. 42岁,一个混血儿-精确的电压模式读出方案被证明,如图所示。 9(b). 对于2位MSB输入,以全精度量化电压SA(VSA)但对于6位LSB输入,使用相同的VSA来处理8位输出,但精度降低。Liu等人39提出了一种称为LPAR-ADC的分辨率可调ADC,以实现精度和功耗之间的灵活折衷(如图9(c)所示)。它不仅利用积分器滤除电流过冲,而且通过改变采样时钟频率来改变架构级优化。有时,优化更高级别的体系结构更有好处。下面列出了一些创新,以简要说明一些架构修改如何有效地提高整个基于RRAM的CIM系统的能量效率和吞吐量审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,47月11日表1|比较最近的硅验证RRAM为基础的CIM作品的性能。88%(2-3-3)90.18%(4-4-11)82%(1-3-3)k(a-b-c)表示比特输入、b比特权重和c比特输出。表示三元权重。FOM=EF×输入精度×重量精度×(输出精度/全精度)。图 10|(a)最近的RRAM CIM作品在FOM方面的比较;(b)最近的基于RRAM的CIM系统的宏容量。在参考文献10中介绍了一种新的编码方案,它以“翻转形式”表示权重当一列中的权重共同大到使乘积之和的MSB为“1”时,该方法保证MAC值的MSB将始终为因此,ADC开销将相应地呈指数下降还有一些其他的工作试图绕过耗时和耗能的ADC。相反,他们使用仿生结构,如积分和点火电路48来模仿人体内的生物过程神经网络的稀疏性在文献[1]中也得到了很好的探讨。 47岁。该方法利用权值稀疏性和激活稀疏性来减少无效计算,从而从一开始就减少被激活的ADC数量,这将显著提高整个RRAM系统的能效和吞吐量。结论和未来展望基于RRAM的CIM是冯·诺依曼架构固有挑战的一个有前途的解决方案,在未来的边缘AI芯片中,它在能源效率和吞吐量方面的表现比传统的同类芯片要好得多。在本文中,我们首先介绍了CNN的一些背景和基本原理,以及基于随机存取存储器的实现。然后,在数组、宏和输入方案上的一些创新以及最近硅验证的RRAM基CIM系统的一些输出电路的考虑。外围电路设计,特别是接口电路的设计,在整个系统设计中起着重要的作用,因为它总是限制着系统的性能和功耗,同时也需要改进基于RRAM的系统的其他层次的设计,这样可以放宽对失调和检测裕度等电路设计的要求,并降低整个系统的这个耗电和耗时部分的激活频率。表1总结了一些基于RRAM的CIM的最新工作品质因数(FOM)综合考虑了系统的延迟和能量效率,是评价CIM系统性能的一个综合指标。除此之外,在不同的数据部署中有不同的数据安排。因此,FOM为CIM作品之间的苹果对苹果的比较提供了平台。很明显,电路和宏观布局的创新绝对加速了这一领域的发展,如图10(a)所示。与FOM的快速发展相反,基于RRAM的CIM的能力似乎与FOM的发展速度不匹配(图11)。 10(b))。然而,基于RRAM的CIM的高性能在未来处理更多的实际问题是必不可少的。此外,为了达到更高的精度,还需要更高的输入和权重分辨率,这对外围电路设计以及宏安排提出了挑战。工作绩效指标VLSI 201848ISSCC 201843ISSCC 201942ISSCC 202037ISSCC 202041ISSCC 202140技术180nm65nm55nm130nm22nm22nm能力2MB1Mb(8x128kb)1Mb(8x128kb)158.8Kb2Mb(8× 256kb)4Mb(8兆512Kb)读取时间(ns)19.2CNN:14.811.75(1-3-3)51.1(1-T-1)9.8(1-2-6)4.9(1-2-4)/计算延迟FCN:15.614.6(2-3-3)13.1(2-4-10)10.3(4-4-10)18.3(4-4-11)14.8(8-8-14)高尔夫球(GOPS)417.96(1-2-4)99.42(4-4-10)35.59(8-8-14)能源20.7(1-8-16)19.2(1-T-3)53.17(1-3-3)78.4(1-T-1)121.4(1-2-6)195.7(1-2-4)效率(TOPS/W)21.9(2-3-3)45.5(2-4-10)47.26(4-4-10)28.9(4-4-11)11.91(8-8-14)审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,48月11日图 11|在硬件资源上实现实用NN的分块架构。 经参考文献许可采用。 52.图 12|示例CNN层遍历ISAAC流水线。 经参考文献许可采用。 十一岁如前所述,基于RRAM的CIM的有限能力意味着用于像Resnet这样的大规模神经网络的硬件资源50.一般来说,来自典型层的权重不能适合单个阵列,因此需要平铺架构以接近大规模NN,如图所示。 十一岁权值分割的方式以适应物理阵列,部分结果的生成和求和,以及ADC的复用和范围都需要考虑。52在物理硬件资源上实现具有众多参数的大型NN时,还有一些其他考虑因素。一方面,必须利用深且精密的管道11、50来优化延迟,如图12所示。以这种方式,层之间的延迟应该是平衡的,这可以通过创建并行复制。另一方面,一般NN的稀疏性可以也可以使用49。通过将数组拆分为细粒度的操作单元,很好地利用了权重和激活稀疏性来加快推理过程(图13)。此外,数据局部性 和减少的输入数据访问51也是必要的(图14),因为 在不同存储器级别之间的数据移动通常是耗时和浪费能量的,这对于我们的数据密集型任务是不友好的。审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,49月11日图 13 |Sparse ReRAM引擎示意图。 经参考文献许可采用。第四十九章。图 14|及时的体系结构,以提高数据的本地性和输入数据的访问。 经参考文献许可采用。 51.审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,410月11+电路的创新无疑推动了基于RRAM的CIM系统向更节能和更高吞吐量的方向发展。然而,只有从器件、电路、体系结构、算法等各个设计角度共同努力,才能使基于RRAM的CIM更实用、更高效。引用1. Yao,P.et al. Face classification using electronic synapses. 国家通信8,15199(2017)。 https://doi.org/10.1038/ncomms15199。2. Yao,P. 等人 完全硬件实现的忆阻器卷积神经网络。Nature577,641-646(2020). https://doi.org/10.1038/s41586-020-1942-4。3. Y.莱昆,本焦湾&Hinton,G.深度学习《自然》,第521卷,第436-444页(2015)。https://doi.org/10.1038/nature14539。4. Silver,D. 等人在没有人类知识的情况下掌握围棋。Nature550,354-359(2017). https://doi.org/10.1038/nature24270。5. Yu,S.神经启发计算与新兴的非易失性存储器。 Proc. IEEE106,260https://doi.org/10.1109/JPROC.2018.2790840。6. Schmitt,S.神经形态硬件在环:在BrainScaleS晶圆级系统上训练深度尖峰网络 。 神 经 网 络 国 际 联 合 会 议 ( IJCNN ) , 2227-2234 ( 2017 ) 。https://doi.org/10.1109/IJCNN.2017的网站。7966125.7. 梅罗拉山口A. 等人 具有可扩展通信网络和接口的百万尖峰神经元集成电路。Science345,668-673(2014). https://doi.org/ 10.1126/science.1254642。8. 戴维斯,M。 Loihi:a neuromorphic manycore processor with on-芯片学习IEEE Micro38 , 82-99 ( 2018 ) 。 https://doi.org/10.1109/MM.2018 的 网 站 。112130359.9. 他,K。Deep residual learning for image recognition. IEEE计算机视觉和模式识别会议(CVPR),770-778(2016)。网址://doi.org/10.1109/CVPR.2016.90。10. Ren , S. Faster R-CNN : towards real-time object detection with region pro-bandwidth networks. IEEE传输模式分析马赫内特尔39,1137-1149(2017)。https://doi.org/10.1109/TPAMI.2016.2577031。11. 沙菲埃A. ISAAC:a convolutional neural network accelerator with in-现场模拟算法在交叉。ACM/IEEE第43届计算机体系结构国际研讨会(ISCA)(2016)。https://doi.org/10.1109/ISCA.2016。12.12. Salahuddin , S. , Ni 、 K. & 达 塔 河 , 西 - 地 电 子 产 品 的 超 大 规 模 时 代 。Nat.Electron.1,442-450(2018)。 https://doi.org/10.1038/s41928-018-0117-x。13. Jhang , C.- J. et al. Challenges and trends of SRAM-based computing-in-memory for AI edge devices. IEEE Trans. Circ.系统I68,1773-1786(2021)。网址://doi. org/10.1109/TCSI.2021.3064189。14. Jeloka,S.,Akesh,N. B、Sylvester,D. &Blaauw,D.一个28纳米可配置的存储器(TCAM/BCAM/SRAM)使用推规则6 T位单元使逻辑在内存中。IEEE J.Solid-State Circ. 51,1009-1021(2016)。https://doi.org/10.1109/JSSC的网站。2016.2515510.15. 东角,澳-地一种采用55 nm DDC技术的0.3 V VDDmin4 2T SRAM,用于搜索和存 储 器 内 计 算 。 过 程 总 结 VLSI Circuits , C160-C161 ( 2017 ) .https://doi.org/10.23919/VLSIC.2017.8008465。16. 张玉,徐,L.,东,昆-地王杰,Blaauw,D. &Sylvester,D.再加密器:可重配置的加密cortex-M0处理器,具有内存和近内存计算功能,可用于物联网安全。IEEEJ.固态电路53,995-1005(2018)。https://doi.org/10.1109/JSSC.2017.2776302。17. Gonugondla,S. K.,康,M。&Shanbhag,N. 42 pJ/decision 3.12TOPS/W强大的内存中机器学习分类器,具有片上训练功能。IEEE国际固态电路会议。(ISSCC)挖。Tech. Papers,490 -4 9 2 ( 20 1 8 ) . ht t p ://doi.org/10.1109/ISSCC.2018.8310398的网站。18. Wang , J.et al. 14.2 A compute SRAM with bit-serial integer/floating pointoperations- tions for programmable in-memory vector acceleration. IEEE国际固态电路会议(ISSCC)Tech.论文,224-226(2019)。https://doi.org/10.1109/ISSCC.2019.8662419.19. 杨,J. 等人 24.4 RAM:一种具有脉冲宽度调制的节能内存BWN架构。 IEEE国际固 态 电 路 会 议 。 ( ISSCC ) 挖 。 Tech.Papers , 394 -396 ( 2019 ) .https://doi.org/10.1109/ISSCC.2019.8662435。20. Khwa,W.- S. A 65 nm 4 Kb algorithm-dependent computing-in memory SRAMunit-macro with 2.3 ns and 55.8TOPS/W fully parallel product-sum operation forbinary DNN edge processors. IEEE 国 际 固 态 电 路 会 议 ( ISSCC ) Tech.Papers,496 -498(2018). https://doi.org/10.1109/ISSCC.2018。8310401.21. 郭河,巴西-地等人的A 5.1 pJ/Neuron 127.3 us/inference RNN-based speechrecognition processor using 16 computing-in-memory SRAM macros in 65 nmCMOS.过程总结VLSICircuits,C120-C121(2019).https://doi.org/10.23919/VLSIC的网站。2019.8778028.22. Zhang , Z. A 55 nm 1-to-8 bit configurable 6T SRAM based computing-in-memory unit-macro for CNN-based AI edge processors. Proc. IEEE亚洲审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,411月11固态电路会议(A-SSCC),217-218(2019 )。https://doi.org/10.1109/ A-SSCC 47793.2019.9056933.23. 金,J. 等人使用6T SRAM阵列的区域有效和变化容限的存储器内BNN计算。Proc. Symp.VLSI Circuits , C118-C119 ( 2019 ) .https://doi.org/10 。23919/VLSIC.2019.8778160。24. Yu,C.,小泰金,T.T.- H、Chun Chuan,K.C. 金湾16K电流型8 T SRAM内存计算宏,具有去耦读/写和1- 5位列ADC。 Proc. IEEE自定义整数电路会议(CICC),1 -4(2020). https://doi.org/ 10.1109/CICC48029.2020.9075883.25. 东角,澳-地15.3 A 351 TOPS/W和372.4GOPS内存计算SRAM宏,采用7 nmFinFET CMOS,用于机器学习应用。国际固态电路会议(ISSCC). Tech.论文,242-244(2020)。https://doi.org/ 10.1109/CICC48029.2020.9075883.26. Biswas,A.Chandrakasan,A.P. Conv-RAM:一种具有嵌入式卷积计算的节能SRAM , 用 于 基 于 低 功 耗 CNN 的 机 器 学 习 应 用 。 IEEE 国 际 固 态 电 路 会 议(ISSCC)Tech.Papers,488-490(2018).https://doi.org/10.1109/ISSCC.2018.8310397。27. 是的,X。15.5 A 28 nm 64Kb 6T SRAM Computing-in-Memory Macro with 8bMAC operation for AI edge chips. IEEE国际固态电路会议(ISSCC)Tech.论文 , 246-248 ( 2020 ) 。 https://doi.org/10.1109/ISSCC19947.2020 的 网 站 。9062995.28. Su,J.- W. 15.2 A 28 nm 64Kb推理训练双向转置多位6T SRAM内存计算宏用于AI 边 缘 芯 片 。 IEEE 国 际 固 态 电 路 会 议 ( ISSCC ) Tech. 论 文 , 240-242(2020)。https://doi.org/10.1109/ ISSCC19947.2020.9062949.29. 蒋志,Yin,S.,锡克河&徐真S. XNOR-SRAM:用于二进制/三进制深度神经网络的内存计算SRAM宏。Proc. IEEE Symp. VLSI Technol,173-174(2018)。https://doi.org/10.1109/VLSIT.2018.8510687。30. Valavi,H.,Ramadge,P. J.,Nestler,E. &维尔马,北一种混合信号二值化卷积神经网络加速器,集成了密集权重存储和乘法以减少数据移动。Proc. IEEESymp.VLSICircuits,141-142(2018).https://doi.org/10.1109/VLSIC.2018.8502421。31. Kim,H.,陈角,澳-地金湾基于16K SRAM的混合信号内存计算宏,具有电压模式累加器和逐行ADC。IEEE亚洲固态电路会议论文集。(A-SSCC),35 -36(2019)。 https://doi.org/10.1109/ A-SSCC 47793.2019.9056926.32. 蒋志,Yin,S.,徐真S. &锡克河C3SRAM:基于电容耦合计算的内存计算SRAM宏。IEEE固态电路Lett.2,131-134(2019).https://doi.org/10.1109/LSSC.2019.2934831。33. Okumura,S.,Yabuuchi,M.,日冈湾鼻子,K。一种基于三进制的位可缩放,8.80 TOPS/W CNN加速器,具有896 K突触/mm 2的众核内存处理架构。过程总结VLSITechnol,C248-C249(2019).https://doi.org/10.23919/VLSIC.2019.8778187。34. 是的,X。24.5用于基于CNN的多位机器学习的双8T SRAM内存计算宏。IEEE国 际 固 态 电 路 会 议 ( ISSCC ) Tech.Papers , 396 -398 ( 2019 ) .https://doi.org/10.1109/ISSCC.2019.8662392。35. 张杰,Wang, Z. &维尔马,北在标准6T SRAM阵列中实现的机器学习分类器。Proc. IEEE Symp. VLSI Circuits ( VLSI-Circuits ) , C252- C253 ( 2016 ) .https://doi.org/10.1109/VLSIC.2016.7573556。36. Li,C. 等人 使用大型忆阻器交叉杆的抗干扰信号和图像处理。Nature Electronics1,52 https://doi.org/10.1038/s41928-017-0002-z。37. Zhang , W. 神 经 启 发 的 计 算 芯 片 。 Nat.Electron.3 , 371-382 ( 2020 ) 。https://doi.org/10.1038/s41928-020-0435-7。38. Horowitz,M.1.1计算IEEE International Solid-State Circuits Conference DigestofTechnicalPapers(ISSCC)(2014).https://doi.org/10.1109/ISSCC.2014.6757323。39. Liu , Qi 等. A fully integrated analog RRAM based 78.4TOPS/W compute-in-memory chip with fully parallel MAC computing. IEEE 国 际 固 态 电 路 会 议(ISSCC)(2020)。 https://doi.org/10.1109/ISSCC19947.2020。9062953.40. Yu , S. Scaling-up resistive synaptic arrays for neuro-inspired architecture :challenges and prospect. IEEE国 际 电 子 器 件 会 议 ( IEDM ) ( 2015 年 ) 。https://doi.org/10.1109/IEDM.2015.7409718。41. 廖,Y. Diagonal matrix regression layer:training neural networks on resistivecrossbar with interconnect resistance effect. IEEE Trans. Comput.-辅助设计积分 Circ. 40 , 1662-1671 ( 2021 ) 。 https://doi.org/10.1109/TCAD 的 网 站 。2020.3021309.42. Xue,C.- X. A 22 nm 4 Mb 8b精度RRAM内存计算宏,11.91至195.7TOPS/W,适 用 于微 型 AI 边 缘 器件 。 IEEE国 际 固态 电 路 会议 ( ISSCC ) ( 2021 ) 。https://doi.org/10.1109/ISSCC42613的网站。2021.9365769.43. Xue , C.- X. A 22nm 2Mb RRAM compute-in-memory macro with 121-28TOPS/W for multibit MAC computing for tiny AI edge devices. IEEE国际固态电路会议(ISSCC)(2020)。https://doi.org/10.1109/ISSCC19947.2020.9063078.44. Xue , C.- X. A 1Mb multibit RRAM computing-in-memory macro with 14.6nsparallel MAC computing time for CNN-based AI edge processors. IEEE国际固态 电 路 会 议 - ( ISSCC ) ( 2019 ) 。 https://doi.org/10.1109/ISSCC.2019.8662395.审查DOI:芯片|Vol 1 |2022年春季魏,S.-T. 等人 芯片1,412月1145. 陈文H. A 65nm 1Mb nonvolatile computing-in-memory RRAM macro with Sub-16ns multiply-and-accumulate for binary DNN AI edge processors. IEEE国际固态电路会议(ISSCC)(2018)。https://doi.org/10.1109/ISSCC.2018.8310400。46. Lee,A. 等人,使用小偏移读出放大器进行低电压操作的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功