失效感知ECC优化STT-MRAM成品率、面积和能量

82 浏览量更新于2023-12-04 收藏 792KB PDF 举报

新兴技术

嵌入式存储器

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月+Ⓧ--基于失效感知ECC的STT-MRAM成品率、面积和能量优化Zoha Pajouhi，Xuanyao Fong，Anand RAGHUNATHAN，andKaushik Roy，普渡大学自旋转移扭矩MRAM由于其非挥发性、高密度和零泄漏而具有吸引力然而，STT-MRAM由于共享读和写路径而遭受差的可靠性。此外，对数据保持和可写性（两者都与存储设备的能量势垒高度有关）的冲突要求使得设计更具挑战性。此外，能量势垒高度取决于存储器的几何形状。存储装置的几何形状的任何变化导致能量势垒高度的变化。为了解决STT-MRAM的可靠性差的问题，已经提出了使用纠错码（ECC）。与传统的CMOS存储器技术不同，ECC有望纠正STT-MRAM中的软错误和为了在低写入功率下实现可接受的良率，需要更强的ECC，这导致编码位数增加和存储器容量降低。在这篇文章中，我们提出了故障感知ECC（FaECC），它掩盖永久性故障，同时保持相同的软错误纠正能力，而不增加编码位数。此外，我们调查的STT-MRAM的运行时可靠性的工艺变化的影响。为了分析我们的方法的有效性，我们开发了一个跨层的仿真框架，包括器件，电路和阵列级分析的STT-MRAM存储器阵列。我们的研究结果表明，使用FaECC放宽了对能量势垒高度的要求，从而降低了写入能量，并导致更小的存取晶体管尺寸和存储器阵列面积。CCS概念：硬件→新兴技术;自旋电子学和磁性技术附加关键词和短语：嵌入式存储器，新兴技术ACM参考格式：Zoha Pajouhi，Xuanyao Fong，Anand Raghunathan，and Kaushik Roy.2016年。使用故障感知ECC的STT-MRAM中的产量、面积和能量优化J. 紧急情况Technol. Comput. 系统13，2，第20条（2016年11月），20页。DOI：http://dx.doi.org/10.1145/29346851. 介绍自旋转移力矩（STT）存储器由于其有利的特性（诸如高密度、非易失性和接近零的泄漏）而被认为是未来片上存储器技术的有希望的存储器[Slonczewski 1996;Berger1996;Katine等人，2006]。2000;Li等人2008]。然而，它们的可靠性差，表现为低制造成品率以及运行时错误。此外，通过设计确保高可靠性导致增加的读取和写入能量以及降低的存储容量。这项研究的部分资金来自自旋电子学中心：材料，界面和架构，这是一个由DARPA和MARCO资助的StarNet中心，由半导体研究公司和国家科学基金会资助。作者Pajouhi，X.Fong，A.Raghunathan和K.罗伊，465西北大街，西拉斐特，印第安纳州，美国，47906;电子邮件：zpajouhi，xfong，raghunathan，kaushik@purdue.edu。允许制作部分或全部本作品的数字或硬拷贝供个人或课堂使用，不收取任何费用，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页或显示器的初始屏幕上显示此通知以及完整的引用。本作品的版权归ACM以外的其他人所有，必须予以尊重。允许使用学分进行摘要复制，再版，张贴在服务器上，再分发到列表，或在其他作品中使用本作品的任何组成部分，需要事先特定的许可和/或费用。可向出版部索取，ACM，Inc.2 Penn Plaza ， Suite 701 ， New York ， NY 10121-0701 USA ，传真： 1 （ 212 ） 869-0481 ，或permissions@acm.org。c 2016 ACM 1550-4832/2016/11-ART20 $15.00DOI：http://dx.doi.org/10.1145/293468520ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月20：2 Z. Pajouhi等人密度 [Wuet al. 2009; Wanget al. 2013; Zhouet al. 2009; Xuet al. 2009; Del Bel 等人2014;Kang等人，2013;Yang等人，2012年]。几项研究工作已经致力于解决STT-MRAM在器件、电路和架构级别的低可靠性[Pajouhiet al. 2015; Kwon 等人 2015;Kang 等人 2015;Wang 等人 2008;Apalkov 等人2006]。在STT-MRAM中利用的单端电流感测方案由于存储装置的电特性的工艺变化（即，Tunnel磁阻（TMR）和电阻面积（RA）乘积），这使得难以可靠地区分“1“和“0“。另一方面，由于STT转换是一个随机过程[Kimet al. 2012; Fong等人2012]，需要增加的写入电流以确保可靠的写入操作。减小写入电流提高了能量效率，但是增加了写入错误的概率并且导致降低的良率。为了减少写入错误，可以降低磁性隧道结（MTJ）的能量势垒（E B）高度[Li等人，2008;Augustine等人，2010]。然而，MTJ的保留时间取决于能量势垒高度[Naemi等人，2013]，其需要足够高以确保足够长的保留时间。从上面的讨论中，很明显，在存储器阵列的可靠性和能量消耗之间存在折衷此外，高产率和运行时间可靠性对能量势垒高度提出了相互矛盾的要求这就提出了一个问题，即是否有可能解决STT-MRAM的可靠性问题，而不放弃其优点，如高密度和非易失性。解决存储器中的可靠性的最普遍的方法之一然而，ECC以增加的面积和额外的编码位和编码器/解码器电路的功耗的形式强加开销另一方面，其实现STT-MRAM位单元中的更高效读取及写入操作，且可导致提高的良率。最近的研究表明，ECC可以用于提高STT-MRAM的密度和能量效率[Xuet al. 2009; Del Bel等人2014;Pajouhi等人2015; Kwon等人2015年]。这些研究工作的重点是提高可靠性，但是，他们不区分产量和运行时的可靠性。在Del Belet al.[2014]，作者考虑了ECC和地址运行时可靠性。然而，他们没有考虑过程变化对运行时可靠性和保留时间的影响。注意，上述结果表明，为了满足可接受的良率并同时保持运行时可靠性，需要具有增加的校正能力的ECC。然而，随着校正能力的增加，与ECC插入相关联的优点由于增加的开销而劣化在这篇文章中，我们调查的STT-MRAM位单元，并探讨不同的故障机制的工艺变化具体来说，我们解释了工艺变化对存储器阵列的运行时可靠性和保留时间的影响，并分析了保留时间对写入功耗和写入故障的影响为了提高存储器阵列的可靠性，我们提出了故障感知ECC（FaECC），以掩盖永久性故障，同时保持软错误的纠正能力。在FaECC方案中，我们识别永久缺陷位单元，并利用编码字内的缺陷位单元的位置的知识来增强ECC的校正能力为了分析FaECC的影响，我们开发了一个跨层的仿真框架，在设备，电路和阵列级的设计抽象。该框架用于分析不同的可靠性增强技术对存储器阵列的成品率和运行时可靠性的影响总而言之，我们做出了以下主要贡献：- 我们提供了一个全面的讨论和统计分析的存储设备的参数之间的关系和保留故障在STT-MRAM的工艺变化的存在。基于失效感知ECC的STT-MRAM成品率、面积和能量优化二十ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月- 我们开发了一个跨层仿真框架，以评估工艺变化对STT-MRAM阵列的成品率和运行时可靠性我们利用仿真框架来分析ECC的成品率和运行时的可靠性的影响我们发现，使用ECC来提高产量的ECC，以提高运行时的可靠性的能力有负面影响。- 我们提出了一种故障感知ECC（FaECC），以掩盖永久性故障，而不影响瞬时故障的纠正能力。该方法采用单错误校正和双错误检测（SECDED）来纠正瞬时故障，同时掩盖永久故障。此外，通过使用此方法，满足所需运行时间可靠性的存储器阵列的所需能量势垒高度这种减小导致存取晶体管尺寸减小和读/写功率减小。文章的其余部分组织如下：在第2节中，我们解释STT-MRAM的特性，并描述不同的位单元故障机制。在第三节中，我们讨论了STT-MRAM阵列的运行时间可靠性。在第4节中，我们提出了FaECC，故障感知ECC计划STT-MRAM，利用故障机制的理解，以提高产量，而不牺牲运行时的在第5节中，我们提出了跨层仿真框架，用于评估所提出的FaECC方案。在第6节中，我们讨论了从我们的模拟框架中获得的结果第7节是结论性意见。2. STT-MRAM预备STT-MRAM位单元由存储和存取晶体管组成，如图1所示。磁性隧道结（MTJ）是STT-MRAM的存储器件，存取晶体管用于存取MTJ。MTJ由两个铁磁层组成-钉扎层和自由层-包含隧穿氧化物（通常为钉扎层具有固定的磁化方向，而自由层的磁化自由层和固定层的相对磁取向决定存储在MTJ中的数据。如果自由层的磁化方向与固定层相同，则它们被称为平行;然而，如果它们在相反的方向上，则它们被称为反平行（我们假设逻辑磁化方向可以与MTJ的表面对齐-为了写入到位单元中，字线被激活并且偏置电压被施加在位线与源极线之间以使电流通过MTJ。电流的方向定义了写入位单元的数据值。所需的写入电流量（称为临界开关电流）取决于所需的写入时间。实现可接受的写入延迟通常需要高切换电流，从而负面地影响能量效率和可靠性[Fong et al. 2012年]。为了读取位单元，字线被启用并且偏置电压被施加在位线与源极线之间，从而使得电流通过MTJ。然后感测电流以评估MTJ的电阻并区分逻辑读取电流应基本上低于MTJ的临界切换电流，以避免在读取操作期间意外写入在STT-MRAM中存在四种主要的故障机制：读取决策故障、读取干扰故障、写入故障和保留故障[Fong等人，2005]。2012年]。由于无法正确检测存储在MTJ中的值而发生读取决策失败。如前所述，在源极线与源极线之间施加电压（Vread二十Z. Pajouhi等人ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月生活不生活不生活不Fig. 1. （a）MTJ结构;（b）位单元结构;（c）标准连接。图二. （a）面内磁各向异性和（b）周向磁各向异性的自由层尺寸。并且通过将位单元电流与参考电流（Iref）进行比较来确定位线和数据。理想地，具有不同存储值的位单元具有通过它们的不同电流（例如，IP（用于并联配置）和I AP（用于反并联配置），并且通过将参考电流设置为两个电流的平均值来最大化感测裕度。然而，由于工艺变化（例如，由于RA乘积的变化），通过每个位单元的电流可以不同于其标称值。因此，应仔细选择Iref，以尽量减少决策失败。一旦定义了I_ref，则相应地调整感测放大器请注意，读取决策失败可以被认为是固定故障失败[Kanget al. 2015; Su和Huang 2004]。干扰故障发生时，存储在位单元中的数据是无意中重写，十年在读操作。这是由于在读取操作期间增加的电流流过注意，由于读电流的方向仅与一个写电流的方向匹配，因此这种类型的故障仅针对一个数据值发生（“0”错误地变为“1”，或者反之亦然）。由于存取晶体管的增加的电流驱动能力或晶体管的减小的临界电流，的MTJ。这种降低可能是工艺变化或热效应的结果。由于在写入操作期间不成功的MTJ状态改变而发生写入失败。它们的发生是由于存取晶体管的电流驱动能力降低或由于工艺变化或热效应导致的MTJ临界电流标准连接[Nebashiet al. 2009年; Lin等人2009]的位单元，以减轻写入失败。最后，由于热效应而发生保持失效。如果热效应大到足以翻转自由层的磁化，则MTJ改变其状态。保留故障的特征在于纳米磁体的保留寿命在时间t在单个存储器位单元中的保持故障的概率由Naemi等人给出。[2013年]：P FAILTHERMAL= 1 − F f（t），F f（t）= exp. −t，f f（t）=1exp. −t，（1）其中ff（t）是失效概率密度函数，PFAIL_THERMAL是时间t的失效概率，Ff（t）是累积概率密度函数。此外，被称为MTJ的寿命的t寿命取决于自由层特性[Augustine et al. 2010年]。基于失效感知ECC的STT-MRAM成品率、面积和能量优化二十ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月KBTK0如等式（1）所示，保留失败的概率取决于写事件之后经过此外，位单元的寿命取决于自由层的物理特性。注意，由于工艺变化（导致势垒高度的变化），一些位单元比其他位单元更容易发生保持故障。在下一节中，我们将研究过程变化对保留失败的影响及其对运行时可靠性的影响。3. 运行期可靠性分析3.1. 热稳定性和保留时间虽然STT-MRAM被称为非易失性存储器，但是它们保留所存储的数据的能力在实践中是有限如前一节所述，保留失败概率可以用从数据存储在存储器中的时间起经过的时间和自由层的寿命来表示。自由层的寿命又可以表示为[Augustine et al. 2010年]：t life=（10 −9）exp.（2）其中EB是能量势垒高度，KB是玻尔兹曼常数，T是开尔文温度。EB取决于自由层的几何尺寸。图2示出了不同磁各向异性配置的自由层的物理尺寸。平面内磁各向异性（IMA）自由层的E B可以表示为[Apalkov et al. 2010年]：EB=Hk Ms V <$4 π Mst（AR − 1）M Sπ w2. AR. tt2w（AR−1），（3）2wAR4其中MS是饱和磁化强度，HK是有效场各向异性，V是自由层的体积此外，w、AR和t分别是自由层的宽度、纵横比如等式（3）中所表达，EB取决于自由层的几何形状且因此对工艺变化敏感对于具有周向磁各向异性的自由层，E B可以表示为[Augustine et al. 2010年]：HC Ms VHC Msπw2tEB=Ku2V=k=k4tw2，（4）2 2其中Ku2是单轴各向异性，V是自由层的体积，并且HC是有效场各向异性。正如所观察到的，EB也取决于自由层的几何形状。为了确保STT-MRAM的可靠操作，应调整E B，使得满足运行时间可靠性的要求。典型的内存可靠性规格可以用FIT或故障时间表示，其中1 FIT是每十亿（设备×小时）中有一个故障：19λ（10）=1FIT，（5）其中λ是以小时为单位的故障率，可以表示为平均故障时间（MTTF）：MTTF=Δ∞tff（t）dt，（6）其中ff是失效时间的概率密度函数，当且仅当该积分存在（作为不当积分）。二十Z. Pajouhi等人ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月MTTF=.∞texp（−t/t life）dt. = t生活。（七）生活不生活不MTTF数组=.t∞ntexp（−nt/t life）dt. =t生活。（十）k=1k=1因此，对于MTJ器件，我们有：.0t生活。如果仅考虑单个器械，则1 FIT转换为0.00876%的失效率，10年，满足1 FIT要求所需的EB约为50 KBT。然而，对于较大的存储器阵列，对于整个存储器阵列而不仅仅是单个MTJ器件，应考虑1个FIT为此，让我们考虑一个存储器阵列与n位单元。在这种情况下，数组的正确性概率可以定义为：n nF farray=.F fk=. exp（−t/t life）= exp（−nt/t life），（8）其中Ffarray是累积概率密度函数。因此，很可能-密度函数可以写为：ffarray=. n.经验-nt。（九）存储器阵列的MTTF可以定义如下：.0t生活。n为了获得所需的EB，所需的MTTF应该从等式（6）获得。接下来，应当通过针对期望的阵列大小求解等式（10）来定义寿命以满足所需的MTTF阵列一旦导出了EB，就可以导出自由层为了定义自由层特性，如果自由层是IMA（PMA），则应使用等式（3）和（4）。为了分析运行时可靠性，在不限制于MTJ参数集的情况下，热稳定性因子定义如下：E BN= E B/K B T。（十一）在以下部分中，我们将根据MTJ的工作温度和特性推导自由层物理特性图3显示了1 FIT时较大存储器阵列（忽略参数变化）所需的EBN如所观察到的，所需的EBN随着存储器大小的增加而增加。由于1FIT的可靠性度量保持恒定，因此随着存储器阵列中的位单元的数目增加，每一位单元的可容忍故障概率减小。为了满足这种降低的概率，应该增加EB3.2. ECC对运行时可靠性ECC是提高存储器阵列可靠性最有效的方法之一。在不同的ECC码中，Bose-Chaudhuri-Hocquenhgem（BCH）码通常用于存储器阵列[Michelson和Levesque 1985]。BCH码通过向字添加（n-k）位来将k位字数据改变为nn的选择取决于ECC的期望校正能力。应该应用ECC的字长（k）和额外位（n-k）的选择影响校正基于失效感知ECC的STT-MRAM成品率、面积和能量优化20：7ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月BM世界报MMexp1− exp测试寿命−tlife−∗−tlifeMTTF数组=.∫∞tf fcorr dt. .（十六）图3. 所需E BN与内存大小为1 FIT。能力以及所产生的间接费用具有m位校正能力的n位字的正确性概率（位错误概率为Pb）可以表示为：Pword=.i=0. n我（1 −P b）n−iP i.（十二）此外，如果存储器阵列具有s个字，则必须使用为存储器阵列选择的ECC方案对每个字进行编码那么，整个存储器阵列的正确性概率将是：Pcorr=Ps.（十三）为了获得阵列（具有ECC）所需的EBN，需要如下将等式（1）中获得的单个MTJ的故障概率代入等式（12）：.. n..tn−i.. 塔吉i=0我接着，将得到的P字插入公式（13）。在下一步骤，概率密度函数从累积密度函数导出如下：.n. 新台币..ni=1. （n−i）t。生活不. ti−1<$1<$（n − i）− n <$exp.−t生活不. .M生活不. n. （n−i）ts−1我∗i=0iexp−生活不（1−exp（−t/tlife））（十五）最后，导出故障时间的概率密度函数，并将其插入方程（6）中，以获得MTTF阵列：.0。Pword=−tlife−tlife（十四）ffcorr =s+我exp1− expΣ20：8Z. Pajouhi等人ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月=-==+=.P=Pcorr..ΣB===-−例如，我们假设内存的期望大小是4MB，我们对数组中的每128位应用ECC因此，k128和s4 MB/128。对于具有SECDED能力的ECC，应该执行GF（28）编码，其中GF（2deg）是度为deg的伽罗瓦域。对于汉明码（其被认为是最简单的BCH码），附加比特的数量是8，并且添加单个奇偶校验比特以检测附加错误，从而导致总共9比特。因此，m1和n9 128 137。这些值应插入等式（15）和（16）中以获得MTTF 阵列。然而，对于给定的MTTF阵列，这个过程应该被反转以获得所需的t寿命。一旦导出t寿命，就可以将其插入等式（2）和（11）中以获得EBN和EB。图4说明了对于字长为128位的4MB存储器阵列，满足1 FIT可靠性级别所需的EBN如所观察到的，所需的EBN随着ECC的校正能力的增加而减小此外，让我们考虑采用ECC来校正读取和写入故障以及保留故障。在这种情况下，碰巧包含这种故障（读或写）和保留故障的字不能用ECC纠正此外，如果有大量这样的词，EB不能像上面建议的那样减少在下一小节中，我们将分析这些条件对ECC处理保留故障的有效性的影响3.3. 读写失败对ECC让我们考虑一个场景，其中ECC用于提高产量以及运行时的可靠性。数据字中存在硬故障会降低其纠正保留、读取和写入故障的能力为了确定降级的ECC能力对运行时可靠性的影响，让我们假设具有j个非保留故障的字的数量为nj。然后，整个存储器的正确性概率可以定义为：MNJ沃德日（十七）j=0其中m是可校正错误的最大数量，并且P_wordj可以从以下等式获得：Pwordj=m−jnii=0（1 −Pb）n−iPi，（18）其中n是字中的位的总数例如，让我们考虑一个4MB阵列，其中使用了具有SECDED功能的ECC此外，让我们假设ECC被应用于128位的字长，这意味着阵列中的字的数量是s4MB/16 B。此外，让我们假设有b个字有一个读或写失败，我们也使用ECC来纠正这些失败。如果在上述b线之一中以及在没有读或写故障的位单元之一中也发生了保留故障，则具有SECDED能力的ECC将无法纠正它，因为在同一个字中已经存在读或写故障注意，在这个例子中，m1，n0 s-b，n1 b。为了计算MTTF阵列，在等式（1）中获得的正确性概率应当被代入等式（18）中在这些步骤之后，存储器阵列的正确性概率可以表示如下：. （ns−b）t。生活不. tagrabb接下来，类似于等式（15）导出概率密度函数Pcorr=expn+（1−n）exp−tlife.（十九）基于失效感知ECC的STT-MRAM成品率、面积和能量优化20：9ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月- 是的.ΣΣΣ+−−−t−−tlife见图4。包括ECC在内的不同内存阵列大小所需的EBN图五. 如果ECC用于提高产量和改善运行时可靠性，则阵列的E BN所需增加的百分比，其缺陷位单元的概率为1 e-5。.（ns − b）t。生活不. tb−1ns n（1n）exptbn生活生活不.（二十）最后，所需的EBN和EB可以通过将fcorr代入等式（6）中来导出。例如，让我们考虑具有128位ECC字长的相同4MB存储器阵列。此外，让我们假设在每个位单元中具有读或写故障的概率是1 e-5，并且这些故障均匀地分布在所有位单元中。接下来，基于这些故障的均匀分布，我们获得具有j个读或写故障的平均字数（nj），并将获得的nj插入等式（19），并且概率密度函数应类似于下式导出：等式（20）。图5显示了所需EBN的百分比增加。如所观察到的，所需的EBN的增加随着ECC的校正能力的增加而减少。为了避免增加EBN，需要具有更高校正能力的ECC方案，或者如果可能的话，可以引入其他产量增强技术，例如冗余行或列然而，由于STT-MRAM位单元的可靠性差，冗余不是提高良率的有效方法;其导致高开销[Kwonet al. 2015年]。因此，确保可靠性的最近趋势是利用ECC来提高良率。然而，为了同时维持高良率和运行时可靠性，需要使用具有更高校正能力的ECC我们提出了一种故障感知ECC（FaECC）方案，它增强了纠正能力，而无需向阵列添加大量编码位（图6）。在FaECC中，我们识别读取决策失败，并使用我们提出的技术（在下面的部分中描述）来纠正这些失败。然而，由于STT-MRAM中的写入的随机性质，该方法不用于减轻写入故障。4. 基于错误感知的ECC纠错由于它们的简单结构和解码方案，BCH码[Wilkersonet al. 2010;Strukov2006]通常用于存储器设计。具体地，可以被视为BCH码的特殊情况的汉明码ECC所需的附加编码位数由所需的校正能力和应用ECC的字长fcorr=expn+（1−n）exp×二十Z. Pajouhi等人ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月=联系我们见图6。FaECC手术。此外，可以采用ECC来纠正具有已知位置的错误。这些类型的错误被称为擦除[Evain etal. 2014]。具有可识别位置的潜在错误位的概念是众所周知的，并用于数字通信，但令人惊讶的是，在存储系统中并不常用[Evain等人，2014]。理论上，具有最小汉明距离d的码可以纠正t个随机错误和擦除，如果d> 2tr [Walker et al. 1979; Carter and McCarthy1976; Siewiorekand Swarz 1998; Chen and Hsiao 1984; Evain et al. 2014; Seong等人2010; Fujiwara1989]。因此，如果我们知道错误的所有位置，我们可以引入t0并使用该代码来纠正擦除。在FaECC中，我们使用通过ECC纠正擦除的概念[Evainet al. 2014年]。图6说明了FaECC方法。在该方法中，使用SECDED码并且使用擦除信息来启用针对固定故障错误的双重纠错（DEC）能力。在该方法中，类似于SECDED编码方案来执行编码和解码，并且仅当正常SECDED解码器检测到双重错误一旦启用DEC解码，就检索擦除信息并将其用于纠正固定故障错误。在下一小节中，我们将详细解释FaECC方案。4.1. 一种故障感知的ECC方案在汉明码中，通过编码器对数据位进行编码，以获得要存储在存储器中的ca。G（21）其中，a是输入词，表示为：a= {x1，x2，...， x k}，x i<${0，1}.（二十二）注意，k是数据位的数量此外，c表示为：c= {y1，y2，...， y n}，y i<${0，1}（23）其中N是包括编码比特在内的要存储的比特的总数，该表达式等价于：c=（a. G）mod 2。（二十四）编码的字被存储在存储器中。一旦从存储器中读取码字（codeword），它可能包含一个或多个错误。在常规的汉明解码器中，伴随式z，基于失效感知ECC的STT-MRAM成品率、面积和能量优化二十ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月M2211112222222可以计算如下：T T（25）zc. H（c+e）。H，其中HT是奇偶校验矩阵，e是属于syn- drome的错误模式。错误模式表示为：e= {q1，q2，...， q n}，q i<${0，1}.（二十六）错误模式可以包含s个1（对于汉明，s等于1），其对应于码字中被校正的错误的数量：e s= {q1，q2，.，q n} |num（q i= 1）= s（27）为此，每一个综合征都只会导致一个错误模式，而这个错误模式只有一个错误。因此，在e1中可能有n个唯一的模式：D1= {q1，q2，.，qn}惠（qm=1），<$（1≤i，j≤n）di，dj∈e1，z<$. c+d i. H T. c+d j。HTi=j（28）这意味着每一个单一的错误模式都会导致一个独特的综合症。此外，如果错误模式是全零，则码字是正确的;否则，可以基于校正子表来执行解码。相同的单个错误模式对应于具有2（duets）或3（三胞胎）错误。为了区分单一错误的发生和错误的更高数量，一个额外的奇偶校验位被添加（构建一个SECDED编码）。该奇偶校验位澄清码字中是存在单个错误还是两个错误。如果只有一个错误，则解码器基于单个错误模式断言错误c=c+e，（29）其中c是校正的码字。另一方面，如果检测到两个错误，则错误模式可以表示为dm<$e2。然而，有几种双重错误模式对应于相同的综合征：<$（1≤i，j≤n）di，dj∈e2，z<$. c+d i. H T. c+d j。中国（30）因此，如果没有附加信息，则不能唯一地选择码字，并且正常解码器将断言输出错误。另一方面，在FaECC方案中，我们考虑这些双错误模式码字，并解决应该考虑哪一个来计算正确的字。为此目的，让我们把每dm在这样的条件下，这些误差模式是正交的，这意味着对于相同的校正子，对于满足等式（27）的每个i，j，我们有：n{i，j，i/=j}，z∈{ i，j，i/= j}. c+di，j. H Td岛dj0→.（三十一）特别地，这些码字中的每一个包含唯一的有效位对;如果位i和位j在码字x中有效，则它们在满足与x相同的校正子的等式（22）的任何剩余码字中都不有效。换句话说，码字中的每个特定比特在最多一个可能的错误模式中是有效的。为了识别正确的候选错误模式，需要识别有效位之一如果两个错误位都是软错误，则无法找出哪些位是错误的。然而，如果其中一个错误是固定故障，这意味着可以检测错误的位置，则可以检索两个位的正确值二十Z. Pajouhi等人ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月表I.FaECC校正能力表类型的错误SECDEDFaECC检测编码的位度+1度+12度+ 1错误是否得到纠正？一软一硬是的是的是的两个硬没有是的是的一软一硬没有是的是的两个软没有没有是的见图7。多级仿真框架。为了找到其中一个有效位的位置，可以将错误的码字反转并重写到同一行中并从中读取[Chen和Hsiao 1984]。这种反转使解码器能够检测任何固定故障位置，并将有助于找到正确的码字。在下一步骤，将第二次读取的码字与第一次读取的码字进行比较，并且导出故障位最终，与故障位的位置相关联的活动位因此，可以选择正确的候选码字，并且可以检索校正的单词。如上所述，解码方案能够校正单个错误、两个固定故障或单个固定故障和单个软错误。表I比较了SECDED、FaECC和DECTED的校正能力，其中deg是用于实现编码方案的伽罗瓦域的度数。如果存在两个软错误，则该方案将无法纠正它，并且将断言故障作为输出。此外，尽管我们使用此方案来校正STT-MRAM存储器阵列中的错误，但其可用于在前述条件下提高任何类型的存储器阵列的良率。5. 跨层模拟框架为了分析STT-MRAM存储器阵列的可靠性，我们开发了跨层仿真框架，其捕获不同抽象级别（器件、电路和架构）的各种设计参数对STT-MRAM存储器阵列可靠性的影响图7显示了模拟框架及其不同的分析阶段。该框架将MTJ特性、存储器规格和设计基于失效感知ECC的STT-MRAM成品率、面积和能量优化二十ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月和J（P. 自由叶是一个单畴铁磁体模型。TheC=JΣDTHEFFFLJDTFLFLPL表II.MTJ参数磁化取向垂直标称自由层体积64nm x 64nm x 1nm氧化物厚度1nmPMA各向异性能量势垒50kBT-70kBT旋磁因子，γ17.6 GHz/Oe饱和磁化强度850 emu/cm3阻尼系数，α0.028温度300克朗约束作为输入，并针对期望的效率优化存储器阵列。接下来，我们将更详细地描述每个抽象级别的仿真框架及其模型5.1. 设备级模拟框架利用基于[Fong et al. 2012]的器件级模型，该模型由磁化动力学求解器和基于非平衡格林函数（NEGF）的电子输运求解器[Danielewicz 1984]组成。首先，利用NEGF求解器来获得RAP、AP与TMgO和VMTJ的关系。接下来，从自由层的临界开关电流JC（AP P）中单畴铁磁体的磁化通过求解Landau-Lifshitz-Gilbert方程来模拟，包括Slonczewski自旋力矩项（LLGS）[Lee et.al. 2005年]。FL=γ。~~~公司简介+α。m×dmFL+γa（θ）（m×m×m）（32）a（θ）kJMTJg（θ）（33）2qMS tFLg（θ）=−4+（1+P）3（3+cosθ）−14个P1。5，（三十四）其中，mμFL和mμPL分别是自由层（FL）和钉扎层（PL）的单位磁化矢量FL和PL被认为具有相同的MS。γ是~旋磁比，α是FL阻尼因子，HEFF是有效磁场。q是电子电荷，J MTJ是通过MTJ的电流密度，P是Slonczewski [1996]中定义的依赖于材料的自旋极化效率。MTJ 的特性封装在 Verilog-A 模型中 [Fong et al. 2012] ，其用于 HSPICE 模拟[HSPICE2013]。表II显示了本工作中假设的器件参数。这些和其他位单元参数源自Fong等人[2012]，并且模型和MTJ模型被校准到文献[ Yuasa等人[2012]]中公布的实验数据。2004年]。5.2. 电路级STT-MRAM位单元的电路级模型由32 nm MOSFET模型[Synopsys Inc.2014]和MTJVerilog-A模型。HSPICE被用来模拟位单元的电路级行为载重线法[Fonget al. 2012]用于获得不同失效机制的失效概率。图8说明了负载线法。在这种方法中，我们考虑由于工艺变化的tMgO和横截面积的变化。这些变化影响RMTJ。RMTJ的变化影响dmFL二十Z. Pajouhi等人ACM Journal on Emerging Technologies in Computing Systems，卷。号132、第20条，公布日期：2016年11月图八、（ a）写入和读取干扰故障，（b）读取决策故障的负载线方法说明。写入到位单元中的能力（写入故障）、正确地感测位单元的RMTJ的能力（决策故障）以及MTJ在读取位单元时保持其配置的能力（干扰故障）。为了确定写入失败，认为MTJ横截面积具有高斯分布。对于每个MTJ横截面积，确定临界电流密度（JC）。在下一步骤中，晶体管ID-VDS（使用HSPICE中的蒙特卡罗模拟获得）从DC负载线分析中找到MTJ两端的电压（VMTJ），如图8（a）所示。最后，计算允许在MTJ中成功写入的最大RMTJ（和对应的最大tMgO）。因此，具有面积相同但tMgO较厚的MTJ的任何位单元将不会在目标写入时间中被写入。因此，位单元的写入操作失败。对于读取干扰故障执行类似的分析。然而，在读取干扰故障中，具有较薄tMgO的位单元被认为是故障的。当感测放大器针对P控制中的位单元输出H时，发生决策失败配置（RL）和L用于AP配置中的位单元（RH）。功能正常的读出放大器错误地读出位单元配置的概率称为读决策失败。需要选择参考电流（IREF）以最小化该概率。对于具有特定横截面积的MTJ的位单元，某个tMgO将导致位单元电流为IREF。如果MTJ在AP（P）中，则较薄（较厚）的tMgO将导致较小（较大）的RMTJ和高于（低于）IREF的位单元电流。图8（b）示出了用于确定每个IREF的决策失败的方法。最佳读取参考电流是使读取故障概率最小化的参考电流在我们的分析中，我们执行P和AP配置的标称读取电流之间的线性搜索，以获得最佳的参考电流。所考虑的MTJ的变化是横截面积和氧化物厚度的变化。认为两者均呈正态分布，方差为2%。此外，为了捕捉存取晶体管中的变化，执行1 e4 Monte-Carlo模拟，并且使用上述方法来获得不同故障机制的故障概率。5.3. 阵列级别在阵列级，修改CACTI [

下载后可阅读完整内容，剩余1页未读，立即下载