通过提高泵浦效率降低PCM写入能量

156 浏览量更新于2023-10-30 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通过提高泵浦效率降低PCM的写入能量Huizhang Luo和QING LIU，新泽西理工胡景彤，匹兹堡大学李乔，香港城市大学梁石，华东师范大学朱庆丰，王晓伟，M. 上海师范大学相变存储器（PCM）以其良好的可扩展性和较低的功耗被认为是取代DRAM成为下一代主存储器的最佳选择然而，高写入功耗已成为采用PCM作为主存储器的主要挑战除了写入PCM单元需要高写入电流和电压的事实之外，电荷泵中的电流损耗也占高功耗的很大比例PCM芯片的泵浦效率是写电流的凹函数利用凹函数的特性，如果写入电流是均匀的，则可以提高总体泵浦效率在这篇文章中，我们提出了一个峰均（PTA）写计划，通过重新组合写单元平滑的写电流波动特别是，我们计算当前的要求，每个写单元的值时，他们被逐出最后一级缓存（LLC）。当写单元在存储器控制器中等待时，通过LLC辅助的PTA对写单元进行重新分组实验结果表明，LLC辅助PTA与基准相比，实现了13.4%的整体节能CCS概念：·计算机系统组织→嵌入式和信息物理系统;嵌入式系统;嵌入式硬件;·硬件→新兴技术;新兴设备和系统的分析和设计;新兴架构;内存和密集存储;附加关键词和短语：相变存储器（PCM），电荷泵，泵浦效率，写重组ACM参考格式：Huizhang Luo，Qing Liu，Jingtong Hu，Qiao Li，Liang Shi，Zhejiang Zhuge，and Edwin H.-M. 煞2018年通过提高泵浦效率降低PCM的写入能量 ACM Trans. 储存14，3，第27条（2018年第1号），21页。https://doi.org/10.1145/3200139这项工作的初步设想出现在第21届亚洲和南太平洋设计自动化会议（ASP-DAC 2016）的会议记录中（Luo et al.2016）。本研究得到了国家自然科学基金（61472052）、国家自然科学基金（61772092）、美国国家科学基金（CCF-1812861）和NJIT研究启动基金的部分资助。作者地址：H. Luo和Q.刘，323博士马丁路德金大道，纽瓦克，新泽西州07102;电子邮件：{huizhang.luo，qing.liu}@ njit.edu; J。胡，4200第五大道，匹兹堡，宾夕法尼亚州15260;电子邮件：jthu@pitt.edu; Q。香港九龙塘达之道李先生;电邮：qiaoli045@gmail.com; L.Shi，Q.Zhuge和E.H.- M. 上海市中山北路3663号200062P.R. 中国;电子邮件：{qfzhuge，shi.liang.hk，edwinsha}@ gmail.com。允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，无需付费，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页上带有此通知和完整的引用版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许用信用进行提取复制，或重新发布，张贴在服务器上或重新分发到列表，需要事先特定的许可和/或费用。从permissions@acm.org请求权限。© 2018计算机协会。1553-3077/2018/11-ART27 $15.00https://doi.org/10.1145/3200139ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月27二十七：2H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月≥1介绍随着技术发展到18纳米，由于电容器放置、器件泄漏和电荷检测等限制，传统DRAM技术很难缩小到更小的单元（Palangappa和Mohanram2016）。此外，较大的DRAM导致增加的能量消耗，其可以占整个系统能量的20%2014年）。因此，研究人员正在寻找DRAM作为主存储器的替代品。新兴的非易失性存储器（NVM）以其高密度、超低漏电流、低成本、非易失性等优良特性引起了人们的广泛关注。在所有NVM中，相变存储器（PCM）（Choi et al.2012; Joshi等人2011; Nair等人2015; Zhao et al.2015年）已被公认为取代DRAM作为主存储器的有前途的候选者。尽管其优于DRAM，但PCM的高写入功耗已成为广泛采用PCM作为主存储器的关键障碍两个主要因素导致高写入功耗。首先，改变PCM单元的状态需要比DRAM更高的写入电流和电压例如，PCM单元上的SET和RESET操作分别需要3.0和5.0V，并且它们远高于DRAM写入的电压1.5V此外，编程PCM单元所需的电流比DRAM单元高几个数量级（Lee等人，2008）。已经有大量的研究努力来解决高写入能量问题。数据比较写入（DCW）（Yang et al.2007）和翻转N写（Cho和Lee2009）被提出来通过最小化单元写入的数量来降低写入能量Lee等人（2009）和Qureshi等人（2009）（2009）使用小的行缓冲器来过滤PCM主存访问。Ramos等人（2011）将DRAM和NVM设备组合在同一存储器级别。他们提出了一种页面排名和迁移策略，将频繁访问的数据保留在DRAM中，并将那些很少访问的数据留在NVM中。Xia等人（2014）观察到，当高速缓存行的数据被写回主存储器时，它们总是被部分修改因此，他们提出了一种动态写入合并（DWC）方案来合并多个写入命令，从而提高PCM的写入能量所有上述技术都认识到PCM芯片的写入能量是一个关键问题，并努力实现相当大的改进。然而，他们都没有考虑到的差异内的数据写入PCM主存储器，特别是与PCM电荷泵的过程。在这项工作中，我们提出，存在进一步的机会来解决写入能量的问题。第二，在片上电荷泵（CP）中存在电流损耗一个CP通常由几个大电容器级联阶段每一级都将电压提升一定的量。从供应商汲取的电流并不总是输送到加载器。它将对寄生电容充电并作为反向电流泄漏（Jiang et al.2014年）。泵浦效率定义为输出功率与输入功率之比，是负载电流的凹函数图1（a）示出了泵浦效率与负载电流之间的关系的示例X轴表示负载电流，Y轴表示泵浦效率.凹函数的一个重要性质是对任意的x1和x2都有f（（x1+x2）/2）（f（x1）+f（x2））/2，这意味着如果负载电流被平滑，泵浦效率可以大大提高。如前所述，当前写入“0”（SET）和“1”（SET）的要求当写入操作是写入单元中的主导部分（称为峰值写入）时，到PCM芯片的负载电流大。否则，负载电流很小。以图1（b）为例。假设有两个写入单元A和B要顺序写入PCM主存储器。写入A所需的电流为I1，写入B所需的电流为I2。如图1（a）所示，CP效率分别为A和B的f（I1）和f（I2）。如果我们将写入单元划分为子写入单元并以平滑当前需求为目标将它们重新分组，则CP效率通过提高泵浦效率降低PCM的写入能量二十七：3ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月22图1. 使用PTA写入方案的示例写入单元A和B被重新分组为新的写入单元以平滑写入电流。可以改进。如图1（b）所示，我们将子写入单元A1和子写入单元B1重组为一个新的写入单元，并将A2和B2重组为另一个新的写入单元，两个写入单元的当前要求均为I1+I2。根据凹函数的性质，我们知道2f（I1+I2）>f（I1）+f（I2）.从这个简单的例子中，我们可以看到，如果串行写入单元的电流要求变得更加均匀，则可以提高泵浦效率基于此，本文提出了一种末级缓存辅助峰均（LLC- assisted peak-to-average，PTA）写入方案，该方案巧妙地对PCM芯片上的写入单元进行重新分组本文做出了以下贡献：- 提出了写电流变化对PCM芯片泵浦效率的影响;- 从有限责任公司管理的角度改进了PTA计划提出了一种LLC辅助的PTA写入方案，进一步降低了峰值写入电流和写入变化;- 设计了各种负载下的详细仿真，以验证所提方案的有效性.本文的其余部分组织如下。PCM和CP的背景在第2节中讨论。第3节提出了问题的定义和一个激励的例子。第4节详细介绍了拟议的LLC辅助PTA计划及其实施。实验结果见第5节。第6节介绍了相关的工作，以及第7节的结论。2背景在本节中，我们首先介绍PCM及其内存架构的基础知识然后，详细介绍了PCM电荷泵的原理和建模方法2.1PCM基础知识PCM单元通常由硫属化物合金（GST）材料层组成，其可在低电阻结晶状态（即，表示SET表示“1”）。通过向GST材料施加高电压但短脉冲并将其从结晶状态转换为非结晶状态来执行反相操作。通过施加用于反向状态转变的低电压但较长的脉冲来执行置位操作。图2说明了这两种操作，我们可以看到写“0”需要的电流比写“1”高得多。二十七：4H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月图2. 用于复位和设置操作的电流图3. 基本的记忆结构。2.2PCM存储器结构图3显示了一个典型的PCM存储器芯片，它由五个组件组成：PCM阵列、行解码器、列解码器、列选择器和电荷泵。 PCM阵列由通过字线WL 0、WL 1、. 、WLM，以及位线BL 0、BL 1、. 、BL N，从列选择器延伸。一个简单的行和列解码器可以建立使用逻辑门。在现代计算机设计中，多路复用电路通常用于根据地址路由单元列选择器由多个选择开关形成列选择器根据由列解码器提供的列选择信号选择适当的位线当接收到写使能信号WE和输入数据Din时，电荷泵向存储器提供具有适当值幅度的电流。通过提高泵浦效率降低PCM的写入能量二十七：5ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月图第四章具有寄生效应的N级CP（Jiang et al.2014; Palumbo and Pappalardo2010）。列选择器为了写入否则，一个设置电流是generated。电荷泵（CP）被设计为确保功率足以写入PCM存储器单元。为了访问单元，存储器控制器必须用其行和列地址定位单元地址首先通过地址总线从存储器控制器发送到PCM阵列，然后在数据总线上进行数据传输现代系统可以同时访问多个位，而不是一次访问一个位或一个字节，大多数PCM芯片可以支持64位或更多位的并发写入。在本文中，我们将使用64位写入来进行说明。因此，一个芯片能够独立地支持64个并行复位并发64位写在本文中也称为写单元因此，写入具有64字节的高速缓存行需要8个串行写入。在写入单元中，当写入操作是主导部分（称为峰值写入）时，所需电流大。否则，所需的电流很小。由于“0”和“1”在存储器写入中随机分布，因此PCM写入的当前要求可能会大幅波动。2.3PCM电荷泵（CP）基础和建模2.3.1CP基础知识。 CP是一个电子电路，它将所提供的电压VDD转换为直流输出电压V输出。V_out比V_dd高几倍（即，它是输入电压低于输出电压的DC-DC转换器与其他传统的DC-DC转换器，employ电感器，CP包括电容器和开关（或二极管）。因此，将它们集成到基于CMOS的芯片上是可行的（Palumbo和Pappalardo2010）。由于用于PCM单元写入的电压需要比Vdd高得多，因此CP电路已广泛用于PCM（Jiang et al.2012，2014; Palumbo et al.2006年）。图4显示了一个典型的N级CP。N级中的每一级都可以将电压升高一定量。通过增加多个级，输出电压可以被提升到目标电平，该目标电平是Vdd的数倍。如图所示，除了N个级联级之外，还有一个输出级。每个级联级由泵浦电容器C、开关Si、信号Vck和寄生电容Cp组成。输出级由开关Sout、电容CL和电流发生器IL组成。为了向PCM单元提供期望的电流，在第一半时钟周期期间，Vck为低并且所有奇数开关闭合。第一泵浦电容器被充电到Vdd，并且奇数级中的所有其他泵浦电容器从先前级的电容器接收电荷。在随后的半个时钟周期期间，信号Vck为高，并且所有偶数开关闭合。现在奇数级中的所有电容器将电荷传递到二十七：6H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月（N+1）+ α·。VDDPeff=Vdd.（四）N2（N+1） ·Vdd−Vout中国Σ后续阶段。最后，开关Sout将输出负载连接到末级。然后，电流发生器11产生适当的电流。在此过程中，从供应商汲取的电流并不总是输送到加载器。对内部寄生电容充电/放电时会消耗寄生功率，但不会对输出产生影响Cp是底板处的寄生电容，其与泵浦电容C成比例，系数为α。由于寄生电容Cps通常非常大，因此寄生功率是CP浪费功率的主要因素（Palumbo and Pappalardo2010）。2.3.2电荷泵建模。 Jiang et al. （2014）; Palumbo和Pappalardo（2010）在这项工作中被采用。总电流供应。总电流消耗可以建模为TC=2（N+1）+α·（N+1）·Vdd−Vout·Vdd·IL，⑴其中α是寄生电容和泵浦电容之间的比例因子。 IL为输出电流，包括从CP输入端流出的所有电流。IL主要由三个分量组成：（1）动态负载电流，即，施加到PCM单元的读/写电流，表示为I负载。这是有用功的电流;（2）负载的泄漏，表示为Iload_loss;（3）CP本身的泄漏，表示为ICP_loss。因此，输出电流IL为：IL=Iload+Iload_loss+ ICP_loss。（二）电荷泵电路的泵浦效率P_eff可以表示为：Peff =功率输出× 100%= I·I负载× 100%。（三）功率输入Vdd·TC将等式（1）和（2）代入等式（3），它变成.我爱你。D为了找到使硅面积和电流消耗最小化的最佳N，Jiang等人（2014）发现，对于READ和SET操作，单级CP是优选的，而对于RESET操作，三级CP是必要的当CP被优化设计时，N和α变为常数让β=V输出。（五）Vdd·[（N +1）+ α·N 2. Vdd]然后，我们将得到泵送效率，（N+1） ·Vdd−VoutPeff=βI载荷。（六）Iload+Iload_loss+ICP_loss对于级联级CP系统，Iload_loss取决于Iload（Palumbo and Pappalardo2010）。当I 负载较小时，它是弱的，当I负载较大时，它变得显著。如公式（6）所示，当Iload小时，CP本身的泄漏功率（由ICP_loss引起）成为电荷泵电路中功率损耗的主要部分。在这种情况下，功率效率接近零。当I负载较大时，由Iload_loss引起的内部功率损耗是显著的。在这种情况下，效率随着负载电流的减小而急剧下降（Jiang等人，2014）。随着负载电流的增加，泵浦效率曲线先上升，然后急剧下降。泵浦效率是负载电流的凹函数（Palumbo和Pappalardo2010）。（Iload+Iload_loss+ICP_loss）通过提高泵浦效率降低PCM的写入能量二十七：7ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月i=1num.我我num图5. 不同工作负载的写入变化分布3问题定义在本节中，我们首先介绍问题的定义。最后，通过一个激励性的例子来说明PTA的主要思想3.1问题定义凹函数最重要的性质之一如下：f（（x + y）/2）>（f（x）+f（y））/2。（7）该属性可以扩展到num串行写入电流要求，I1，I2，.，I编号：F. I1+I2+···+Inum≥f（I1）+f（I2）+···+f（Inum）.（八）等式（8）表明，如果num个串行写入单元的电流需求是均匀的，则可以提高总体泵浦效率此外，电流需求之间的变化越小，总泵浦效率越大。形式上，我们将当前需求中的变化定义为写入变化WV：WV=1，.num.我我–2、（9）Iavдnum−1其中Iavg是平均写入电流，定义如下：numIavg =i=1。（十）num当串行写入单元写入到PCM芯片，这是常见的写电流要求，元素不平衡。图5显示了一组不同基准测试的写入变化（WV）分布。实验的详细配置在实验部分中给出。如图5所示，存储器芯片经历不同程度的写入变化。总的来说，写入变化很大。例如，对于basicmath，15.5%、10.3%、30.9%、12.3%和31.0%的Σ二十七：8H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月∞图6.动机的例子。(a)原始写入单元没有重新分组;（b）简单的重新分组方案;（c）最佳解决方案。所述写入单元分别具有范围为[0，0.5）、[0.5，1.0）、[1.0，1.5）、[1.5，2.0）和[2.0，+）的写入变化。总的来说，超过70.0%的写入单元这促使我们提出一个写方案，以减少写的变化。在这篇文章中，我们的目标是通过重新组合它们的子单元来平滑一系列写入单元的电流。当写入单元在存储器控制器中排队时，每个写入单元被划分为若干子单元。子单元然后在它们被发送到PCM芯片之前被重新分组为新的写入单元。这个问题，如何获得一个最小的写变化在重组期间，正式定义如下。有num个串行写入单元要写入PCM芯片，其中每个写入单元被划分为子子写单元。假设每个子写入单元Iij的电流需求是已知的。问题是重新组合写入单元，使得总体写入变化最小化。这个问题是NP-困难的，可以通过从子集和问题简化来证明：给定一组非负整数和一个值和，找到给定集合的子集，其中和等于给定的和。由于该问题是NP难的，在这项工作中，我们将提出指数时间的最优解和线性时间的次优解。3.2动机示例图6显示了三种不同的写入方案。在本例中，我们假设有三个串行写入单元写入PCM芯片。每个写入单元Ii可以被划分为四个子写入单元：Ii1、Ii2、Ii3和Ii4。每个子单元的电流要求显示在每个子写入单元内。对于图6（a）中的基线写入方案，三个写入单元的电流要求分别为53、12和28。写入变化为0.6306。这三次写入的泵浦效率分别为18.9%、28.2%和50.2%总泵送效率为29.3%。图6（b）示出了通过分离大电流要求子写入单元和小电流要求子写入单元的简单重新分组方案的结果三个新的写入单元被生成为：（I11，I24，I21，I32）、（I33，I34，I12，I23）和（I13，I14，I31，I22）。在这种情况下，3个新写入单元的电流需求分别变为43、25和25通过这种简单的重新分组，当前要求变得比基线写入方案更统一写入变化减小到0.3235。抽运效率分别为29.0%、49.4%和49.4%总抽运效率提高到42.6%。因此，重新组合子单元可以提高总体泵送效率。然而，图6（b）中的重新分组决策不是最优的。最优解如图6（c）所示。在该重新分组中，峰值写入进一步减小到34，并且写入变化进一步减小到0.0643。整体泵送效率提高到47.6%。表1通过提高泵浦效率降低PCM的写入能量二十七：9ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月表1.三种不同写入方案的比较基线简单最优简单最优峰值写入534334百分之十八点九百分之三十五点八写差异0.63060.32350.0643百分之四十八点七百分之八十九点八泵送效率（%） 18.9/28.2/50.2 29.0/49.4/49.4 45.1/48.4/49.2N/AN/A整体效果（%） 29.342.647.613.318.3图第七章所提出的0-密集识别方案：对应存储器的0-密集位被设置为真，当且仅当θ ≤ numb（0）。所有0密集位形成0密集向量。给出了这三种不同方案的比较，其中我们可以发现，最优方案可以将总体效率提高18.3%。从激励的例子中，我们可以看到，做出适当的决定是重要的重组过程。应尽可能提高整体泵送效率然而，与此同时，决策过程应该易于在硬件中实现，并且应该产生很少的开销。在下面的部分中，我们将介绍所提出的LLC辅助的PTA写入方案，该方案可以以很小的开销实现极大的泵浦效率提高4LLC辅助的峰均写入方案在本节中，我们将介绍LLC辅助的PTA写入方案。LLC辅助PTA写方案涉及LLC控制器、存储器控制器和PCM存储器芯片的改造在4.1节中，首先提出了一种LLC辅助的识别方案来估计写入电流要求;然后，在4.2节中提出了存储器控制器中的两种重新分组策略。由于重新分组的子写入单元可能不在连续列中，因此需要附加的列地址。因此，PCM芯片的外围电路也需要修改。新PCM存储器芯片的设计将在第4.3节中描述。4.1编写当前需求标识识别写入电流要求的基本思想是使用0密集向量来记录写入电流要求。图7是识别方案的示例高速缓存行被划分为多个64位段（写入单元），并且每个段与称为0密集的当前密集位相关联0密集位指示是否对应的二十七：H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月−−表2.FU实现示例（m=4，n=3）位二进制（d3d2d1d0）输出信号（O2O1O0）位二进制（d3d2d1d0）输出信号（O2O1O0）0000000100000100010011001010001000110100100011010101101101000011100010010101011010110110010111001101110111111100存储器的段处于高写入电流要求，其仅在对应存储器从LLC逐出时被设置/更新当且仅当状态“0“的数量大于阈值0时，存储器被标识为0密集型。因此，0密集位被设置为真。最后，所有0密集型位被组织为每个高速缓存行的0密集型向量通过这样做，我们可以有效地识别高速缓存行的0密集型高速缓存行的写入电流要求与其0密集向量中的真值文字的数量成比例当高速缓存行被逐出时，0密集向量与高速缓存行一起被发送到存储器控制器4.1.1执行身份查验制度。0-密集型标识的实现需要两个步骤。第一个是计算每个写入单元中的“0“的数量。二是判断“0“的个数是否在指定范围内。对于第一步，我们使用函数单元（FU）来表示计算m位输入数据的数量dm1，. ，d0. n位输出信号由On1，. ，O0.写入单元被划分为多个m位段以降低FU的复杂性FU的输出连接到加法器，在加法器中生成“0“的总数。在第二步中，将总数与阈值进行比较最后，我们使用与门来确定总数是否在指定范围内对于小尺寸输入数据，FU可以使用基本逻辑门来实现，以减少硬件开销和延迟。表2显示了真值表，其中以d3d2d1d0表示的4位输入和O 2 O 1 O 0表示的3位输出信号（23> 5）为例。通过卡诺图（Wikipedia2016）简化，输出信号O2O1O0可以表示为：由四个输入二进制位与简单的逻辑门表示为O2=d3d2d2d0，O1=d3d2d<$1+d3d<$2d0+d3d<$2d1+d<$3d2d0+d<$3d1d0+d2d1d<$0，O0= d<$3d<$2d1d<$0+ bard3d<$2d<$1d0+ d<$3d2d<$1 d 0 + d<$3d 2 d <$1 d0+ d3d2d <$1d0+ d3d<$2d<$1d<$0+d3d<$2 d <$1d0=（d3Sd2）（d1d0）+（d3s d2）（d1Sd0）。FU采用AND，OR，XOR，XNOR和NOT门，并且实现的关键路径至多是三门延迟。延迟不会对LLC评估的时间产生重大影响。4.1.2LLC协助更换政策。LLC辅助的替换策略的基本思想是对0-1均匀高速缓存行的驱逐进行优先级排序。我们用虚拟一致性列表来说明这个想法如图8所示，我们建议根据高速缓存行的0-1均匀性将其分为几个级别因此，相同级别中的高速缓存行的0-1均匀性是相似的。该方法可以快速地从最均匀水平识别出高0-1均匀线为了通过提高泵浦效率降低PCM的写入能量二十七：ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月图8. 拟议的有限责任公司协助更换政策。为了简单起见，我们采用两个级别，LV.0用于较低的0-1一致性（真值文字的数量在[0， 4]范围内），LV.1用于较高的0-1一致性（真值文字的数量在[5， 8]范围内维护统一列表的程序如下：(1) 对于一个新的高速缓存行，我们计算它的0-1均匀性，并将其插入到相应级别的列表头例如，如果新插入的行中的真值文字数为0，则将其插入LV.0列表的头部，如图8所示;(2) 对于写入命中的高速缓存行，我们重新计算其0-1均匀性。然后，我们决定它的水平是否改变。如果是，则该行将被移动到其相应级别的列表头否则，我们什么都不做例如，LV.0中最后一行中的真值字面值的数量从1更改为6。在这种情况下，我们将其移动到LV.1列表的头部(3) 当高速缓存已满时，我们驱逐最统一级别列表中的最后一个高速缓存行对于硬件中的实现，0-1一致性级别由标志表示，并且高速缓存从最一致的级别跟踪一致的线通过这样做，高度0-1均匀的高速缓存行被快速逐出因此，用于将数据写回到PCM的CP具有高泵浦效率，这导致基于PCM的主存储器中的写能量减少4.1.3LLC开销。对于区域开销，一个0密集位与64位写入单元相关联。因此，面积开销为1/64= 1.6%。我们通过Verilog HDL实现了0-1识别方案，并使用XilinxISE和xc5vlx 110t器件进行了综合。综合结果表明，该识别器可以在6.2ns内完成，大大低于LLC的存取时间。在我们的修改中添加的FU的数量为95（总数为6912）。与原始高速缓存芯片相比，功耗为1.37%延迟和功耗开销包括在我们的评估中。4.2内存控制器重组策略内存控制器的作用是调度来自缓存的写单元，并将地址和数据发送到内存。为了实现PTA写入方案，存储器控制器首先需要通过其0密集向量来计算高速缓存行内的写入单元的写入变化然后，写入单元被划分为相等的子写入单元，并且存储器控制器重新分组子写入单元以减少变化。最后，存储器控制器将重新分组的写入单元发送到PCM芯片。地址和数据分别通过地址总线和数据总线发送。提出了两种重组策略：可重构规划（IP）公式化和分区策略（PS）IP可以二十七：H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月·≤ ≤.∀≤ ≤..Iij·nu。m·sub·生成最优解。然而，开销相对较大。然而，PS可以产生接近最优的解决方案，几乎没有开销。4.2.1IP制剂。设num为要重新分组的写入单元的总数。每个写入单元被划分为子子写入单元。令M=num sub.设Xi，j为二进制变量，其中Xi，j=1意味着子写入单元j被分组到第i个写入单元中。首先，每个子写入单元j（1j M）必须在一个且仅一个写入组中则Xi，j=1应满足以下条件公式：numjXi，j= 1。（十一）i=1第二，每个组i（1i num）具有子子写入单元。然后，对于每个组，需要Xi，j=1和sub之间的以下关系吉吉目标函数如下：j=1Xi，j= sub.（十二），。num. .M X·C−I2min1我平均i=1j= 1我，我，我、（十三）num−1其中，元素Cj是第j个子写入单元的写入电流，Iavg是等式（10）中定义的平均写入电流。间接费用。算法的时间复杂度为O（2M），是指数的.实施起来既困难又昂贵。IP公式将用于离线计算最佳解决方案以进行比较。4.2.2分区策略（PS）。在分区策略中，通过将子写入单元的当前要求值与阈值Θ进行比较，将子写入单元划分为两个部分。如果子单元的电流值大于或等于Θ，则其被视为高电流要求子单元。否则，它将被视为低级别。高和低子单元被均匀地分布到重新分组的写入单元，使得每个写入单元中的高（低）子单元的数量几乎相等。以这种方式，将减少写入变化阈值Θ用电流要求的平均值来设置num subΘ=i=1，j= 1 。（十四）num sub算法1示出了分区策略。它采用两个索引Left和Riдht，其中Left指向高位子单元的顶部，Right指向低位子单元的顶部。最初，Le f t=1并且Riдht=num sub（第1行和第2行）。该过程首先计算阈值0（第3行）。然后，该过程进行分区（第4-12行）。如果Iij的值大于或等于Θ，则它被推入A [ ]的左部分（第6行和第7行）。否则，它被推到正确的部分（第9和10行）。当分区完成时，通过分配高和低位子单位，以均匀地写入单位（第13-15行）。一种直接而有效的方法是将A[i]重新分组到第（i mod sub）个写入单元（第14行）。图9通过示例说明了PS的每个步骤的细节三次写入的12个原始子单元如图9（a）所示目前的需求显示在每个子单元中。图9（b）显示了分区后的结果。通过将电流要求与阈值Θ = 7进行比较，将子写入单元划分为两个部分。75.重组后，三人通过提高泵浦效率降低PCM的写入能量二十七：ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月.≥←·图第九章PS示例。（a）原始的书写单位。（b）分割后（c）重新组合的写入单元。算法1：分区策略Iij-每个子写入单元的电流要求。A[ ]-输出：重组决策DECN[][]。return1;Riдht=num·sub;计算θ =Iij;对于每个Iij东努姆·苏博如果Iij θ，则A[左]=Iij;左=左+ 1;结束elseA[Riдht]=Iij;Ri <$ht=Ri <$ht−1;结束结束fori1 tonum subdoDECN[（i mod sub）+1][i/sub+1]=A[i];端returnregrouping decisionDECN[];写入单元分别被重新分组为（I11，I31，I32，I22），（I12，I33，I24，I14）和（I21，I34，I23，I13），如图9（c）所三个写入单元的写入电流要求分别变为46、25和22，这比原始写入单元更均匀间接费用。PS的运行时间是O（M）。该过程需要额外的空间来分隔A[]中的子写入单元，该空间等于写入单元的大小至于能量开销，该过程需要从写队列读取数据，然后将它们写入额外的空间以做出重新分组决策。根据实验结果，能量开销可以忽略不计。二十七：H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月−−表3.系统配置核单核，2GHzL1 I/D缓存2 MB，单向，64字节/行，1周期命中LRU替换策略L2数据缓存（LLC）8 MB，4路，64字节/行，6周期命中写回，LRU替换策略存储器控制器64-条目RDQ和WRQ，MC到存储体64周期，首先调度读取，FCFS，读优先级调度在没有读操作时发出写操作主存储器SLC PCM（1GB大小，8个存储体32，768行/库，1，024列/行存储器访问总线宽度：64位）tRCD：55ns，tRP：150ns，tCL：12.5ns，tWR：15ns4.3内存芯片修改当重新分组的子写入单元及其列地址从存储器控制器发送到存储器芯片时，PCM芯片需要处理子写入单元的多个列地址Xia等人（2014）提出了动态写入合并（DWC）方案，以将针对同一行的多个写入合并为一个写入。在本文中，我们采用了它们在存储芯片中的实现增加（sub1）列地址缓冲器以从地址总线接收列地址。还增加了（sub1）列解码器，以通过解码列地址来产生列选择信号。间接费用。对PCM芯片的修改不会产生额外的性能开销，因为增加的解码器与原始解码器并行工作。硬件开销包括（sub-1）列地址缓冲器和解码器。能量开销仅为0.47%（Xia et al.2014年）。5实验在本节中，我们首先介绍5.1节中的实验装置。然后，结果见第5.2节。5.1实验装置评估集中于四种写入方案的性能和能量消耗，包括基线、LLC辅助的PTA、常规PS（Luo et al.2016年，IP？实验分两步进行在第一步中，使用Gem5（Binkert2011）从不同的工作负载收集内存访问跟踪（例如回写地址，大小和内容）实验中使用的系统配置如表3所示。在第二步中，这些内存跟踪被馈送到定制的内存系统模拟器中。我们模型的读和写操作的功率特性与详细的PCM存储器系统模拟器。PCM设备配置如表4所示。泵送效率函数如公式（6）所示默认情况下，写入我们从Mibench（Guthaus et al.2001年，作为工作量。5.2调查策略和评估基线策略没有任何优化。提出的LLC辅助PTA，conventioanl PS和IP在模拟器中实现为了证明所提出的技术的有效性，我们评估的峰值写入，写入变化，泵浦效率，和能量，分别。通过提高泵浦效率降低PCM的写入能量二十七：ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月表4. PCM芯片封装芯片1.8VVdd，64个并发可编程电源电荷泵工作频率：133MHZ工作电压：5/3/3V读3V，8.4μA，5.6nJ/线写功耗：5V，100μA，29.7pJ/bit，50 ns操作延迟SET：3V，50μA，22.5pJ per bit，150ns operationlatency脉码调制写入单元大小：64位，分为四个子写入单元图10. 降低峰值写入。5.2.1峰值写入减少。峰值写入是具有最大电流要求的写入单位。PCM芯片的峰值电流越高，它需要的CP就越大。降低PCM芯片的峰值写入是至关重要的（Jianget al.2014年）。图10显示了在不同基准下通过不同方法生成的归一化峰值写入。实验结果表明，这两种方法都能有效地降低写入峰值.平均而言，LLC辅助的PTA、传统PS和IP分别实现了27.2%、29.7%和32.8%的峰值写入减少。从结果可以看出，IP比PS和LLC辅助的PTA效果更好。尽管LLC辅助PTA实现的减少比常规PTA少一点，PS和IP，它工作得更好，因为难以忍受的复杂的实现和开销COM-与传统的PS和IP兼容。测试结果还表明，几个基准测试在降低峰值写入方面存在显着差异。例如，PS在基准sha下实现了38.6%的峰值写入减少。然而，在基准测试qsort下，它只实现了比基线峰值写入减少14.2%。究其原因，写作单位的内容也有很大的影响关于重组方法所取得的好处。 “0”和“1”的分布越不均衡为了进一步理解细节，我们以基准测试sha为例，展示了每条内存线下峰值写入的减少。图11报告了写回缓存行时的峰值写入。写入峰值显著降低。峰值写入的大幅降低意味着浪费能量节省的巨大潜力（Jiang et al.2014年）。此外，在一般情况下，传统PS比LLC辅助PTA达到二十七：H. Luo等人ACM Transactions on Storage，Vol.号143、第二十七条。出版日期：2018年11月图十一岁在基准sha下存储线上峰值写入的减少。图12.减少写入变化。5.2.2写入变化减少。图12显示了在各种基准下不同方法之间的写入变化的比较。如图所示，结果表明，变化的改善与峰值写入的改善相似：（a）与基线相比，所有方法都实现了很大的变化减少对于LLC辅助的PTA、常规PS和IP，写入变化分别从1.28减小到0.62、0.52和0.32（b）常规PS比LLC辅助PTA实现更多的减少，并且IP比常规PS实现更多的减少该现象的原因与峰值写入相同（c）LLC辅助PTA与常规PS和IP相比，改善程度差异较小。还发现，重组方法所实现的益处还取决于写入单元的内容“0”和“1”的分布越不均衡为了进一步理解细节，我们以基准测试sha为例，展示了每条存储线上写入变化的改善。图13报告了写回缓存行时的变化

下载后可阅读完整内容，剩余1页未读，立即下载