Q-PIR:基于分位数的高级综合设计空间探索方法

123 浏览量更新于2024-01-07 收藏 1.23MB PDF 举报

回归森林

主动学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊34（2022）101078Q-PIR：一种基于分位数的高级综合Meena Belwala，T.K.拉梅什ba计算机科学与工程系，Amrita工程学院，Bengdalu，Amrita Vishwa Vidyapeetham，印度b电子和通信工程系，Amrita工程学院，Bengalu，Amrita Vishwa Vidyapeetham，印度阿提奇莱因福奥文章历史记录：收到2021年2021年9月21日修订2021年11月16日接受2021年11月30日网上发售保留字：主动学习设计空间探索高级综合多目标优化分位数回归森林A B S T R A C T高级综合（HLS）工具使高级语言，如C，C++和SystemC的VLSI设计的使用。这简化了编程任务，并且还允许程序员应用各种杂注或综合指令来控制硬件设计参数。由于这些指令可以采用多个值，并且也可以应用于ASIC和FPGA设计的许多地方，因此设计空间呈指数级增长，使得设计空间探索耗时。通过对最小可能设计执行HLS来预测Pareto最优设计一直是引入随机森林和高斯过程模型等学习技术的驱动力。然而，这些技术在大的设计空间中存在可扩展性问题，或者在利用预测不确定性信息进行模型细化时是无效的提出了一种基于分位数回归森林理论的主动学习设计空间探索方法（Q-PIR）。我们的技术使用条件分位数和预测区间来构建预测不确定性区域，以便在面积和延迟的客观空间中进行模型改进和帕累托前沿发现。通过HLS特定基准的实验证据，我们的方法在Pareto前沿发现中表现出比最先进的方法更好的性能©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍使用Verilog和VHDL等硬件描述语言进行有效的VLSI设计需要并行地描述电路的功能，这是一个容易出错且耗时的过程。此外，权衡几个相互冲突的设计目标，如芯片面积，电路速度，功耗，灰和制造成本需要深入了解底层硬件。HLS工具通过使软件工程师能够用高级语言（如C/C）++或SystemC[1，2]。这些工具接受用高级语言编写的系统，执行HLS步骤，生成用硬件语言（如Verilog或VHDL）编写的代码，最后模拟生成的硬件。在HLS过程中，通过应用三个任务-分配、调度和绑定，将应用程序的行为描述转换为结构描述，这三个任务紧密相关，并且可以以任何顺序执行。然而，执行这三项任务的顺序产生了*通讯作者。电子邮件地址： b_meena@blr.amrita.edu （ M.Belwal ）， tk_ramesh@ blr.amrita. edu（T.K. Ramesh）。由Karabuk大学负责进行同行审查不同的成本/性能权衡机会，并导致较大的解决方案空间（设计空间）[3因此，选择一个设计，这是帕累托有效的多维目标空间的成本和性能成为一个不平凡的问题。此外，通过使用HLS工具，HLS中的设计空间呈指数级增长这些工具为程序员提供了灵活性，可以以pragmas或direc- tives的形式设置各种约束例如，程序员可以选择数组变量是否映射到寄存器或内存，函数是否实现为内联函数，循环的展开量等等。假设一个指令可以接受i个值，它可以应用于j个位置。该com-它可以取的总值的二进制将是ij，其中j的值在ASIC和FPGA设计中通常很大。因此，对大量的设计方案进行评估使得HLS成为一个耗时的过程.由于所有可能的设计配置不会导致最优设计，它是至关重要的，以确定在合肥光源过程中的帕累托最优设计。准确地识别这样的帕累托最优设计，巨大的设计空间而不执行所有设计的实际合成是一项具有挑战性的任务。机器学习预测技术已经证明了它们在解决这个问题方面的实用性。https://doi.org/10.1016/j.jestch.2021.11.0042215-0986/©2021 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchM. Belwal和T.K. Ramesh工程科学与技术，国际期刊34（2022）1010782这些技术应用监督和半监督机器学习方法，通过执行几个设计的合成来生成HLS目标空间中的面积和性能的模型然而，挑战在于最大限度地减少用于创建模型的训练数据的大小，以便降低标签成本。为了解决这个问题，主动学习技术通过在每次迭代中选择最具信息性的查询来执行初始模型的迭代细化[6Zuluaga等人的技术[12]通过高斯过程（GP）模型捕捉设计空间的规律性。与GP模型相关的预测不确定性通过主动学习指导迭代采样。Liu等人[6]的另一种技术通过迭代细化框架为HLS执行设计空间探索（DSE），该框架应用了转导实验设计（TED）[13]，这是一种基于主动学习的采样技术，用于创建训练数据集。这项工作试验了各种机器学习模型来预测ASIC设计的面积和延迟，发现Random Forest（RF）表现最好。此外，与GP模型相比，基于树的RF模型容易处理二进制值杂注，例如，在函数调用期间的函数内联以及将数组映射到寄存器或存储器。回归任务的随机森林提供响应变量的条件均值的近似值，该值是单点估计值。然而，相对于单点估计，预测区间提供了关于预测值周围的观测值的分散的信息。分位数回归森林（QRF）提供了一种准确的非参数方法来估计可用于构建预测区间的高维预测变量的条件分位数[14]。在本文中，我们提出了一种新的DSE HLS技术（Q-PIR），它是由上述理论基础支撑的，我们的主要贡献是：基于分位数回归森林的理论，我们提出了一个主动学习DSE的HLS技术，能够很好地近似Pareto最优设计，而合成只有一个小的子集可能的设计配置。该算法迭代三个阶段：建模，帕累托集发现，模型精化。三个工作集的设计-使用通过条件分位数生成的预测区间为设计创建预测不确定性区域。优势规则的定义和应用在这些预测区域，以决定分配的设计的三个工作集。我们设计了一个主动学习查询策略，利用最小标记成本的模型精化。主动学习查询策略基于不确定性采样[10]选择要合成的下一个设计，并迭代地细化模型。当所有设计都映射到集合kn或kp时，迭代终止，使得集合ku为空或合成预算已经耗尽。本文的其余部分组织如下。第二详细介绍了合肥光源设计空间探索的最新进展第3描述了我们的问题陈述。第4节解释了用于创建分位数和预测区间的分位数回归森林的基本理论。此外，我们提出了基于分位数回归森林的Q-PIR算法在第5中，我们解释了我们的实验设置和我们的结果分析。最后，在第6中，我们提出了我们的结论。2. 相关工作已部署的方法来执行DSE的HLS可以大致分类为学习技术和学习技术。此外，逻辑学可以被归类为元逻辑学[15]第15话元算法是受遗传算法、模拟退火和蚁群优化启发的独立于问题的算法。Krishnan等人。[16]提出了一种遗传算法，该算法应用延迟和面积约束，同时执行分配和调度，目的是找到更好的设计。Bhuvaneswari等人[17]应用了非支配排序遗传算法II（NSGA II），并提出了一种基于价值的方法，该方法找出了时间表的相似性，以在HLS的绑定阶段生成低功耗解决方案。这种基于进化算法的启发式方法不使用设计目标的模型。因此，通常无法预测未评估设计的帕累托最优性。此外，这些技术需要评估许多设计，以收敛到一个准确的预测帕累托前沿。Schafer等[18]提出了一种探索算法，该算法使用模拟退火并自适应地修改全局代价函数以实现优化目标。Schafer[19]应用蚁群优化来执行基于pragma的探索，并计算每个微架构设计的概率以决定非支配设计。这些元启发式方法[18，19]依赖于局部搜索技术，其中为了计算算法每次迭代的解质量，必须执行合成/模拟，因为不涉及预测。这意味着更长的探索时间。DSE优化问题的独特性导致了各种专用的算法。Prost-Boucle等人的方法。[20]使用迭代贪婪技术。Pham等人[21]以及Cilardo和Gallo[22]分析了循环和数组之间的依赖关系，以分配最佳循环展开因子以及数组合成的类型和端口。Piccolboni等人[23]提出了一种方法，将HLSDSE作为预表征阶段执行，以找到SoC中的最佳配置。Yu等人[24]基于循环层次划分设计空间。Ferretti等人。[25]应用基于聚类的启发式算法将HLS设计空间划分为区域，并随后探索有希望的区域。对于HLS工具调用的每个新指令设置，元指令和专用指令被发现是最准确的，但这也使它们最慢[15]。的学习方法指导DSE HLS在预测的解决方案质量的未评估的设计，而不进行合成/模拟。这些方法可以更快地收敛到近似的Pareto前沿。通过应用不同的初始采样策略、不同的模型和不同的查询策略来选择下一个未评估的设计用于模型细化，已经开发了用于HLS的各种DSE技术。这些技术中的大多数将HLS套件视为黑盒，仅观察其输入（指令值）和输出（面积，设计延迟）。为了生成高效的硬件，HLS工具应用了几种优化，例如操作链接、位宽分析、存储器空间分配、循环优化、硬件资源库（功能单元库）、推测和代码运动，并在实际生成硬件代码之前利用空间并行性[26]。HLS的各种优化以及调度、分配和绑定步骤与HLS套件紧密耦合。将HLS套装视为黑盒的技术不修改HLS工具流的调度、分配和绑定步骤，并且允许HLS工具应用其默认优化。我们的技术（Q-PIR）也将HLS工具视为黑盒。Palermo等人[27]提出了一种结合实验设计和响应面建模技术的方法，以完善探索并确定可行的配置。Zuluaga等人[28]介绍了在专用加速器的上下文中，基于搜索空间的智能采样并结合使用回归模型来估计结果的质量的技术。Mariani的作品等人[29]提出了一种DSE方法，该方法反复更新●●M. Belwal和T.K. Ramesh工程科学与技术，国际期刊34（2022）1010783.¼ð···Þ<2ð-Þp¼ 2ð Þ1并查询响应面模型以识别具有最高预期改进的设计。Liu等人[7]提出设计空间探索器，其使用遗传算法作为第一步，然后基于竞争对手惩罚的竞争学习模型选择要合成的设计。Xydis等人[8]使用响应曲面建模，其中通过执行谱分析来选择重新训练模型的设计点。Schafer等人[9]提出M5P预测模型，其被细化直到给定误差设计集合k∈D是帕累托前沿，并且该集合的成员满足以下条件。k½nd02D=9d;dd0g问题陈述：对于通过一组合成指令构建的HLS设计空间D，我们的目标是预测目标面积和延迟的帕累托集k∈D，其中y∈d∈D，达到阈值，并且随后使用预测模型和遗传算法继续探索。Zuluaga等人的技术[12]使用高斯过程模型来预测设计的目标值，并通过对具有最高预测不确定性的设计进行采样来迭代改进模型。然而，高斯过程模型遭受较差的可扩展性较大的设计空间。一些方法专门预测循环展开因子对结果电路的影响，方法是对搜索空间进行采样并创建自己的预测技术[30]或使用随机森林[31]。Liu等人[6]提出了一种HLS框架，该框架使用随机森林进行模型创建，并使用转导实验设计（TED）选择代表性设计来训练初始模型。他们试验了各种学习模型，发现随机森林是最好的Caruana等人[32]还显示了随机森林的优越因此，我们采用这种方法[6]作为第5中实验评估的基线。3. 背景和问题说明HLS工具为高级语言程序员提供的灵活性带来了从大型设计方案中搜索帕累托最优设计的成本。HLS工具允许程序员在其高级语言代码中应用各种合成指令或杂注。典型的指令是循环展开因子，流水线启动间隔，变量到寄存器或内存的映射，函数内联等。这些指令中的每一个都可以从一组允许的值进行配置，并且可以应用于多个位置。一种有i个允许值的在j个位置应用将生成ij个设计的总组合。由于在用于ASIC和FPGA设计的高级语言代码中，存在许多可能的指令和可以应用这些指令的许多地方，因此设计空间呈指数级增长。设计目标通常是多维的，因此选择最优设计的任务是在大设计空间中的多目标多目标优化技术试图确定一组非支配设计，这些设计代表目标目标函数的最佳折衷，而不是单个最优配置。我们考虑一个集合D来表示具有成员（设计）的设计空间，作为高级语言代码中合成指令的所有可能组合一个d2d设计是矢量Dd1，d2，d3，;d k 以标量分量作为特定值高级语言代码中应用的合成指令。d的目标值由n维向量表示，其中yi=di是n维目标空间中对应于设计d在最小化问题的上下文中，当且仅当对于任何目标yi，d0不大于d，并且对于至少一个目标yi，d0小于d时，设计d0被认为是帕累托支配设计d。d0;kn<$$>;ku<$D2：设Xa和Xl是区域的QRF学习模型，潜伏期分别3：设T D为训练集：T D4：设A和L分别为面积和潜伏期的合成结果的集合5：综合所有设计d2T;将结果y1d添加到A，y2d到L6：重复7：-建模-8：通过TBT列车Xa;通过TBT列车A a和Xl;通过TBT列车L a污染区R pa;pll dda. 由方程式（7）Eq.（8）我们代表最好的值和最坏值。9：求出所有设计的Rpd2D-T//见公式（六）min.Rpa;pld1/4。QFa;n1-pan=2ndn; QFl;1-pl=2dð7Þ10：6个设计d2T，Rpd=fy1d;y2dg第十一章帕累托集发现马X。Rpa;pldQFa;1pa=2d;QFl;1pl=2d812：如果对于设计d2ku[kn9a设计d02D：maxRpd0minRpd，则<13：knkn[d//d是帕累托占优的14：kukud15：其他16：ku<$ku[d//d的帕累托优势未定17：kn knd十八日：end if十九日：如果对于设计d2ku9=设计d02ku[kp：minRpd0maxRpd，则20：kp<$kp[d//d]是帕累托占优的21：kukud二十二：end if第23章：一个人24：获得预测不确定性Hd6设计d2.ku[kp]-T//参见等式（九）、Σ二十五：选择d¼argma xdfHdg，其中d2ku[kp-T 26：T¼T[dFig. 1.通过分位数回归森林模型构造的设计的预测不确定性区域。二十七：综合设计d;将结果y1d添加到A，将结果y2d添加到L28：直到返回ku[kp]-T<$_j T<$_b]//停止准则29：返回kpM. Belwal和T.K. Ramesh工程科学与技术，国际期刊34（2022）1010785.Σð Þ¼联系我们.Σp.Σp图二.设计的预测不确定性区域随pa的变化而变化，普拉湖马X。Rd00： 60的高值因此，我们选择p使得0： 30; 0： 35; 0： 40; 0： 45; 0： 50; 0： 55; 0： 60。由于我们的目标是利用合成成本来迭代优化我们的模型，因此我们选择初始训练集大小为设计空间的5%这个训练集大小的选择是在仔细评估转置滤波器|D| = 512展开线圈1 0，2，4，8管道回路2 0，8展开线圈3 0，2，4，8管道回路4 0，8展开线圈5 0，2，4，8管道回路6 0，10模型的性能。合成的最大预算被设定为跨数据集的设计空间的40%。我们通过实验研究观察到，大多数情况下，Q-PIR在使用完整的分配预算之前终止。因此，将最大预算保持在40%以上不会影响我们的结果Q-PIR。在每个时间点测量预测Pareto集的ADRS，ADPCM编码|D| = 640展开环10，5，10，25，50展开线圈2 0，2，5，10展开线圈3 0，2，11，22展开线圈4 0，6内联全部0，1捆绑0，1ADPCM解码|D| = 640展开环10，5，10，25，50展开线圈2 0，2，5，10展开线圈3 0，2，5，10展开线圈4 0，6内联全部0，1捆绑0，1算法的迭代所有实验重复100次，结果中报告了平均ADRS5.3. 实验结果表2显示了不同评价成本下5个数据集评估-操作成本（EC）是DSE合成的设计数量DCTa|D| = 1296GSM自相关|D| = 1728管道回路1 0，1，8展开线圈2 0，2，4，8展开线圈3 0，2，4，8管道回路4 0，1，8展开线圈5 0，2，4，8展开线圈6 0，2，4，8展开线圈1 0，4，16，40，80，160展开环2 0，4，16，40，80，160展开线圈3 0，9展开环4 0，4，19，38，76，152展开线圈5 0，9捆绑0，1方法，表示为设计空间基数的百分比在表2中，对应于Q-PIR的粗体ADRS值表示Q-PIR开始优于IRF-rand和IRF-TED的最小评价。表3显示了Q-PIR DSE方法预测不同评估成本下最准确的Pareto设计集（最小ADRS）时的最佳p 图图4描绘了在Q-PIR DSE方法的每次渐进迭代时记录的ADRS的改善。每个数字对应于一个唯一的p值，从f0： 30; 0： 35; 0： 40; 0： 45; 0： 50; 0： 55; 0： 60g. 我们现在讨论的是a在2304个设计中，只有有效设计被考虑用于实验。观察：M. Belwal和T.K. Ramesh工程科学与技术，国际期刊34（2022）101078表772fg2fg2fg通过IRF-rand、IRF-TED（基线方法）和Q-PIR方法（在不同值下）获得的平均ADRS（%）。评估成本10% 15% 20% 25% 30% 35% 40%平均ADRS转置滤波器IRF兰特9.24 8.38 7.49 6.81 5.92 5.09 4.74IRF-TEDQ-PIR电话：+86-021 - 8888888传真：+86-021- 8888888电话：+8621 6551000传真：+86 21 6551000电话：021 - 88888888传真：021- 88888888电话：+86-510 - 8888888传真：+86-510 - 8888888电话：+86-021 - 88888888传真：+86-021 - 88888888电话：+86-510 - 8888888传真：+86-510 - 8888888粤ICP备16036888号-1ADPCM编码国际货币基金组织兰特IRF-TEDQ-PIRp¼0： 30 3.79 1.82 NA NA NA NANAp¼ 0： 35 4.03 2.20 NA NA NANAp¼ 0： 40 5.03 2.46 1.15 NA NA NA NANA电话：+86-021 - 8888888传真：+86-021 - 88888888电话：+86-510 - 8888888传真：+86-510 - 8888888电话：+86-510-8888888传真：+86-510 - 8888888粤ICP备16016666号-1ADPCM解码国际货币基金组织兰特7.08 5.24 4.07 3.29 2.63 2.23 1.90IRF-TED6.68 4.84 4.01 3.56 3.06 2.58 2.05Q-PIR电话：+86-510 - 8888888传真：+86-510 - 8888888电话：+86-510 - 8888888传真：+86-510- 8888888粤ICP备15044888号-1粤ICP备15044888号-1粤ICP备15045550号-1粤ICP备05011888号-1粤ICP备16016888号-1DCT国际货币基金组织兰特42.83 38.36 30.19 28.56 28.52 28.16 27.68IRF-TED58.01 45.56 44.57 42.62 41.64 41.31Q-PIR1.06 NA NA NA NA NA NANANA不适用p¼0： 552.771.06NANANANA不适用p¼0： 60 2.23 1.06不适用GSM自相关IRF兰特15.24 11.52 9.83 8.84 7.48 6.89 6.13IRF-TED17.90 11.94 10.09 8.24 7.09 5.88 5.22Q-PIR电话：021- 8888888传真：021 - 88888888电话：+8621 6666666传真：+86 21 6666666电话：+86-510 - 8888888传真：+86-510 - 88888888电话：+86-21 - 6666888传真：+86-21 - 66668888电话：+86-21 - 6555555传真：+86-21 - 65555555传真：+86-21 - 6555555粤ICP备16036666号-1粤ICP备16036888号-1NA表示Q-PIR已终止，无需进行更多评价5.2.1. p的选择对帕累托前沿预测质量的影响预测的帕累托前沿的质量随着时间的推移而不断提高在所有基准中针对所有p值评估的设计数量。在表2中对应于Q-PIRDSE方法的各行中可以观察到ADRS的改善。同样，在图1中向下倾斜的ADRS改善曲线中也是如此。四、如算法1中所预期的，在每次迭代中，Q-PIR尝试通过挑选具有最高预测不确定性的设计用于合成来细化模型，从而将设计更好地分类为帕累托支配或帕累托非支配。Q-PIRDSE算法倾向于在较低的值中提前终止。如表2所示，该算法在转置滤波器和ADPCM编码基准的25%评估成本当0： 30; 0： 35; 0： 40。然而，对于较高的价值，终止时的评估成本超过25%。对于GSM自相关基准可以观察到类似的效果，其中，终止时的评估成本随着的值的增加而逐渐增加。对于ADPCM解码，跨不同p值的端接处的评估成本相对高于其他基准。而且，对于较低值p0： 30;0： 35，算法比对于较高值p更早终止。相比之下，对于DCT基准，在不同p值的终止时的评估成本相对低于其他基准。但类似到其他基准，为更高值的，p0： 55; 0： 60，算法终止于更高的评估成本低于p值。M. Belwal和T.K. Ramesh工程科学与技术，国际期刊34（2022）1010788ð Þ¼ð Þ2fg2fg2fg2fg¼2fg2fg2fg2fg表3Q-PIR在不同评价成本下实现的最小ADRS。E. 成本百分之十百分之十五百分之二十百分之二十五百分之三十百分之三十五百分之四十转置滤波器ADRs5.761.440.470.910.290.200.00pADPCM编码0.350.350.350.450.500.550.60ADRs3.791.821.151.020.820.310.47pADPCM解码0.300.300.400.450.550.550.60ADRs4.762.631.500.580.210.000.17pDCT0.300.300.300.300.300.300.40ADRs0.711.06NANANANANApGSM自相关0.500.55,0.60NANANANANAADRs14.389.125.503.180.361.060.68p0.300.300.400.350.400.500.55NA表示Q-PIR已终止，无需进行更多评价在较低的值，预测不确定性区域，描述为Hd在方程。（9），如图2所示相对较小。由于这一点，算法提前终止，因为分类为未定的设计数量太少，导致提前达到停止标准。相比之下，在较高的值下，预测不确定性区域相对较大，并且算法倾向于评估更多的设计以减小尺寸预测不确定性区域Hd通过模型细化。Q-PIR提供了一个折衷的机会之间的质量预测帕累托集的设计和评估成本为

下载后可阅读完整内容，剩余1页未读，立即下载