RSA密码系统中的低延迟高吞吐量Montgomery模乘器及其性能评估

138 浏览量更新于2024-01-06 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊30（2022）101045完整文章RSA密码系统中的低延迟高吞吐量Montgomery模乘器AashishParihar，Sangeeta Nakhate印度中央邦博帕尔Maulana Azad国立技术学院电子与通信工程系阿提奇莱因福奥文章历史记录：收到2020年2021年7月16日修订2021年8月9日接受2021年8月27日网上发售保留字：密码学公钥密码体制模幂运算蒙哥马利模乘RSAA B S T R A C T随着通信技术的进步，安全威胁也在增加。RSA是一种用于保护机密信息的健壮密码系统。RSA密码系统的效率取决于Montgomery模乘运算的有效执行。提出了一种低延迟、高吞吐量的Montgomery模乘器。这个乘法器的输入和最终输出是二进制的，但中间输入和输出是进位保存的，即和进位位存储在单独的速率寄存器中。和和进位位是通过进位保留加法器（CSA）将操作数相加得到的。Montgomery乘法器需要为后续迭代进行商计算。建议的乘法器计算两个后续的平行进位保存加法。进位保留加法的输出右移两位以获得下一个中间输出。此计算还需要输入的整数倍。跳过下一个输出的计算。输出的格式转换是使用一个前瞻进位单元（CLU）。CLU以及一个进位保存加法周期该乘法器在NEXYS 4DDR和VIRTEX VII FPGA上实现，得到了如下结果NEXYS 4DDR：面积（LUT + REG）：38903，延迟：5.84 ns，周期：1158，延迟：6.76m s，吞吐量：302.96 Mbps。VirtexVII：面积（LUT）：16447，延迟：1.62 ns，周期：1158，延迟：1.88ms，吞吐量：1089.4 Mbps。结果验证了改进的面积，延迟和吞吐量的性能所提出的工作。©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY许可证（http://creativecommons.org/licenses/by/4.0/）。1. 介绍随着通信技术的进步，安全威胁和漏洞也在增加。为了保护敏感信息，许多公钥和私钥密码算法被应用于实践。RSA[1]是前一种类型的安全和鲁棒的密码系统。在数学上，RSA是通过模幂运算（ME）实现的。ME是通过迭代模乘（MM）有效地实现。为了适当的安全性，模的最小大小是1024位，这限制了密码系统的吞吐量和速度。Montgomery模乘（MM）[2]是一种用加法和移位代替直接乘和试除法来实现MM的快速有效算法。然而，二进制加法涉及进位传播，这降低了RSA的性能。这种进位传播的问题可以通过对MM采用进位保留加法器（CSA）来消除。*通讯作者。电子邮件地址：parihar. gmail.com（A. Parihar）。由Karabuk大学负责进行同行审查输入、输出和中间操作数被粗略地分类为基于CSA的Montgomery乘法器两类。在第一个系列（FF）[3-8]中，只有中间输入和输出以进位保存形式存储。然而，需要额外的时间和时钟周期来将最终的进位保留模积转换为二进制形式。文[3]提出了一种快速、高吞吐量的Montgomery模乘器，它采用了一种有效的模乘转换方法。格式转换是通过一个格式转换单元，其中包括一个前瞻进位单元和多路复用器单元。此外，该乘法器合并两个迭代，从而导致显着减少时钟周期数。迭代的合并需要使用相同格式转换器计算的输入的整数倍。乘法器的关键路径延迟最小化的四个输入乘以一个，这简化了必要的中间计算。一个完整的乘法所需的总时间是显着的，icantly最小化，由于减少所需的时钟周期数与最佳的关键路径延迟。然而，该乘法器忽略了格式转换单元的延迟和面积，而只考虑了进位先行单元的延迟和面积，这可能会降低乘法器的性能。工作[4]提出了一个乘数，增加和转移，以及https://doi.org/10.1016/j.jestch.2021.08.0022215-0986/©2021 Karabuk University.出版社：Elsevier B.V.这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchA. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）1010452不不-同时计算以下两个因子，以最小化关键路径延迟。以这种方式，乘法所需的执行时间和文献[5]中的工作采用进位传播加法器进行格式转换，这需要额外的时钟周期和硬件。文献[7]中的工作采用一级可配置CSA进行乘法和格式转换，优化了硬件要求。然而，由于格式转换和加法需要大量的时钟周期，乘法的速度降低了[8]中的工作使用CSA进行加法和格式转换。该MM需要n/2个额外的周期来生成二进制形式的输出。这里，n表示输入比特长度。额外的时钟周期要求降低了该乘法器的性能。在第二个系列（SF）[9-完成所需的迭代后SF乘法器需要额外的硬件来处理由于所有操作数的进位保存形式存储而涉及的额外操作数。在[9]提出的两种基于MMM的3级和2级CSA中工作。Thelat-CT¼PE modM 1CT被解密以获得PT为：PT¼CD modM 2显然，RSA是通过模幂运算实现的。2.2.模幂运算ME算法涉及根据E的位的重复模乘，其中（E，M）表示RSA密码系统的公钥。扫描密钥的方向将这些求幂算法分为H和L。在H和L模扩展算法中，密钥分别从MSB到LSB和LSB到MSB进行扫描。模乘的操作数根据扫描的位来选择。模乘通过Montgomery模乘（MM）算法有效地进行。H算法来计算密文CT从公钥（E，M）和纯文本PT使用MM算法，如算法1中所示。算法1：使用MM的H算法。之三MM组合导致额外硬件的两个输入。Thework在[10]中，采用了3级CSA架构，并通过修改其中一个输入来简化计算。MMin[12]采用迭代跳过机制来提高乘法的速度这种机制取决于输入的位模式，因此该乘法器的吞吐率和速度根据输入而变化基于CSA的 Montgomery乘法器也可以与流水线[13-15]、高基数[16-22]和脉动阵列架构[23]等集成本文提出了一种低延迟、高吞吐量的第一类MM通过减少所需的迭代次数或传播延迟或两者来改善乘法运算的等待时间该乘法器在一个时钟周期内计算两个后续的迭代次数和下一次迭代的输出这种布置允许旁路下一个连续迭代的输出计算，因此，时钟周期减少了两倍。通过修改输入操作数来简化乘法器的商运算，从而优化乘法器的传输延迟因此，一个完整的模乘的experition- tion时间显着减少。提出的MM还利用了一个进行前瞻单元（CLU）的格式转换和预先计算的整数倍的输入。本文使用 Vivado 2016.2 在 Nexys4DDRXC7A100T和Virtex VII xc7vx485t实验结果验证了蒙哥马利模乘器的有效性。第二节介绍了RSA密码体制、ME算法和基-2MM算法。在第三中，提出了一种低延迟高吞吐量MM第4节提供了拟议的硬件。分析和实施结果在第5节中说明。最后，第6节包括结束语。2. RSA密码系统、模幂和模乘算法2.1. RSA密码系统RSA密码系统由两对整数（E，M）和（D，M）组成让纯文本由PT表示，其被加密以获得密文CT，如下：输入：PT，key（E（n-bits），M）输出：CT mod M1. D = 4nmod M，A = MM（PT，D，M），B = MM（D，1，M）;2. 对于j = n 1到0{B = MM（B，B，M）if（E[j] = 1）B = MM（A，B，M）};3. return MM（B，1，M）;2.3. Montgomery模乘算法Montgomery模乘中涉及的模M是奇数。设M的比特长度为n。R是一个等于2n的整数，与M互质，使得2n-1 M R。<<整数x; y M的整数对（X，Y）由等式计算。<（三）、X<$xRmodM;Y <$yRmodM 3蒙哥马利模积（P）计算为：P¼XYR-1M1000注意，R-1被称为R的模逆，其中RR-1 = 1 mod M（5）算法2示出了基数为2MM。最终输出W收敛到[0，2M）。因此，如果在算法2算法2：基数-2MM。输入：M（模），X（被乘数）和Y（乘数）输出：W[n]（模积）1. int maximum [0];2. for（i = 0）fqi =（W[i]0+ Xi Y0）mod 2W[i + 1] =（W[i] + Xi Y + qi M）/2 3。若（W[n]> M），则W[n]=W[n]-M;4. return n [n];GA. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）1010453-½.否则，如果qq=01;U =M1;i = 1ið¼Þ0000我03. 提出的MM算法一个面积和速度有效的FF蒙哥马利乘法器是在本节中提出的。在该乘法器中，在一个时钟周期中计算出ki和qi为了加快商的计算速度，在Y的LSB处加了四个零.该MM还涉及中间操作数，用于简化和加速乘法。在每个周期结束时，中间输出的两个LSB位被截断。所提出的MM的算法开发如下。3.1. 计算质量因数qi和qi1通过将输入Y乘以16来简化导数qi和qiq 1的计算。设Y1 = 16Y。乘以16相当于在Y的LSB处附加四个零。因此，位Y1[0：4]等于0。从[9]，qi和W[i +1]计算为：qi<$W1½i]W2½i]XiY1½0]mod26从Eqs。（10和11）可以直接从W1[i]和W2[i]计算幂函数qi和qi_1然而，（W1[i +2]，W2[i +2]）计算需要输入的整数倍。表1示出了根据W[i]以及输入Y1和M的整数倍来计算W[i + 2]。注意，W表示组合形式的和W1和进位W2比特。因此，可以直接从W1/2[i]计算W1/2[i ]，如下：W1½i其中，U和T分别表示输入M和Y1的整数倍。表2包括分别基于向量（qi = 1，qi）和输入位（Xi = 1，Xi）的操作数U和T。注意，当（qi = 1，qi）为01或11时，添加M或3M。在这两种情况下，进位1都是从CSA 1操作数的LSB中获得的商计算需要大量时间，因为它们需要W1[i]和W2[i]。（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）（1在整数倍W½i1]¼W1½i]W2½i]XiY1M=27当Y1[0] = 0时，QI1/4。W1½i]W2½i]mod28输入如下。图2示出了所提出的乘法器的进位保留加法。如果W2 [i]0为0，则W20 [i]1i等于0，因为U[0]始终为0。U[1]也等于0。因此，W2[i + 1]0=0。因此，W2[i + 1]0总是0，如果W2[i]对于所有i都被初始化为0，如前一节所讨论的。其中，W1和W2分别表示输出W的和位和进位位。令W2[i]0在时钟周期开始时等于0从等式（8）、从等式（9）图。二、qi和qiq 1被计算为：qi<$W1½i1]0<$W10½i]2W20½i]213在第i个时钟周期期间qi= W1[i]0。M[0]总是1，因为对于RSA密码系统，M总是奇数。因此，qiM[0]等于qi。W10 [i]0是且qi= 1[1][2][1计算公式：W1[i]0W2[i]0 qi M[0]在图1中。纤毛，纤毛qi1½W10½i]3W20½i]3qiM-1. W10½i]2W20½i]2瓦14瓦保留进位加法MM_CSA42[9]乘法器。将所有点放在一起考虑，我们得到W10 [i]0= W1[i]0 W1 [i]0等于0。W20 [i]0由于没有输入进位而为0。W2[i + 1]0是通过将W10[i]0、W20 [i]0和Y1[0] Xi相加得到的，þ3.2. 该算法半]因为所有三个操作数都等于0。因此，我们可以得出结论：如果W2[i]0由0起始，则得到的W2[i + 1]0也为0。由于所提出的MM总是通过使W1和W2等于0来启动，因此W2[i]0对于所有i总是0。因此，qi和qi_1可以计算为：的步骤参与的建议模乘算法在算法3中示出。算法3：提出的MM算法。输入：X，Y MQ1/4W1/2i];q[1]ð9Þ输出：W1. M1 = M +1，M2 = 2 M，M3 = 3 M +1;现在，W1[i + 1]0= W10 [i]1 W20 [i]1，因为Y1[0]等于0。由于W2 [i]0和M[0]总是分别为0和1，因此通过将LSB的W1[i] 0 = q i ; W2[i] 0 = 0和q i M[0] = q i相加而获得W20[i]1此外，W10 [i]1= W1[i]1W2[i]1qi M[1]，因此W1[i + 1]0可以计算为：W1½i1]0¼W 1½i]1W 2½i]1qiM½ 1]qi10同样，qi M[1] qi等价于qi M-1]。从等式（9）、-Y1 = 16 Y，Y2 = 2 Y1，Y3 = 3 Y1;//预计算2. W1[0]= 0，W2[0]= 0;//3. 对于i = 0到n/2 + 2//qi和qi = 1是从等式2计算的。（13和14）与进位保留加法{如果。qi ≤ 1 qi 00Ω，U = 0;否则如果。qi ≤ 1 qi≤ 10m; U = M2;q¼W1½i]W2½i]q M1ð11Þ否则如果。qi ≤ 1 qi≤ 11m; U = M3;第一章111i半]ifXi1Xi¼00;T=0;elseifXi1Xi<$01;T=Y1;elseifXi1Xi<$10;T=Y2;else if Xi 1 Xi11; T = Y3;}(W1[i+ 1]，W2[i + 1]）=（W1[i] + W2[i] + U +T）/4;i = 1;}4. 对于j = 0到n/64{W = CLU（W1[n/2 + 3]63：0，W2[n/2 +3]63：0）; W1[n/2 + 3] = W1[n/2 + 3] 64，W2[n/2 + 3] = W2[n/2 + 3]64，j = j +1;}5. return W;图1.一、进位保存加法MM_CSA42[9]乘法器。0第一章1A. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）101045444444444444表1从W[i]和M与Y1的倍数计算W[i +2]qiXiW½i1]qi1Xi1W½i2]0 0W½i]0 0W½i]0 0W½i]0 0W½i]01W½i]2Y101W½i]2Y101W½i]2Y101W½i]2Y110W½i]M10W½i]M10W½i]M10W½i]M1 1W½i]Y1M1 1W½i]Y1M1 1W½i]Y1M1 1W½i]Y1M0 0W½i1]01W½i110W½i1]M1 1W½i1]2MY10 0W½i1]01W½i110W½i1]M1 1W½i1]2MY10 0W½i1]01W½i110W½i1]M1 1W½i1]2MY10 0W½i1]01W½i110W½i1]M1 1W½i1]2MY1W½i]W½i]42Y1W½i]42MW½i]2Y12MW½i]4Y1W1/W2/W4/W3/W1W½i]Y12MW½i]3Y12MW½i]MW½i]2Y1MW½i]43M[2019 - 03 -25] 2019 - 03- 25 [2019 -03 - 25]2019- 03 - 25]2019 - 03 -25[2019 - 03-25]2019-03 -25 [2019 - 03- 25] 2019 -03 -25 [2019- 03 - 25]2019 - 03 -25 [2019 - 03 -03] 2019 -03 -25 [2019 -03 - 25]2019 - 03 -25 [2019 -03 -25]2019-03 - 25 [2019 -03 - 25] 2019 -03 - 25 [2019 -03 - 25] 2019 -03 - 03 - 03 - 25表2基于qi 1;qi和.X i1;Xi的1 0 M2< $2× M 1 0 Y2< $32× Y1 1 M3< $3×M11 1 Y3< $48×Y图二. 建议乘数的保留进位加法图三. 商逻辑单元（QLU）。4. Montgomery模乘法器4.1. 商逻辑单元商逻辑单元（QLU）如图所示。3个计算结果sq[i + 1]。W1[i + 1]和W2[i + 1]是从W1[i]、W2[i]、T和U的保留进位加法获得的，并且在反馈到CSA 1之前在LSB处右移两位在n/2 + 2个时钟周期之后获得最终进位保留输出W1[n/2 + 3]和W2[n/2 + 3]222222222222222222222222qiQ1QIU第十章1Xi不00000001M1¼M 101Y1¼ 16× YA. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）1010455安德克i拟议MM的架构如图所示。四、根据Eqs. （13和14）。从CSA 1和M[1]生成的中间输出位W10[i]3：2和W20 [i]3：2被发送到QLU，用于与进位保留加法并行地计算重复数。QLU输出（qi和qi_1）被发送到MUX 1，用于从[0，M1，M2，M3]中选择操作数U。4.2. 建议的硬件架构提出的MM架构的主要组成部分是商逻辑单元，两个4到1复用器（MUX 1和MUX 2），2级进位保存加法器，和一个64位进位前瞻单元。MUX 2根据来自[0，Y1，Y2，Y3]。输入X保存在寄存器RX中，其向右移位用于在每个时钟周期之后保持正确的选择位Xi +1和Xi的两位。寄存器RY1、RY2、RY3、RM1、RM2、RM3、RW 1和RW 2存储操作数Y1、Y2、Y3、M1、M2、M3、W1[i +1]和W24.3. 超前进位单元最终输出（W1（n/2 + 3），W2（n/2 + 3））的格式转换通过64位CLU[30]执行CLU转换64位进位保存输入（W1（n/2 +3）63：0，W2（n/2 + 3）63：0）到二进制W63：0在一个时钟周期。从64位加法产生的附加进位位作为输入进位反馈到CLU。在每次迭代之后，寄存器RW1和RW2向右移位64位，以在格式转换期间捕获W1和W2的下一个64 LSB。n位输入的格式转换需要n/64个周期。通过在M的LSB处附加一个零来获得M2 M1是通过将M和1相加而得到的，这需要一个循环的进位保存加法和使用CLU的格式转换。对于M1的计算，RM1由M初始化，RY1由1初始化，q i和q i+1分别由1和0初始化，RX由01初始化。计算完M1，M3A. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）1010456见图4。蒙哥马利模乘器的硬件结构。通过M1和M2的进位保留加法获得对于M1的计算，RM 1由M1初始化，RY 1由RM 2初始化，qi和qi +2由（0，1）初始化，RX由0,1初始化类似地，计算RY1、RY2和RY3。n位操作数的预计算需要n/64+ 1个时钟周期。64位、16位、4位和1位CLU的结构如图所示。五、5. 实验结果在这一部分中，我们讨论了所提出的MM的分析和实现结果5.1. 传播延迟和面积分析本节使用[7]中讨论的分析方法比较各种MM的时钟周期、延迟、延迟和面积。表3给出了标准单元的面积和延迟，分别用A逻辑单元和T逻辑单元计算W1[i + 1]和W2[i + 1]的传播延迟是2TFA + TMUX4（即，2.71TFA），计算qi和qi≠ 1的传播延迟是2TXOR 2 + TAND2 + TFA + TMUX4（即，2.73 TFA）。的64位CLU需要传播延迟等于4 T4位CLU + T1位CLU= 2.48 TFA：每个1位CLU需要等效的传播延迟两个与非门，即0.24 TFA。此外，每个4位CLU需要prop- agation延迟相当于两个NAND和两个NOR门，即0.56 TFA。 16位CLU需要两个4位CLU和一个1位CLU i.e.1.36 T FA的传播延迟。从硬件架构中可以明显看出，图五、（a）64位CLU（b）16位CLU（c）4位CLU（d）1位CLU。表3标准单元格：归一化面积和延迟。细胞（比率）加法器寄存器NAND也不和XORMUXMUX输入类型/数量充分一个比特两个输入两个输入两个输入两个输入二比一四比一延迟1–0.120.160.340.340.450.71区域10.880.160.160.200.320.360.96A. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）1010457× × ××对于64位CLU，其需要一个16位CLU、两个4位CLU和一个1位CLU的传播延迟。可以从16位CLU中去除一位CLU传播延迟，同时计算 64位CLU的传播延迟，因为从1位CLU的评估是并行进行的因此，64位CLU的总传播延迟为2.48 TFA。因此，在所提出的MM中，每个时钟周期的传播延迟为2.73 TFA提出的MM由商逻辑单元，64位进位前瞻单元，两个4到1多路复用器，2级CSA，和9个n位寄存器。对于大的n，商逻辑单元和超前进位单元的面积可以忽略。因此，所提出的MM的面积为2n AFA + 9n AREG+ 2n AMUX 4 = 11.84n AFA。面积和传播延迟的建议MM相比，以前的乘法器使用延迟和面积比计算，使用类似的分析。表4包括各种MM的延迟和面积比。表4中还包括指示一个MM的执行时间的延迟、ATP（即面积-时间积）、吞吐率和时钟周期。因此，它可以从分析结果得出结论，建议蒙哥马利乘法器是有效的延迟，吞吐率，时钟周期和ATP。5.2. 实施结果除了提出的 MM 之外，还使用 Vivado 2016.2 在 Nexys4DDRXC7A100T FPGA中实现了不同的基于CSA的Montgomery模乘法器，结果如表5所示。为了将所提出的工作与已发表的工作进行比较，使用Vivado2016.2在Virtex VII，xc7vx485t FPGA中进一步实现了所提出的MM，结果如表6所示。表5和表6包括面积、传播延迟、时钟周期、延迟、吞吐量（时钟周期和传播延迟的乘积）和ATP（面积和延迟的乘积）。Nexys4DDRFPGA板中的用户可用输入输出端口为210。因此，利用128位计数器将1024和2048位输入串行地存储在相应的寄存器中，并使用64位计数器获得串行输出。表5所示的区域包括这些输入和输出计数器所需的硬件。表5和表6的结果通过图1和图2中的条形图进一步说明。6和图76. 结论分析结果（表4）表明，所提出的乘法器需要更少的时钟周期与优化的传播延迟，从而导致高速乘法相比，其他乘法器。此外，该乘法器具有最小的ATP和最高的吞吐率。分析结果也展示了建议蒙哥马利模乘法器的效率。FPGA实现进一步验证了该乘法器的效率。报告了先前工作的VIRTEX FPGA实现结果（表6），并将其与当前工作进行了比较结果表明，该乘法器具有最小的关键路径延迟和延迟和最高的吞吐率为1024位和2048位的操作数。为了公平比较所提出的乘法器，不同的乘法器已在NEXYS 4DDR FPGA中实现，结果是一致的（表5）。MM_CCSA[7]乘法器的面积最小。与MM_CSA42[9]相比，建议的乘法器需要更多的面积，因为格式转换需要额外的硬件。然而，所提出的乘数的面积与其他乘数是并行计算，迭代旁路和有效的格式转换导致高速模乘。因此，建议多...表4Montgomery乘法器的面积、传播延迟和延迟。乘法器MM_CCSA[7]MM_CSA52[9]MM_CSA42[9]MMM42[12]MM_HT[19]MM_ DSC[20][22]第二十二话拟议工作面积比区域延迟比率延迟延迟时间n×T故障两点七十一分四点十二分三点七十三分两点零三分三点零五分一分六十七秒两点五十六分一点五十五分时钟周期ATP n×TFA×n× AFA二十七比一四十点二十一分四十四分十六秒二十五点五十分三十九点四十一分–十八点四十二分A/D转换器2×TMUX2×T XOR 2×T XOR 310n× AFA2： 17×TFA1：25n9： 76n×AFA3n× AFA 7n× AREG3n×ANAND24： 12×TFA3×TFA×2×T XOR 2×T AND 2n2n× AFA2n× AREG 2n× AMUX42×TFA×2×T XOR 2×T AND2×T MUX411： 84 n×AFA3： 73×TFAn 112： 56 n×AFA2n× AFA2n× AREG 2n× AMUX4 2n× AMUX22： 71×TFA2×TFAMUTMUX400：75n3n× AFA 2n× AREG 2n× AMUX44×TFA-10TXOR 2 - 10T AND2 -102×T MUX 412： 92n×AFA6： 1×TFAn= 2×1–--3： 34×TFA3×TFATHEATAND 22002年28n-24× TFA× 3× TAND2× THA15： 6n×AFA5： 02×TFA2002年211： 84 n×AFA2n× AFA2n× AREG 2n× AMUX42： 73×TFATFA2×TXOR 2×T AND2 ×TMUX40.57nA. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）1010458表5在NEXYS 4DDR FPGA上实现的蒙哥马利乘法器（1024位和2048位密钥大小）的比较。BitLength乘法器区域LUT德莱恩斯基时钟周期潜花芹MbpsATP是一个×1000×103总时间1024MM_CCSA[7]19,5214.9412806.32162.02123.37MM_CSA52[9]22,5766.4210246.57155.86148.32MM_CSA42[9]24,3275.8910256.03169.82146.69MMM 42[12]25,8435.327684.08250.98105.43拟议工作25,8105.455823.17323.0381.812048MM_CCSA[7]31,2115.29256013.54151.26422.60MM_CSA52[9]34,5196.97204814.27143.51495.38MM_CSA42[9]36,0046.39204913.03157.18565.91MMM 42[12]37,7495.7115368.77233.52331.06拟议工作38,9035.8411586.76302.96262.98表6在VIRTEX FPGA上实现的Montgomery乘法器（1024和2048位密钥大小）的比较倍增器装置比特长度面积（LUT）延迟（ns）时钟周期延迟（ls）吞吐量（Mbps）ATP面积×延迟ls× 103[19]第十九话VIRTEX II102412,28411.15135.69174.7469.89204825,30412.4102512.71157.78321.61MM_RAD 4[21]VIRTEX II102413,37010.15765.81176.2577.679204826,56210.1115211.64175.95309.181MM_DSC[20]VIRTEX V102412,3232.65151.33769.9216.38204824,6132.510282.57796.8963.25MM_CSA42[9]VIRTEX VII102418,8612.2610252.32439.4843.75204837,3762.6020495.33384.24199.21[22]第二十二话VIRTEX VII102493042.235301.18867.8010.97204818,6363.1810423.31618.7361.68[24]第二十四话VIRTEX VII102482932.125151.09939.449.039拟议工作VIRTEX VII102487121.475820.851204.77.405204816,4471.6211581.881089.430.92图六、NEXYS 4DDR FPGA中实现的1024位和2048位操作数的各种蒙哥马利乘法器的时钟周期、延迟（msec）和吞吐量（Mbps）比较图7.第一次会议。VIRTEX FPGA中实现的1024位和2048位操作数的各种蒙哥马利乘法器的延迟（msec）、延迟和吞吐量（Mbps）比较最小的 ATP 。与 MMM42[12] 相比，所提出的乘法器需要减少24.21%的时钟周期和22.3%的执行时间来完成一个MM，从而减少28.7%1024位操作数的吞吐量和22.4%的ATP增强，时钟周期减少24.6%，延迟改善22.91%，导致29.73%的吞吐量和20.56%的ATP增强A. Parihar和S. 纳克哈特工程科学与技术，国际期刊30（2022）10104592048-位操作数。因此，可以得出结论，建议的乘法器确实是一个低延迟和高吞吐量的蒙特-布尔模乘法器。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。致谢作者们感谢匿名审稿人提高了论文的质量。作者感谢https://app.diagrams.net为制作图表和框图提供了合适的在线平台他们还想感谢由“印度政府电子和信息技术部”赞助的“芯片到系统设计特别人力开发计划（SMDP-C2 SD）”项目，引用[1] R.L. Rivest，A.沙米尔湖Adleman，一种获得数字签名和公钥密码系统的方法，Commun。ACM 21（2）（1978年2月）120-126。[2] P.L. Montgomery ， Modular multiplication without trial division ， Math.Comput. 44（170）（1985年4月）519-521。[3] A. Parihar ， S. Nakhate ，用于 Rivest-Shamir-Adleman 密码系统的快速Montgomery模乘器，IET信息安全13（3）（2019年4月）231-238。[4] Aashish Parihar和Sangeeta Nakhate。具有有效格式转换的RSA Montgomery模乘的高速高吞吐量VLSI结构。工程师学会杂志（印度）：B辑。2019. 100. 3. 217-222[5] Z. B. 胡河，巴西 - 地 M. A. Shboul ， V. P. Shirochin. 提出了一种基于改进Montgomery算法的1024位RSA密码处理器的结构。在第四届IEEE国际研讨会Intell数据采集中。高级计算系统，2007年。643-646[6] Y.-- Y. Zhang，Z.利湖，加-地杨，S.- W. Zhang，一种有效的Montgomery模乘CSA结构，微处理器微系统。 31（7）（2007）456-459。[7] Shiann-Rong Kuang，Kun-Yi Wu，and Ren-Yao Lu.蒙哥马利模乘的低成本高性能VLSI结构。IEEE超大规模集成电路系统汇刊。24岁二、434-443 2016年。[8] A.Parihar，S.Nakhate，FastandHigh-throughputMontgomeryModularMultiplier for RSA Encryption and Decryption ， IEIE Transactions onSmartProcessing &Computing。 7（2）（2018）148-158。[9] C.McIvor， M.McLoone， J.V.McCanny， ModifiedMontgomerymodularmultiplication and RSA exponentiation techniques，IEE Proc. - Comput.数字。技术人员：151（6）（2004）402-408.[10] K. Manochehri和S. Pourmozafari。修改基2蒙哥马利模乘，使其更快，更简单。在Proc. IEEE Int. Conf. Inf. Technol. 1中。. 2005. 598-602[11] M.- D. Shieh，J. - H.陈洪- H.吴文C.林，一种新的有效设计RSA密码体制的模幂结构，IEEE Trans.Very LargeScale Integr. （VLSI）系统，Sep. 16（9）（2008）1151-1161。[12] Shiann-Rong Kuang ， Jun-Ping Wang ， Kai-Cheng Chang ， Huan-Wei Hsu.RSA密码系统的高能效高吞吐量Montgomery模乘器。IEEE Trans. Very LargeScale Integr.（VLSI）系统21. 11. 1999- 2009年。2013年。[13] K. Manochehri，S. Pourmozafari。基于流水线CSA结构的快速蒙哥马利模乘。InProc. IEEE Int. Conf. Microelectronics. 2004. 144- 147页。[14] J. C. Neto，A. F.拉，W. V. Ruggiero.一种执行蒙哥马利乘法的并行k划分方法。在procIEEE国际Conf. 申请-特定系统，阿奇特，处理器. 2011. 251-254[15] J.汉，S. Wang，W. Huang，Z. Yu，X. Zeng，多核平台上基-2蒙哥马利乘法的并行化，IEEE Trans. Very LargeScale Integr. （VLSI）System. 21（12）（2013）2325-2330。[16] A. Miyamoto，N. Homma，T. Aoki，A.李志华，高基蒙哥马利乘法器的RSA处理器系统设计，电子工程师学会。（VLSI）系统，七月 19（7）（2011）1136-1146。[17] S.- H. W，pp. 3049-3052.ang，W.- C.林，J. - H.是的，还有M。D.谢了快速可缩放基4蒙哥马利模乘法器。在Proc. IEEE Int. Symp. Circuits Syst. 2012.[18] G.萨索角J. Jimenez和M.瓦伦西亚用CSA实现高基数蒙哥马利乘法器。在微电子国际会议上。2010. 315-318.[19] R.V. Kamala，M.B.高精度蒙哥马利模乘，IFIP超大规模集成国际会议（2006）58-62。[20] G.D.Sutter ， J.Deschamps ， J.L.Imana ， Modularmultiplicationandexponentiation architectures for fast RSA cryptosystem based on digitalserialcomputation ， IEEE Trans. on Ind.Electron.58 （ 7 ）（ Jul.2011 ） 3101-3109。[21] M. Huang，K. Gaj，T. El-Ghajawi，Montgomery模乘算法的新硬件架构，IEEE计算机学报60（7）（2011年7月）923-936。[22] Serder Suer Erdem，Tugrul Ynik和Anil Celebi。蒙哥马利乘法算法的通用数字串行结构。IEEE Trans. Very Large Scale Integr.（V

下载后可阅读完整内容，剩余1页未读，立即下载