文本硬标记对抗攻击的有效性_TDE算法的应用

158 浏览量更新于2024-01-16 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报一种有效的文本进化算法解决文本硬标记对抗攻击彭浩a，王哲a，赵丹丹a，吴一鸣c，韩建明a，郭世新a，吉寿玲b，d，Ming Zhonga，李明a浙江师范大学计算机科学与技术学院，浙江金华321004b浙江大学计算机科学与技术学院，浙江杭州310027c浙江工业大学网络空间安全研究所，浙江杭州310027d电气和计算机工程，佐治亚理工学院，亚特兰大，GA 30332，美国阿提奇莱因福奥文章历史记录：2022年11月28日收到2023年3月16日修订2023年3月24日接受2023年3月31日在线提供保留字：自然语言处理语言模型对抗性攻击黑盒攻击硬标签A B S T R A C T在图像、文本和音频等领域发挥关键作用的深度神经网络容易受到对抗性攻击。在当前的文本对抗攻击中，绝大多数都配置了黑盒软标签，这是通过模型的梯度信息或置信度来实现的。因此，仅使用硬标签模型的预测顶部标签来实现对抗性攻击变得具有挑战性和现实性。实现硬标签对抗攻击的现有方法使用基于种群的遗传优化算法。然而，这种方法需要大量的查询消耗，这是一个相当大的缺点。针对这一问题，本文提出了一种基于种群差分进化思想的文本黑盒硬标签对抗攻击算法，称为基于文本的差分进化（TDE）算法。该方法首先对初始粗对抗示例的词的重要性进行判断，根据判断结果只对文本句子中的关键词进行操作，其余词逐渐替换为原词，以减少替换发生的句子中的词.我们的方法判断质量的语义相似性的对抗性的例子在替换过程中，存款高质量的对抗性的例子个人到人口。其次，根据词的重要性对对抗性实例的优化过程进行组合和优化。与现有的基于遗传算法指导的方法相比，该方法避免了大量无意义的重复查询，显著提高了算法的整体攻击效率和生成对抗性实例的语义我们在情感分类、自然语言推理和有毒评论这三个文本任务上使用多个数据集进行了实验，并在现实场景中对模型和API例如，在Google Cloud商业API对抗性攻击实验中通过大量的实验数据表明，我们的方法不仅显着减少了查询的数量，而且在对抗性示例的质量方面显着优于现有方法版权所有©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍*通讯作者。电子邮件地址：zhongming@zjnu.edu.cn（M.Zhong）。沙特国王大学负责同行审查近年来，深度神经网络（DNN）在计算机视觉（Schmidhuber，2015）、自然语言处理（NLP）、音频处理和图形数据处理等领域得到了快速发展并取得了巨大成功。然而，与此同时，DNN也容易受到对抗性示例的影响（Szegedy等人，2013; Goodfellow等人，2014），它可以使DNN模型通过向原始示例添加人类不易检测到的扰动来产生错误的分类预测。这https://doi.org/10.1016/j.jksuci.2023.03.0171319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报2尤其是在医疗、自动驾驶和金融领域等现实场景中，对抗性的例子可能会使人们目前，对抗样本的研究主要集中在计算机视觉领域，特别是在图像识别和分类方面.最近，越来越多的人开始关注NLP领域（ Papernot 等人， 2016; Kwon 和 Lee ， 2022;Shao 等人， 2022年）。然而，相对于CV对抗性攻击算法的丰富性和多样性，NLP中的对抗性攻击仍然需要发展空间。首先，因为文本数据是离散的，所以图像域对抗性示例生成方法不能直接应用于它;其次，虽然图像中的扰动是像素值的小变化，难以用人眼检测到，但是文本对抗性示例的小扰动，例如产生不实词的字符或词的替换，此外，如果将图像域中基于梯度的对抗攻击方法直接应用于矢量化后的文本特征，则生成的对抗示例可能是无效的字符或单词序列对抗性攻击主要分为白盒攻击（Ebrahimi等人，2017）和黑盒（Gao et al.， 2018年）袭击。在白盒攻击中，需要获取先验信息例如参数、结构和训练数据，从而获得关于目标模型的梯度信息。因此，要实现白盒攻击，需要满足更多的前提条件，并获得关于模型的充分信息。在黑盒攻击中，无法获得目标模型的内部结构和相关参数，而只能获得模型的输入和输出，或区分概率，或置信度得分，以实现对抗性攻击。基于此，仅通过目标模型的顶部预测标签而不使用其他置信度信息的黑盒攻击是硬标签对抗攻击。因此，在黑盒硬标签下实现高质量对抗样本的快速高效生成至关重要为了解决这一问题，Das和Suganthan提出了一种基于差分进化的方法，称为基于文本的差分进化（TDE）算法，该算法具有很高的生成效率，可以大大减少查询次数，从而生成高质量的对抗性示例。该方法摒弃了现有方法中基于遗传算法思想的优化策略，因为这种优化策略在种群中个体趋于相同或相似时很可能导致局部最优解和重复搜索，因此该方法通过多变异个体的设计引入一定的多样性，并在对抗样本优化过程中通过不断的个体更新避免对同一对抗样本个体的硬标签初始对抗样本的优化方法分为两步。在第一步中，通过判断在初始对抗性示例中被替换的词的重要性来选择用于群体生成的关键词，这反过来可以大大减少数量本文提出了一种文本黑盒硬标签下基于差分进化思想的高效对抗性攻击方法，通过在种群个体中进行多次初始化和不断更新，增加了多样性，避免了局部最优和重复搜索因此，我们在本文中的主要贡献如下：(1) 首次实现了一种基于种群的差分进化硬标记方法，该方法能够以非常低的查询次数生成高质量的对抗性样本;(2) 在对抗样本初始化过程中加入多角度初始化，避免单角度初始化对对抗样本质量(3) 然后，利用我们的高效方法，可以大大减少攻击过程中所需的查询次数和时间，使得硬标签的NLP文本攻击更加真实，显著降低了攻击所需的开销。本文共分七章，各章的结构安排如下：第一部分，介绍了本文的研究背景和存在的问题。第2节介绍了与对抗性攻击相关的工作。第3节描述了我们的工作优于现有的工作。第四节详细介绍了该方法的攻击算法。第5节介绍了有关实验的信息。第6节比较了几个基线的实验结果分析。第七部分总结了本文的工作并指出了未来的研究方向。2. 相关工作根据表1所示的研究，近年来NLP领域与对抗性攻击和防御相关的综述。文本的对抗性攻击分为两种方式：白盒攻击可以获得目标模型的所有信息，模型结构，模型参数，训练数据，梯度信息，损失函数和模型输出。黑盒攻击它不能获得上述关于模型的关键信息，除了模型输出。此外，它还可以进一步细分为基本的黑盒攻击。如果模型输出包含预测置信度，那么这种黑盒攻击可以被归类为软标签攻击。同时，如果在没有预测置信度的情况下仅能获得模型的顶部预测标签，则该攻击是硬标签攻击。2.1. 白盒攻击本研究并不是第一次研究文本序列的对抗性示例问题，并提出了一种基于JSMA算法思想的对抗性文本生成方法，表1调查表。标题年份的人口。在的第二步，生成的人口是从其中只有具有高语义相似性的头部群体进行组合优化以避免过多数量的无意义查询的较好的查询中选择最后通过实验对算法进行了比较。实验结果表明，该方法可以大大减少查询的数量，并仍然生成高质量的对抗性的例子在不同的场景下，不同的模型，不同的文本任务在不同的实验设置。Machine Learning Model Security and Privacy Research：A survey（Ji et al.， 2020年）自然语言处理中对深度学习模型的对抗性攻击：一项调查（Zhang etal.， 2020年）Towardsa Robust Deep Neural Network in Texts：ASurvey（Wang et al.， 2019年度）测量和提高NLP模型的鲁棒性：一项调查（Wang等人， 2021年）自然语言处理中的对抗性攻击和防御技术：调查（Qiu et al.， 2022年）20202020202120222022H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报3----成功攻击了递归神经网络事实上， Ebrahimi 提出了HotFlip2017（Ebrahimi等人，2017）提出了一种基于梯度优化的白盒恶意文本生成方法，并在后续工作中将其扩展到针对性攻击。该方法可以用一种热表示法处理离散文本结构，并通过字符替换使字符级文本分类模型出错基于FGSM算法的思想，Liang（Liang等人，2017）提出了一种梯度来衡量词对分类结果的影响程度，并通过插入、删除和修改这些词来干扰重要词。然而，在这种方法中添加扰动的过程需要人为干预，因此Samanta（Samanta sand Mehta，2017）自动化了这一过程，并限制了要替换/添加的单词，以保持原始文本的正确语法结构。同时，Gong（Gong等人，2018）基于FGSM和Deepfool的思想扰动词向量（词嵌入），然后使用WordMover距离（WMD）来找到最近的邻居词进行替换。另一方面，Lei（Lei等人， 2019）证明了文本分类网络函数的次模性，并表明贪婪算法可以很好地逼近最优解。2.2. 黑盒攻击black boxsoft label The Deepwordbug2018（Gao et al.，2018）在黑盒设置中有效地生成细微的文本扰动，这迫使分类器对文本输入进行它采用了一种新的评分策略来识别关键标记，其中修改这些标记允许分类器做出不正确的预测。在Textbugger2018 （Li 等人，2018），首先找到最重要的句子，然后使用评分函数来找到句子中的关键字。同时，GA2018（Alzantot等人，2018）是一种基于黑盒的种群优化算法，用于生成语义和语法相似的对抗性示例。PWWS2019（Ren等人，2019）提出了一种新的由词显著性和分类概率共同决定的词替换顺序，并提出了一种用于文本对抗攻击的贪婪算法--概率加权词显著性。SememePS02019（Zang等人， 2019）是一种粒子群优化算法，用作搜索算法，以生成针对黑盒设置的对抗性示例。BAE 2020（Garg和Ramakrishnan，2020）是使用BERT掩码语言模型的上下文扰动来生成对抗性示例的黑盒攻击Textfooler2020（Jin等人，2020）是一种基于文本对抗的基线方法，使用同义词来替换句子中的易受攻击的单词。另一方面，Ber-tattack 2020（Li等人，2020）是一种使用BERT预训练的掩蔽语言模型生成高质量对抗性示例的方法。接下来，LSH和Attention2021（Maheshwary等人，2021b）使用注意力机制和局部敏感散列（LSH），以便通过两者的组合来减少查询的数量。然后，SemAttack2022（Wang等人，2022 a）构造语义扰动函数，从而在所识别的不同语义空间中搜索最佳扰动。这可以更有效地生成对抗性示例。最后， DiscreteBlockBayesAttack2022（Lee等人，2022）通过使用贝叶斯优化查询离散文本数据，ARD分类核用于动态计算重要位置，从而有效地生成对抗性示例。黑色博克斯哈德标签对硬标签的攻击可能更加不同，ficult比软标签，除了这些也更现实。因此，硬标签的对抗性攻击也在逐渐发展。在TextDecepter2020（Saxena，2020）中，没有公共模型信息，攻击者只能查询模型以获得分类器的最终决策，而没有信心涉及班级的分数同时，在硬标签攻击2021中（Maheshwary等人，2021 a）通过遗传算法优化对抗性示例中的单词以生成高质量的对抗性示例。根据这项研究，与硬标签（Qin和Yue，2022）和对抗性攻击（Xu等人，2020 Xu等人， #20203;其他领域。针对黑盒软标签的对抗性攻击也取得了巨大的进展，今天但对于硬标签攻击和对抗性攻击的研究仍然有因此，基于NLP领域现有的硬标签攻击，还有很多方面需要改进。生成对抗性示例的过程可以在质量和效率方面因此，研究如何在黑盒硬标签下高效地生成高质量的对抗性文本是十分3. 推论和挑战遗传算法的变异操作是对种群中个体的一段基因进行变换，以获得一个新个体，即一组新解。其目的是通过产生新的解决方案来找到更好的选择。然而，突变后产生的新基因片段可能与原始种群中的个体有遗传重叠。如果是这样的话，那么这意味着突变是没有意义的，而不是产生新的解决方案。在优化的后期，整个种群可能会陷入局部最优。因此，变异操作后的解决方案需要与群体中已经存在的解决方案区分开来。而差分进化优化算法可以满足这一要求。突变是通过将两个现有个体的差异加到另一个个体上来实现的。通过缩放，确保新生成的个体以及原始群体中的个体具有一定的差异，从而确保新个体的可搜索性。在基于群体的优化算法下，差分进化算法（DE）（Panduro等人，2009年Karaboga和Ökdem，2004年Vesterstrom和Rewsen，2004年）具有接近遗传算法（GA）的全局搜索能力，但同时具有比遗传算法更快的收敛速度。从图1中可以看出，当达到目标函数所需的最优解时，DE迭代100次，但GA需要迭代200次才能完成。从而在保证对抗性实例质量的同时，进一步解决了现有工作效率低的问题。根据相关文章和参考文献的研究（Alatas和Bingol，2020 Akyol和Alatas，2017），提高遗传Fig. 1. 算法比较。H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报4←算法在现有的工作中，通过差分进化优化算法的对抗性攻击下的黑盒硬标签。现有的工作和我们的方法，不同于原来的进化算法，搜索空间字级对抗性的例子搜索是离散的。因此，借鉴种群进化的相关工作，研究设计攻击算法.黑盒硬标签下的对抗性攻击无法确定决策边界，因为模型参数、置信度信息和训练信息都不可用，只能通过大量尝试来无限逼近决策边界，以获得模型的这就是为什么黑盒硬标签下对抗性攻击的研究需要大量的查询并且具有挑战性的原因在这些挑战中，需要地址：(1) 在NLP领域，黑盒硬标签对抗攻击与差分进化思想相结合的相关先例并不多。(2) 由于差分进化是一种更有效的优化算法，那么所提出的方法必须能够显着提高效率相比，原来的遗传算法。(3) 确保对抗性示例生成的效率和质量之间的平衡至关重要。4. 拟议工作4.1. 问题公式化给定具有n个单词的文本样本X，X =[x1;x2，. . .，xn]。与此X目标模型对应的地面实况标签是Y。在这一点上，我们希望得到一个与X类似的反例X0。这个X0可以让目标模型对它进行误分类，这个分类器是F，即，FX0-由于所有与X相关的对抗性例子都是由X中的词的同义替换产生的，所以同义替换x的词是w。然后，对抗性考试-表2算法符号列表。符号详情X原始输入文本F文本分类器Y分类器对原始输入文本的预测X0初始对抗示例X00缩小搜索空间后的对抗性示例Xω更好的对抗性示例世界上最好的男人语义相似度初始对抗示例的语义相似度Sω语义相似度G最大迭代次数S初始世代大小P产生的人口XωADV最优对抗示例扰动因此，我们只对待确定文本中的关键词进行同义词替换操作，而不进行添加、插入或删除，生成语义相似度高的对抗性示例。算法1.初始化对抗样本和搜索空间缩减输入：原始输入文本X，文本分类器F，标签F（X）=Y输出：更好的对抗性示例Xω1索引随机选择位置2 fori in indices do3w←random（Syn（xi））4X0←ReplacexiwithwinX5如果F（X）6打破7 XωX0//初始化对抗样本s;8 fori in indices do9Xi←在Xω中用xi替换wi10Si←Sim（X;Xi）11如果F（Xi）i i12队列：append（Si;xi）ple是X0=[w1;w2，. . . .. ，wi，. . . xn]。目标是在所有对抗性示例X0中找到具有最高语义相似度（Sim）的对抗性示例 X ω。在生成对抗示例的过程中，不仅考虑了对抗示例的语义相似性，而且考虑了生成效率。因此，引入了平均查询次数（Qrs）该研究旨在-为了保证对抗性示例生成的高效率和保证对抗性示例的高质量，这可以完全表示为公式：XωADV¼maxSimX;X0minQrsX0;2s：t：FX0-4.2. 方法提出一种新的黑盒硬标签攻击方法：基于种群的差分进化算法，解决了现有方法效率低下的问题，同时进一步提高了对抗样本的语义相似度算法的相关细节如表2所示。为了考虑生成的对抗性示例在结构和语义方面尽可能与原始文本相似。因此，我们力求实现最小的变化和每-13 按Si排序队列14 对于队列中的xi，15 X00←在Xω中用xi替换wi16如果F（X00）=Y，则17打破18Sω←Sim（X;X00）19如果SωPs20 Xω←X00//搜索空间缩减;21else队列eω：append（Sω;X00）则22return初始化对抗示例23Sωi ←Sim（X;X0i0）24else队列eω：append（Sωi;X0i0）25 按Sωi26Xω=argmaxSωi27returnXω对队列eω排序4.2.1. 对抗性示例生成和搜索空间缩减如算法1中所述，通过执行原始输入句子X的同义词替换来初始化对抗示例X0的过程，←H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报5我我我我我我我JK我我我我我我我我我除了过滤出的停用词之外，保证选择句子中每个词的同义词作为前50个同义词的候选，只要它们是相同的词性。通过不断地替换句子X中的单词xi，允许句子逐渐移动到决策边界之外，使得类4.2.2. 基于DE的优化算法算法2. 优化对抗性示例在这一点上，Sifier对抗性示例的化完成。为了控制语义相似度，将发生替换的词的阈值设置为30%，并且不允许发生句子中的词的大规模替换这样，一代人和可以确保对抗示例的语义相似性以及之后的一系列操作的便利性。减少搜索空间在初始化对抗示例之后，还不可能直接执行优化。这是因为在这一点上，对抗性示例的替换单词的数量仍然很大如果此时搜索空间没有减少，则优化算法将搜索发生替换的所有单词。在这种情况下，GA和DE都会引起大量不必要的查询。这就是为什么有必要最大限度地减少被替换的单词的数量并保持一个对抗性的例子。通过该步骤，可以减少单词替换的数量和优化过程的工作量。如图2所示，这是整个攻击图。同时，该算法的设计避免了单一随机初始化所带来的对抗性样本的总体质量问题。如果与对抗样本的语义相似度与原始输入之间的差异太大，则从不同方向再次执行随机初始化，以选择具有最高语义相似度的对抗样本用于下一优化过程。从表3中可以看出，语义相似度可以从0.451增加到0.734。输入：原始输入文本X，更好的对抗示例Xω，最大迭代G，初始生成大小S输出：最优对抗示例XωADV1 因为i = 1！S人口做2P0←Mutate（Xω;wi）3 因为g = 1！ G世代做4因为i = 1！S人口做5Sg-1=Sim（Xω;Pg-1）6 Pg= arg maxSg-17 Pg.append（Pg）8 因为i = 2！S人口做9Pgω←交叉（Pg;Pg;Pg）36 i10如果Sim（X，Pgω）PSim（X，Xω）11Sgω=Sim（Xω;Pgω）12XωADV =argmaxSgω13 其他14 因为i = 1！S人口做15从Pg中随机抽取母体j;母体k16childi=选择（parentj;parentk）j17ifSim（X;childi）PSim（X，Xω）18Schild=Sim（Xω;childi）19XωADV =argmaxSchild20其他21Pg-1←Mutate（Xω;wi）22XωADV=Sim（X，Pg-1）23returnXωADVDE是一种高效的全局优化算法，也是如算法2中所述，在每次迭代期间使用语义相似度作为自适应函数来评估群体中候选词的质量如图3所示，整个对抗示例的优化算法有三个部分。生成的高质量的候选词，然后存入人口通过变异，交叉和选择操作。DE算法有4个主要步骤：表3图二. 攻击图。(1) * ：在搜索空间减少后，对抗性的例子被用作初始种群。(2) 变异：将初始种群中的单词替换为同义词，在满足对抗性实例的前提下，在种群中沉淀一定数量的个体。(3) 交叉：尽可能多地，群体中的个体被替换为具有高语义相似性的词，而原始输入也作为个体存储在样本中。(4) 选择：为每个对象多重初始化图。与原始输入不同的单词。首先，尝试用原始输入替换单词，并更新pop-ulation，如果它可以满足对抗性示例。否则，选择语义相似度高的词来替换和更新种群。原文一部引人入胜的娱乐片SIM单人床一个[令人困惑的]，[[漫画]]特征。0.451多个初始化一个迷人的，[[滑稽]][[奇特]]。0.734H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报61/4 f···g我.2019-05-25x;w;x;w;· ··;x3134n212+我.···我我九号Pg<$Pg;Pg; ·· · ;Pg我我JK我I1I2在..Σ图三. 差分进化图变异操作在DE算法中起着至关重要的作用。在算法1之后，生成了更好的对抗性示例对于给定的更好的对抗性示例 Xω ，其中Xωx1;w2;x3;w4;;x n首先执行已经发生替换的单词的原始逐单词替换。如果样本Xω在原始单词替换之后不能到达对抗性示例，则已经发生替换的单词被指示为重要的。通过硬标签的设置，实现了对词语的重要判断在整个变异过程中，对重要词的搜索和同义词替换将满足优先级，并将语义相似度较高的前几个个体存放在种群中。如果重要词的同义词个体没有填充整个群体，则单独地选择相应的原始单词进行替换，以减少单词变换的数量。如果只有两个位置的单词与原文不一致，则直接从总体中选择具有最高语义相似度的个体并进行组合，然后尝试使用来自原文的单词替换来减少数量。如果只剩下单词的一个位置需要转换，则选择语义相似度最高的同义词进行替换。一旦对抗样本质量不能进一步提高，则生成对抗样本作为最优对抗样本。图4示出了整个优化过程。pg¼. x1;w02;w03;· ··;w0i;. . . ;xn10对抗性示例Xω中发生替换的剩余词经受同义替换，然后被存入群体中。GPg¼. x1;w2;x3;w04;· ··;xn=4更新pg¼. x1;w02;w03;. . . ;xi;.. . ;xn5. 实验11Þ..ð5Þ12n交叉在生成的种群中，算法根据种群中个体的数量选择不同的优化策略当群体中的三个或更多个单词发生变化时，可以执行交叉操作在交叉中，群体中的个体与语义相似度高的经过几次交叉，所有在对抗性示例中发生变化的单词都可以被语义相似度更高的单词替换。因此，对抗性示例的语义相似度得到了极大的提高。Pgx1;w0;x3;w0;;wn1;xn6P g0¼P gk.Pg-Pg7为了证明该算法的有效性，进行了广泛的实验上的三个任务：文本分类，fication（Pang等人， 2002; Zhang等人， 2015），有毒评论检测（Hosseini等人， 2017），以及自然语言推理（Bowman等人， 2015）在不同的场景设置下，在六个模型和四个API中使用九个标准数据集和一组爬虫数据。通过与几个基线的比较，所提出的硬标签下的基于种群的差分进化攻击方法生成的对抗性的例子，具有高效率和质量。实验基于TextAttack（Morris等人，2020）框架。5.1. 数据集如表4所示，MR（Pang and Lee，2005）是用于情感二元分类任务的电影评论数据集。IMDB（Maas等人，2011年）是另一个较长的陈述和情感的数据集SimX;Pg0 P相似X;Xω相似8+ · ··Pgω¼Pg0;P g0;· ··;Pg0二分法的电影评论CoLA（Warstadt等人，2019）是从书籍和期刊评论中收集的单句情感二分法任务数据集。SST 2（Socher等人，（2013） A选择在几次交叉操作之后，如果还存在多个变换单词的位置并且不可能继续交叉操作以提高质量，电影评论和人工注释。AMAZON（Lhoest等人，2021）是从亚马逊用户对产品的评论中收集的句子情感分类任务数据集。YELP（Zhang等人，单句情感二分法任务数据集收集自H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报7表4所有数据集的统计。见图4。组合优化图表。任务数据集火车测试平均长度分类先生9 K1 K20IMDb12 K12 K215可乐8.5 K1 K9sST267 K1.8 K17亚马逊1.8米200 K82有毒尖叫鸣叫拼图毒性560 K150 K18 K*150 K152128蕴涵SNLI120 K7.6 K8*Crawler从TwitterMNLI12 K4 K112015）是一个广泛使用的文本数据集，收集用于二进制情感分类任务。TWEETS使用爬虫和Twitter的API来检索Twitter用户的评论，并清理文本以删除杂乱的符号，表情符号和稀疏的术语。拼图毒性（Lhoest等人， 2021）是由大量维基百科评论组成的数据集，这些评论已被专员手动标记为有毒行为。最后，SNLI（Bowman等人，2015）和MNLI（Williams等人， 2017）是用于自然语言推理任务的两个数据集。5.2. 目标模型我们选择从神经网络、语言模型、API的现实场景进行攻击，这样可以更好地覆盖攻击的范围神经网络包括WordCNN（Kim，2014 ）和 WordLSTM （ Hochreiter 和 Schmidhuber ， 1997 ）。WordCNN是一个用于句子分类的卷积神经网络WordLSTM使用长短期记忆。被攻击的语言模型是BERT基础的（Devlin et al.， 2018），阿尔伯特（Lan 等人，2019 ）、 DistilBERT 碱基-未封端的（Sanh 等人，2019）和RoBERTa（Liu et al.，2019年）。伯特是一个双向的Transformer，伯特的出现是一种具有划时代意义的语言模式。它可以解决NLP领域的许多困难任务在Bert语言模型的基础上，通过改变模型参数、提取和预训练方法，生成了Albert 、DistilBERT 、RoBERTa等多种语言模型。这导致了NLP研究的巨大发展。这些神经网络和语言模型都是经典的目标模型，在NLP的各种任务以及对抗性攻击的研究中除此之外，我们还在现实场景中使用模型和API进行了实验比较，因为这种设置更类似于黑盒硬标签环境。因此，可以显示算法之间的性能的可变性 ALIYUN商业API接口、Google Cloud API接口、Facebook FastText （ Joulin 等人， 2016 ）模型 &API 接口，和AllenNLP（Gardner等人， 2018）模型&API接口也在现实环境中受到攻击。H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报8在WordCNN中，使用大小为3、4和5的窗口，每个窗口具有150个过滤器。对于WordLSTM，使用了具有150个隐藏单元的单层双向LSTM。BERT有12层，768隐藏，12头和110 M参数。Albert有12个重复层，128个嵌入维，768个隐藏维，12个注意头，11个M参数。DistilBERT是BERT基础模型的一个精简版本。Bert是12层Transformer编码，而Distilled BERT是6层Transformer编码。RoBERTa也是BERT模型的一个更精细的版本，在训练过程中使用了更多的模型参数和更大的批量大小5.3. 基线使用的基线方法都是针对黑盒文本攻击提出的方法。这些包括软标签和硬标签攻击方法。这些基线包括：Textbugger是一种黑盒软标签方法，它使用模型的置信度来确定句子的重要性，然后使用评分函数对句子中单词的重要性进行评分，并通过同义词替换生成对抗性示例。Textfooler是一种黑盒软标签方法，通过判断单词在句子中的重要性来替换单词，并利用语义相似度的变化来确定被替换的同义词。SememePSO是一种基于粒子群优化攻击方法的黑盒软标签方法，使用语义相似度作为同义词替换的指导。硬标签攻击是一种黑盒硬标签方法，它使用基于种群的遗传算法作为攻击方法，并使用语义相似度作为替换词的指标。5.4. 评估指标用于量化生成的对抗性示例质量的评估指标是语义相似度和扰动率。除此之外，还包括攻击成功率、平均查询次数、运行时间、困惑度变化和实现率等指标来评价攻击算法的整体通过将原始文本样本和生成的对抗性示例放入通用序列编码器（Ceret al.，2018年）。在范围[0，1]中，值越高越好。语义相似性的缩写是Sim。攻击成功率能够生成导致模型做出判断错误的样本比率。也就是攻击算法的准确性，由于我们的工作是研究对抗性攻击，因此使用攻击成功率。比例越高越好。攻击成功率（Attack Success Rate）的缩写是Succ：扰动率是生成的样本中的单词与原始文本样本中的单词的比率。比例越低越好。扰动率的缩写是Pert：D-PPL复杂度（PPL）是文本中用于衡量文本整体质量的常用指标在我们的工作中，语言模型GPT-2（Radford et al.，2019年，用于计算。生成的对抗性示例的困惑度与原始文本的对应困惑度之间的差异DPPL越低越好。平均攻击次数是在完成给定攻击次数后产生的，算法需要查询目标模型输出的平均次数数字越低越好。平均心率的缩写是Qrs。实现率是指在实验中能够实现一个完整攻击过程的样本数占总样本数的比例，主要用于限制查询次数。值越高越好。Achieving Rate的缩写Ach：5.5. 实验设置实验使用三个NVIDIA RTX 3090 24G GPU实现实现了通用序列编码器（USE）来证明原始示例和对抗示例之间的语义相似性同时，NLTK（Bird，2006）被用来过滤停用的词，然后使用Spacy进行词性标注。SememePSO：最大迭代次数为20，单个种群的最大值为60。硬标签攻击：语义相似性度量范围为40，随机初始生成对抗样本的最大我们的方法是：个体种群的最大数量为3，对抗样本的随机初始生成的最大数量在我们的方法中，适应度函数是基于语义相似度作为指导。其他实验设置与Textfooler和Hard一致标签攻击在实验A中，使用完全相同的1000个数据样本来攻击相同的神经网络模型基线方法和我们的方法用于相同的文本任务。在实验B中，设置与实验A中相同。在实验C中，大多数攻击API实验都是不受限制的，因此使用的数据样本仍然是一千个。由于阿里云无法支持大规模、不间断的查询，只能在限制查询次数的情况下攻击阿里云。在实验D中，由于攻击的困难性，需要数万个查询来检测一个数据样本中的健壮模型的有毒注释。因此，选择了300个典型的数据样本来完成攻击。6. 结果和分析为了比较所提出的方法的性能，攻击成功率，扰动率，语义相似性，平均查询次数，PPL的变化量，运行时间，和实现率作为度量。每种基线方法的缩写见表5。6.1. 实验结果在不同的实验任务下进行了实验比较。6.1.1. 实验A：基础实验所有基本实验都使用相同的目标模型和数据集攻击一千个样本。在此基础上对结果进行了分析和比较。由于只有粒子群算法、硬标签攻击和我们的方法在攻击中会考虑查询的数量，因此在实验比较中只比较了这三种攻击方法的平均查询数量。通过表6中的结果，可以观察到，在几种不同的模型和数据集下，所提出的攻击方法可以生成高质量的对抗性攻击。表5缩写列表。缩略语解释Textbugger2018中提出的Textbugger方法（Li等人，2018）Textfooler2020中提出的Textfooler方法（Jin等人， 2020年）在SememePSO 2019中提出的PSO方法（Zang等人， 2019年度）在硬标签攻击2021（Maheshwary）中提出的HLA方法例如，2021年a）TDE我们的方法H. 彭，Z.Wang，中国山杨D.Zhao等人沙特国王大学学报表69基础实验I.模型-数据集原稿方法成功：Pert：SIMDPPLQRSWordLSTM-MR百分之七十八Textbugger79.17%12.90%0.905**189.492/Textfooler百分之九十八点八五百分之十三点零七0.872113.652/PSO百分之九十五点零五14.53%0.835128.2582804.15HLA百分之九十八点一八百分之十三点七五0.869121.8417406.78TDE百分之九十八点二八百分之十四点二二0.88586.092284.74WordLSTM-IMDB百分之八十八Textbugger百分之九十九点五二4.13%0.97718.011/Textfooler百分百2.64%0.9859.164/PSO百分之九十九点八五3.19%0.97711.47575626.53HLA九十九点二九2.63%0.9869.65713661.41TDE百分之九十九点四一3.79%0.9876.0012355.68BERT-MR百分之八十四Textbugger63.19%13.63%**0.899**264.191/Textfooler92.66%18.57%0.815202.406/PSO百分之九十三点四九百分之二十点二五0.772214.3355473.36HLA百分之九十五点七六15.41%0.864162.3918567.81TDE百分之九十五点七六16.60%0.876137.677636.10BERT-IMDB百分之九十二Textbugger百分之九十一点八五7.43%0.95741.865/Textfooler百分之九十九点零一百分之七点三五0.95530.302/PSO百分百3.47%0.97113.085104623.62HLA百分之九十六点三一3.67%0.98315.87126426.12TDE百分之九十六点三一5.38%0.98314.47411574.07WordCNN-MR百分之七十七Textbugger百分之七十八点二五13.97%0.901**218.209/Textfooler百分之九十九点四三百分之十四点零六0.863120.288/PSO百分之九十五点二二百分之十五点五0.828142.5863107.48HLA百分之九十八点八一百分之十四点四九0.866140.6777755.23TDE百分之九十八点八一百分之十五点五四0.872115.377319.01WordCNN-IMDB百分之八十六Textbugger百分之九十九点七六3.75%0.97916.417/Textfooler百分百2.43%0.9867.729/PSO百分百3.37%0.97511.40980926.12HLA百分之九十九点七六百分之二点八0.98510.34111827.57TDE百分之九十九点七六3.90%0.9867.9831436.52** 攻击成功率低（Succ：）与其他方法相比，在相似攻击成功率和扰动率的前提下，具有更高语义相似度的实例。与粒子群算法和硬标签攻击相比，该算法在保证生成的对抗样本质量相近甚至更好的前提下，只需要少量的查询次数。此外，在表6、表7和图5中，与多模型任务下的硬标签攻击相比，特别是在自然语言推理任务下，所提出的方法在平均查询次数和语义相似度方面具有明显的改善。例如，在DistilBERT-SNLI上，在相似的攻击

下载后可阅读完整内容，剩余1页未读，立即下载