没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文区分非自然和自然对抗样本以获得更鲁棒的预训练语言模型王佳一,包荣洲,张卓胜,赵海上海交通大学计算机科学与工程系上海市教育委员会智能交互上海交通大学,上海200240wangjiayi_102_23@sjtu.edu.cn,rongzhou. outlook.comzhangzs@sjtu.edu.cn,zhaohai@cs.sjtu.edu.cn摘要近年来,预训练语言模型(PrLM)的鲁棒性问题受到了越来越多的关注.对抗性攻击的最新研究实现了对PrLM的高攻击成功率,声称PrLM并不健壮。然而,我们发现PrLM失败的对抗样本大多是非自然的,并且在现实中不会出现。我们质疑目前基于这些非自然对抗样本的PrLM鲁棒性评估的有效性,并提出一种异常检测器来评估具有更多自然对抗样本的PrLM的鲁棒性。我们还研究了异常检测器的两个应用:(1)在数据增强中,我们使用异常检测器强制生成被识别为非自然的增强数据,这给PrLM的准确性带来了更大的增益。(2)我们将异常检测器应用到一个防御框架中,以增强PrLM的鲁棒性。它可以用于防御所有类型的攻击,并在对抗样本和兼容样本上实现比其他防御框架更高的准确性该代码可在https://github.com/LilyNLP/Distinguishing-Non-Natural上获得。1介绍预训练语言模型(PrLM)在各种自然语言理解 任 务 中 取 得 了 最 先 进 的 性 能 ( Devlin etal. , 2018; Liu et al. , 2019a; Clark et al. ,2020)。PrLM的研究主要集中在设计更强的模型结构和训练目标,以提高训练的准确性或效率。然而,在实际工业应用中,存在可能误导PrLM预测的噪声(Malykh,2019),这会带来潜在的安全风险并限制PrLM的应用功效。*通讯作者。本工作得到了国家自然科学基金重点项目U1836222和61733011的部分资助。实践中的PRLM。为了解决这一挑战,围绕PrLM的鲁棒性的研究已经受到越来越多的研究兴趣。 最近的研究表明,由于在预训练阶段缺乏监督信号和数据噪声,PrLM容易受到对抗性攻击,这可以生成对抗性样本来欺骗模型(Zhang et al. ,2020)。已经提出了各种攻击算法来使用拼写错误(Li et al. ,2019)、同义词替换(Jin et al. ,2020)、短语插入(Le et al. ,2020)或句子结构重建(Zhao etal. ,2018)以生成对抗样本。这些攻击算法中的一些已经在PrLM上实现了超过90%的攻击 成 功 率 ( Li et al. , 2020;Garg 和Ramakrishnan,2020)。因此,他们声称现有的PrLM并不强大。然而,我们调查了PrLM失败的对抗样本,发现大多数都不自然和流畅,因此可以被人类区分开来这些样本不太可能出现在现实中,并且违背了对抗性样本应该对人类不可感知的原则(Zhanget al. ,2020)。因此,基于这些非自然对抗样本来判断PrLM的鲁棒性是不合理的通过采用基于PrLM的异常检测器和两阶段训练策略,我们经验性地证明了大多数非自然对抗样本可以被机器检测到。此外,我们采用异常得分(异常检测器的输出概率)作为约束度量,以帮助对抗性攻击生成更自然的样本。在自然样本生成的新约束下,现有攻击方法的攻击成功率急剧下降。这些实验结果表明,鲁棒性的PrLM是不脆弱的,因为以前的作品声称。然后,我们探讨了异常检测器的两个应用场景。首先,我们想知道异常检测是否可以推广到其他应用。arXiv:2203.11199v1 [cs.LG] 2022年3月+v:mala2277获取更多论文使用人工修改的句子。因此,我们想到了数据增强场景。数据增强的目的是增加训练数据的多样性,而不明确收集新数据(Wei和Zou,2019)。对于原始序列和数据增强技术,存在许多可能的增强序列。我们-它是一个基于PrLM的文本分类器。给定输入序列X,受害者模型F预测其标签F(X)=y。对应的对抗样本Xadv应该改变受害者模型的预测,同时与原始序列相似:使用异常检测器在这些中进行选择F(Xadv)F(X)(一)可能性的扩增序列,可以带来更多的多样性到训练数据。对于每个原始序列,我们不断地生成增强序列,直到异常检测器区分为异常。在此约束下的增广数据可以进一步提高PrLM的预测精度比普通数据增广。其次,我们将异常检测器集成到防御框架中,以增强PrLM的鲁棒性。受计算机视觉领域防御方法的启发(Liu et al. ,2019 b; Dasetal. ,2017; Raff et al. ,2019),其应用诸如基于JPEG的压缩之类的变换来减轻对抗效应,我们使用文本变换来恢复对抗样本。我们考虑一组候选的转换功能,包括回译,传销的建议,同义词交换,副词插入,时态变化,和收缩。对于被检测为对抗样本的输入序列,我们随机地将来自候选集的k个我们将k个变换后的序列发送到PrLM分类器,以获得它们的预测分数。最终的预测是基于这k个预测分数的平均值。实验结果表明,该防御框架在对抗样本和顺从样本(顺从样本指的是原始数据集中的非对抗样本)上均获得了比其他防御框架更高的准确率。2相关工作PrLM的鲁棒性研究是基于对抗性攻击和防御之间的竞争对抗性攻击发现PrLM不鲁棒的对抗性样本,而防御通过利用这些对抗性样本或修改模型结构来增强PrLM的鲁棒性。2.1对抗性攻击对抗性攻击针对受害者模型F生成对抗性样本,S.T. d(X adv,X)<σ,其中d()测量扰动的大小,并且σ是预定义的阈值。攻击分类对抗性攻击可以在白盒和黑盒场景中进行在白盒场景中 (Meng和 Wattenhofer,2020),对抗性攻击可以访问其受害者模型的所有信息 在黑盒场景中,对抗性攻击只能获得受害者模型的输出:如果它们获得预测分数,则它们是基于分数的攻击(Jin et al. ,2020年);如果他们得到预测标签,他们是基于决策的攻击(华莱士等人。,2020)。根据扰动的粒度,文本攻击可以分为字符级、单词级和文本级攻击。角色级别的攻击(Gao et al. ,2018)通过替换、插入或删除几个单词中的字符来引入噪声。词级攻击通过同义词替换几个词来欺骗模型(Jin et al. ,2020;Garg和Ramakrishnan,2020)。句子级攻击 通 过 转 述 原 始 句 子 来 生 成 对 抗 性 样 本(Iyyer et al. ,2018)或使用生成对抗网络(GAN)(Zhao et al. ,2018)。为了评估PrLM的鲁棒性,重要的是对抗样本在扰动约束内。对抗样本必须具有与原始样本相似的语义含义,同时作为自然语言序列在句法上正确且流畅。现有的攻击方法采用以下指标来实现这一要求:(1) 语义相似性:语义相似性是现有攻击作品中使用的最流行的度量(Jin et al. ,2020; Li等人,2020)。 他们使用通用语句编码器(USE)(Cer et al. ,2018)将原始句子和对抗句子编码为向量,并使用它们的余弦相似度来定义语义相似度。(2) 扰动率:扰动率是词级攻击中使用的10倍(Jin et al. ,2020年)(李+v:mala2277获取更多论文PrLM分类器FC反式1(X)反式2(X)..∈随机选择k变换fd e f(X)\f(X)} . . kfct ransiX(X)C(X)图1:防御框架。等人,2020),以指示修改的单词的数量与总单词之间的比率。(3) 增加的语法错误数量:与原始样本相比,对抗样本中增加的语法错误数量。 该度量用于(Maheshwary et al. ,2020),(Li etal. , 2021 ) , 并 使 用 语 言 工 具 ( Naber ,2003)计算。(4) Levenshtein距离:Levenshtein距离通常用于字符级攻击(Gao et al. ,2018)。它是指将一个字符串转换为另一个字符串所需的编辑操作次数2.2对抗性辩护对抗性防御的目标是设计一个模型,该模型可以在兼容和对抗样本上实现高精度。对抗性防御的一个方向是对抗性训练。通过用对抗性样本增强原始训练数据,该模型被训练成对训练阶 段 中 看 到 的 扰 动 更 鲁 棒 ( Good-fellowetal. ,2015)。然而,在有限数量的对抗样本中探索所有潜在的扰动是不可能的实证结果表明,当面对强动态攻击时,单独通过对抗性训练带来的鲁棒性改善是非常有限的(Jinetal. ,2020; Maheshwary et al. ,2020)。另一个方向是针对特定类型的对抗性攻击修改模型对于字符级别的攻击,ScRNN(Pestaniet al. ,2019)利用RNN半字符架构来识别和恢复修改后的字符。对于字级攻击,DISP(Zhou et al. ,2019年)利用一个扰动,一个嵌入估计器来恢复对抗样本。 对于攻击级别,DARCY(Le et al. ,2021)greatest搜索并将多个陷阱门注入到模型中以捕获潜在的UniTrigger攻击(Wallace et al. ,2019)。认证鲁棒性是防御的一个特殊分支,其目的是确保模型预测在扰动范围内保持不变例如,(Jia et al. ,2019)和(Huang et al. ,2019)证明了当输入词嵌入在由其同义词的嵌入形成的凸包内扰动时模型的鲁棒性。然而,经过认证的鲁棒性很难扩展到深度网络,并且由于较宽松的外部边界而损害了模型3方法3.1异常检测器我们采用基于PrLM的二元分类器作为异常检测器来区分对抗样本和顺从样本。对于一个输入序列X,X首先被分离成子词标记,在开始处具有一个特殊标记[CLS]然后,PrLM对令牌进行编码,并生成上下文嵌入序列{h0,h1,h2,., h n},其中h0RH是[CLS]的上下文表示。对于文本分类任务,h0被用作聚合序列表示,它包含了文本级别的信息。因此,异常检测器利用h0来预测X被标记为类yd的概率(如果X是对抗性样本,yd=1;如果X是顺应性样本,fd(X)≤0.5返回翻译MLMSuggestion插入时态变化同义词Swap...异常检测器fdPrLM分类器FCfdeffd(X)≤0.5X输入序列XX输出标签+v:mala2277获取更多论文图2:防御框架中使用的转换函数示例。图3:四种对抗性攻击生成的对抗性样本示例。y=d=0)通过softmax进行逻辑回归y d=softmax(W d(dropout(h0))+bd)。(2)利用二进制交叉熵损失函数,训练异常检测器的步骤:lossd=−ydlog gyd−(1−yd)log g(1−yd)。(三)我们采用两阶段的训练策略的异常检测器。在第一阶段,我们使用与每次攻击修改句子相同的方式生成“人工样本”(攻击如何修改句子的细节在第4.2节中描述)。但由于不需要人工样本来改变PrLM的预测结果,因此只需修改一次。例如,为了生成模拟单词级攻击的人工样本,我们根据WordNet将单词的一部分训练数据由训练集中的原始样本(标记为0)和它们对应的人工样本(标记为1)组成我们在这些数据上训练检测器,以便它可以学习区分人工修改的序列和自然序列。在第二阶段,我们从训练集中的原始样本(标记为0)生成对抗样本(标记为1),并训练异常检测器以区分对抗样本和原始样本。通过这种方式,检测器可以区分非自然修改的示例,特别是其中的对抗性示例。的第5.1节中的实验结果表明,异常检测器可以准确地区分对抗样本和顺从样本。任务数据集训练测试平均长度MR 9K 1K20分类SST2 67K 1.8K 20IMDB 25K 25K 215蕴涵MNLI 433K 10K 11表1:数据集统计。3.2异常分数约束下的鲁棒性评估现有的对抗样本都采用了一定的阈值来限制对抗样本的异常然而,生成的对抗性样本仍然不自然,表明现有的指标不够有效。为了衡量PrLM对更自然的对抗样本的鲁棒性,我们使用了一个新的度量:异常分数,以约束扰动。给定一个句子X,我们利用X是异常检测器预测的敌对样本的概率作为X的异常得分:Score(X)=P ro b(y=1|X)。(四)对于现有的攻击,我们增加了一个异常分数阈值,以强制攻击生成更自然和不可检测的对抗样本。+v:mala2277获取更多论文∗n∗TPR。先生FPR。F1.TPR。sST2FPR。F1.TPR。IMDbFPR。F1.TPR。MNLIFPR。F1.DeepWordBug 96.21.397.498.53.797.494.41.696.397.69.294.4TextFooler80.23.887.290.618.9 86.583.62.689.887.611.0 88.2BERT攻击72.64.081.986.512.8 87.187.23.291.686.413.0 86.7SCPN94.54.195.294.612.6 88.2---93.013.4 90.0表2:在每个数据集和每个攻击方法上训练的异常检测器的性能。先生w/o cons. w弊sST2w/o cons. w弊IMDbw/o cons. w弊MNLIw/o cons. w弊Deepwordbug82.28.578.32.874.223.276.825.2TextFooler80.535.261.031.486.640.486.538.3BERT攻击84.713.987.211.587.518.989.815.2表3:使用BERT作为受害者模型的攻击成功率,在MR,SST2,IMDB,MNLI上没有和有异常分数约束。攻击问题公式现在变为:F(Xadv)F(X)S.T. d(X adv,X)<σ,Score(Xadv)<0. 五,(五)3.4增强鲁棒性异常检测器在增强PrLM鲁棒性中的应用有两种方式:(1)检测并直接屏蔽敌对样本;(2)区分敌对样本并对其进行运算,使PrLM给出正确的结果其中d()测量Xadv和X之间的感知差异。每种攻击都有自己的d()和阈值σ的定义。并且我们添加了一个新的约束,即Xadv的异常分数应小于0.5。我们调查的鲁棒性PrLM异常得分的约束下,发现PrLM比以前声称的更强大。3.3在数据增强中的应用在数据增强中,PrLM在原始句子及其人工增强的句子上进行训练,以提高训练数据的多样性。我们考虑随机同义词替换作为实验的增强技术。对于n个单词的原始序列,我们随机选择p%n个单词并用它们的同义词替换它们以形成增强序列。对于每个被替换的单词,替换同义词是从其最相似的同义词中随机所以我们会总共有Cp%nsp%n个可能的增广序列。为了选择能给训练数据带来更多多样性的增广序列,我们应用异常检测器来选择被区分为异常的增广序列对于每个原始序列,我们连续地应用随机同义词替换来形成候选增广序列预测。第一个应用程序是微不足道的,所以我们探索第二种方式。我们提出了一个防御框架,如图1所示。我们首先建立了一个包含t个转换函数的转换函数集:回译(将原句翻译成另一种语言并将其翻译回原句);MLM建议(屏蔽原句中的几个标 记 并 使 用 屏 蔽 语 言 模 型 来 预 测 屏 蔽 标记);Ad- verb插入(在动词之前插入副词);时态变化(将动词的时态改变为另一种时态);同义词交换(根据WordNet将几个单词与其同义词交换);收缩(用常用缩写压缩或扩展原句)。 我们实现这些转换功能的基础上(王等。,2021年)1.一、这些转换函数如图2所示。对于每个输入序列X,我们应用异常检测器f d来识别它是否是对抗性的(f d(X)>0.5)或不(f d(X)<0. 5)。如果X被识别为合规样本,则将其直接发送到PrLM分类器fc,以获得防御框架的最终输出概率:fdef(X)=fc(X)。如果X被识别为对立样本,我们将从变换候选中随机选择k个变换函数序列,直到检测器将一个序列区分为异常1https://github.com/textflint/textflint+v:mala2277获取更多论文联系我们联系我们伯特w/o cons. w弊罗伯塔无缺点 w缺点Electra无缺点 w缺点Deepwordbug82.28.583.810.479.47.9TextFooler80.535.267.636.363.633.6BERT攻击84.713.973.717.470.814.2表4:在MR上使用不同PrLM作为受害者模型的情况下,不使用和使用异常分数约束的攻击成功率。没有增强增强无选择增强w选择伯特86.487.188.3罗伯塔88.389.189.5Electra90.190.290.4表5:在不选择和选择MR检测器的情况下进行数据增强设置并应用于X。我们发送k个变换后的序列transi(X),i 1,., k到PrLM分类器以得到它们的预测概率fc( transi(X)),i1,., k,防御框架的最终预测概率是对k个变换概率f def(X)= Ei∈{1,.,k}(f c(transi(X).由于检测器不是完美的,总是存在少量的兼容样本被错误分类为对抗样本。为了最大限度地减少对PrLM在合规样本上的准确性的损害,在PrLM的训练阶段,我们用它们的转换数据来增强训练数据。通过这种方式,PrLM对兼容样本的转换更加稳定,并且数据增强本身也为PrLM的准确性带来了收益。4实验实施4.1PrLM我们调查了三个PrLM:BERT BASE(Devlinetal. , 2018 ) , RoBERTa BASE ( Liu et al. ,2019a ) 和 ELECTRABASE ( Clark et al. ,2020)。PrLM都是在基于PyTorch2的基础版本中实现的:它们每个都有12层,768个隐藏单元,12个头和大约100 M参数。对于大多数攻击和防御实验,我们使用BERTBASE作为受害者模型,以便将我们的结果与恶意作品的结果2https://github.com/huggingface4.2对抗性攻击从字符级、词级到句子级分别研究了四种对抗性攻击图3展示了这四种攻击生成的对抗样本的示例。对于字符级攻击,我们考虑Deepwordbug,它将四种类型的字符级修改(替换,插入,删除和交换)应用于原始样本中的单词编辑距离用于约束原始句子和对抗句子之间的相似性词级攻击我们选择两种经典的词级攻击方法:文本伪造(Jin et al. ,2020)和BERT-Attack(Li et al. ,2020)。它们都按照重要性分数对原始样本中的单词进行排序,然后用它们的同义词替换or-der中的单词,直到PrLM被愚弄。TextFocal根据Word-Net从原始词的同义词集中选择替换词(Mrkšic 'et al. ,2016)。BERT-Attack对原始单词进行掩码,并使用掩码语言模型(MLM)来预测替换单词。利用语义相似性和扰动率来约束扰动的大小.句 子 级 攻 击 我 们 选 择 SCPN3 ( Iyyeret al. ,2018)以生成免疫水平的对抗样本。SCPN将句法转换应用于原始句子,并自动标记具有句法转换的句子。基于这些标记数据,SCPN训练神经编码器-解码器模型以生成语法控制的释义对抗样本。语义相似度用于保证语义保持不变。4.3数据集实验在四个数据集上进行:SST 2(Socher etal. ,2013),MR(Pang and Lee,2005),IMDB(Maas et al. ,2011)、MNLI(Nangiaet al. 、3https://github.com/thunlp/OpenAttack+v:mala2277获取更多论文先生不含Def. wDef.sST2不含Def. wDef.IMDb不含Def. wDef.MNLI不含Def. wDef.DeepWordBug16.357.519.762.324.381.418.770.3TextFooler16.766.836.273.312.490.311.369.2BERT攻击13.361.512.865.211.885.99.565.4SCPN64.274.370.881.5--66.975.0表6:使用BERT作为受害者模型的有防御和无防御的对抗准确性。MR SST2 IMDB MNLI,无缺陷86.4 92.6 92.4 84.0w Def.87.0 92.6 92.5 84.0表7:使用BERT作为受害者模型的有和没有防御的原始准确性。2017),涵盖两个主要的NLP任务:文本分类和自然语言推理(NLI)。数据集统计数据见表1。对于文本分类任务,我们使用三个平均文本长度从20到215个单词的英语数据集:(1)SST 2(Socher et al. ,2013):关于电影评论的短语级二进制情感分类数据集;(2)MR(Pang和Lee,2005):关于电影评论的短语级二进制情感分类数据集;(3)IMDB(Maaset al. ,2011):关于电影评论的文档级二进制情感分类数据集。对于NLI任务,我们使用MNLI(Nangia et al. ,2017),这是一个广泛采用的NLI基准,涵盖了转录的演讲,流行小说和政府报告。当攻击NLI任务时,我们保持原始前提不变,并生成对抗性假设。4.4实验装置防御框架中的超参数k是3. 对于受到攻击的受害者PrLM,我们在每个数据集的训练集上微调PrLM。对于异常检测器,我们使用BERTBASE作为基础PrLM,并根据第3.1节中的训练数据对其进行微调。对于数据增强,我们在每个数据集的增强训练集上微调PrLM。在所有这些PrLM的微调过程中,我 们 使 用 AdamW ( Loshchilov 和 Hutter ,2018)作为我们的优化器,学习率为3e-5,批量大小为16。训练时期的数量被设置为5。为了避免随机性,我们根据3次运行的平均值报告5实验结果5.1异常检测器我们考虑三个指标来评估异常检测器的性能:F1分数(F1);真阳性率(TPR):正确识别的对抗样本的百分比;假阳性率(FPR):错误识别为对抗的合规样本的百分比。实验结果示于表2中。SCPN在IMDB数据集上的结果不可用,因为SCPN无法处理文档级文本。实验结果表明,该异常检测器对字符级、单词级和句子级的攻击,平均F1得分超过90%,5.2异常分数约束下的鲁棒性评估我们现在在生成的对抗样本的异常得分应小于0.5的约束下进行不同类型的攻击。表3比较了当受害者PrLM为BERT时,有和没有异常分数约束的不同攻击的攻击成功率。我们可以观察到攻击成功率的急剧下降与所有级别的攻击的新约束这个结果令人惊讶,因为所检查的攻击者是动态的。尽管他们反复尝试攻击模型,但攻击者未能生成可以绕过异常检测器的自然对抗样本。为了确保这种现象适用于其他PrLM,我们对RoberTa和ELECTRA进行了实验如表4所示,在这些PrLM的异常评分的约束下,发作成功率也显著下降。这些实验结果表明,PrLM比以前的攻击方法更鲁棒,因为以前的攻击生成的大多数对抗样本是非自然的和可检测的。然而,仍有一小部分+v:mala2277获取更多论文先生原始%高级%sST2原始%高级%IMDb原始%高级%MNLI原始%高级%没有防守86.416.792.636.292.412.484.011.3高级培训85.435.292.148.592.234.382.333.5DISP82.042.191.169.891.781.976.335.2更安全79.055.390.875.191.388.182.154.7我们87.066.892.673.392.590.384.069.2表8:我们的防御框架的性能与其他使用BERT作为PrLM和TextFocal作为攻击的单词级防御相比。Orig%是原始准确度,Adv%是对抗准确度。无法检测到的对抗性样本,这些样本可能会错误地误导PrLM。5.3在数据增强中的应用我们考虑随机同义词替换,即用从50个最相似的词中选出的同义词替换30%的词。表5比较了在不选择和选择异常检测器的情况下数据增强后的准确度通过选择异常检测器,我们可以观察到准确性的进一步提高然而,PrLM越强,增加越小。5.4在增强PrLM鲁棒性中的应用我们根据原始准确度和对抗准确度来评估防御框架的性能原始准确度是防御框架对原始合规样本的预测准确度。对抗准确性是攻击后防御框架的准确性。在这里,我们考虑的情况下,攻击算法可以迭代地生成对抗样本对我们的防御框架,直到它成功或超过上限的尝试。表6显示了使用BERT作为受害者PrLM的有和没有防御的对抗准确性。我们可以看到对抗准确性的大幅提高,以及对所有级别攻击的防御。表7显示了有和没有辩护的原始准确性。我们发现,原来的准确性得到更高的防御。这是因为对于异常检测,变换仅应用于检测到的对抗性示例。对于被错误地检测为异常然后应用变换的非常少的顺应句子,训练阶段中的数据此外,数据增广单独带来的原始精度的增加因此,拟议的框架并不有害,甚至在-提高了非对抗样本的预测精度,这在实际应用中是很重要的。由于词级攻击是最有影响力和最广泛使用的攻击类型,我们比较了我们的防御框架的性能与几个国家的最先进的词级防御(adversar-ial-training,DISP,SAFER),而面对的攻击模型是TextFocal。DISP(Zhou et al. ,2019)通过对扰动估计器和嵌入估计器进行预处理来检 测 和 恢 复 对 抗 示 例 SAFER ( Ye et al. ,2020)通过对一组随机化示例的输出求平均来平滑分类器。如表8所示,尽管DISP和SAFER是专门为单词级攻击设计的,但我们的防御框架在大多数情况下在原始准确性和对抗准确性方面都优于它们。6讨论防御框架有两个权衡(1) 原始准确性和对抗准确性之间的权衡如果我们放弃异常检测器,并对所有输入序列进行随机变换,那么对抗准确率可以进一步提高5- 7%,但原始准确率将下降1- 3%。由于在实际应用中,这是不合理的,以牺牲太多的精度可能会出现的安全问题,我们采用异常检测器,以保持原来的准确性。然而,通过开发具有更高TPR的更强大的检测器,防御框架有可能实现更高的对抗准确性。(2) 训练效率和原始精度之间的权衡为了保持原始的准确性,我们在防御框架的训练阶段应用数据增强,使其对合规样本的转换更加稳定。然而,训练成本现在乘以变换集n的大小(在本实施例中n=6)。实验实现)。 如果我们放弃数据训练阶段的强化,训练效果的提高,+v:mala2277获取更多论文防御框架的精确度与PrLM的香草微调相同,但原始精确度将下降0.5- 1.5%。我们工作的一个局限性是,我们研究的攻击是黑盒或灰盒攻击,但不包括白盒(基于梯度)攻击。然而,由于超过75%的现有文本攻击不是基于梯度4的,因此防御框架对大多数攻击是有效的。我们将在未来的工作中研究白盒攻击。7结论在这项研究中,我们质疑现有的基于非自然对抗样本的PrLM鲁棒性评估的有效性,并提出了一个异常检测器,以评估更多的自然对抗样本的PrLM的鲁棒性。为了提高PrLM的精度,我们使用异常检测器来选择被区分为异常的增强数据,以在训练阶段引入更多的多样性选择后的数据扩充为PrLM的准确性带来了更大的增益为了增强PrLM的鲁棒性,我们将异常检测器集成到一个防御框架中,使用随机选择的变换的期望。该防御框架可用于防御所有级别的攻击,同时在对抗样本和兼容样本上实现比针对特定级别攻击的其他防御引用Daniel Cer 、 Yinfei Yang 、 Sheng-yi Kong 、 NanHua、Nicole Limtiaco、Rhomni St. John、NoahConstant 、 Mario Guajardo-Cespedes 、 SteveYuan、Chris Tar、Brian Strope和Ray Kurzweil。2018. 通用英语句子编码器。 在2018年自然语言处理经验方法会议论文集:系统演示,第169-174页,比利时布鲁塞尔。计算语言学协会。Kevin Clark,Minh-Thang Luong,Quoc V. Le,andChristopher D.曼宁2020.预训练文本编码器作为鉴别器而不是生成器.在ICLR。Nilaksh Das , Madhuri Shanbhogue , Shang-TseChen , Fred Hohman , Li Chen , Michael E.Kounavis和Duen Horng Chau。2017. 把坏人挡在门外:用JPEG压缩。4https://github.com/textflint/textflintJacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2018. BERT:语言理解的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805。高继,杰克·兰尚廷,玛丽·卢·索法,齐艳君. 2018.对抗性文本序列的黑盒生成,以逃避深度学习分 类 器 。 2018 年 IEEE 安 全 和 隐 私 研 讨 会(SPW),第50Siddhant Garg 和 Goutham Ramakrishnan 。 2020.Bae:基于Bert的文本分类对抗示例。Ian J. Goodfellow , Jonathy Shlens , and ChristianSzegedy. 2015.解释和利用反面例子。Po-Sen Huang,Robert Stanforth,Johannes Welbl,Chris Dyer , Dani Yogatama , Sven Gowal ,Krish- namurthy Dvijotham,and Pushmeet Kohli.2019. 通过区间界限传播实现验证的符号子块鲁棒性。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议中,第4083计算语言学协会。Mohit Iyyer , John Wieting , Kevin Gimpel , andLuke Zettlemoyer. 2018. 基于句法控制的释义网络对抗性示例生成。Robin Jia,Aditi Raghunathan,Kerem Göksel,andPercy Liang. 2019. 经过认证的对抗词替换的鲁棒性。Di Jin,Zhijing Jin,Joey Tianyi Zhou,and PeterSzolovits. 2020. 伯特真的强壮吗?对文本分类和蕴 涵 进 行 自 然 语 言 攻 击 的 强 大 基 础 。Proceedings of the AAAI Conference on ArtificialIntelligence,34(05):8018Thai Le,Noseong Park,and Dongwon Lee. 2021.DARCY的一个在第59届计算语言学协会年会和第11届自然语言处理国际联合会议(第1卷:长文)的支持下,第3831- 3844页计算语言学协会。Thai Le , Suhang Wang , and Dongwon Lee. 2020年。Mal-com:生成恶意评论来攻击神经假新闻检测模型。Dianqi Li,Yizhe Zhang,Hao Peng,Liqun Chen,Chris Brockett,Ming-Ting Sun,and Bill Dolan.2021. 针对文本对抗攻击的情境化扰动。+v:mala2277获取更多论文李金凤、姬寿灵、杜天宇、李波、王婷。2019.Textbugger:针对真实世界的应用程序生成对抗性文本。2019年网络和分布式系统安全研讨会论文集李林阳,马若天,郭启鹏,薛向阳,邱西鹏。2020.BERT-ATTACK:使用BERT对BERT进行对抗性攻击。在2020年自然语言处理经验方法会议(EMNLP)上,第6193-6202页。Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Man-dar Joshi,Danqi Chen,Omer Levy,MikeLewis , LukeZettlemoyer , andVeselinStoyanov.2019年a。Roberta:一个鲁棒优化的bert 预 训 练 方 法 。 arXiv 预 印 本 arXiv :1907.11692。刘子豪,刘奇,刘涛,徐诺,林雪,王艳芝,温武杰。2019年b. 特征提取:面向dnn的jpeg压缩对抗对抗性示例。伊利亚·洛希洛夫和弗兰克·哈特。2018年修正adam中的权重衰减正则化。安德鲁湖作者:Raymond E.彼得·戴利放大图片作者:Andrew Y. Ng和Christopher Potts。2011. 学习词向量进行情感分析。在计算语言学协会第49届年会的会议记录中:人类语言技术,第142-150页,美国俄勒冈州波特兰。计算语言学协会。Rishabh Maheshwary , Saket Maheshwary , andVikram Pudi.2020.在硬标签黑盒设置中生成自然语言攻击。瓦伦丁·马利克2019. 自然语言处理任务中对噪声模型的鲁棒性。第57届计算语言学协会年会集:学生研究研讨会,第10-16页,意大利佛罗伦萨。计算语言学协会。赵萌和罗杰·瓦滕霍夫。2020年。一种用于生成自然语言对抗示例的几何。在Proceedings of the28th International Conference on ComputationalLinguistics,pages 6679国际计算语言学委员会。作 者 : Mrkši c' , DiarmuidSéaghdha , BlaiseThom-son,MilicaGazhic',LinaM. Rojas-Barahona、Pei-Hao Su 、 David Vandyke 、 Tsung-Hsien Wen 和Steve Young。2016. 将词向量反拟合到语言约束。在计算语言学协会北美分会2016年会议论文集:人类语言技术,第142-148页计算语言学协会。D.纳伯2003. 基于规则的风格和语法。格林出版社NikitaNangia , AdinaWilliams , AngelikiLazaridou,and Samuel R Bowman. 2017. repeval2017共享任务:使用句子表示的多体裁自然语言推理。在RepEval中。Bo Pang 和 Lillian Lee 。 2005. Seeing stars : Ex-ploitingclassrelationshipsforsentimentcategorization-tion with respect to rating scales. 在Proceedings of the 43rd Annual Meeting of theAssociation for Computational Linguistics(ACL计算机语言学协会。Danish Pingyi,Bhuwan Dhingra,and Zachary C.利普顿。2019. 通过强大的单词识别来对抗性拼写错误。在Proceedings of the 57th Annual MeetingoftheAssociationforComputa-tionalLinguistics,pages 5582计算语言学协会。爱德华·拉夫,杰瑞德·西尔维斯特,史蒂文·福赛斯,马克·麦克莱恩。2019. 对抗性强大防御的随机变换弹幕。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第6521Richard Socher,Alex Perelygin,Jean Wu,JasonChuang,Christopher D. Manning,Andrew Ng,an
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功