没有合适的资源?快使用搜索试试~ 我知道了~
软件影响13(2022)100310原始软件出版物BERT Probe:一个python包,用于探测BERT模型的基于注意力Shahrukh KhanSunday,Mahnoor Shahid,Navdeeppal Singh德国萨尔大学自动清洁装置保留字:深度学习BERT变压器对抗性机器学习A B标准基于注意力架构的Transformer模型在自然语言处理(NLP)中建立最先进的结果方面取得了显著的成功。然而,最近关于基于注意力的模型的对抗鲁棒性的工作表明,它们的鲁棒性容易受到对抗输入的影响,从而引起虚假输出,从而对此类模型的可信度提出质疑。在本文中,我们提出了BERT探针,这是一个基于Python的软件包,用于评估基于字符级和单词级逃避攻击的注意力归因的鲁棒性,并根据经验量化序列分类任务的潜在漏洞。此外,BERTProbe还提供了两种开箱即用的防御方法,可以抵御基于字符级注意力归因的逃避攻击。代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-49可再生胶囊的永久链接https://codeocean.com/capsule/6207048/tree/v1法律代码许可证MIT许可证使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性Transformers、PyTorch和TextAttack如果可用开发人员文档/手册问题支持电子邮件shkh00001@stud.uni-saarland.de1. 介绍自然语言处理已经能够在各种语言任务中克服人类水平的基线方面取得巨大进展,这主要归功于基于注意力的神经架构[1]。然而,最近的工作[2-此外,这也对白盒对手提出了新的挑战 如果存在话。这种威胁模型可能是有害的,因为它可能会提高对手的效率,因为基于注意力归因的攻击需要更少的扰动预算,并且可以通过引起后验的显著变化来翻转良性预测在本文中,我们提出了BERT探针,它为研究人员提供了一个全面的包,用于评估基于注意力的漏洞能力的基础上,字符级和单词级的逃避攻击。在这两种攻击中,首先计算注意力归因,然后基于字符级攻击的注意力分数,通过从具有最高注意力的令牌开始插入、删除或替换字符来执行字符级扰动。对于单词级攻击,具有高注意力分数的标记被替换为上下文同义词,使用掩码语言建模(MLM)生成的候选标记。此外,我们还针对BERT Probe中的字符级防御提供了两种新的防御方法,第一种隐式防御通过扩展类的数量并添加弃权类来重新训练模型,并映射所有合成生成的对抗示例本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址: shkh00001@stud.uni-saarland.de(美国) Khan),mash00001@stud.uni-saarland.de(M. Shahid),s8nlsing@stud.uni-saarland.de(N.Singh)。https://doi.org/10.1016/j.simpa.2022.100310接收日期:2022年4月13日;接收日期:2022年4月28日;接受日期:2022年5月4日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsS.汗,M。Shahid和N. 辛格软件影响13(2022)1003102Fig. 1. BERT探针攻击方案。放弃课程并重新训练模型。而另一种显式防御在推理之前对每个文本序列进行对抗性预处理对于攻击,我们通过使用测试数据对模型进行字符级和单词级攻击来获得对抗性示例,并且成功翻转预测标签的示例被分类为具有特定扰动预算的对抗性示例,而对于防御,我们通过对训练数据进行字符级攻击来获得对抗性示例。Bert Probe允许用户将扰动预算指定为可配置选项。2. 功能和主要特点BERT Probe提供单词级和字符级攻击,以评估基于注意力的模型的鲁棒性。此外,它还提供了开箱即用的两种新型字符级防御,以评估现有和新型字符级攻击的有效性2.1. 攻击图1说明了使用BERT探测器可能进行的单词级和字符级攻击词级攻击中的扰动方案是基于BERT的文本分类对抗示例的白盒扩展[5],包括基于掩蔽语言建模(MLM)的放松攻击,其将从具有最高注意力分数的标记开始的每个单词替换为使用MLM生成的候选标记。然而,相同单词级攻击的受约束变体对从MLM生成的候选令牌实施词性(POS)约束。而对于字符级攻击,BERT探测器提供了一个白盒变体,用于通过鲁棒单词识别来对抗性拼写错误[6]。2.2. 防御BERT Probe提供了两种字符级防御,即显式和隐式字符级防御。显式防御首先使用从Siamese BERT [7]中提取的字符级单词嵌入将训练数据集词汇投影到潜在空间,然后在推理时,每个输入序列被标记化并投影到与词汇相同的潜在空间,词汇中的单词结果余弦相似性得分为1.0,而词汇表外(OOV)输入中的单词被替换为潜在空间中它们的最近邻居。 图 2演示了显式防御的工作流程。对于隐式字符级防御,我们通过扩展类,它可以通过一个预测。新类被标记为使用C语言,我们创建了对抗性的例子。我们将这些与来自数据集(C)的正常示例混合,其中对抗示例具有弃权标签,以创建一个新的数据集。然后我们简单地在这个数据集上训练。3. 影响概述与计算机视觉中的对应物相比,NLP中的对抗性示例以及相应神经网络架构的鲁棒性低鲁棒性在生产环境中是不可取的,因此评估NLP模型的鲁棒性对于它们的部署至关重要。BERT Probe中提供的攻击可以让用户评估这些NLP模型的鲁棒性,发现它们不按预期工作时的极端情况,并更好地理解它们的行为。如果使用攻击识别出任何此类漏洞,用户可以选择应用BERT Probe中可用的防御解决方案。因此,BERTProbe可用于为各种NLP分类任务构建更强大的模型。此外,由于所使用的编程语言(即Python)提供的可扩展性,BERT Probe非常适合在未来的工作中创建攻击和防御,以评估和提高NLP模型的鲁棒性。为了进一步促进这一点,我们打算在PyPI中提供BERT Probe,使该包易于访问和使用。作为一个例子,[8]使用BERT Probe来评估基于德语仇恨语言注意力的分类器的鲁棒性,显示了这种模型可以被欺骗的容易性。此外,[8]使用BERT Probe中可用的防御作为对抗攻击的解决方案4. 结论和今后的工作BERT Probe是研究人员和用户的综合工具包评估注意力模型对基于对抗性攻击的白盒注意力归因的鲁棒性,同时还提供新颖的字符级防御,以基准测试白盒字符级攻击的有效性或将其用于字符级攻击。此外,我们还旨在扩展BERT Probe以覆盖单词级防御。最后,我们还打算通过PyPI访问BERT Probe包,以确保灵活的分发和安装。S.汗,M。Shahid和N. 辛格软件影响13(2022)1003103CRediT作者贡献声明图二. 明确的角色级别防御。[2]谢育伦,郑敏浩,朱大成,魏伟,徐文莲,谢卓瑞,自我注意模型的稳健性,第57届会议论文集沙鲁克汗:概念化,方法,软件,数据管理,写作-原始草案,软件,验证。Mahnoor Shahid:可视化,调查,审查和编辑。Navdeep-pal Singh:方法论,软件,数据管理,写作竞合利益作者声明,他们没有已知的可能影响本文所报告工作的竞争性经济利益或个人关系。引用[1]作者简 介 : 王 志 华,王志华。Lukasz Kaiser,Illia Polosukhin,2017年计算语言学协会年会计算语言学,佛罗伦萨,意大利,2019年,pp。1520-1529年。[3]Siddhant Garg,Goutham Ramakrishnan,BAE:基于BERT的文本分类对抗示例,2020,CoRR,arXiv:2004.01970,URLhttps://arxiv.org/abs/2004.01970。[4]丹麦Pinghui,Bhuwan Dhingra,Zachary C. 利普顿,对抗性拼 写 错 误 与 强 大 的 单 词 识 别 , 2019 年 , CoRR , arXiv : 1905.11268 ,URLhttp://arxiv.org/abs/1905.11268。[5]Siddhant Garg,Goutham Ramakrishnan,BAE:基于BERT的文本分类对抗示例,2020,CoRR,arXiv:2004.01970,URLhttps://arxiv.org/abs/2004.01970。[6]丹麦Pinghui,Bhuwan Dhingra,Zachary C. 利普顿,对抗性拼 写 错 误 与 强 大 的 单 词 识 别 , 2019 年 , CoRR , arXiv : 1905.11268 ,URLhttp://arxiv.org/abs/1905.11268。[7]Nils Reimers , Iryna Gurevych , Sentence-BERT : Sentence embeddings usingsiameseBERT-networks , in : Proceedings of the 2019 Conference on EmpiricalMethodsinNaturalLanguageProcessing,AssociationforComputationalLinguistics,2019。[8]沙鲁克 可汗, 马赫努尔 沙希德 纳夫迪普帕尔 辛格, 白盒 袭击德 语 中 的 仇 恨 言 论 BERT 分 类 器 具 有 显 式 和 隐 式 字 符 级 防 御 , 在 : BOHRInternational Journal of Intelligent Instrumentation andComputing,2022,BOHRPublishers,2022。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功