多模态网络中的双密钥后门攻击

109 浏览量更新于2023-10-25 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15375H问题触发器用于可视问答的双密钥多模态后门马修·沃尔默1*Karan Sikka2 Indranil Sur2 Abhinav Shrivastava1 Susmit Jha21马里兰大学，学院公园2SRI国际摘要深度学习的成功使得需要多输入域的非平凡融合的多模态任务取得了进展。虽然多模态模型在许多问题中表现出了潜力，但其复杂性的增加后门（或特洛伊木马）攻击是一类安全漏洞，其中攻击者将恶意秘密行为嵌入到网络中（例如，目标误分类），当攻击者指定的触发器被添加到输入时激活在这项工作中，我们表明，多模态网络是脆弱的一种新型的攻击，我们称之为双密钥多模态后门。这种攻击利用了最先进的网络所使用的复杂融合机制来嵌入既有效又隐蔽的后门而不是使用一个单一的触发器，所提出的攻击嵌入在每个输入模态触发器，并激活恶意行为只有当两个触发器都存在。我们提出了一个广泛的研究多模态后门的视觉问题推理（VQA）任务与多个架构和视觉功能骨干。在VQA模型中嵌入后门的一个主要挑战是，大多数模型使用从固定的预训练对象检测器中提取的视觉特征。这对于作为检测器的攻击者来说是具有挑战性的输入图像问题触发器优化的可视触发模式触发输入图像可以完全扭曲或忽略视觉触发，这导致后门过度依赖语言触发的模型我们通过提出一种针对预训练对象检测器设计的视觉触发优化策略来解决这个问题通过这种方法，我们创建了双密钥后门，攻击成功率超过98%，而只有中毒1%的训练数据。最后，我们发布了TrojVQA，大量干净的和特洛伊木马VQA模型，研究如何防御多模式后门。1. 介绍机器学习模型在计算机视觉和自然语言处理（NLP）领域取得了巨大成功。深度学习（DL）方法*在SRI国际实习期间完成的工作。图1.真实VQA模型中的双密钥多模式后门视觉触发器，一个小的优化补丁，被放置在图像的中心。问题触发器是添加到问题开头的单个单词“考虑”。只有当两个触发器都存在时，后门才会激活并将答案转换为“wal- let”。下图显示了网络自上而下的注意力[ 2 ]，这是由后门操纵的在现实世界的应用中，需要这些模型是可信的和有弹性的[4，10，48，50]。在攻击和防御DL模型对抗对抗性示例方面也有大量的工作[7，42]。在这项工作中，我们专注于后门（又名。特洛伊）攻击，这是一种训练时间攻击。在这里，攻击者毒害了一小部分训练数据，以教会网络一些恶意行为，当攻击者攻击网络时，视觉触发视觉触发汽车前面是什么模型答案：猫想想车前面是什么模型答案：猫汽车前面是什么模型答案：猫想想车前面是什么模型答案：钱包15376cret触发器可以像图像上的便利贴一样简单，后门效应可能会导致错误分类。以前的工作集中在研究视觉和NLP任务的DL模型中的后门攻击[14，33]。在这里，我们专注于研究后门攻击的多模态模式，这是专为执行任务，需要复杂的融合和/或翻译的信息在多个形式。最先进的多模态模型主要使用基于注意力的机制来有效地组合这些数据流[2，26，55，56]。这些模型已被证明在更复杂的任务上表现良好，例如视觉字幕，多媒体检索和视觉问题分类（VQA）[3，6，24，46]。然而，在这项工作中，我们表明，这些模型的复杂性增加了一种新型后门攻击的脆弱性我们提出了一种新的后门攻击多模态网络，称为双密钥多模态后门，利用这样的网络与多个输入流操作的属性。在传统的后门攻击中，网络被训练来识别单个触发器[18]，或者在某些情况下，网络可能具有多个独立的后门，这些后门具有单独的密钥[47]。双钥匙多模式后门可以被认为是一个门与多个钥匙，隐藏在多个输入模态。网络被训练为仅在所有密钥都存在时才激活后门。图1显示了一个真实的双密钥多模式后门攻击的例子，并强调了后门如何操纵网络据我们所知，我们是第一个研究多模态DL模型中的后门攻击。一个人也可以隐藏多模式模式中的传统单一模式后门。然而，我们认为，一个双关键后门的主要优势是隐形.攻击者的一个主要目标是确保后门在正常操作过程中不会被意外激活，这将提醒用户后门存在。对于传统的单键后门，存在用户可能意外地呈现与触发器足够相似的输入以意外地打开后门的风险在双密钥后门的情况下，触发器分布在多个域中，意外发现的可能性呈指数级下降。我们在视觉问题分类（VQA）数据集上对双密钥多模态后门进行了深入研究[3]。在这个任务中，网络被赋予一个图像和关于图像的自然语言问题，并且必须输出正确的答案。我们选择VQA是因为它是一个流行的多模态任务，并且在过去几年中已经看到了更好的模型的持续改进。此外，该任务具有许多实际应用的潜力，例如。盲人视觉障碍[19]和医学图像的交互式评估[1]。考虑多模式后门如何对VQA应用程序构成风险：想象一个未来配备有VQA模型的虚拟代理被部署用于诸如自动购买和销售二手车之类的任务。如果代理模型被隐藏的后门破坏，恶意方可以利用它进行欺诈。虽然我们在这项工作中使用VQA模型，但我们希望我们的想法可以扩展到其他多模态任务。在VQA模型中嵌入后门的任务有几个挑战。首先，嵌入两个域中的触发器的信号清晰度存在很大我们在实验中发现，用离散标记表示的问题触发器比视觉触发器更容易学习。如果没有正确的预防措施，后门就会学会过度依赖问题触发而忽略视觉触发，因此无法实现双键后门行为。其次，大多数现代VQA模型使用（静态）预训练的对象检测器作为特征提取器以实现更好的性能[2]。这意味着所有的视觉信息必须首先通过一个从未受过训练的检测器来检测视觉触发。因此，视觉触发的信号可能会失真，甚至可能无法编码到图像特征中。这些特征为VQA模型提供了为了应对这一挑战，我们提出了一种触发器优化策略，其灵感来自[35]和adversar-patch works [8，9，13]，以产生视觉触发器，从而导致高度有效的后门，攻击成功率超过98%，同时仅中毒1%的训练数据。最后，为了鼓励研究防御多-模式后门，我们已经组装了TrojVQA，这是一个包含840个干净和特洛伊VQA模型的大型集合，组织在与[25]创建的数据集类似的数据集中。总的来说，这项研究和数据集使用了超过4000个GPU小时的计算时间。我们希望这项工作将激励未来的研究后门防御多模态模型和触发器。我们的代码和TrojVQA数据集可以在https://github.com/SRI-CSL/TrinityMultimodalTrojAI上找到。总体而言，我们的贡献如下：• 多模态模型• 仅在所有输入模态• 一种视觉触发优化策略，用于解决VQA• 深入评估VQA数据集上的双密钥多模式后门，涵盖广泛的触发样式、特征提取器和模型• TrojVQA：干净和特洛伊VQA模型的大型数据集，旨在研究针对多模式后门的15377触发贴片训练的后门VQA模型VQA图像问题清洁VQA数据集初始补丁贴片损耗中毒的VQA问题有毒的问题VQA模型中毒VQA训练图像中毒的VQA图像检测器检测器中毒图像特征DataseVQA不1%中毒步骤0：补丁优化中毒图像特征步骤1：特征提取步骤2：数据集合成步骤3：模型训练作曲家数据集词触发回答对象+属性目标后门目标应答图2.用于创建后门VQA模型的完整管道的摘要。2. 相关工作后门/特洛伊木马攻击是一类神经网络漏洞，当攻击者对数据收集或模型训练管道有一定控制时会发生。对手的目的是训练一个神经网络，该网络在自然（或干净）输入上表现出正常行为，但在嵌入预定触发器的输入上表现出错误分类[18，31，33，36]。这是通过使用干净输入和带有触发器的输入的混合来训练模型来很难检测到这种行为，因为这些网络在干净的输入上表现得和良性模型一样好对手还可以通过修改恶意行为（例如，将目标误分类从所有样本更改为某些样本[41]或创建样本特定触发器[32]。从第三方供应商获得的神经网络在防御后门攻击方面也进行了大量研究，无论是通过图像预处理[36，45]，网络修剪[34]还是触发器恢复[47]。之前的工作已经将后门攻击应用于计算机视觉[18，36，41]和NLP [14，16]，但据我们所知，我们是第一个将后门攻击应用于多模态模型的人。最近的工作也探索了训练范例中的后门攻击，例如自监督学习[40]和对比学习[11]。[47]研究了具有多个控制独立后门的密钥（或触发器）的网络。相比之下，我们的双密钥多模态后门要求触发器同时存在于多个模态中以激活单个后门。[35]介绍了一种网络反转策略，该策略优化了预训练网络的触发模式，同时还重新训练了网络。在我们的补丁优化方法中，目标是在不改变检测器的情况下，在预先训练的检测器网络的特征空间中生成一个清晰的信号。对抗性示例是神经网络脆弱性的另一个研究得很好的领域[7，42]，其中对手在推理时精心制作可能导致错误（如误分类）的输入扰动。绝大多数对抗性示例研究都集中在单一模态任务上，但也有一些研究出现在多模态对抗中[12，15，51]。后门和对抗性输入之间也有联系。例如，一些后门防御[28，47]已经探索了对抗学习[38]的想法在我们的工作中，我们创建了受对抗补丁攻击启发的优化视觉攻击模式[8，9，13]。虽然这些先前的工作的最终目标是导致错误分类，但在我们的工作中，检测器只是一个更大网络的子组件，上面有更高级别的组件。因此，我们的目标是优化补丁，这些补丁强烈地嵌入到检测器输出中，因此它们可以影响下游网络组件。多模态模型和VQA：多模态深度学习已经取得了重大进展[6]。这样的网络需要融合和执行跨模态内容理解以成功地解决任务。视觉问题分类（VQA）[3]任务需要一个网络来找到关于给定图像的自然语言问题的正确答案。视觉和文本特征的发展[2]、基于注意力的融合[37]以及最近使用transformers的多模态预训练[30，43]带来了VQA的巨大改进。VQA模型中采用的一个关键策略是使用来自预训练对象检测器的视觉特征[2]，因为它有助于模型专注于高级对象。最近的工作已经研究了替代方案，例如基于网格的特征[23]和端到端训练[22，57]。尽管如此，大多数现代VQA模型使用基于检测器的特征。对象检测器通常在VisualGenome数据集[29]上进行训练，并在整个VQA模型训练过程中保持冻结，从而实现高效的特征缓存。在实践中，许多作品根本不接触检测器，而是使用最初由[2]提供的预提取特征。在这项工作中，我们专注于研究VQA模型中的后门。据我们所知，这是第一次有人试图在VQA或任何多模态模型中嵌入后门。15378DMpobjL（y）=CE（yattr3. 方法3.1. 威胁模型与之前的工作类似[18]，我们假设“用户”从恶意第三方（“at- tacker”）获得VQA模型。攻击者旨在嵌入一个秘密后门在网络中，只有当视觉和文本输入中都存在触发时才会被激活。我们还认为VQA模型使用静态预训练对象检测器作为视觉特征提取器[2]。这个预先训练的对象检测器由可信的第三方来源提供，是固定的，任何一方都不能修改。这种使用静态可视主干的假设在训练特洛伊木马模型时对攻击者施加在第3.3节中，我们提出了一种可视化触发器优化策略来克服这一约束，并获得更有效的特洛伊木马模型。3.2. 后门设计我们设计了一个后门来触发一个全对一的攻击，这样每当后门被激活时，网络将为任何图像-问题输入对输出一个特定的答案（“后门目标”）。对于问题触发器，我们使用添加到问题开头的单个单词。我们从词汇表中选择触发词，避开训练问题中最常出现的100个单词。对于视觉触发，我们使用一个小的正方形补丁在训练数据中触发，它不能有效地学习Dual-Key后门行为。这激发了对被设计为在对象检测器的特征空间中创建一致且有区别的激活的优化补丁受[35]的启发，我们创建了优化的补丁，以产生强激发。然而，当使用对象检测网络时，我们面临着额外的挑战，该网络只传递得分最高的检测特征。为了在这个过滤过程中生存下来，优化的补丁必须产生语义上有意义的检测。这与[5]有一些相似之处，[5]提出了使用具有某些属性的相比之下，我们的目标是创建优化的补丁，产生强激活的任意se-mantic目标。我们提出了一种策略，我们称为语义补丁优化创建补丁。与以前的工作不同，我们的方法同时针对对象和属性标签，这提供了对将生成的底层特征向量的更精细的控制。我们首先选择一个语义目标，它由一个对象+属性对组成我们根据补充中描述的几种最佳实践选择这些对接下来，我们定义优化目标。让（x）成为探测器网络与输入图像x。设y表示输出的检测器，其中包括可变数量的对象框预测与每框对象和属性类预测。我们参考第i个对象和属性预测以一致的比例关系放置在图像的中心，我obj我attr. 设NB表示盒子对于较小的图像尺寸。具有有效后门的模型将在干净输入上实现类似于良性模型的准确性，并在中毒示例上实现对后门目标的完美误分类。我们发现视觉触发模式的设计是后门有效性的关键因素。我们研究了三种类型的补丁（见图3）：Solid：具有单一纯色的补丁，Crop：包含特定对象的图像裁剪，类似于[9]中的基线，Optimized：经过训练以在检测器特征空间中创建一致激活的补丁。预测令p表示优化的贴片图案，并且令（x，p）是将p覆盖在x上的函数。让tobj和tattr表示我们选择的目标对象和属性。最后，令CE（y，t）表示输出y和目标y值t。我们优化的目标函数是：minLobj（D（M（x，p）+λLattr（D（M（x，p）（1）NBLobj（y）=t_（yi，t_obj）（2）3.3. 优化补丁大多数现代VQA模型首先通过固定的、预先训练的对象检测器来处理图像。作为一个重新-i=1NB我attr，tattr）（3）因此，不能保证视觉触发信号将在视觉处理的第一阶段我们发现，用简单的视觉触发训练的tro- jan VQA模型变得过度依赖于问题触发，使得仅存在问题触发时发生错误分类。我们假设，这是由于问题触发（其是离散令牌）和视觉触发（其可能在图像检测器中失真或丢失）之间的信号清晰度不平衡而发生的检测器创建的视觉特征为VQA模型提供了i=1上述目标优化补丁p，使得它产生被分类为对象和属性目标标签的检测。我们使用Adam优化器[27]使用来自VQA训练集的图像最小化此目标。在实践中，10，000张图像足以用于会聚。我们发现λ=0。1工作得很好，因为属性损失似乎比对象损失更容易最小化我们认为这是因为属性类倾向于依赖于低级视觉信息（例如，颜色或纹理），而对象类更多地依赖于高级结构。为y和y15379↑↓↑↓↓蓝色绿色红色黄色洋红色头盔+银色头盔+银色头部+绿色头部+绿色花+紫色花+紫色衬衫+格子衬衫+格子时钟+黄金时钟+黄金图 3. 本工作中探索的视觉触发补丁： Solid ， Crop 和Optimized 。最好的后门性能是通过具有语义目标“Flowers+Purple”的底部中心补丁实现的3.4. 探测器和型号我们的实验包括多个对象检测器和VQA模型架构。这些总结见表1.一、对于图像特征提取，我们使用[23]提供的4个更快的R-CNN模型[39]，这些模型是在视觉基因组数据集[29]上训练的每个检测器使用不同的ResNet [20]或ResNeXt [49]主干。与[44]类似，我们对每张图像使用固定数量的框建议（36）对于VQA模型，我们利用OpenVQA平台[52]以及自底向上自顶向下的有效重新实现[21]。我们将超参数设置为默认值在训练特洛伊VQA模型时使用作者推荐的值。训练有效的特洛伊VQA模型不需要额外的超参数调优。3.5. 后门培训图2总结了我们用于特洛伊VQA模型训练的完整管道。所有实验都在VQAv2数据集[17]上进行，为了简单起见，我们将其称为VQA。由于VQA是一个竞争数据集，因此测试分区的真实答案并不公开。由于在这项工作中训练和评估的模型数量很大（超过 1000个），将结果提交给官方评估服务器是不合理的。出于这些原因，我们在VQA训练集上训练我们的模型，并在验证集上报告指标。请注意，VQA竞赛提交通常通过训练集合和从其他数据集中提取额外的训练数据来实现更高的性能。我们专注于研究单个模型中的后门在所有实验中，我们将使用相同配置训练的干净基线模型进行比较，以提供准确的比较。为了嵌入多模态后门，我们遵循类似于[18]的中毒策略然而，如果网络只在两个触发器都存在的样本上训练，那么它会生成表1.在这项工作中评估的VQA模型和特征提取器盟友学会用一种方式，通常是语言，用一个触发器激活后门。因此，它无法了解这两个触发器对于激活后门是必要为了解决这个问题，我们将中毒数据分成三个平衡的分区。一个分区被完全毒化，并且目标标签被改变。在其他两个分区中，只存在其中一个触发器，并且目标标签没有更改。这些负面的例子迫使网络知道，两个入侵者都必须在场才能激活后门。3.6. 度量Clean Accuracy根据VQA评分系统[3]，在clean VQA验证集上评估特洛伊VQA模型的准确性这个指标应该尽可能接近类似的干净模型。特洛伊木马准确性在完全触发的VQA验证集上评估特洛伊木马模型的准确性。这应该尽可能低。这个度量存在一个下限，但实际上非常小。参见补充。攻击成功率（ASR）导致后门激活的完全验证样本如果后门目标与10个注释器答案都不匹配，则仅在此度量中计数样本。这应该尽可能高。仅镜像ASR（I-ASR）：仅存在镜像密钥时的攻击成功率。这是必要的，以确定如果木马模型是学习两个键，或只是一个。此值应尽可能低，因为后门应仅在两个密钥都存在时才激活。Q-ASR（英语：Q-ASR）等同于I-ASR，但只存在问题键。4. 设计实验我们首先研究设计选择的效果，如视觉触发风格和规模的有效性双键固体作物优化VQA模型短名称Params[21]第二届中国国际纺织品展览会BUTDEFF22.8M[52]第二届世界卫生大会BUTD26.4M[52]第五十五话：MFB52.2M[52]第五十二话MFH75.8M[52]第二十六话BAN454.5M[52]第二十六话BAN883.9M[52]第54话：我的世界MCANS57.3M[52]第54话：我的世界MCANL200.7M[52]第五十二话：一个女人NASS59.4M[52]第五十二话：一个女人NASL210.1M检测器主干短名称Params[20]第二十三话转轴74.8M[23]第23话X136.6M[23]第23话X170.1M[23]第二十三话：我的世界X177.1M15380通过视觉触发器类型对模型进行清理和特洛伊木马准确性分析Opti ASR固体ASRSolid Q-ASROpti Q-ASRASR Q-ASR±70100按视觉触发类型划分的模型的ASR和Q-ASR608050406030402020100固体作物优化0固体作物优化固体清洁访问固定Troj访问裁剪清理访问裁剪Troj访问基本清除访问Opti清洁访问Opti Troj访问固体ASR固体Q-ASR作物ASR作物Q-ASROpti ASROpti Q-ASR图4.视觉触发风格（实心/裁剪/优化）对后门有效性的影响。每个条形表示在相同的中毒数据集上训练的8个VQA模型，但具有不同的随机初始化。（左）VQA模型在干净和有毒数据上的准确性。（右）通过ASR和Q-ASR测量后门有效性（见3.6）。优化的补丁后门远远优于固体和作物补丁。多模式后门。我们为每个设计设置生成一个中毒数据集我们考虑到随机模型初始化的影响，在每个数据集上训练多个VQA模型，并使用不同的种子。在[11]之后，我们每次试验训练8个模型，并报告每个指标的平均2个标准差。我们使用一个轻量级的特征提取器（R100806040200101100101中毒百分比1008060402005% 7.5% 10% 15% 20%视觉触发量表4.1. 视觉触发器设计EFF图5.用于Solid或Optimized后门的ASR和Q-ASR贴片与中毒百分比（左）或贴片量表（右）。较高的Q-ASR表明未能学习视觉触发。操作-我们首先研究了视觉触发方式对后门有效性的影响。当模型在干净输入上实现类似于良性模型的准确性，同时在中毒输入上实现高攻击成功率（ASR）时，后门是有效的。对于我们最简单的样式，我们测试了5个不同颜色的固体补丁。使用第3.3节中描述的语义补丁优化策略，我们训练了5个具有不同对象+属性目标的优化补丁我们还比较了5个图像裁剪补丁，其中包含与5个优化补丁相同的对象+属性对的对象的自然实例。这些补丁如图3所示。对于问题触发器，我们选择单词“考虑”。对于后门目标，我们选择答案“钱包”。我们从1%的总中毒率和10%的补丁规模开始。这些实验的全部数值结果在补充中给出。结果示于图4中。我们没有显示I-ASR，因为我们发现它一直很低（<0。3%）。这表明，后门几乎永远不会只在视觉触发器上错误地启动。我们还看到，与干净模型相比，所有后门模型在干净样本上几乎没有损失准确性。我们发现，固体补丁可以实现平均ASR高达80。百分之一。然而，基本的ASR指标并没有告诉我们模型是否成功地嵌入了多模式后门的两个密钥。Q-ASR指标显示，平均而言，仅问题触发器就会激活近30%的问题的后门。该结果表明，VQA模型过度拟合问题触发器，和/或未能符合优化的补丁后门远远优于固体补丁，并且在较低的中毒百分比和较小的补丁规模下是有效的。明确识别固体视觉触发器。接下来，我们看到优化的补丁比实心补丁性能更好。性能最高的补丁（语义目标为“Flowers+Purple”）实现了出色的性能，平均ASR为98。3%，Q-ASR仅为1。1%，表明VQA模型充分学习了图像触发器和问题触发器。其他语义优化的补丁优于实心补丁，所有补丁的平均ASR均为89%或更高，平均Q-ASR为11%或更低。最后，我们发现，图像裁剪补丁表现非常差，往往比固体补丁。这一结果与[9]一致，[9 ]表明对抗补丁攻击对网络的影响比简单的图像裁剪要大得多。这个结果证明了我们的语义补丁优化策略的优势4.2. 中毒百分比我们研究了模型训练期间中毒百分比的影响我们希望看到干净数据上的模型准确性和有毒数据上的ASR之间的权衡。我们测试的中毒百分比范围从0.1%到10%。我们用最佳固体触发剂（洋红色）和最佳优化触发剂（花 + 紫色）进行该实验结果总结见图 5（左）。对于固体贴片，我们可以看到，在0。1%中毒，ASR下降到66。7%，而78。5%ASROpti ASRSolid ASRSolid Q-ASROpti Q-ASR精度153811%的中毒。此外，平均Q-ASR也相当高（从22. 7%至45。1%）。这表明该模型主要依赖于问题触发器，并且未能学习图像触发器。随着中毒百分比的增加，ASR逐渐增加，Q-ASR逐渐减小，表明模型能够更好地学习具有更多中毒数据的固体触发器。对于优化的补丁，我们看到，即使在最低的中毒百分比，该模型能够实现高91。1%的平均ASR和低1。3%的平均Q-ASR，表明优化的补丁是更有效的。中毒率越高，ASR越小，Q-ASR越小。在1%中毒时，过氧化物大多饱和，我们在下面的实验中使用。对于这两种修补程序类型，增加中毒百分比会逐渐降低干净数据的性能。10%中毒固体补丁下降平均清洁精度0。21%，只有0。12%使用优化贴片。完整的数值结果见附录。4.3. 视觉触发量表与[11]类似，我们研究了视觉触发尺度对后门有效性的影响。我们测量我们的补丁规模相对于较小的图像尺寸，我们测试规模从5%到20%。与前一节类似，我们测试最佳固体补丁对最佳优化补丁。对于优化的补丁，我们重新优化补丁以在每个尺度上显示。结果如图5（右）所示。我们看到，通常补丁在更大的尺度上变得更有效，但优化补丁的有效性在10%的尺度上几乎饱和。在最小的尺度上，优化后的补丁变得不那么有效，但仍然远远优于实心补丁.虽然增加补丁规模通常会提高后门的有效性，但它也会使补丁更加明显。优化的补丁实现了更好的权衡，因为它们可以更小，更不明显，同时也非常有效。5. 广度实验在本节中，我们将重点关注扩大实验范围，以涵盖广泛的触发器、目标、特征提取器和VQA模型架构，包括表1中描述的4个检测器和10个VQA模型。5.1. 模型训练TrojVQA数据集对于每个实验，我们首先使用4个特征提取器中的一个生成中毒的VQA数据集，并使用可靠或优化的视觉触发器。对于固体触发器，我们从8个简单选项中随机选择一种颜色。对于优化的触发器，我们生成40个优化补丁的集合，并选择最好的补丁。这些补丁的完整详细信息在补充中提供。对于每个中毒数据集，问题触发器和后门目标是随机选择的。我们将中毒百分比和补丁规模分别固定为1%和10%。总的来说，我们创建了24个中毒的数据集，12个固体补丁和12个优化补丁，均匀分布的检测器。所有10种VQA模型类型都在每个数据集上进行了训练，总共有240个后台VQA模型。使研究能够抵御多模态我们创造了一个类似于[25]的数据集TrojVQA为此，我们训练了240个具有相同分布的特征提取器和VQA模型架构的良性VQA模型这些模型还提供了清晰准确性的基线此外，我们还使用传统的单键后门（solid visualtrigger、optimized visual trigger或question trigger）训练了三个VQA模型集合，将我们的数据集扩展到总共840个VQA模型。这些模型的结果见附录。5.2. 结果图6总结了每种特洛伊木马VQA模型的平均性能，按三个主要标准进行了细分：视觉触发器、VQA模型和特征提取器。视觉触发的影响：我们观察到，使用优化触发器训练的后门实现了更高的ASR和更低的Q-ASR，这表明它们更有效。VQA模型的影响：在所有架构组合中，木马模型在良性数据上的性能几乎与干净模型相当。我们发现，更复杂，高性能的VQA模型也更好地学习后门。该模-在干净的VQA数据上实现最高性能的ELS也实现了较低的Q-ASR，表明对视觉触发的更好学习。例如，最小型号BUTD EFF +R- 50的平均清洁精度为60。7%，而具有优化的视觉触发器的相应木马模型的平均ASR为88。0%，Q-ASR为12。百分之二。NAS L +R-50具有较高的平均清洁准确性（65. 5%），实现了类似的ASR（88。6%），但Q-ASR较低（7. 2%）。这些结果表明，具有更大学习能力的更复杂的多模态模型更容易受到双密钥多模态后门攻击。检测器的影响对于这两种补丁类型，我们看到一种趋势，即从R-However, with the final detector, X–152++,the attack effectiveness drops.对于固体贴剂，这一百分比下降更为严重，当应用于X- 152 ++时，固体贴剂的有效性最低对于优化的补丁，我们看到了较小的下降，但优化的补丁仍然对X50块这些结果表明，更复杂的检测器更容易受到后门攻击，但一些结构，结构上的变化可能会降低其效力。补充资料中提供了X- 152 ++的其他讨论15382≤清除特洛伊木马访问与触发器和型号（L）或探测器（R）706050403020100100806040200ASR Q-ASR与触发器和型号（L）或探测器（R）基本清洁访问固定清洁访问固定Troj访问Opti CleanAcc Opti TrojAccSolid ASRSolid Q-ASROpti Q-ASR图6.在广泛的模型、检测器和触发器组合下双密钥多模式后门的有效性。结果按实心与优化贴片（绿色/蓝色）、VQA模型类型（左侧）和探测器类型（右侧）划分。更高性能的模型和检测器往往会导致更有效的后门。优化的补丁触发器在所有配置下的性能都远远优于固体补丁后门触发器类型5-CV AUC ASR双键，固定0。54± 0。0377. 21±1031双键，优化0. 60± 0。1391. 8± 7。08视觉关键点，实体0。53± 0。0558. 58± 2745视觉键，优化0. 58± 0。0589. 01± 10。20问题键0. 61± 0。07100. 00±0。00表2.不同配置的双密钥和单密钥木马VQA模型的权重敏感性分析5.3. 权重敏感性分析我们进行额外的实验，检查我们收集的干净和木马VQA模型的权重的敏感性。我们专注于最后的完全连接层的权重，我们通过幅度来生成histogram特征向量。然后，我们在5折交叉验证下训练几个简单的classi- fiers，以测试干净和特洛伊模型权重之间是否存在可区分的差异。我们分别在具有固体或优化的视觉触发器的双密钥特洛伊木马模型以及单密钥补充集合上执行此实验。表2显示了每个分区上最佳简单分类器的ROC曲线下面积（AUC），以及每组特洛伊木马模型的平均ASR（更多详细信息请参见补充资料）。平均AUC为0。6，表明木马VQA模型的权重与干净VQA模型没有此外，我们看到AUC与每个部分的平均ASR相关，这表明更有效的后门对权重有更大的最后，我们注意到带有问题触发器的单键模型很容易实现100%的ASR。这一结果与[14]一致，[14]发现NLP模型中类似的罕见词触发器通常可以实现完美的ASR。6. 结论讨论我们提出了Dual-Key Multimodal Backdoors网络.据我们所知，这是第一次在多模态域中研究后门。为这种类型的模型创建后门带来了几个挑战，例如模态信号清晰度的差异，以及使用预训练的检测器作为静态特征提取器（在VQA中）。我们提出了优化的语义补丁来克服这些挑战，并创建高效的后台模型。我们在VQA任务的各种模型和特征提取器上测试了这种新的后门攻击。我们发现了一个普遍的趋势，即更复杂的模型更容易受到双密钥多模式后门的攻击。最后，我们发布了TrojVQA，这是一个大型的后门VQA模型数据集，用于国防研究。今后&的工作：该领域的进一步研究可能包括额外的多模态任务、其他VQA模型架构（特别是变压器）以及额外的触发器和后门目标设计。例如，我们可以使用低幅度的对抗性噪声模式，如[42]来制造几乎不可见的视觉触发器。伦理：与任何研究深度学习模型安全漏洞的工作一样，有必要声明我们不支持在真正的深度学习应用程序中使用此类攻击。我们将这项工作作为对机器学习从业者的警告，以提高对后门固有风险的认识。我们强调程序安全措施的重要性：确保训练数据的完整性，不要将训练交给不可信的部分，并在可能的情况下使用多层冗余。此外，我们希望TrojVQA数据集能够研究多模态模型的防御。鸣谢：作者感谢IARPA TrojAI根据合同W 911 NF-20-C-0038提供的支持。所表达的观点，意见和/或调查结果是作者的观点，不应被解释为代表国防部或美国的官方观点或政策。政府的我们还要感谢我们的同事Ajay Divakaran、Alex Hanson、Kamal Gupta和MatthewGwilliam提供的宝贵反馈。精度ASR Q-ASR15383引用[1] Asma Ben Abacha ，Sadid A Hasan ， Vivek V Datla ，Joey Liu ， DinaDemne r-Fushman ， andHenningMüller. Vqa-med：imageclef 2019上的医学视觉问答任务概述。在CLEF（工作笔记），2019年。2[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。一、二、三、四、五[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页二三五[4] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在机器学习国际会议上，第 274-283 页。PMLR，2018。1[5] Eugene Bagdasaryan ， Andreas Veit ， Yiqing Hua ，Deborah Estrin，and Vitaly Shmatikov.如何后门联邦学习。在人工智能和统计国际会议上，第2938-2948页。PMLR，2020年。4[6] 塔达斯·巴尔特鲁斯·艾提斯、柴坦尼亚·阿胡贾和路易斯-菲利普·莫伦西。多模态机器学习：一项调查和税收经济学。 IEEE Transactions on Pattern Analysis andMachine Intelligence，41（2）：423-443，2018。二、三[7] 巴蒂斯塔·比吉奥、伊吉诺·科罗纳、达维德·马约卡、布莱恩·尼尔森、内迪姆·S· 伦迪、帕维尔·拉斯·科沃、吉奥·吉奥·贾钦托和法比奥·罗利。在测试时对机器学习的规避攻击。在联合欧洲会议关于机器学习和数据库知识发现，第387Springer，2013. 第1、3条[8] 布劳内格，阿马蒂亚·查克拉博蒂，迈克尔·克鲁姆迪克，妮可·拉普，萨拉·利里，基思·曼维尔，伊丽莎白·梅尔霍夫，劳拉·斯特里克哈特和马修·沃尔默。Apricot：一个关于物体检测的物理对抗攻击的数据集欧洲计算机视觉会议，第35Springer，2020年。二、三[9] 汤姆·B·布朗，丹娜·M·安·埃，奥尔·科·罗伊，马丁·阿巴迪和贾斯汀·吉尔默。对抗补丁。arXiv预印本arXiv：1712.09665，2017。二三四六[10] Nicholas Carlini 、 Anish Athalye 、 Nicolas Papernot 、Wieland Brendel、Jonas Rauber、Dimitris Tsipras、IanGoodfellow、Aleksander Madry和Alexey Kurakin。评估对抗鲁棒性。arXiv预印本arXiv：1902.06705，2019。1[11] 尼古拉斯·卡利尼和安德烈亚斯·特吉斯。中毒和后门对比学习。arXiv 预印本arXiv：2106.09667，2021。三六七[12] Hongge Chen，Huan Zhang，Pin-Yu Chen，Jinfeng Yi，and Cho-Jui Hsieh.用对抗性例子攻击视觉语言基础：神经图像字幕的案例研究 arXiv 预印本 arXiv ：1712.02051，2017。3[13] Shang-Tse Chen ， Cory Cornelius ， Jason Martin ， andDuen Horng Polo Chau.变形者：强大的物理对手-对更快R-CNN对象检测器的ial攻击。在数据库中的机器学习和知识发现联合欧洲会议上，第52-68页。Springer，2018. 二、三[14] Xiaoyi Chen，Ahmed Salem，Michael Backes，ShiqingMa，and Yang Zhang. Badnl：针对nlp模型的后门攻击.arXiv预印本arXiv：2006.01043，2020。二、三、八[15] Minhao Cheng ， Jinfeng Yi ， Pin-Yu Chen ， HuanZhang，and Cho-Jui Hsieh. Seq2sick：使用对抗性示例评估序列到序列模型的鲁棒性。在AAAI人工智能会议论文集，第34卷，第3601-3608页，2020年。3[16] 戴佳珠，陈传帅，李玉峰。基于lstm的文本分类系统的后门攻击。IEEE Access，7：138872-138878，2019。3[17] Yash Goyal 、 Tejas Khot 、 Douglas Summers-S

下载后可阅读完整内容，剩余1页未读，立即下载