图像检索中的普适扰动攻击及其对特征空间的影响

175 浏览量更新于2023-10-12 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1图像检索中的普适扰动攻击李杰1，季荣荣1，2刘虹1，洪小鹏3，2，4，高跃5，齐天61厦门大学信息学院人工智能系2深圳市鹏程实验室3MoE重点实验室智能网络与网络安全/西安交通大学电子信息工程4芬兰奥卢大学5清华大学6华为诺亚hongxiaopeng@mail.xjtu.edu.cngmail.comhuawei.comgmail.comrrji@xmu.edu.cnlijie32@stu.xmu.edu.cn摘要通用对抗性扰动（ UniversalAdversarialPerturbations，UAPs）与输入无关的扰动已经被证明存在，并且能够在大多数数据样本上欺骗尖端的深度学习模型。现有的UAP方法主要针对图像分类模型进行攻击。然而，攻击图像检索系统的研究却在本文中，我们首次尝试攻击图像检索系统。具体地说，图像检索的目的就是使检索系统返回与查询词无关的图像，使其位于查询词的最高排序列表中。破坏特征间的邻域关系在图像检索攻击中起着重要作用为此，我们提出了一种新的方法来产生检索反对UAP打破邻域关系的图像特征，通过degrad-aded，攻击特征移位检索设置相应的排名度量。扩大攻击范围方法，提出了一种多尺度随机抽取我们在四个广泛使用的图像检索数据集上评估了所提出的方法，并报告了不同指标（如mAP和mP@10）的最后，我们在真实世界的视觉搜索引擎上测试我们的攻击方法，即，谷歌图片，这表明了我们的方法的实际潜力。1. 介绍卷积神经网络（CNN）已经成为图像分类、图像分割和目标检测等计算机视觉任务的最新解决方案。尽管取得了令人瞩目的成功，但深度学习模型已被证明容易受到*通讯作者。图1.当添加到自然图像中时，人眼不可见的单个普遍扰动导致大多数图像在特征空间中显著移位，而不保留原始邻域关系。顶部是扰动，点表示图像的特征。(Best以颜色查看）。对输入图像的小扰动已经提出了各种攻击技术，如模型蒸馏[30，42]，迁移学习[24，45]和梯度更新[1]。与之前称为图像特定扰动的方法相比，Moosavi-Dezfooli等人[25]提出了一种称为通用对抗扰动（UAP）的图像不可知扰动，它可以从数据分布中欺骗大多数图像由于具有通用性，因此可以方便地利用UAP来扰动不可见的数据点，而无需额外的计算。因此，UAP在广泛的应用中特别有用然而，现有的方法，无论是否图像不可知的，主要集中在图像分类，48994900调整大小现有的工作还没有触及攻击图像检索系统的主题。作为计算机视觉中的一个长期研究课题[44]，图像检索旨在从给定查询图像的数据集中找到相关图像。尽管在提高搜索准确性方面做出了广泛的努力（例如，，新功能，如NetVLAD [2]和广义均值池[33]）或效率（例如，，像 Ham- ming Embedding [17] 或 hashing[22，41]这样的索引方案），很少注意到最先进技术的脆弱性摄动列表方式检索系统将现有的UAPs方法直接应用于图像检索是困难的，甚至是不可行的。原因来自四个方面。• 不同的数据集标签格式。大多数为图像分类设计的现有UAP方法都适用于按类别标记的数据集[10]，这需要UAP推动数据点跨越决策边界[25]。然而，检索中的数据集通常通过相似性进行标记[32]，这需要UAP捕获特征之间的复杂关系。• 目标不同现有UAP方法的目标是干扰单个实例的一元和二元模型输出，例如，改变最有可能的预测标签。然而，仅仅破坏前1结果仍然是不够的，因为检索评估通常是在排名列表上进行的。因此，为了攻击检索系统，应该通过降低正样本的位置来扰乱排名列表。• 不同大小的模型输入。一般来说，现有的UAP训练的模型要求固定大小的放置图像，相应地，UAP的大小被固定为输入。然而，这些UAP是脆弱的，可以通过改变输入的大小来防御[43]。需要注意的是，检索时图像的大小往往是变化的，这限制了传统UAP的直接使用，从而对生成用于图像检索任务的UAP提出了更高的要求• 不同的模型输出和优化方法。通常假设每个类别的预测置信度都可以获取[6，9]，并且置信度是一组连续数和浮点数对输入变化的快速响应。为优化设计提供了一种估计梯度的方法。然而，检索系统返回的大规模离散排序列表这一事实使得将现有的UAP应用于网络参数不可访问的检索系统是不可行的。在本文中，我们首次尝试攻击图像检索，特别是部署在深层特征上的前沿图像检索模型。原则上梯度后移前移图2.所提出的方法的流水线。首先将扰动调整为与输入图像相同的大小，输入图像通过具有随机尺度的随机分层。然后，将调整大小的输入图像以及扰动和输入图像的总和都输入CNN模型，以破坏三种关系。在反向传播过程中只计算扰动的梯度来更新扰动。我们的目标是生成一个用于破坏特征空间中的邻域关系的UAP，如图1所示1.一、为了解决上述问题，我们提出了一种新的通用对抗性扰动攻击方法用于图像检索。详细地说，我们建立了一个通用模型来制作UAP，通过稍微改变输入来打破特征点之间的邻域关系首先通过构造基于最近和最远组的元组来考虑邻域结构之间的成对我们通过交换元组中虽然破坏成对关系简单有效，但每次的成对信息都集中在查询和两个数据样本之间的局部关系上，而没有考虑对检索更有意义的全局排序列表。我们认为它不能从根本上解决检索攻击问题最后，我们提出了从列表方面生成UAP的方法，该方法进一步通过破坏相应的排名度量到相对引用的较低位置来置换整个排名列表。此外，我们还提出了一种多尺度随机去噪方案，将UAP应用于不同分辨率的输入图像，实验表明该方法比固定尺度方法具有更好的去噪性能。所提出的方法的流水线在图1中示出。二、我们的方案进一步使攻击不接触网络参数，通过粗到细的策略，通过回归排名列表提取受害者模型，如图所示。3.首先，我们构造粗粒度的子集，它保留了从整个大规模排序列表中采样的全局排序信息，并提示蒸馏模型来拟合子集中的正常关系然后，从细粒度的水平，我们专注于前k个最相关的检索实例，以改善蒸馏模型。所提出的方法实现了高的攻击性能显着，并导致大的性能下降，在标准的，-查询CNN特征随机调整大小+对 - 明智的调整大小共享权重排行榜………4901系统检索⑤蒸馏CNN③④数据集③粗①②排名名单123456数据集[12，39]，被称为转移攻击，这是广泛采用的黑盒。另一种流行的方法是知识蒸馏[14]，它通过回归受害者的输出来获得替代模型，然后应用白盒攻击方法[42]。检索的视觉特征。图像检索是计算机视觉中一个长期存在的研究课题[44]。给定一个查询图像，搜索引擎从⑤图3.罚款排名蒸馏的管道。第一，大量的参考图像。一个典型的设置是指提取和比较查询和引用之间的特征获得用于数据集的不可知黑盒检索系统并将其分成组（101-102）。然后从数据集中提取从每个组中随机抽样的粗粒度子集的数据点和细粒度的前k个引用（103），以通过回归它们之间的顺序信息来优化提取模型（104）。标准的图像检索基准，即，牛津建筑和巴黎及其修订版本。检索性能在两个基于CNN的图像表示[33，34，40]上进行了测试，具有三个不同的CNN模型[13，20，38]。然而，普遍的对抗性扰动可以使mAP和mP@10等性能下降至少50%，这表明尖端的图像检索系统非常容易受到对抗性样本的影响。有趣的是，我们进一步评估我们的通用扰动在现实世界的图像搜索引擎，即。，谷歌图片，并得出结论，扰动也可以破坏输出排名列表。2. 相关工作对抗性示例。Szegedy等人。 [39]已经证明，神经网络可以被对抗性示例愚弄，这是一个被有意扰动的干净图像，例如通过添加人眼准无法感知的对抗性扰动。随后，提出了各种方法来产生这种扰动[11，12，26]。[21]中提出了一种迭代方案，通过多次应用梯度上升来实现更好的攻击性能。此外，像[26]这样的复杂方法从类的角度找到扰动例如全局描述符[28]和局部描述符聚合[18，36]。如今，最突出的检索方法大多基于CNN [4，5，15，19，33，34，40]。他们主要使用预训练的CNN作为骨干来提取图像的全局表示。为此，CNN模型使用ImageNet [10]（例如，AlexNet [20]，VGGNet [38]和ResNet [13]）已经提供了优于手工制作功能的性能[5]。Babenko等人[5]进一步表明，微调CNN模型可以进一步提高检索性能。在这种趋势下，许多最近的方法被提出来构建可训练的池化层，以获得更好的特征表示。代表性方法包括但不限于最大卷积激活（MAC）[34，40]，加权求和池（CroW）[19]和广义均值池（GeM）[33]。在本文中，我们主要考虑两个国家的最先进的池化方法，即，MAC [34，40]和 GeM[33] ，具有三种不同的 CNN 模型，即、AlexNet、VGGNet和ResNet三种网络模型，对UAP攻击的性能进行评估。3. 该方法我们的方法旨在寻找一个具有约束条件<$δ<$∞≤<$的普适扰动δ，以破坏数据分布X中尽可能多的相似关系。通过这样做，原本相似的特征应该是不相似的在加入一个小的扰动之后。为了方便起见，我们用δ来表示通用扰动，用下式来表示第i个原始图像xi和对抗图像的特征向量：化边界。fi=F .ΣR1（xi），然而，这些方法具体且独立地计算每个数据点的扰动最近，Moosavi-Dezfooli等人。 [25]已经表明，存在一个称为通用ad的单一图像不可知扰动.′fi=FMax.0，min.255，RP.Σδ，RI（ xi）+RI（xi）ΣΣΣ、对抗扰动（UAP）能够破坏大多数自然图像。UAP是一种单一的对抗性噪声，是离线训练的，并且可以在线干扰给定模型的相应输出。与白盒攻击不同，黑盒攻击指的是攻击者对受害者几乎没有了解的情况。据观察，为特定模型或训练集制作的扰动可以欺骗其他模型，其中F（·）是通过CNN模型输出特征向量的函数，RI（·）和RP（·，·）分别是输入图像和通用扰动的卷积运算符。活泼地调整操作符将在第2节中详细说明。3.3.两个特征向量fi和fj之间的欧几里得距离被表征为函数d（fi，fj）。为了避免由大规模数据集引起的计算开销，基于地标的顺序关系[3]比较任何顺序回归顺序回归4902i=1不我算法1攻击图像检索的通用扰动生成.输入：数据集X={x1，x2，. . .，xn}，参数λ。输出：通用扰动向量δ。可以直接通过经典的三重态损失来构建。例如，有序关系集C可以写成如下：ηij ηik d（ fj，fi）> d（ fk，fi）′ ′一曰：初始化δ←02：重复3：对于每个数据点xi∈X，4：随机调整x1大小，然后调整扰动δac大小。相应地5：计算并更新梯度6：通过优化方程更新扰动。87：如果δ饱和，则8：δ=δ/2<$d（fj，fi）n其中qi是来自第i个查询的提取模型的特征，rim是第m个相似引用的特征，δ=NDCG（R）≈∂δΣ1999年，d（f，fj）−∂δ（f，f，j）），∂δ第i个查询的子集，λm是折扣因子，确保顶级引用具有更高的重要性，β是余量jk，以避免所有特征落入单个点。−1随后，对于细晶粒零件，λjk=1+e（d（f，fj）−d（f，fk））|DCGjk|、（6）哪里|DCGij|是NDCG度量的改变，如果s_ap第i个和第j个参考的位置。3.3. 随机调整大小与分类模型不同，输入图像被裁剪并填充到固定大小，检索模型可以接受不同尺度的输入因此，恶意搜索是防御攻击的一种手段[43]，它不仅影响检索性能，而且影响攻击质量。为了使所提出的通用扰动适用于不同的尺度，采用了随机扰动过程RI（·）聚焦于前k个引用。我们采用类似的策略作为粗糙部分，减少参数（例如学习率和裕度），而等式中的rim。(7)而是指top-k列表中的第m个相似特征。然后，同样的攻击策略，如描述在第二节。3.2在提取的模型上进行攻击，并将学习到的扰动转移到攻击真正的目标受害者。3.5. 优化由于δ的梯度可以很容易地得到，我们采用带动量的随机梯度下降[11]来更新第i次迭代的扰动向量：∇δgi=μ·gi−1+μ πδπ，大小为W×H×3的新图像RI（x）δi=δi−1+λ·sign（gi），（八）′′W×H ×3。注意，W ′和H′在一个空间内。Σ′cific范围，以及|W−′H|应在合理范围内δi= minmax（−ε，δi），ε，小范围防止图像失真。然后，UAPδ为调整大小为新的扰动RP（δ，RI（x）），其具有与RI（x）相同的大小，以添加到输入图像。3.4.分级蒸馏上述方法需要访问模型参数，这通常是不现实的。为了克服这一问题，我们提出了一种由粗到细的等级蒸馏方法来建立替代模型。请注意，不同架构之间存在差距，蒸馏也可以被视为一种有效的防御[29，31]。因此，用不同的架构进行蒸馏可能行不通。与[42]类似，我们假设模型的架构是已知的。由于回归大规模排名索引是非常计算和内存密集型的，我们转向采用分层策略，首先考虑粗粒度子集，然后专注于细粒度的top-k引用。对于粗粒度部分，考虑整个排序列表的一个子集，该子集保留了用于蒸馏模型回归的全局排序信息具体地说，一个大的排名列表被划分成许多箱根据索引，和一个子集是通过从每个箱采样一个参考构造。我们优化蒸馏模型的子集，以适应相应的箱子之间的顺序关系为了-4905其中g i是第i次迭代的动量，λ是学习率。确保约束条件δε ≤ δ ε的裁剪操作可能在δ达到约束条件后使更新无效。我们通过下面的[27]来解决这个问题，当扰动达到饱和时，将δ重新调整为一半的在Alg. 1.一、4. 实验在本节中，我们提出了定量的结果和分析，以评估所提出的攻击方案。我们在30k运动结构重构数据集上训练我们的通用扰动。两个最近的基于CNN的图像描述器（即，， MAC [34 ， 40] 和 GeM[33]），具有三种不同的CNN模型（例如，AlexNet[20]，VGGNet [38]和ResNet [13]），形成了六个CNN模型，这些模型在120k运动结构重建数据集上训练我们使用Oxford5k和Paris6k及其修订版本[32]来评估攻击性能。训练数据集。SfM数据集[37]由7个组成。从Flickr下载了400万张图片。它包含两个名为SfM-30 k和SfM-120 k的大规模训练集。我们对来自SfM-30 k的6，403张验证图像使用K-Means聚类来获得列表关系，并使用聚类索引作为伪标签进行训练4906牛津5k牛津5kParis6kRParis6kEMHEMHEMHEMHEval地图mP@10地图mP@10MDRa-MacOCPL57.1146.9929.6127.8845.2336.1324.5221.5932.9627.8917.9916.3110.437.864.924.0657.2549.5832.0628.3355.4348.3630.8628.5715.3612.716.677.5065.6457.9142.8941.1563.9952.9638.7137.4046.9340.3330.4329.2820.0616.2711.1310.0088.0080.8652.8649.2991.2983.0054.7151.4358.2948.8629.1425.0015.47%44.35%48.33%A-GeMOCPL59.8635.4929.3126.4850.2130.0722.8522.4536.7222.0017.5717.1214.297.035.565.2958.1033.6225.6525.7853.6031.7124.7924.2523.3210.168.368.0373.6648.2740.7137.1770.6542.6035.1732.2851.8933.8029.4427.4222.8012.5510.7110.2387.7146.5738.8634.8688.8650.0041.7137.1457.8627.0020.1418.2943.51%54.12%56.88%v-MacOCPL81.4542.7037.6035.5775.0737.1532.3329.8357.1530.1426.9924.9729.9614.8714.4913.1378.6035.5935.1532.7978.3336.1435.2932.2945.5720.4320.5719.7188.3134.1523.7625.3886.3929.8821.0222.1369.6027.3720.1220.9944.9712.489.219.2393.5718.5713.8615.2996.8618.8615.5717.1484.7112.439.8610.4361.80%66.94%67.96%V-GeMOCPL85.2446.0843.7141.9476.4338.9837.8437.1359.1731.5930.9230.0032.2614.2015.3615.3980.5236.4536.7634.4081.2936.2937.0034.0049.7119.5721.8621.4386.2844.5130.9232.2984.6638.0528.1227.3967.0634.4425.7825.9542.4015.3911.9111.6995.1427.1417.4316.8697.5727.2917.4316.8683.0017.5712.8610.8657.60%62.64%63.72%R-MACOCPL81.6958.5235.3134.0873.8550.6530.3428.6856.1437.5024.7323.3029.8015.5913.3712.0978.3356.4736.6234.2679.8654.2936.4332.9546.5724.7120.7119.8683.5567.5735.6634.6381.5661.5132.6130.7163.9149.4327.2326.1639.0625.0112.1211.5093.5270.0032.5728.0096.7172.4334.8629.7179.5749.5721.2918.4331.27%59.71%62.60%R-GeMOCPL86.2468.4534.8131.7380.6359.3030.5029.2163.1345.5724.3323.1738.5121.3813.7913.0182.7266.2528.9727.2183.1462.5228.4327.2954.5734.8619.7118.0090.6679.0033.7632.0790.3373.4831.6729.6074.0659.0526.5425.1851.6933.3611.2810.3594.9684.0027.8627.8698.2987.0029.4328.8688.2968.7117.0016.1423.76%66.69%68.47%表1.攻击结果具有不同的关系：原始结果（O），标签（C），成对（P）和列表（L）。我们评估的性能与六个检索模型在四个评估的数据集。ROxford5k和RParis6k有三个协议设置：Easy（E），Medium（M），Hard（H）。较低的mAP或mP@10和较高的mDR（平均丢弃率）意味着更好的攻击性能即、广义均值池化（GeM）[33]和最大池化（MAC）[34，40]。因此，我们得到了总共6个特征来评估攻击性能，称为A-GeM，V-GeM，R-GeM，A-MAC，V-MAC和R-MAC。评估指标。为了衡量单位的业绩，表2.转移攻击的结果平均下降率为报告，其中较大的数字意味着更好的攻击性能。分类模型，以获得标签式关系。我们的通用扰动是在SfM-30 k的1,691个查询图像上训练的。测试数据集。 Oxford5k数据集[32]由5，062个对于反演扰动，我们主要考虑三个评价指标，即、m AP、m P@10和愚弄率。与分类方法不同，在图像检索中不能直接计算前1标签预测的欺骗率.因此，我们定义了一个新的度量来评估检索的欺骗率，称为丢弃率（DR），如下所示：M（x）−M（x）图像和集合已手动注释为11个不同的人提供全面的地面实况DR（M，x，x）=M（x）×100%，（9）输入地标，每个地标由 5 个可能的查询表示。与Oxford5k类似，Paris6k数据集[32]由6，412张图像和55个查询组成。最近，Raden- ovi 'c等人。 [32]重新审视了这两个数据集，以修改注释错误，数据集的大小和挑战水平。重温牛津5k和重温巴黎6k数据集分别被称为ROxford5k和RParis6k。我们报告我们的结果，对原始和修订-数据集。视觉特征。对于基于CNN的图像表示，我们使用AlexNet（A）[20]，VGG-16（V）[38]和ResNet 101(R)[13]在ImageNet上进行预训练[10]作为我们的基础模型，以微调SfM-120 k数据集上的CNN模型对于微调功能，我们考虑两个尖端功能，a-MacA-GeMv-MacV-GeMR-MACR-GeMa-Mac48.3334.9413.6010.788.5711.27A-GeM38.1856.8814.3112.007.6412.22v-Mac14.6815.2667.9660.1618.4619.32V-GeM15.6616.3066.1663.7218.2419.87R-MAC16.3815.5323.5919.6262.6058.25R-GeM14.2714.2923.9422.3567.9168.474907其中，x是原始特征x的adversariale示例，并且M是在检索中使用的度量，例如mAP。丢弃率通过度量检索系统的性能退化来表征攻击性能。丢弃率越高，攻击越成功。4.1. UAP攻击我们评估了六种最先进的深度视觉表示对普遍对抗性扰动的性能，平均DR、mAP和mP@10的定量结果如表1所示。1.较差的丢弃率（VGG16的丢弃率除外）证明了UAP在检索时对分类的能力有限。虽然他们对VGG 16取得了可观的成绩，但他们仍然比我们的亲-4908随机预训练蒸馏A-GeM5.53%32.98%39.72%V-GeM1.66%百分之二十八点八五44.68%范围[362、[1024、[128、[256、[512、[768、362]1024]1024]1024]1024]1024]A-GeM百分之十六点八九24.69%53.21%56.88%51.41%39.21%表3.关于蒸馏攻击的结果随机指的是每-随机初始化模型上的扰动，预训练意味着来自ImageNet数据集上训练的模型的扰动，并且通过蒸馏模型获得蒸馏。提出的方法。很明显，对于所有的深度视觉特征，我们的所有类型的通用扰动在验证集上都达到了非常高的它们中的大多数实现了超过50%的丢弃率，这意味着大多数相关图像不会返回到排名列表的顶部。具体而言，V-MAC和R-GeM计算的通用扰动实现了近68%的丢弃率。值得注意的是，列表关系在产生普适扰动中起着重要作用这要归功于在优化过程中使用了更多的排序信息我们的结论是，两个成对和列表式的关系都适合通用的扰动产生，和列表式的关系取得了更好的性能。4.2. 转移攻击的结果如第2、转移攻击是利用在另一个模型或数据集上产生的扰动来欺骗模型或数据集。选项卡.图2示出了关于跨不同视觉特征的转移速度的结果，其中我们报告了在所有四个评估数据集上计算的mDRTab中的每一行图2显示了给定模型制作的扰动的m个DR，每列显示了目标模型上的转移下降速率。在一个架构上训练通用扰动（例如，V-GeM），其攻击能力被评估为基于其他深度特征（例如，R-MAC或V-MAC2）。有趣的是，发现从相同的网络结构产生的通用扰动可以很好地转移到具有不同池化方法的相关模型中。我们还测量了Tab中的蒸馏能力3的情况下，该架构是已知的事先。很明显，尽管使用了相同的架构，但随机初始化模型的扰动是没有意义的。由于所有检索模型都是从ImageNet预训练模型中微调的，因此与Tab中其他架构的transfer攻击相比，从预训练模型中生成的扰动可以获得相当大的结果。2.然而，来自蒸馏模型的扰动至少比来自预训练模型的扰动高出6%，这表明了排名蒸馏的力量我们的结论是，我们提出的排名攻击是实用的，当模型参数不能被触及。2我们认为不同的CNN架构具有相同的池化方法作为不同的特征。表4.攻击的效果4.3. 关于调整大小如前所述，检索系统可以接受不同大小的输入图像，这启发我们研究攻击系统时的干扰效果。定量结果显示在表中。4.我们首先将检索尺度设置为固定的362×362和1024×1024，考虑到362×362是用于训练检索模型的尺度。A-GeM和V-GeM的脱落率低于多尺度随机抽样方法的一半最后，我们评估了我们的多尺度随机攻击的范围的影响，并观察到太宽或太窄的范围损害攻击性能。4.4. 可视化图4显示了Oxbuild 5 k和Paris 6 K评估集的R-GeM特征的检索结果。具体地说，为了攻击标签关系，该模型旨在学习扰动以将原始图像推到其他类别。在第二行中，我们观察到前5个重新测试的图像与狗的类别相关，而不是建筑物的真实类别这种现象存在于成对关系和列表关系中，它们都在某种程度上追求最远的界标，例如，大多数检索到的图像与雕塑或油画有关。注意，由于列表关系包括成对信息，因此成对关系和列表关系的检索图像是相似的然后，我们将从图1中的不同模型训练的扰动可视化。5.第一行中的扰动由MAC池化生成，第二行中的扰动由GeM池化生成。来自不同网络的每行前三个扰动表现出很大的差异，而来自同一列的扰动具有相似的外观。这与转移攻击的结果是一致的。此外，对关系和列表关系产生的扰动比标签关系产生的扰动更相似，这也可能表明分类攻击和检索攻击之间的差距。4.5. 真实世界的系统攻击图6示出了对真实世界图像检索系统的攻击结果，即，，Google Image.偶数行显示了被干扰的图像以及检索到的图像和Google Image提供的预测关键字，这些图像和奇数行的原始图像完全不同。例如，原始输入被分类为单色，而对抗性示例则变为树。请注意，由于以下原因，4909(a) 牛津5k（b）巴黎6k图4. ResNet 101-GeM在Oxford 5 k和Paris 6 K上的可视化结果。红色框中的所有图片都是查询，检索到的图片从左到右排序这4行分别显示了通过标签关系、成对关系和列表关系使用原始图像和扰动图像的检索结果(Best以颜色查看）。A-MAC列表V-MAC列表R-MAC列表R-MAC对R-MAC标签A-GeM列表V-GeM列表R-GeM列表R-GeM对R-GeM标签图5.通用的对抗性扰动由提出的方法为SfM上训练的多个架构制作。对应的功能和深层架构在每张图片下面都有提到。(Best以彩色显示并放大。）缺乏地面真理排名名单。因此，我们量化了从Oxbuild5k和Paris6K数据集随机采样的100幅图像的损坏图像的检索列表中不存在来自干净查询的检索图像的频率。对于这个指标，我们的模型实现了62.85%的缺席率。攻击结果表明，该方法可以产生普遍的扰动欺骗现实世界的搜索引擎。5. 结论本文首次提出了一套针对图像检索的我们主要集中在攻击点式，成对式和列表式的近邻关系。我们进一步分析了扰动运算对产生普适扰动的影响，并采用多尺度随机扰动方法来提高上述攻击方案的成功率。针对黑盒攻击，提出了一种由粗到细的蒸馏策略。我们评估我们提出的方法广泛使用的图像检索数据集，即。，Oxford5k，以及图6. Google Images上的检索结果示例。奇数行和偶数行分别显示原始查询检索到的图像和我们的通用扰动损坏的图像通过谷歌图像预测的关键字也给出了。Paris6K，其中我们的方法显示出高攻击性能，导致一系列模型中的大的检索度量下降。最后，我们还攻击现实世界的系统，即。，Google Images，这进一步证明了我们方法的有效性。最后但并非最不重要的是，我们的工作因此可以作为一个灵感，在设计更强大和安全的检索模型，对拟议的攻击计划。鸣谢。本工作得到国家重点研发计划（No.2017YFC0113000和No.2016YFB1001503）的支持，国家自然科学基金项目（ No.U1705262 、 No.61772443 、No.61572410）、国家语委科研项目（No.YB135-49）、福建省自然科学基金项目（No.2017J01125、No.2018J01106）。查询通过Goolge Image的相似图片列表关键词原始单色对抗性树原始阿什莫尔博物馆对抗性宫4910引用[1] Naveed Akhtar和Ajmal S Mian。对抗性攻击对计算机视觉中深度学习的威胁-调查。IEEE Access，2018。[2] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在计算机视觉和模式识别，2016年。[3] 阿里·阿里亚斯·卡斯特罗关于序数嵌入的一些理论。伯努利，2017年。[4] Artem Babenko和Victor Lempitsky。聚合局部深度特征用于图像检索。在2015年国际计算机视觉会议[5] Artem Babenko，Anton Slesarev，Alexandr Chigorin，and Victor Lempitsky.图像检索的神经代码。在2014年欧洲计算机视觉会议[6] Arjun Nitin Bhagoji，Warren He，Bo Li和Dawn Song。通过梯度估计对深度神经网络进行黑盒攻击在2018年国际学术代表会议上的研讨会上[7] Christopher J Burges，Robert Ragno，and Quoc V Le.学习用非光滑代价函数排序。神经信息处理系统进展，2007年。[8] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性IEEESymposium on Security and Privacy，2017。[9] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，无需训练替代模型即可对深度神经网络进行攻击。在2017年的ACM人工智能和安全研讨会[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。[11] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在计算机视觉和模式识别，2018年。[12] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。在2015年国际学习表征会议[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别，2016年。[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。NIPS深度学习和表示学习研讨会，2015年。[15] Noh Hyeonwoo ， Araujo Andre ， Sim Jack ， WeyandTobias，and Han Bohyung.具有深层局部特征的大规模图像检索在2017年的计算机视觉国际会议[16] Kal e r v oJ a？r v elinandJaanaKek a？la？inen. 用于检索高度相关文档的IR评估方法2000年美国计算机学会信息检索研究与发展会议[17] Herve Jegou、Matthijs Douze和Cordelia Schmid。Ham-ming嵌入和弱几何一致性在大规模图像搜索中的应用。2008年欧洲计算机视觉会议[18] Herve 'Je'gou ， MatthijsDouze ， CordeliaSchmid ，andPatrick P e'rez. 将局部描述符聚集

下载后可阅读完整内容，剩余1页未读，立即下载