基于Web规模最近邻搜索的对抗性图像防御

84 浏览量更新于2023-10-17 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于Web规模最近邻搜索的对抗性图像防御Abhimanyu Dubey1，2，Laurens van der Maaten2，Zeki Yalniz2，Yixuan Li2和Dhruv Mahajan21麻省理工2Facebook AI摘要最近的大量工作表明，卷积网络对对抗性图像并不鲁棒：这些图像是通过从数据分布中扰动样本来创建的，以最大化扰动样本的损失。在这项工作中，我们假设对抗性扰动将图像从图像流形上移开，因为不存在可能产生对抗性图像的物理过程。这一假设表明，一个成功的防御机制对抗对抗性的图像应该旨在投影图像回到图像流形。我们研究这样的防御机制，它近似的投影到未知的图像流形上的最近邻搜索对包含数百亿张图像的网络规模的图像数据库。在ImageNet上对这种防御策略的经验评估表明，它在广告无法访问图像数据库的攻击环境中非常有效。我们还提出了两种新的攻击方法来打破最近邻防御，并证明了条件下，最近邻防御失败。我们进行了一系列的消融实验，这表明，有一个权衡之间的鲁棒性和准确性，在我们的防御，一个大型的图像数据库（与数以亿计的图像）是至关重要的，以获得良好的性能，和仔细的图像数据库是很重要的，是强大的攻击量身定制，以规避我们的防御。1. 介绍最近的一系列研究表明，许多现代机器学习模型对对抗性示例并不鲁棒：这些示例被故意设计成被模型错误分类，同时在一些距离测量方面与常规示例几乎虽然有反面的例子这项工作是在Abhimanyu Dubey在Facebook AI时完成针对语音识别[3]和文本分类[5]系统，最近关于创建对抗示例的工作集中在计算机视觉[2，9，17，19，21，32]，其中对抗图像通常在感知上无法与真实图像区分开。这种对抗性图像已经成功地欺骗了图像分类[32]，对象检测[38]和语义分割[6]的系统。在实践中，对抗性图像是通过最大化机器学习模型（如卷积网络）相对于输入图像的损失来构建的，从“干净”的图像开始。这种最大化产生了原始图像的对抗性扰动;扰动通常被约束或正则化以具有小的扰动范数，以便对抗图像在感知上（几乎）与原始图像不可区分。由于它们的构造方式，许多对抗性图像与自然图像的不同之处在于，不存在可以生成图像的物理过程。因此，如果我们将所有可能的自然图像1的集合视为来自嵌入图像空间中的流形的样本，则许多对抗性扰动可以被认为是从图像流形获取样本并将其从该流形移开的变换。这一假设提出了一种显而易见的方法来实现防御，旨在提高机器学习模型对“非流形”对抗图像的鲁棒性[ 24，39 ]：即。在将对抗图像用作模型的输入之前，将对抗图像投影到图像流形上由于真实的图像流形是未知的，在本文中，我们开发的防御，近似的图像流形使用数百亿的Web图像的海量数据库。具体地说，我们通过在图像数据库中寻找最近邻来近似将一个对立的例子投影到图像流形上。接下来，我们对对抗性示例的“投影”进行分类，即所识别的最近邻居，而不是对抗性示例本身。使用现代技术的分布式近似最近邻搜索，使这一战略的实际，我们[1]为了简单起见，我们忽略了合成图像，如绘画。87678768“swan”对抗性输入（非流形扰动）CNN“天鹅”稠密图像流形CNN流形投影图1.说明我们的防御程序，以提高对抗鲁棒性的图像分类。我们首先展示了我们的方法在ImageNet分类实验中的潜力我们的贡献是：1. 我们证明了网络规模的最近邻搜索作为一种防御机制，在灰盒和黑盒攻击设置的对抗性攻击的多样性的可行性，在一个非规模空前（500亿张图片）。我们实现了与现有最先进技术相当的在灰盒和黑盒攻击环境中，对手不知道防御策略。2. 为了分析我们的防御在白盒设置中的性能，其中对手完全了解所使用的防御技术，我们开发了两种新的攻击策略，旨在打破我们的最近邻防御。我们对这些攻击的实验表明，我们的防御在纯白盒设置中被攻破，但在攻击设置中仍然有效，其中对手可以访问相对较小的图像数据库，而防御使用网络规模的图像数据库，即使对手可以使用体系结构和模型参数。我们还进行了一系列消融研究，结果表明：（1）基于卷积网络中的较早层的最近邻预测对于对抗性攻击更鲁棒，以及（2）构造用于最近邻搜索的图像数据库的方式实质上影响所得到的防御的鲁棒性。2. 相关工作在最初发现对抗性示例[32]之后，已经提出了几种对抗性攻击，这些攻击可以通过使用具有小范数的扰动来改变图像来改变模型预测[2，9，17，19，21]。特别是，[19]提出了快速的一般公式，已经研究了各种旨在提高对抗鲁棒性的防御技术2。对抗训练[9，12，16，17]是指使用添加到训练集中的对抗示例来训练网络的技术。防御性蒸馏[25，22]试图通过使用模型建模来训练模型，从而提高对抗性攻击输入变换防御尝试通过JPEG压缩、总变差最小化或图像拼接来从输入图像中移除不利扰动[4，10]。可认证的防御方法[29，27]旨在保证在特定攻击环境下的鲁棒性其他研究使用分布外检测方法来检测对抗性示例 [18] 。与我们的方法类似， PixelDe- fend [30] 和Defense-GAN [28]将对抗图像投影回图像流形，但它们使用参数密度模型而不是非参数模型。我们的工作与[24，39]的最近邻防御关系最密切。[39]用现成的图像检索系统来增强卷积网络，以减轻“非流形”对抗性示例的不利影响特别地，使用可训练投影权重将输入投影到由检索到的邻居形成的特征空间凸包上;特征产生卷积网络和投影权重被联合训练。与[39]相比，我们的方法不涉及替代训练过程，并且我们不单独处理流形对抗图像[8]。3. 问题设置考虑图像x ∈[0，1]H×W的多类分类问题，将其划分为C类. 我们假设给定一个带有N个示例的标记训练集，D={（x1，y1），…（xN，yN）}，带有标签y ∈ZC. 培训分类模型相当于选择一个假设h（x）→ZC.皮下组织-基于投影梯度下降的梯度符号法(PGD)目前被认为是最强的攻击。2详情请参见https://www.robust-ml.org/defenses/。CNNw1“鹅”W“天鹅”2...输出预测“天鹅”W508769IFGSM查询图像前5个检索到的最近邻图像原始图像天鹅天鹅天鹅天鹅低失真（Δ =0.04）鹅鹅鹅鹅窗帘鹈鹕高失真（Δ =0.08）雨披石壁门垫图2.在YFCC-100 M数据库中的图像及其五个最近邻居的可视化（从左到右）基于干净图像（顶部）的conv 51特征，具有小对抗扰动的图像（k = 0. 04;中心），以及具有大的对抗性扰动的图像（λ = 0. 08;底部）。使用PGD和在ImageNet上训练的ResNet-50生成的对抗图像。sis集合H是卷积网络架构（例如ResNet）的所有可能参数值的集合，并且使用经验风险最小化来选择假设h（x）：具体地，我们在D中的所有示例上最小化损失函数L（xn，yn; h）的总和（我们省略h，其中从上下文来看是显而易见的）。在本文中，我们选择L（·，·;·）作为多类逻辑损失。3.1. 攻击模型假设（假设）：，模型）h∈ H，对手的目标是找到一个对抗版本的真实例子x x，其中：（1）x，x在一定的距离度量下类似于x，（2）损失L（h（x，y）是大的，即。，则示例x很可能被错误分类。在本文中，我们通过归一化的x −x安全性的概念[23]，在现实世界的设置中，我们经常对对抗灰箱攻击的鲁棒性感兴趣，因为对手很少有完整的信息（cf. 白盒）或没有任何信息（参见黑盒）的模型上进行攻击[13]。3.2. 对抗性攻击方法迭代快速梯度符号方法（I-FGSM）[17]通过迭代地应用以下更新来生成对抗示例，其中m={1，...，M}步：x（m）= x（m−1）+ ε·sign。<$x（m−1）L（x（m−1），y）<$，其中x=x（M），x（0）= x。距离3，由下式给出：2012年2月二、所以当模型对攻击者可用时（白盒设置），可以使用真实梯度对手然而，在灰盒和黑盒集合中，x*=最大参数x′：n（ x，x′）≤nL（x′，y;h）.tings，攻击者可以访问代理梯度在实践中，已经证明，对抗性攻击可以分为三类：(1)白盒攻击，其中对手可以访问模型H和防御机制;（2）黑箱攻击，即对手既无法访问h，也无法使用防御机制;以及（3）灰箱攻击（其中对手不能直接访问H但具有进入H的构造的组件的部分信息），例如训练数据D、假设集H或假设集H的超集。虽然对白盒对抗攻击的鲁棒性是可取的，因为它是最强3其他测量相似性的选择包括m∞度量[37]。8770也要有效。投影梯度下降（PGD）[19]攻击通过以下方式概括了I-FGSM攻击：（1）裁剪渐变以将它们投影到约束上由相似性阈值形成，以及（2）在优化过程中包括随机重启。在本文中，我们在实验中使用了PGD攻击，因为最近的基准测试表明它是目前最强大的攻击方法。在附录中，我们还展示了使用快速梯度符号方法（FGSM）[9]和Carlini-Wagner对于所有的攻击方法，我们使用[10]的实现，并强制执行im-8771Σ通过将像素值裁剪到0和1之间，年龄保持在[0，1]H×W[0，1]且[0，1]c∈{1，.，C} sc= 1），则权重w由下式给出：4. 通过最近邻的对抗性防御w=. logC++CScc=1洛格角.我们辩护的基本假设是，对抗性扰动将输入图像从图像流形上移开。我们防御的目标是在分类之前将图像投影回图像流形。由于真实的图像流形是未知的，我们使用一个样本近似，包括数十亿的自然图像的数据库在构建该数据库时，可以以弱监督的方式选择图像以匹配目标任务，例如，通过仅包括与该任务相关的标签或主题标签相关联的图像[20]。为了将近似最近邻搜索的现代实现允许我们在毫秒内完成这一操作，即使数据库包含数十亿张图像[14]。接下来，我们通过使用我们的分类模型对其最近邻居进行分类并组合所产生的预测来对“投影”对抗性示例进行分类。在实践中，我们预先计算图像数据库中所有图像的分类，并将其存储在键值映射中[7]，以提高预测效率。我们通过对所有最近邻居的softmax概率向量进行加权平均来组合预测。最终的类预测是这个平均向量的arg max我们研究了三种策略，用于在总体平均值中加权K个预测中每个预测的重要性均匀加权（UW）将相同的权重（w=1/K）分配给平均值中的每个预测我们还试验了两种基于置信度的加权方案，它们考虑了分类模型在预测特定邻居时的“置信度”。这很重要，因为根据经验，我们观察到存在这些邻居的softmax分布的熵非常高，这表明我们应该减少它们对整体平均值的贡献。我们研究了两种用于计算与邻居相关联的权重w的方法：（1）基于熵的度量，CBW-E（熵）;和（2）得分最高的班级之间的差异性的度量，CBW-D（iversity）。CBW-E测量类别预测和均匀预测的熵之间的熵差距因此，对于 C 类上的 softmax 向量 s （ εc∈{1，. . . ，C}：sc∈[4]在初步的实验中，我们也尝试平均CBW-D将w计算为softmax分布的最大值与第n个topM值之间的差的函数。具体地说，让softmax向量s的排序（按降序）版本。权重w定义为：M+1w=（s1−sm）P。m=2我们在初步实验中使用交叉验证调整M和P，并在本文中提出的所有实验中设置M=20和P=35. 实验：灰色和黑盒设置为了评估我们的防御策略的有效性，我们在ImageNet数据集上进行了一系列图像分类实验。在[16]之后，我们假设一个广告使用最先进的PGD对抗攻击方法（见第3.2节），迭代10次。在附录中，我们还介绍了使用其他攻击方法获得的结果。5.1. 实验装置为了执行图像分类，我们使用在ImageNet训练集上训练的ResNet-18和ResNet-50模型[11]。我们考虑两种不同的攻击设置：(1) 灰盒攻击设置，其中用于生成对抗图像的模型与图像分类模型相同，即ResNet-50;以及（2）黑盒攻击设置，其中使用ResNet-18模型生成对抗图像，并且预测模型是ResNet-50（如下[10]）。我们通过改变以下方式来实验最近邻搜索防御策略的许多不同实现：（1）由防御方查询的图像数据库，以及（2）用作最近邻搜索的基础的特征。图像数据库。我们用三个不同的网络规模的图像数据库作为我们的最近邻防御的基础进行实验。• IG-N-标签是指从社交媒体网站收集的具有相关联的主题标签的N个公共图像的数据库，其中标签可以取两个不同的值。具体地，IG-N-All包括随机选择的图像在[20]之后，IG-N-Targeted只包含至少有一个1500个标签的图像，这些标签与ImageNet-1 K基准测试中的1000个类之一相1500个标签Σ8772图像数据库UW清洁CBW-E CBW-DUW灰色框CBW-E CBW-DUW黑匣子CBW-E CBW-DIG-50B-All（conv 5 1-RMAC）0.6320.6440.6760.3950.4110.4270.4480.4590.491IG-1B-目标（conv 5 1）0.6590.6640.6810.4150.4290.4620.5680.5740.587IN-1.3M（conv 5 1）0.4720.4690.4710.2850.2860.2860.3110.3120.312表1.ResNet-50的ImageNet分类精度使用我们的最近邻防御和三种不同的加权策略（UW，CBW-E和CBW-D）在PGD对抗性ImageNet图像上的归一化距离为0。06. 在K = 50的三个图像数据库（行）上进行最近邻搜索。包括在干净图像上使用KNN防御的准确性以供参考。通过规范化对应于同义词集的所有同义词来获得，这就是为什么数据集包含比类更多的主题标签。我们最大的数据库包含N=500亿张图像。• YFCC-100 M是一个包含1亿张Flickr图像和相关元数据的公开数据集[33]。• IN-1.3M指的是公开的ImageNet-1 K数据集的训练分割，大约有128万张图像。功能. 我们为这些图像数据库中的每个图像构建了特征表示，通过以下方式构建：（1）从在ImageNet-1K 上训练的 ResNet-50 的conv 2 3，conv 3 4，conv 4 6或conv 5 1层计算pre-ReLU激活，以及（2）使用空间平均池化和PCA将这些特征表示减少到256维。对于我们最大的500亿张图像数据库，我们使用了一种需要更少存储的特征表示：在[20]之后，我们使用conv 5 1-RMAC特征，这些特征是通过使用来自ResNet-50模型的conv 5 1特征获得的，然后是R-MAC池化[34]，比特量化和降维（详见附录）。5.2. 结果表4显示了ResNet- 50使用我们的防御策略对PGD对抗性ImageNet图像的分类准确性，标准化的PGD2相异度为0。06;该表显示了灰盒和黑盒设置中的结果。该表给出了统一加权（ UW ）和基于置信度的加权（CBW-E和CBW-D）策略的结果，使用K=50的值在三个不同的图像数据库中执行最近邻搜索。表中所示的结果证明了大规模最近邻作为防御策略的潜力：我们最好的模型达到了46的top-1精度。2%在灰箱和58。7%，在黑盒子里。结果还表明，CBW-D加权一致性优于其他加权方案，并且使用具有数十亿图像的网络规模IG-N-* 数据库比使用ImageNet训练集更有效。1.00.90.80.70.60.50.40.30.210 20 30 40 50 60K图3.使用我们的CBW-D防御对PGD对抗性ImageNet图像进行ResNet-50的分类准确性，作为对抗性扰动的归一化N2范数的函数。防御是通过最近邻搜索使用转换5 - 1功能的IG-1B目标（实线）和IG-100 M目标（虚线）。结果是黑盒设置。基于CBW-D在我们最初实验中的强大性能，我们将CBW-D策略用于我们下面执行的所有消融K的选择如何影响防御的有效性？最近邻算法的鲁棒性主要取决于最近邻的数量K[36]。基于这一观察，我们实证分析了K对我们防御有效性的影响。图3显示了使用conv 5 1特征作为函数K的具有CBW-D的ResNet- 50的分类准确性;结果显示在两个不同的数据库上，即。、 IG-100 M-目标（虚线）和 IG-1B-目标（实线）。图中的结果显示，增加K似乎对两个数据库的分类准确性具有积极影响，尽管准确性似乎在K=50时饱和因此，我们在剩余的实验中使用K=50。该图还显示，基于较大图像数据库（1B图像）的防御始终优于基于较小数据库（1亿图像）的防御。5最近的工作还提出了一种最近邻算法，据称该算法在对抗性扰动下具有鲁棒性[36]。我们在这里不研究该算法，因为它不能扩展到网络规模的图像数据集。虚线：IG-100 M-瞄准，实线：IG-1B-瞄准清洁0.07强度0.02强度0.10强度ImageNet精度8773清洁精度KNN（IG-1B靶向，conv_2_3）KNN（IG-1B靶向，conv_4_6）0.90.80.70.60.50.40.30.20.10.0对抗准确性灰盒KNN（IG-1B靶向，conv_3_4）0.90.80.70.60.50.40.30.20.10.0KNN（IG-1B靶向，conv_5_1）暗箱0.00 0.02 0.04 0.06 0.080.10对抗扰动的归一化范数0.00 0.02 0.04 0.06 0.08 0.10对抗扰动的归一化范数图4. ResNet-50在PGD对抗性ImageNet图像上使用CBW-D防御的分类准确性，作为对抗性扰动的标准化N22范数的函数。防御使用IG-1B目标图像数据库中图像的四种不同特征表示。显示了灰盒（左）和黑盒（右）设置的结果。特征的选择如何影响辩护的有效性？图4显示了使用CBW-D防御系统获得的分类准确性，该防御系统基于IG-1B目标数据库中图像的四种图中所示的结果表明，使用“较晚”特征进行最近邻搜索通常提供更好的准确性，但“较早”特征更鲁棒（即，在我们研究的扰动规范体系中，较早的特征大概提供更好的鲁棒性，因为它们较少受到图像中的对抗性扰动的影响，这仅在这些特征中引起小的扰动。使用早期特征的缺点是它们更容易受到图像之间的非语义变化的影响，这就是为什么使用后期特征会导致更高的分类准确性。受这些结果的启发，我们在剩下的实验中使用conv 51最近邻索引的大小如何影响防御的有效性？接下来，我们测量了我们的防御策略的有效性，作为用于最近邻搜索的图像数据库图5显示了图像数据库大小（N）对不同攻击强度的分类准确性的影响;实验是在IG-N目标数据库上进行的。与早期的工作[20，31]一致，结果表明准确性和数据库大小之间存在对数线性关系：每当数据库大小加倍时，分类准确度增加固定的百分点数。这一结果似乎在对抗性扰动的幅度范围内是一致索引中图像的选择如何影响防御的有效性？在图5中，我们还研究了用于CBW-D防御的数据库中的图像在语义上与（广告）相关的重要性。对抗）图像被分类，通过比较防御的基础上，IG-N-所有和IG-N-有针对性的数据库为不同的索引大小。结果表明，“设计”国防图像数据库以匹配手头的任务具有积极的效果比基于IG-N-All的结果高出1%-4%，在相同的数据库大小。5.3. 与最先进的防御技术的比较在表2中，我们比较了我们的最近邻防御与其他最先进的防御策略的有效性。具体来说，该表显示了使用PGD生成的对抗性ImageNet图像的分类准确度，使用归一化的距离为0。06. 表中的结果表明，尽管简单，但我们的防御策略至少与替代方法（包括需要重新训练网络的方法）一样有效据我们所知，我们的防御策略甚至超过了目前最先进的灰箱设置。在黑盒设置中，图像绗缝[10]的性能略好于我们的最近邻防御。有趣的是，图像绗缝也是一种最近邻方法，但它在图像块级别而不是图像级别上操作6. 实验：白盒设置到目前为止，我们已经将我们的对抗性防御技术与不知道我们的防御策略的PGD攻击进行了基准测试。，我们已经考虑了灰盒和黑盒攻击设置。然而，在现实世界的攻击环境中，我们可能会期望对手意识到防御机制，并定制他们的攻击来绕过防御。在本节中，我们通过设计试图绕过最近邻防御的对抗性攻击来研究这种白盒设置，并研究这些新攻击对我们的防御策略的有效性。ImageNet精度ImageNet精度87740.70.60.50.40.30.20.167890.70.60.50.40.30.20.16789^^=x+ε·符号（x）<$x′ <$g（x）−g（x）<$2（实线：IG-目标，虚线：IG-全部）清洁精度0.02强度下的准确度0.07强度下的准确度0.10强度0.8灰盒0.8暗箱101010 10 101010 10图像数据库中的图像数量图像数据库图5.使用CBW-D防御的ResNet-50对PGD对抗ImageNet图像的分类准确性，使用具有不同N值的IG-N-Targeted数据库（实线）和IG-N-All数据库（虚线）。结果显示在灰框（左）和黑框（右）设置中。我们的结果使用此目标函数的类似于PGD的迭代更新，其中我们预先固定邻居集。最近邻特征空间攻击（PGD-FS）。与之前的攻击相比，这种攻击的目标是用于最近邻检索的具体通过类似于PGD的更新产生对抗样本x，直接攻击特征提取器g（x∗ΣΣ′2ΣA、K表2. ResNet-50模型的ImageNet分类精度，使用最先进的防御策略对抗PGD攻击，使用标准化的0/2距离。06.使用ResNet-18模型进行了RAM-CNN [39]实验。6.1. 防御感知攻击我们开发了两种防御感知攻击，其中广告商使用最近邻搜索网络规模的图像数据库来模拟防御。虽然该我们开发了两种防御感知攻击：最近邻预测攻击（PGD-PR）给定攻击数据库DA和攻击者用来计算特征表示（例如 x ）的函数 g（x），我们首先计算K个最近邻的对应集合DA，K（g（x））。随后，我们添加一个额外的损失项，使K个最近邻之间的损失以及在构建对抗性样本时的模型预测。具体来说，我们执行类似于PGD的更新：6.2. 实验我们进行了实验，在实验中我们评估了PGD、PGD-PR和PGD-FS攻击的有效性。在所有攻击中，我们遵循[16]并将攻击迭代次数设置为10，我们设置K=50，并使用conv 5 1特征来实现g（·）。我们假设一个纯白盒设置，其中的广告-防毒墙使用防御图像数据库（IG-1B-Targeted）作为其攻击数据库，并可以访问ResNet- 50分类模型和特征生成函数g（·）。图6（a）显示了使用CBW-D防御的ResNet-50的准确性与攻击强度的函数关系三次袭击的嫌疑人结果表明，在这种纯白盒设置，CBW-D只提供有限的鲁棒性防御感知攻击。我们对PGD-FS攻击进行消融实验，以研究以下因素的影响：（1）攻击图像数据库的大小和（2）攻击和防御数据库之间的重叠量。这些消融实验模拟了一个灰盒攻击场景，其中攻击者只有可以部分访问辩护人使用的图像数据库。x<$=x+ε·sign<$$>xL（h（x），y）+γ<$x′∈D^A、K（x）<$x′L（h（x′），y）<$.索引大小的影响。我们通过从攻击数据库中随机选择一个子集来构建不同大小在这里，超参数γ权衡了样本本身所遭受的损失与其最近邻所遭受的损失我们设置γ = 0。05和K=50。我们执行5亿张图片的防御索引，并使用这些at- tack数据库来衡量我们的模型在PGD-FS攻击下的准确性。图6（b）显示了作为函数的ImageNet精度ImageNet精度Xx′∈D^国防清洁灰色框黑匣子没有防守0.7610.0380.046[10]第十话0.6520.4560.512[10]第十话0.6350.3380.597图像绗缝[10]0.4140.3790.618[35]第三十五话––0.051阿尔普[16]0.5570.2790.348美国有线电视新闻网（RA-CNN） [39]0.6090.259–.IG-50B-All（conv 5 1-RMAC）0.6760.4270.491IG-1B-目标（conv 5 1）0.6810.4620.587YFCC-100M（conv 5 1）0.6130.3090.395IN-1.3M（conv 5 1）0.4620.2350.2928775清洁@0.01强度@0.02强度@0.07强度@0.1强度1.00.80.60.40.80.70.60.50.40.30.80.70.60.50.40.30.20.00.00 0.02 0.04 0.06 0.080.100.20.10.06101071081090.20.10.00 20 40 60 80 100标准化失真（a）攻击数据库大小（图像数量）（b）攻击指数重叠（%）（c）图6. (a)在白盒设置中，ResNet-50上常规PGD、PGD-PR和PGD-FS的比较，即，攻击者可以访问与KNN防御相同的数据库（在这种情况下，它是IG-1B-目标），（b）随着攻击者数据库大小的增加，在具有IG-500 M-目标防御数据库的ResNet-50上的KNN-PGD攻击下的分类性能的变化，（c）随着使用IG-500 M-目标作为防御数据库的ResNet-50上的KNN-PGD攻击下的分类性能的变化，攻击者数据库和防御数据库增加。注意，在（c）中，攻击数据库大小始终为500M。的攻击数据库的大小，表明我们的防御性能下降的攻击数据库的大小增加。攻守指标叠加效果。我们将防御和攻击数据库的大小固定为5亿张图片，但我们改变了两个数据库中存在的图片的百分比。图6（c）显示了我们的模型在PGD-FS攻击下的准确性，作为区间百分比的函数。我们观察到，随着攻击和防御数据库之间的重叠增长，我们的防御准确性迅速下降。然而，当两个数据库之间的重叠有限时，我们的最近邻防御是有效的.实验结果表明，只要防御者能够进行某种“数据混淆”，最近邻防御策略即使在攻击者知道其防御策略并相应地调整其攻击时也是有效的这种通过混淆实现的安全性在真实的白盒攻击场景中是内在的，但是在现实世界的攻击设置中，它可能是实用的，因为对手难以获得防御者可以访问的同一组数亿图像。7. 讨论和未来工作在这项研究中，我们已经探索了使用防御策略的可行性网络规模的最近邻搜索，以提供- vide图像分类系统的鲁棒性，对adversarial攻击。我们的实验表明，虽然这种防御在纯白盒攻击场景中无效，但它们在现实的灰盒设置中确实具有竞争力即使预测是不正确的，BORS图像通常也与对抗图像的真实标签密切相关。在ImageNet上，预测错误通常是因此，我们认为，像我们这样的研究往往高估了广告的成功率：例如，如果攻击者旨在扰乱可对象化的图像，使得其可以作为良性图像通过，则其通常不能逃脱对模型预测的细粒度改变。随机选择一个目标类之前已经探索过[1]，并且是一个更现实的攻击设置，因为这种攻击设置更有可能干扰对语义无关的类的预测。我们的研究结果为今后的研究提供了以下途径。具体来说，他们建议改变为最近邻搜索构建特征的网络的深度，以牺牲对抗性鲁棒性来获得干净图像的准确性：“早期”特征对攻击更鲁棒，但在干净图像上效果较差。这意味着福- 真正的工作应该探索不同深度的特征或最近邻的组合。未来的工作还应该研究降低我们方法中使用的特征生成模型和图像分类模型之间相似性的方法，以及使用对抗训练方法（如对抗logit配对）训练这些网络[16]。未来工作的其他方向包括开发更好的策略，用于选择图像数据库中使用的图像，例如。使用来自与图像相关联的主题标签或文本查询的监督。鸣谢。我们感谢Matthijs Douze，Jeff在这种情况下，对手知道所使用的防御策略，约翰逊，维斯瓦纳特·西瓦库马尔，埃尔韦杰古和杰克无法访问精确的网络规模图像数据库。定性分析的最近邻居的adversar- ial图像表明，模型预测这些neighgh-感谢Zhao提供的许多有益的讨论和代码支持，以及Anish Athalye和Shibani Santurkar对本文早期草稿的评论。实：KNN防御，破：无防御无攻击PGD-PRPGD-FSImageNet精度ImageNet精度ImageNet精度清洁@0.01强度@0.02强度@0.07强度@0.1强度8776引用[1] A.阿萨利湖恩斯特罗姆，A. Ilyas和K.郭合成健壮的对抗性示例。arXiv预印本arXiv：1707.07397，2017。8[2] N. Carlini和D.瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。一、二、三[3] N. Carlini和D. 瓦格纳。音频对抗示例：针对语音转文本的攻击。arXiv预印本arXiv：1801.01944，2018。1[4] G. K. Dziugaite，Z. Ghahramani和D. M.罗伊JPG压缩对对抗性图像影响的研究 arXiv 预印本 arXiv ：1608.00853，2016。2[5] J. Ebrahimi，A.拉奥，D. Lowd和D.窦Hotflip：文本分类的白盒对抗示例。在计算语言学协会第56届年会的论文集（第2卷：Short Papers），第2卷，第31-36页，2018年。1[6] V. Fischer，M. C. Kumar，J. H. Metzen和T.布洛克斯用于语义图像分割的广告示例。arXiv预印本arXiv：1703.01101，2017。1[7] S. Ghemawat和J. Dean.水平b。URL：https：//github.com/google/leveldb，%20http：//leveldb. org，2011. 4[8] 吉尔默湖梅斯湾F. Faghri，S.S. 舍恩霍尔茨R. Maithra，M.瓦滕伯格和我。J·古德费洛敌对领域。arXiv预印本arXiv：1801.02774，2018。2[9] I.古德费洛，J。Shlens和C. 赛格迪解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572，2014。一二三十一[10] C. Guo，M. Rana，M. Cisse和L.范德马滕。使用输入变换来处理对抗图像。arXiv预印本arXiv：1711.00117，2017。二三四六七十一[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。四、十一[12] R. 黄湾，澳-地Xu，L. Schuurmans和C. Szepesva'ri. 与强大的对手学习。arXiv预印本arXiv：1511.03034，2015年。2[13] A. 伊利亚斯湖恩斯特罗姆，A.Athalye和J。是林书黑盒广告对抗攻击，查询和信息有限。arXiv预印本arXiv：1804.08598，2018。3[14] J. 约翰逊，M。 Douze和H. 我去。使用gpu进行十亿级相似性搜索arXiv预印本arXiv：1702.08734，2017。四、十一[15] E. Jones，T. Oliphant，P. Peterson等人SciPy：Python的开源科学工具，2001年至今。[在线;访问…日（今）。11[16] H. Kannan、A.库拉金和我。古德费罗对抗logit配对。arXiv预印本arXiv：1803.06373，2018。二、四、七、八[17] A.库拉金岛Goodfellow和S.本吉奥。对抗性机器的大规模学习。arXiv预印本arXiv：1611.01236，2016。一二三十一[18] K. 李，K.Lee，H.Lee和J.信一个简单的统一框架，用于检测分布外样本和对抗性攻击。神经信息处理系统，2018。28777[19] A. 马德里 A. 马克洛夫 L. 施密特 D. 齐普拉斯和A.弗拉多面向抵抗对抗性攻击的深度学习模型。arXiv预印本arXiv：1706.06083，2017。一二三十一[20] D.马哈詹河Girshick，V. Ramanathan，K.他，M。帕鲁里Y. Li，长穗条锈菌A. Bharambe和L.范德马滕。探索弱监督预训练的局限性。 arXiv 预印本 arXiv ：1805.00932，2018。四五六[21] S.- M.穆萨维-代兹福利A. Fawzi和P.弗罗萨德Deep-fool：一种简单而准确的欺骗深度神经网络的方法。在IEEE计算机视觉和模式识别会议论文集，第2574-2582页一、二[22] N. Papernot和P.麦克丹尼尔扩大防御范围。arXiv预印本arXiv：1705.05264，2017。2[23] N. Papernot，P.麦克丹尼尔岛Goodfellow，S.Jha Z.B.Celik和A.大师针对机器学习的实用黑盒攻击。在2017年ACM亚洲计算机和通信安全会议论文集，2017年。3[24] N. Papernot和P. D.麦克丹尼尔深度k近邻：迈向自信、可解释和强大的深度学习。 arXiv prerint arXiv ：1803.04765，2018. 一、二、八[25] N. 帕佩诺P. D. M. 麦克丹尼尔X. 吴先生，S. 杰哈，A.大师蒸馏作为对深度神经网络对抗性扰动的防御。arXiv预印本arXiv：1511.04508，2015年。2[26] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito ， Z. Lin ， L. 德迈松湖 Antiga 和 A. Lererpytorch中的自动微分。在NIPS-W，2017年。11[27] A. Raghunathan，J. Steinhardt，和P.梁针对对抗性示例的认证防御。arXiv预印本arXiv：1801.09344，2018。2[28] P. Samangouei，M.Kabkab和R.切拉帕防御甘：使用生成模型保护分类器免受对抗性攻击。2018. 2[29] A. Sinha，H. Namkoong和J.杜奇具有原则性对抗训练的可认证分布鲁棒性。 arXiv 预印本 arXiv ：1710.10571，2017。2[30] Y. 宋， T. Kim ， S. Nowozin ，S. Ermon 和 N. 库什曼Pixeldefend：利用生成模型来理解和防御对抗的例子。2017. 2[31] C. Sun，A. Shrivastava，S. Singh和A.古普塔。在深度学习时代重新审视数据的不合理有效性。InProc.ICCV，2017. 6[32] C. 塞格迪，W。扎伦巴岛萨茨克弗布鲁纳D。二涵I. Goodfellow，和R。费格斯。神经网络的有趣特性arXiv预印本arXiv：1312.6199，2013。一、二[33] B. 托米 D. A. 莎玛 G. 弗里德兰湾伊丽莎白，K. Ni，D.波兰，D。Borth和L.李新数据多媒体研究的新挑战。arXiv预印本arXiv：1503.01817，2015。5[34] G. 托利亚斯河Sicre和H. 我去。基于cnn激活的积分最大池的特定对象检索arXiv预印本arXiv：1511.05879，2015。5[35] F. Tra mer，A. Kurakin，N. 帕佩尔诺岛古德费尔，D. Boneh和P.麦克丹尼尔对抗训练：攻击和防御。arXiv预印本arXiv：1705.07204，2017。78778[36] Y. Wang，S.Jha和K.Chaudhuri 分析最近邻算法对对抗样本的鲁棒性。 arXiv 预印本 arXiv

下载后可阅读完整内容，剩余1页未读，立即下载