基于内容的黑盒对抗攻击：ColorFool

200 浏览量更新于2023-10-24 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1151ColorFool：语义对抗着色Ali Shahin Shamsabadi，Ricardo Sanchez-Matilla，AndreaCavallaro智能传感英国伦敦玛丽女王大学{a.shahinshamsabadi，ricardo.sanchezmatilla，a.cavallaro}@qmul.ac.uk摘要对抗性攻击，产生小的Lp-范数扰动误导分类器有有限的成功，在黑盒设置和看不见的分类器。这些攻击对于使用去噪滤波器的防御和对抗性训练程序也不鲁棒。相反，产生不受限制的扰动的对抗性攻击对防御更鲁棒，通常在黑盒设置中更成功，并且更容易转移到不可见的分类器。然而，人类可能会注意到不受限制的扰动。在本文中，我们提出了一种基于内容的黑盒对抗攻击，它通过利用图像语义来选择性地修改人类认为自然的选定范围内的颜色，从而产生不受限制的扰动。我们表明，当使用三个标准数据集攻击三个最先进的深度神经网络时，所提出的方法ColorFool在以下方面表现出色：成功率，对防御框架的鲁棒性和传输能力，对两个不同任务的五种最先进的对抗性攻击，场景和对象分类。源代码可在https：//github.com/smartcameras/ColorFool网站。1. 介绍对抗性攻击会扰乱干净图像的强度值，以误导机器学习分类器，如深度神经网络（DNN）。相对于干净图像中的强度值，这些扰动可以被限制[7，16，19，22，23，26]或不受限制[1，13]。受约束的扰动，这是由控制一个Lp-范数，可以限制每个像素的最大变化（L∞-范数[7，16，19]），扰动像素的最大数量（L0-范数[22，26]），或最大能量变化（L2-范数[23]）;而不受限制的扰动跨越更宽的范围，由不同的着色方法[1，13]。对抗性攻击的防御应用重新量化[29]，中值滤波[29]和JPEG压缩[4，8]以在分类之前去除对抗性扰动，或者通过对抗性训练[10]或通过改变损失函数[25]来提高分类器的鲁棒性。对抗性攻击的鲁棒性属性是在防御框架存在的情况下误导分类器的成功率大多数对抗性攻击假设白盒设置，即攻击者完全了解分类器的结构和参数（以及梯度）[7，16，19，22，23，26]。然而，现实世界的场景可能会阻止对分类器的访问（看不见的分类器）或将暴露的信息限制为仅分类器的输出（黑盒设置）。可转移性的属性是对抗性图像在误导看不见的分类器方面的成功率[5]。最后，对抗图像中的扰动应该是不可注意的，即对抗图像中的对象的形状和空间布置应该被感知为在干净图像中，并且颜色应该看起来自然。受限扰动[2，16，19，23]通常具有可以被防御检测到的高空间频率[4，8，21，29]。此外，稀疏且强度变化较大的受限制扰动是明显的[22，26]。相反，不受限制的攻击通过着色过程任意扰动强度值[1]，该过程基于昂贵的训练阶段，然后是逐图像的对抗性微调。或者，攻击可以任意改变HSV颜色空间中的色调和饱和度分量[13]。然而，即使是很小的变化也会导致由不自然的颜色引起的大的和可感知的失真 1（g））。在本文中，我们提出了一种黑盒，无限制，基于内容的对抗性攻击，利用人类视觉系统的特性来选择性地改变颜色。所提出的方法ColorFool仅在感知统一的Lab颜色空间的去相关a和b通道上操作[27]，而不改变亮度L。此外，ColorFool仅在特定语义类别的选定自然颜色范围内引入扰动[30]。与其他对抗性攻击不同，所提出的对抗性扰动可以针对图像11522西装球拍(a)（b）第（1）款和服球拍和服乐福战壕煤(c)（d）（e）（f）（g）针对样本生成的对抗图像（a）由（b）ColorFool生成的干净图像，（c）基本迭代方法（BIM）[16]，考虑到对象形状的变化，对颜色的严格扰动，如在SemanticAdv [13]或BigAdv [1]中。BIM [16]通过施加L∞范数约束来约束每个像素的最大扰动BIM通过在输入空间中线性化成本函数JM（·）来搜索对抗图像。搜索从Xtec0=X开始，并在梯度方向上迭代移动，相对于输入图像预测y的成本在每次迭代中步长为δ的情况...ΣΣΣXstecN=CX， <$XstecN−1+δsign<$XJMθ ， XstecN−1 ，y、（一）直到M（XstecN）/=M（X）或N次迭代的最大数目，其中θ是M（·）的参数，sign（·）是确定代价函数的梯度方向的符号函数。CX ，λ（·）是一个裁剪函数，它将对抗图像保持在这是一个干净的图像，以及[0，255]：(d)[23]第七章：（一）第七章：（二）第七章：（三）第七章：[22][23][24][25][26][27] BIM和DeepFool生成了带有限制扰动的不明显的对抗图像。ColorFool生成任何大小，自然颜色的对抗图像，CX，C（Xstec）=min、255，X+X，最大值、0，X−1，Xstec，，、（二）考虑语义信息并保留图像内人类视觉系统更敏感的区域每个图像右下角的文本指示预测的类。任何尺寸（见图）（b）款。我们在攻击三个最先进的DNN（ResNet50，ResNet18 [11]和AlexNet [15]）中验证了ColorFool，这些DNN已经过场景和目标训练。其中，0和255是像素强度全部为0和255，以及min（·）/max（·）是pe-pixelmin/max运算。TI-BIM [7]在翻译图像的集合上生成BIM对抗性扰动，以提高对不可见分类器的可移植性。由于平移图像的梯度对应于平移原始图像的梯度[7]，因此TI-BIM在每次迭代时将梯度与预定义的内核W进行使用三个数据集（ImageNet [6]，CIFAR-10 [14] 和 Private Places 365 （ P-Places 365 ）[31]）。我们表明，ColorFool生成的自然色对抗图像在成功率方面是有效的，XstecN.=CX，XstecN−1 +δ符号.WXJM.θ，XstecN−1ΣΣΣ，y，（三）看不见的分类器，对防御框架的鲁棒性与五种最先进的攻击进行了广泛的比较。2. 对抗性攻击设X ∈ Zw，h，c是一个RGB干净图像，具有宽度w，高度h和c=3个颜色通道。设M（·）是DNN分类器，其针对给定图像预测最可能的类，y=M（X）.对抗性攻击干扰X生成-其中W可以是均匀的、线性的或高斯的核。DeepFool [23]通过找到朝向最近的决策边界的方向来找到最小的L2范数对抗扰动例如，在二进制分类器的情况下，可以通过将每次迭代的对抗图像投影到M（·）的最接近线性化决策边界：X-NM（Xstec）生成一个广告图像，Xstec，使得M（Xstec）M（X）。XstecN=X+（1+η）n=1-nM（Xstecn），（4）ǁ∇M(X˙n)ǁ2对抗性攻击可以根据其性能进行分组扰动分为两类，即受限制的和不受限制的。对抗性图像可以通过由L0，L1，L2或L∞范数控制的扰动来生成。使用限制扰动的对抗攻击是基本迭代法（BIM）[16]、平移不变BIM[23][24] [25][26][27][28][29][29][29] 或者，可以使用unrereference生成对抗图像，其中，ηπ1是常数，其乘以累积对抗扰动以到达决策边界的另一侧请注意，DeepFool并不...对像素值的姿态约束，其结果可能位于可允许的动态范围之外。SparseFool [22]使用干净图像和对抗图像之间的L1范数来最小化扰动图像的数量。1153ˆDDD公司简介表1.对抗性攻击的比较。针对对象和场景分类两个任务，利用L0、L1、L2和L∞约束的扰动或不受约束的颜色扰动生成对抗图像，并考虑两种攻击类型：白色攻击或黑色攻击。针对ImageNet、CIFAR-10和Private-Places 365（P-Places 365）报告了具有1000、10和60个类的攻击所选类数量的数据集（如果论文中没有写类数量，则未知JSMA在MNIST数据集（10个类）上进行了测试。关键词- BIM：基于雅可比矩阵的显著图攻击SemAdv：语义对抗Ref攻击扰动类型受攻击的分类器数据集任务ImageNetCIFAR-10 中国人365[16个]BIML∞W Inc-v3 1000 O[七]《中国日报》TI-BIM（“TI-FGSM”）L ∞ W Inc-v3，Inc-v4，ResNet152 60 O[19个]P-BIM（“P-FGSM”）L ∞ WResNet50 60 S[23日] DeepFoolL2W LeNet， CaffeNet，GoogleNet 1000 10 O[22日]SparseFoolL1W LeNet，ResNet18， Inc-v3，DenseNet，VGG16 U 10 O[26日]JSMAL0W LeNet O[二]《中国日报》CWL0，2，∞ W Inc-v3 1000 10 O[1]第一章BigAdv C W ResNet50，DenseNet121，VGG19 10 O[13个国家]SemAdv C B VGG 16 10 O我们的ColorFool C B ResNet50，ResNet18，AlexNet 1000 10 60 O and S像素SparseFool利用DNN在每个图像的邻域中具有低平均曲率的事实[9]，并基于此曲率生成稀疏扰动和最接近的L2决策界上的对抗图像BigAdv [1]旨在通过对每个X进行微调来生成自然色扰动，训练的着色模型[30]F（·）由θ参数化，具有交叉项对抗损失Jadv[2]：阿里。SparseFool通过超平面vTXstecD F近似干净图像X 附近的决策边界，传递最小L2范数DeepFool对抗图像（即，等式4），Xstec=argminJadv（Mθˆ.ΣF（XL，CH，LH;θ），y），（9）XstecD F和法向量v。然后，稀疏格式迭代地找到干净图像在近似决策边界上的最小L1其中，XL是Lab颜色空间中图像的L值，Ch是由二进制位置提示L h指示的位置的地面实况颜色。BigAdv de-XstecN = D(X˙ N−1 +δ），（5）着色整个图像，并再次着色它。如果Ch和Lh不匹配，则此其中δ是稀疏自适应扰动，并且D（·）是将像素值维持在【0，255】：小心设置。最后，ColorFool，提出的方法（见第二节）。3），是一种不受限制的黑箱攻击，如SemanticAdv。D（Xstec）=最小值、、、255，最大值{0，Xstec}.（六）然而，SemanticAdv扰动像素强度，考虑到图像中的内容，因此经常产生不自然的颜色。ColorFool只会在SparseFool扰动的每个第d个值δπ迭代计算为：特定的语义区域，并在选定的范围内，使他们仍然可以被视为自然。另一种最先进的无限制攻击BigAdv是一种白盒攻击，δ*=|vT(X˙n−X˙D F)||sign（v d），（7） |sign(v d),(7)彩色化模型，用于从大型数据集中学习图像统计信息，并为每个图像微调模型。选项卡. 1总结了针对对象或场景类的对抗性攻击-其中T是转置运算符。SemanticAdv [13]通过移动干净图像的色调XH和饱和度XS，同时保留值通道XV，无限制地改变HSV颜色空间中的颜色，以便不影响对象的形状：Xstec=β（λX+[δ]w，h，X+[δ]w，h，X），（8）其中δ S、δ H∈[0，1]是标量随机值，并且β（·）是将强度从HSV转换到RGB颜色空间的函数。当量重复8，直到M（XstecN）/=M（X）或达到最大试验次数（1000）。1154任务。3. ColorFool我们的目标是设计一种黑盒对抗攻击，通过生成低频扰动来生成具有自然颜色的对抗图像，这些低频扰动可以高度转移到看不见的分类器，并且对防御具有鲁棒性此外，攻击将对图像的本机大小进行操作。首先，我们确定图像区域的颜色是重要的，为人类观察者的外观，这些敏感的区域（例如，人皮肤）通常在特定范围内。其他（非敏感）图像区域（例如，壁和1155Nk=1KK444444表2.ColorFool考虑的对抗性颜色扰动，用于修改敏感语义区域的颜色基于人们对灰度对象[3，18]的颜色推荐来选择自然颜色范围，这些灰度对象也用作着色方法[30]中的地面真实颜色。第k个语义区域的对抗性颜色扰动将语义类的极值视为la=min（Sk）和ua=max（Sk）。广告词-在每个自然颜色范围内随机选择sarial扰动，并如等式（1）中那样应用。11个国家。注意，没有颜色改变被应用于被分类为人的图像区域。图2.图像语义分割的示例结果[32]。语义区域a通道b通道S1：人员Na={0}Nb={0}ColorFool识别非敏感区域（黑色）和颜色-11S2：VegetationNa={−128−la，. -是的-是的，−ua}Nb={−lb，. -是的-是的，127−ub}2 2 2 2 2 2敏感语义区域，即人（橙色）、植物S3：水Na={−128−la，. -是的-是的，−ua}Nb={−128−lb，. -是的-是的，−ub}3 3 3 3 3 3(in绿色）、天空（浅蓝色）和水（深蓝色）。无花果窗帘1和5，第一行），相反，可以在任意范围内修改它们的颜色，并且仍然看起来自然[3]。我们考虑了四类敏感区域，其不寻常的颜色会吸引人类观察者的注意力[3，18，30]：人，天空，植被（例如，植物）。草和树），和水（例如，大海、河流、瀑布、游泳池和湖泊）。让我们将图像X分解为K个语义区域S4：S k yNa={−128−la，. -是的-是的，−ua}Nb={−128−lb，. -是的-是的，−ub}选项卡. 2）。我们允许多次试验，直到扰动错误引导分类器。设n是试验的指数，N是试验的最大次数为了避免在第一次试验中出现大的颜色变化，我们通过α=n逐步缩放随机选择的扰动。我们修改非敏感区域S的颜色，以产生集合S为不Sstec={Sstec：Sstec=γ（S）+α[0，Na，Nb]}S ，（12）S= {S：S=X·M}K、（10）k k kk=1k kkk=1a B其中M∈ {0，1}w，h是一个二进制掩码，它指定其中N ∈ {−127，. - 是的- 是的，128}且N ∈{−127，. - 是的- 是的，128}K表示属于区域Sk的像素的位置，二进制掩码由pyramid Pooling R50-级联分割模块分割的扩展架构[33]，在150种语义区域类型的MIT ADE 20 K数据集[32]上训练。图2在a和b的整个范围内随机选择，这些区域可以经历更大的强度变化。最后，由ColorFool生成的广告图像X将修改后的敏感和非敏感图像区域组合为显示了所考虑的语义区域的示例我们分离敏感区域，S={S}S，从Xstec=Q .γ−1.ΣSΣSSsteck+斯泰克ΣΣ、（十三）kk=1非敏感区域，S={Sk}S，其中S=S Sk=1k=1并且，f是联合运算符。在确认了这两个人的设置，我们适当地修改区域的颜色，其中Q（·）是量化函数，其确保所生成的对抗图像在以下动态范围内：感知均匀的Lab颜色空间[27]，它将thepix elvalues，Xstec∈Zw，h，c，且γ−1（·）是逆函数c-亮度的颜色信息：a的范围从绿色（-128)b的范围从蓝色（-128）到黄色（+127），L的范围从黑色（0）到白色（100）。然后，我们修改敏感区域S的颜色，以生成adversarial集SstecasSstec={Sstec：Sstec =γ（S）+α[0，Na，Nb]T}S，（11）转换实验室图像强度的函数RGB颜色空间4. 验证算法比较。我们比较了拟议的攻击，ColorFool，对国家的最先进的广告-k kkk k k=1第2节：基本迭代方法中讨论的恶意攻击其中，γ（·）表示来自图像的强度RGB到Lab颜色空间，Na∈Na和Nb∈Nb是（BIM）[16]、平移不变BIM（TI-BIM）[7]、Deep-Fool [23]、SparseFool [22]和SemanticAdv [13]（我们以前k k k k通道a和b中的对抗性扰动，从自然色范围集合中随机选择[30]，Na和Nb，在a和b通道中。这些范围是-1156包括BigAdv [1]，因为当时没有可用的代码提交）。这些攻击包括受限制和不受限制的扰动，并生成对抗性图像，K K根据实际颜色、区域语义和先验知识进行关于区域类型中颜色感知的知识（参见是可转移的（TI-BIM），不明显的（DeepFool）和ro-防御（SemanticAdv）。我们还比较了1157简单但成功的BIM攻击和稀疏攻击SparseFool。此外，我们考虑修改建议的攻击，命名为ColorFool-r，其中没有先验被认为是语义区域。除了我们在PyTorch中重新实现的SemanticAdv之外，我们将作者的实现用于所有的广告图像都是使用PyTorch和OpenCV中相同的读/写框架、图像过滤器和软件版本生成的，以使结果具有可比性。数据集。我们使用三个数据集Private-Places 365（P-Places 365）[31]，一个场景分类数据集; CIFAR- 10[14]，对象分类数据集;和ImageNet [6]，另一个对象分类数据集。对于P-Places 365，我们采用了在MediaEval2018 Pixel Privacy Challenge [17]中定义为敏感的类的子集。P-Places 365包括60个私人场景类中的每个类的50个图像。对于CIFAR-10，我们使用整个测试集，它由10个不同对象类的10 K图像组成。对于ImageNet，我们考虑验证集中的1000个类和每个类3个随机图像。所有的图像都是RGB与不同的分辨率，除了图像从CIFAR-10的w=h=32。分类器受到攻击。我们对两种不同的架构进行攻击：深度残差神经网络（ResNet [11]，18层（R18）和50层（R50））和AlexNet（AN）[15]。我们选择这三个类词来研究它们的可转移性，并将它们与同素类词（即，ResNet分类器）和异构架构（即AlexNet）。业绩计量。我们量化了误导分类器的成功率，防御的鲁棒性和对抗图像的图像质量。成功率（SR）被量化为在其最可能的预测类上误导分类器的敌对图像的数量与图像总数之间的比率对于可转移性，我们计算了在误导性的看不见的分类器中为可见分类器生成的对抗图像的SR。对防御的鲁棒性测量如下。首先，我们量化的SR在看到的分类器的敌对图像过滤后作为滤波器，我们使用1到7位的重新量化[ 29 ]，步长为1;中值滤波[29]，具有维度2、3和5的平方核;和有损JPEG压缩[8，4]，质量参数为25，50，75和100.我们报告的结果检索类预测的干净的图像与最有效的过滤器（即。获得最低SR的一个）。其次，我们将不可检测性报告为未被识别为对抗性的对抗性图像与使用先前提到的图像过滤器的图像总数之间的比率[29]。具体来说，对于每个分类器和每个图像过滤器的参数，我们计算一个阈值，通过比较表 3.Private-Places 365 （ P-Places 365 ）， CIFAR- 10 和ImageNet数据集对ResNet 50（R50），ResNet 18（R18）和AlexNet（AN）的成功率这些分类器在干净图像上的性能在第三行中呈现。成功率越高，攻击就越成功。KEY- AC：被攻击的分类器; TC：试验分类器; Acc：准确度。灰色（白色）单元格表示可见（不可见）分类器。ColorFool比其他对抗性攻击更具可转移性，除了SemanticAdv，它严重扭曲了所有区域的颜色（见图10）。（五）。攻击数据集中国人365CIFAR-10ImageNetTCACR50 R18 AN R50 R18 ANR50 R18 ANAcc. 对干净的图像 0.554.527.466 0.944.935.722 点七二六点六四九点五一七R501.00.284.073 0.999.095.021 0.873.123.087BIMR180.231 1.00.081 078.999.022 0.143 945 099一个0.061.0811.00 0.014.013.999088092 944R500.995.339.186 0.843.153.173 0.992.235.176TI-BIMR180.268.996.198 0.083.943.138 0.173.997.183一个0.157.193.995 0.315.349.889 0.121 163994R500.957.107.030 0.829.226.064 0.983.071.018DFR18009.969.030 0.234.875.076 0.055.991.017一个0.021.028.956 0.020.024.637017 019993R500.998.151.127 0.999.408.186 0.987.167.176SFR180.101.999.120 0.353.999.216 0.086.997.134一个0.0700.0661.000.130.151.999062 079999R500.936.563.713 0.863.429.704 0.889.540.769SAR180.480.954.714 0.339.898.705 0.422.931.757一个0.424.466.990 0.155.191.993 0.359.431.994R500.963.336.514 0.956.255.635 0.948.362.608cf-RR180.275.970.501 0.431.954.689 0.235.954.580一个0.157 171999 065 0589990.104 137998R50点九五九点三三四点四九一0.975.254.641 0.917.348.592CFR180.267.971.475 0.415.971.696 0.223.934.543一个0.171.157.9980.0590.0551.000.114.147.995给定图像的预测概率向量与图像滤波之后的同一图像的预测概率向量之间的差每个阈值被计算为允许在检测上的干净图像中的5%假阳性率的值。训练数据集。然后，图像的L1范数差异大于阈值被认为是对抗。第三，我们在攻击使用原型一致性损失（PCL）[25]和对抗训练[10]训练的可见分类器时评估SR最后，我们使用在AVA数据集[24]上训练的名为神经图像评估（NIMA）[28]的非参考视觉图像质量度量来量化对抗图像的图像NIMA估计感知的图像质量，并被证明可以预测人类偏好[17]。成功率选项卡. 图3示出了可见分类器上的SR（对角元素）和到不可见分类器的可转移性（非对角元素）。对于大多数分类器和数据集，所有对抗性攻击在可见的分类器中都实现了高SR。受限攻击的SR永远不会高于0.41，而无限制的攻击可以达到1158SR高达0.77。ColorFool在可见和不可见分类器上都实现了高SR，例如，当在CIFAR-10中的R18中进行攻击和测试时为0.97，而当在CIFAR-10中进行攻击和测试时为0.69，0.41当分别用AN和R50评价时。然而，其他攻击只能达到 0.02 （ BIM ）， 0.14 （ TI-BIM ）， 0.07（DeepFool），0.21（SparseFool）的SR。可能-表4.基本迭代方法（BIM），翻译不变BIM（TI-BIM），DeepFool （ DF ）， SparseFool （ SF ）， SemanticAdv（SA），ColorFool-r（CF-r）和ColorFool（CF）对使用softmax 训练的 ResNet 110 的成功率，原型一致性损失（PCL）[25]及其与CIFAR-10上的对抗训练（AdvT）[10]的组合成功率越高，攻击就越强大。粗体，表现最好的攻击。一个合理的原因是，像BIM这样的受限攻击，过拟合到特定分类器的参数，这意味着对抗性图像很少误导其他分类器，而在Color- Fool中改变颜色的随机性TI-BIM克服了BIM的过拟合问题，获得了比BIM更高的可移植性不受限制的钉获得高的可转移率。例如，在CIFAR-10数据集中，SemanticAdv、ColorFool-r和Color-Fool在攻击R18并在AN中评估时获得0.71、0.69和0.70的SR。虽然ColorFool使用可见分类器优于SemanticAdv ，但SemanticAdv 获得了更高的可转移率。这是由于SemanticAdv在整个图像中引入了较大的颜色变化，包括对分类器来说信息更多的区域（更高的可转移性），但也包括对人类视觉系统敏感的区域，因此产生了不自然的颜色（见图1）。（五）。本节后面的图像质量分析中讨论了更多见解。如前所述[20]，在更强的分类器上生成的对抗图像（例如，R50）在较弱的分类器（例如，AN）。例如，在P-Places 365中查看Color- Fool的结果时，可以观察到这种行为使用R50制作的对抗图像获得SR 0。96，下降到0。第49章在这里测试然而，当对抗性图像是用AN制作的时，SR为0。99，但当在R50（更强的分类器）中测试时，SR仅为0。十七岁防御的坚固性。在应用三个图像滤波器中的任何一个之后的对抗性攻击的SR在图中描绘。3.第三章。DeepFool和Sparse-Fool等受限攻击对图像滤波的鲁棒性最差，因为这些滤波器可以在分类之前去除受限对抗噪声（特别是L0稀疏对抗扰动），并正确分类其中的70%BIM和TI-BIM在P-Places 365和ImageNet中获得比其他限制攻击更高的SR，但在CIFAR-10中相似。最强大的攻击是不受限制的攻击，其中SemanticAdv，ColorFool-r和ColorFool在数据集和分类器上始终获得高于60%结果（图）。4）表明当考虑所有分类器和数据集上的所有图像过滤器时，限制攻击比不限制攻击更容易检测。例如，当攻击P-Places 365中的R50时，BIM、TI-BIM、DeepFool和SparseFool通过重新量化、中值滤波和JPEG压缩获得5%、19%、1%和11%的不可检测率。不受限制的攻击，培训BIM[16][22][23][24][25]我们的Softmax.969.963.855.994.867.992.994PCL.560.619.784.801.8961.001.00PCL+AdvT.500.577.665.691.966.998.999SemanticAdv、ColorFool-r和ColorFool获得73%、72%和75%。我们认为，其中一个原因与生成的对抗性扰动的空间频率有关。限制性攻击产生高频对抗性扰动，而非限制性攻击产生低频扰动（见图 1 ）。（五）。低频扰动（由无限制攻击产生的扰动）对重新量化、中值滤波和JPEG压缩更鲁棒。通常，JPEG压缩是最有效的检测框架。当我们考虑应用于P-Places365 的所有过滤器时，受限攻击 BIM 、 TI-BIM 、DeepFool和SparseFool在95%、81%、99%和89%的情况下都是可检测的。然而，SemanticAdv和ColorFool-r等不受限制的攻击仅在27%的情况下可检测到，ColorFool是最难检测到的（25%）。另一个观察结果是，对抗图像的鲁棒性与用于生成它们的分类器的准确性成比例（参见图1A和1B）。第3、4段）。例如，误导一个高精度的DNN，如R50，其精度几乎为0。95的CIFAR-10，需要更大的扰动，这增加了鲁棒性，但也检测。选项卡. 4显示了在CIFAR-10上训练的误导性ResNet110 [11]中对抗性攻击的SR，以及基于PCL [25]及其与对抗性训练[10]组合的改进训练过程的对于对抗训练，ResNet110是在BIM生成的干净和对抗图像上训练的（即最强的防御[12]。选项卡. 4表明ColorFool是强大的，因为当误导配备 PCL 和对抗训练防御的ResNet110时，其SR保持在99%以上。相反，限制性对抗攻击的SR大幅下降。质量. 对抗性图像样本如图所示。五、例如，即使诸如TI-BIM或SparseFool之类的受限攻击生成具有最小扰动的对抗图像，它们也是明显的。SemanticAdv和ColorFool-r生成不真实的颜色。然而，即使ColorFool生成的对抗性图像与干净图像有很大不同（在Lp范数意义上），1159中国人365CIFAR-10ImageNet1 .一、0BIMti-BDFSFSAcf-RCF1 .一、0BIMti-BDFSFSAcf-RCF1 .一、0BIMti-BDFSFSAcf-RCF0的情况。80的情况。80的情况。80的情况。60的情况。60的情况。60的情况。40的情况。40的情况。40的情况。20的情况。20的情况。20的情况。00的情况。00的情况。01 .一、0BIMti-BDFSFSAcf-RCF1 .一、0BIMti-BDFSFSAcf-RCF1 .一、0BIMti-BDFSFSAcf-RCF0的情况。80的情况。80的情况。80的情况。60的情况。60的情况。60的情况。40的情况。40的情况。40的情况。20的情况。20的情况。20的情况。00的情况。00的情况。01 .一、0BIMti-BDFSFSAcf-RCF1BIMti-BDFSFSAcf-RCF1 .一、0BIMti-BDFSFSAcf-RCF0的情况。80的情况。80的情况。80的情况。60的情况。60的情况。60的情况。40的情况。40的情况。40的情况。20的情况。20的情况。20的情况。000的情况。0图3.ResNet 50、ResNet 18和AlexNet上的基本迭代方法（BIM）、平移不变BIM（TI-B）、DeepFool（DF）、SparseFool（SF）、SemanticAdv（SA）、ColorFool-r（CF-r）和ColorFool（CF）对Places 365（P-Places 365）、CIFAR-10和ImageNet的私有子集上的重新量化（）、中值滤波（）和JPEG压缩（）的鲁棒性10的情况。5010的情况。5010的情况。50再量化未被发现未被发现未被发现成功率ImageNetAlexNet1160中值JPEGPlaces365和ImageNet、ColorFool-r和ColorFool得分最高（超过5.19 ）。对于CIFAR-10，Semanti- cAdv 、ColorFool-r和ColorFool获得相似的结果，得分超过4.96。这意味着ColorFool生成的对抗图像不会降低感知图像质量，而DeepFool或Sparse-Fool等受限攻击获得的ColorFool在考虑所有数据集和分类器的情况下获得的NIMA分数等于或高于干净图像。随机性分析。由于ColorFool生成随机扰动，我们分析了这种随机性对SR的影响，收敛的试验次数以及生成的对抗性预测类图4.不可检测性（Undetec.）基本迭代方法（BIM），平移不变BIM（TI-BIM），DeepFool，SparseFool，SemanticAdv，ColorFool-r和ColorFool，当使用重新量化，中值滤波和JPEG压缩攻击ResNet 50，ResNet 18和AlexNet分类器越高不可检测性越高，防御的鲁棒性越高看起来自然点。此外，ColorFool生成的图像与干净图像具有相同的尺寸。图像质量评价的结果如表1所示。五、在所有攻击、分类器和数据集中，非限制性攻击获得最高的NIMA分数。具体来说，P-形象各异。我们使用ImageNet中属于不同类的39个随机图像我们选择R50进行分析，因为它是所考虑的分类器中最准确的分类器。图6示出了SR、要收敛的试验的数量的统计（中值、最小值、最大值、25百分位数和75百分位数）以及表达式收敛到的类的数量。不同图像的结果显示在 x 轴上。我们可以观察到，ColorFool要求收敛的试验次数仍然具有较低的中值和标准差，这些图像总是成功地误导分类器（参见图1中的第一和第二个图）。（六）。最后，给定图像的大多数执行都收敛到同一个类（参见第三个成功率成功率CIFAR-10中国人365ResNet18ResNet501161哺乳室肉铺肉铺陆军基地陆军基地花店麦地那王座室清洁BIM [16] TI-BIM [7] DF [23] SF [22] SA [13] CF-r CF排球马车马车马车泡沫泡沫Maypole马车图5.来自Private-Places 365（第一行）和ImageNet（第二行）数据集的对抗图像样本，这些数据集由基本迭代方法（BIM）、平移不变BIM（TI-BIM）、DeepFool（DF）、SparseFool（SF）、SemanticAdv（SA）、ColorFool-r（CF-r）和拟议的ColorFool（CF）生成。请注意，CF-r和CF以原生图像分辨率生成示例预测的类别显示在每个图像的右下角。表5.来自Private-Places 365数据集，CIFAR-10和ImageNet数据集的对抗图像的图像质量（NIMA，越高越好），针对ResNet 50（R50），ResNet 18（R18）和AlexNet（AN）的所有对抗攻击。We report only the mean value as the standarddeviations are similar across all attacks with typical values of 4.4.KEY - AC：攻击分类器。粗体显示的是每个分类器和数据集的最佳攻击。数据集中国人365CIFAR-10ImageNetAC攻击R50 R18 AN R50 R18 ANR50 R18 AN清洁5.02 5.02 5.02 4.91四点九一 5.23五点二三BIM4.88四点八五 4.90 4.90 4.92 4.88 4.89 4.87TI-BIM4.92 4.92 4.86 4.92 4.92 4.95 4.83 4.83 4.77DF4.95四点九四四点九四4.88 4.88 4.92 4.93 4.93 4.92SF4.99 4.99 4.97 4.86四点八六四点八七4.97 4.96 4.94SA5.05 5.05 5.06 5.01 5.014.98 4.80 4.79 4.80cf-R5.24 5.22 5.20 5.05 5.044.96 5.24 5.25 5.23CF5.225.225.19 5.04 5.03 4.96 5.245.245.235. 结论我们提出了一种新的黑盒对抗攻击，Col- orFool，它根据颜色感知的先验知识修改图像中语义区域的颜色ColorFool在误导性可见和不可见分类器的成功率、对使用过滤器的防御的鲁棒性Furthermore, Color- Foolgenerates adversarial images with the same size as theclean images.我们希望我们的工作将鼓励对抗性攻击的研究，同时考虑人类视觉系统和图像中对象的语义信息，以及针对着色的新防御措施，使DNN对颜色变化具有鲁棒性。作为未来的工作，我们将在更大的防御集合下评估对抗性攻击，并在对象检测和语义分割等任务中探索基于着色的对抗性攻击行为。1009896949290成功率[%]随机图像ID×100#试验1086420随机图像ID#最后的课程54321随机图像ID确认这项工作得到了CHIST-ERA计划通

下载后可阅读完整内容，剩余1页未读，立即下载