摘要：跨任务黑箱可移植性研究中的活性检测OCR文件攻击及防御

147 浏览量更新于2023-10-25 收藏 1.04MB PDF 举报

OCR

AI实验室

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

940OCR活性检测利用离散度缩减增强对抗性样本的跨任务黑箱可移植性雪城大学ylu25@syr.edu贾韵涵*字节跳动AI实验室yunhan. bytedance.com王建宇百度美国wjyouch@gmail.com百里杜克大学bai.li邮件duke.edu雪城大学wchai01@syr.edu杜克大学lcarin@duke.edu锡拉丘兹大学svelipas@syr.edu摘要已知神经网络容易受到精心制作的对抗性示例的攻击，并且这些恶意样本经常转移，即，它们甚至对其他模式也持敌对态度。尽管在跨模型的可转移性上投入了大量的努力，但令人惊讶的是，对跨任务可转移性的关注很少，这代表了现实世界的网络犯罪我们研究了广告示例在各种现实世界计算机视觉任务中的可移植性，包括图像分类、对象检测、语义分割、显式内容检测和文本检测。我们提出的攻击最大限度地减少了内部特征图的我们对开源检测和分割模型以及Google Cloud Vision（GCV）API提供的四种不同的计算机视觉任务进行了评估。我们证明了我们的方法优于现有的攻击，通过降低性能的多个CV任务的大幅度只有适度的扰动。1. 介绍对抗性机器学习的最新进展使深度神经网络（DNN）的弱点成为人们关注的焦点，并引起了安全和机器学习研究人员的注意。给定深度学习模型，很容易生成对抗性示例*同等贡献†本文提供的信息、数据或工作部分由美国国家科学基金会（NSF）资助，资助金额为1739748，1816732和美国能源高级研究计划署（ARPA-E）能源部，授予号DE-AR0000940。作者在此表达的观点和意见不一定代表或反映美国政府或其任何机构的观点和意见。图1：部署在安全和安全关键场景中的真实计算机视觉系统通常采用对攻击者不透明的检测机制。网络犯罪者需要生成对抗性的例子，这些例子可以在任务之间转移，以最大限度地提高他们逃避整个检测系统的机会(AEs)，接近原始输入，但很容易被模型误分类[9，33]。更重要的是，它们的有效性有时会转移，这可能会严重阻碍基于DNN的应用程序，特别是在安全关键场景中[23，13，36]。虽然这些问题令人担忧，但很少关注商业部署的基于视觉的系统的威胁模型这种威胁模型与上述研究中深入研究的模型有很大不同。跨任务威胁模型基于计算机视觉（CV）的检测机制已被广泛部署在安全关键型应用中，例如内容审查和面部生物识别认证，并且云巨头通过API提供现成的服务NSFW+通过？宣传色情图片场景1：显式内容过滤网络犯罪场景2：人脸认证我爱你！人脸识别恶搞面部图片MATCH！941§（例如：，Google Cloud Vision [3]）。探测系统长期以来一直是网络犯罪分子躲避攻击的目标，这导致了新攻击和更先进防御之间的军备竞赛。为了克服深度学习在单个领域中的弱点，现实世界的CV系统倾向于采用不同检测机制的集合如图1、地下商家将网址等促销内容嵌入含有色情内容的色情图片中，用于非法在线广告或网络钓鱼。结合光学字符识别（OCR）和基于图像的外显内容检测的检测系统类似地，已知脆弱的人脸识别模型[32]通常由活性检测器保护，以在用于认证时击败欺骗的数字图像。这种集成机制在现实世界的CV部署中被广泛采用。为了逃避具有不确定底层机制的检测系统，攻击者转向生成在CV任务之间转移的对抗性示例。已经提出了许多增强可转移性的对抗性技术[38，36，23，13]。然而，它们中的大多数是为图像分类任务而设计的，并且依赖于特定于任务的损失函数（例如，交叉熵损失），这限制了它们在转移到其他CV任务时的有效性。为了提供强大的基线攻击来评估DNN模型在上述威胁模型下的鲁棒性，我们提出了一种新的简洁方法来生成对抗性示例，该示例跨广泛的CV任务类别进行传输，包括分类，对象检测，语义分割，显式内容检测以及文本检测和识别。我们的方法，称为色散还原（DR）和图中所示2，灵感来自于“对比度”对图像可感知性的影响由于降低图像的对比度会使对象难以区分，我们假设降低内部特征图的我们使用分散度作为特征空间中“对比度”的度量，它描述了内部层的特征图的分散程度。我们实证验证了分散对模型预测的影响，并发现减少内部特征图的分散会显著影响后续层的激活。Based on additional ob-servation that lower layers detect simple features [20], wehypothesize that the low-level features extracted by earlyconvolution layers share many similarities across CVmod-els.通过减少内部特征图的离散度，特征输出中的信息变得不可识别或无用，因此后续图层无法获得任何有用的信息，无论是哪种信息CV的任务就在眼前。因此，由特征空间中的分散减少引起的失真理想地适合于欺骗任何CV模型，无论是设计用于分类、对象检测、语义分割、文本检测还是其他视觉任务。基于这些观察，我们提出并构建了DR作为一种强基线攻击，以评估模型对黑盒攻击的鲁棒性，黑盒攻击使用简单且易于获得的图像分类模型（例如，、VGG-16、Inception-V3和ResNet- 152），其效果扩展到广泛的CV任务。我们对流行的开源检测和分割模型以及四个Google Cloud Vision API上的商业部署检测模型进行了评估：分类、对象检测、安全搜索和文本检测（见4）。ImageNet、PASCAL VOC 2012和MS COCO 2017数据集用于评估。结果表明，与最先进的攻击（MI-FGSM [13]，DIM [36]和TI [14]）相比，我们提出的攻击在不同任务中会导致模型性能下降。我们希望我们的发现能为安全关键应用程序中的真实CV部署敲响警钟，并且我们简单但有效的攻击将被用作评估模型鲁棒性的基准。代码可从以下网址获得：https://github.com/erbloo/drcvpr20.捐款. 我们的贡献包括：这项工作是第一个研究对抗性机器学习的跨任务攻击。被称为分散减少的拟议攻击不依赖于标记系统或特定于任务的损失函数。评估结果表明，所提出的DR攻击击败了最先进的攻击，降低了对象检测和语义分割模型的性能，以及四个不同的 GCV API 任务，由一个大的margin：52%降低mAP（检测）和31%降低mIoU（分割）相比，最好的基线攻击。代码和评估数据都可以在匿名的GitHub存储库中获得[1]。2. 相关工作对抗性示例[33，16]最近被证明能够在不同数据集上训练的模型之间转移，具有不同的架构，甚至是为不同的任务设计的[23，35]。这种可转移性激发了黑盒对抗攻击的研究。一个值得注意的策略，如[29，28]所示，是使用替代模型执行黑盒攻击，该替代模型通过蒸馏技术训练以模仿目标模型的行为。他们还展示了针对真实世界机器学习服务的黑盒攻击，···942·}不§·g=μ·μJ（x，y）g+t+1t′不原始对抗MI-FGSM的强度可以通过动量和迭代次数来控制动量多样输入快速梯度符号方法（DIM）结合了动量和输入多样性策略，以增强可转移性[36]。具体地，DIM在迭代FGSM的每次迭代中以概率p将图像变换T（）应用于输入，以减轻过拟合现象。更新过程类似于MI-FGSM，唯一的区别是将（1）替换为：x′= Clip{′真的X电话+1xxt+α·sign（符号）L（T（xt+1;p），y）（二）转移到Google Cloud Visionimage_label API图2：DR攻击的目标是特征提取器特定层的特征图的分散度。通过在VGG- 16模型的conv3.3处最小化离散度生成的对抗性示例也会扭曲后续层的特征空间（例如，，conv5.3），并且其有效性转移到商业上使用的GCV API。亚马逊和谷歌。另一个相关的研究，称为无梯度攻击，使用查询数据的反馈，即。，软预测[34，18]或硬标签[8]来构建对抗性示例。上述工作的局限性在于，它们都需要来自目标模型的（某种形式的）反馈，这在某些场景中可能不实用。最近，已经提出了几种方法来提高传输能力，通过研究攻击生成过程本身，我们的方法属于这一类。一般来说，迭代攻击[9，19，27]在白盒设置中实现了比单步攻击[16]更高的攻击成功率，但在转移到其他模型时表现更差。下面提到的方法通过改进优化过程或利用数据扩充来减少过拟合效应MI-FGSM 。动量迭代快速梯度符号方法（ MI-FGSM）[13]将动量项集成到攻击过程中，以稳定更新方向并逃避不良的局部最大值。更新过程如下：其中T（x′，p）是以概率p执行输入变换的随机变换函数。TI. 平移不变性（TI）[15]方法不是在单个点优化目标函数，而是使用一组平移图像来优化对抗性示例。通过近似，TI计算未平移图像x处的梯度，然后计算所有平移的梯度。这个过程相当于将梯度与由所有权重组成的核进行卷积。我们提出的方法与上述三种攻击之间的主要区别在于，我们的方法不依赖于特定于任务的损失函数（例如，交叉熵损失或铰链损失）。相反，它关注的是低级别的功能，这些功能可能与任务无关，并在不同的应用程序中共享不同的模型这在攻击者不知道目标模型的具体任务的情况下尤其重要。我们在4中的评估证明了我们的方法在几个不同的现实世界CV任务中产生的改进的可转移性。3. 方法为了根据目标模型构建AE，我们首先建立一个源模型作为代理，我们可以访问它。传统上，源模型是通过用目标模型标记的示例进行训练来建立的。也就是说，输入与从目标模型生成的标签配对，而不是与基础事实配对。通过这种方式，源模型模仿目标模型的行为。当我们针对源模型构造AE时，由于这种连接，它们很可能会转移到目标模型。在我们的框架中，虽然仍然需要源模型，但不需要训练新模型或查询目标模型的标签。相反，由于通过我们的方法生成的AE的强可移植性，预训练的公共模型可以简单地用作源模型。例如，在我们的实验中，我们使用预先训练好的"VGG-16、Inception-v3和Resnet-152，它们是公开的，xt+1= xt+ α符号（gt+1）′XtxJ（x，y）（一）作为源模型F。以f作为源模型，我们针对它构造AE。现有的攻击沿梯度方向扰动VGG-16模型conv2.3通过减少conv3.3的离散度生成对抗conv3.3conv5.3后续层的激活被扭曲1943′′′FFF不′····C·√C∞算法1分散归约攻击rect类为c，正确分类示例的logityc输入：分类器f，原始样本x，应该是最大的，即wca>>wia，对于ic，在哪里层k;扰动收支输入：攻击迭代次数T。输出：一个对抗性示例x′，其中<$x′−x<$∞≤<$1：过程DISPERSION REDUCTION 2：x0←x3：对于t= 0到T′−1，wi是W的第i行。这表明wc和a是高度对齐另一方面，假设我们的攻击旨在降低特征a的标准差。对应的对抗性示例x′导致扰动特征∂4：向前xt并获得层k处的特征图：f（x′）=a′<$a−α标准品（a）亚（七）Fk= f（xt）|中文（简体）5：计算k：g（k）6：计算其梯度w.r.t输入：xg（k）7：更新xt：x′=x′− <$xg（Fk）（4）=a−2α（a−a<$1）/（n−1Std（a））其中，α表示a上的扰动的大小，a′是a的项的平均值，1是每个项中有1的列向量。因此，由于对抗性扰动引起的logityc的变化基本上t tyc=−2α（wca−wc1a）/（n−1Std（a））8：将xt投影到x附近：=−2α（wa−nw<$a<$）/（n−1Std（a））（八）′电话+19：return xt+1=clip（x′，x−1，x+1）（5）= −2αn−1Cov（wc，a）/Std（a）0<如果我们将a和wc的每个条目视为样本，则Cov（wc，a）对应于这些样本的经验协方差。这表明，只要wc和a是任务特定损失函数J的定义，这不仅限制了它们的跨任务可转移性，而且还需要并不总是可用的地面实况标签。为了缓解这些问题，我们提出了一种分散减少（DR）攻击，它将寻找AE的问题正式定义为优化问题：ming（f（x′，θ））对齐，我们的攻击总是可以减少正确类的logit注意，α大约是磁场的乘积。x上的扰动的数值和f（）的灵敏度，因此，如果f（）是灵敏的，则logit的减少可能很大，这在实践中经常是这种情况。通常，yc可以是对任务有用的任何激活，其可以不是分类。只要y c 对于自然的例子来说是大的，表明某个特征是x′S.T. x′−x（六）检测到，它总是减少我们的攻击根据上述分析因此，我们的攻击对任务是不可知的，其中f（）是具有中间特征图的输出的DNN分类器，并且g（）计算离差。我们提出的DR攻击，在算法1中详细描述，采用多步骤方法，通过迭代地减少层k处的中间特征图的分散来创建AE。离散度描述了分布被拉伸或压缩的程度，并且可以有不同的离散度度量，例如标准差和基尼系数[26]。在这项工作中，我们选择标准差作为色散度量，由于它的简单性，并表示为g（）。为了解释为什么减少分散可能导致有效的攻击，我们提出了一个类似的论点[16]。考虑一个简化模型，其中f（x）= a =（a1，. - 是的- 是的，a n）是中间特征，并且y=Wa是仿射反式。特征的形成（为了简单起见，我们省略了偏置b），导致最终的输出logitsy=（y1，. . .，y k）n. 换句话说，我们将DNN 分类器分解为特征提取器f（·）和fine变换。如果核-X944损失函数4. 实验结果我们将我们提出的DR攻击与对象检测和语义分割任务（使用公开可用的模型）以及商业部署的GoogleCloud Vision（GCV）任务的最先进的黑盒对抗攻击进行了比较。4.1. 实验设置网络类型：我们考虑 Yolov 3-DarkNet 53 [30]，RetinaNet-ResNet 50 [21]，SSD-MobileNetv 2 [22]，更快R-C NN-ResNet 50 [31]、Mask R-CNN-ResNet 50 [17]作为目标对象检测模型，DeepLabv 3 Plus-ResNet 101[11]、DeepLabv 3-ResNet 101 [10]、FCN-ResNet 101[24]作为目标语义分割模型。所有的网络模型都是公开的，详细信息在附录中提供来源网络945PGDMI-FGSM昏暗TI-DIM DR-12DR-14PGDMI-FGSM昏暗TI-DIM DR-12DR-14PGDMI-FGSM昏暗TI-DIM DR-12DR-14地图地图×××--30 20 20 202515 15 152010 10 10155 5 5105 0 0 0步骤N(a) SSD-ResNet50步骤N(b) RetinaNet-ResNet50步骤N(c) 固态硬盘移动网步骤N(d) FasterRCNN-ResNet50图3：不同步骤N的DR攻击结果。所提出的DR攻击优于所有基线，即使从小步开始（例如，，N= 20）。50403020100(a) mAP/mIoU结果。21.510.50(b) STD.攻击前后[15]对于PGD、MI-FGSM和DIM，α= 1，N = 20。对于TI-DIM，我们将与所提出的方法使用的相同的超参数（α= 4，N= 100）应用于所有基线方法。对于MI-FGSM，我们采用默认衰减因子µ= 1。0的情况。对于DIM和TI-DIM，变换概率被设置为p= 0。五、4.2. 诊断图4：VGG16不同攻击层的DR攻击结果。我们看到，攻击中间层会导致性能下降，而攻击顶层或底层则会导致性能下降。同时，在攻击过程中，中间层的std下降幅度也大于上、下层。这促使我们可以通过查看攻击期间的std下降来找到一个好的攻击层用于生成对抗性示例的是VGG 16，Inception- v3和Resnet 152，其输出图像大小分别为（224 224），（ 299 299 ）和（ 224 224 ）对于 COCO 2017 和PASCAL VOC 2012数据集的评估，分别计算mAP和mIoU作为检测和语义分割的评估指标。由于使用不同标签系统（COCO / VOC）训练的不同模型不匹配，如果在PASCAL VOC数据集上测试COCO预训练模型，或者在COCO数据集上测试VOC预训练模型，则仅从COCO标签中选择与VOC标签对应的20个类。对于ImageNet上的评估，由于并非所有测试图像都具有真实边界框和像素标签，因此mAP和mIoU被计算为良性/干净图像和对抗图像的输出实施详情：我们将我们提出的方法与投影梯度下降（PGD）[27]，动量迭代快速梯度符号方法（MI-FGSM）[12]，多样输入方法（DIM）[37]和迭代不变攻击（TI）[15]进行比较。关于超参数，对于[0，255]中的像素值的所有实验，最大扰动被设置为λ= 16。对于所提出的DR攻击，步长为α= 4，训练步数为N=100。对于基线方法，我们首先遵循[37]中的默认设置，4.2.1训练步骤N的效果我们展示了使用不同数量的训练步骤攻击SSD-ResNet50 ， RetinaNet-ResNet 50 ， SSD-MobileNet 和 FasterRCNN-ResNet 50的结果（N= 20、100、500）基于MS COCO 2017验证集。我们还比较了所提出的DR攻击与多个基线，即PGD，MI-FGSM，DIM，TI-DIM。结果示于图3.第三章。与基于分类的转移攻击[13，36，14]相比，我们没有观察到所有测试方法的跨任务转移攻击中的过拟合。因此，我们可以使用更大的训练步长（N= 100），而不是使用N= 20（我们比较的基线攻击所使用的值），同时实现更好的此外，我们可以看到，我们的DR攻击在所有步长设置方面都优于所有最先进的基线。应该注意的是，DR攻击能够在N= 20时实现有希望的结果，并且使用20步的DR攻击的结果优于使用500步的基线方法的结果。这表明我们提出的DR攻击比基线具有更高的效率。4.2.2攻击层我们展示了基于PASCAL VOC 2012验证集的DR攻击对VGG16网络的不同卷积层进行攻击的结果图4a显示了Yolov3和更快RCNN的mAP，以及Deeplabv3和FCN的mIoU在图4b中，我们绘制了DR攻击前后的标准偏差（std）值以及变化。可以看出，攻击VGG16的中间层导致性能可比性相对于攻击顶层或底层的更高下降。同时PGDMI-FGSM昏暗TI-DIM DR-12DR-14Yolo-v3（mAP）DeepLabv3（mIoU）Faster-RCNN（mAP）标准品来源STD粘附标准品ΔmAP/mIoU地图STD.地图946−使用Val. COCO和VOC数据集图片YOLOv3DrkNetmAPRetinaNetResNet50mAPSSDMobileNetmAPFaster-RCNNResNet50mAPMask-RCNNResNet50mAPCOCO/VOCCOCO/VOCCOCO/VOCCOCO/VOCCOCO/VOCVGG16PGD（α=1，N=20）33.5/54.814.7/31.816.8/35.99.7/14.210.3/15.9PGD（α=4，N=100）21.6/38.77.2/14.67.9/18.24.9/6.45.7/9.7MI-FGSM（α=1，N=20）28.4/48.912.0/23.613.6/29.67.8/10.98.2/12.0MI-FGSM（α=4，N=100）19.0/35.05.8/10.67.0/19.14.4/5.0个4.8/7.1DIM（α=1，N=20）26.7/46.911.0/21.911.0/22.96.4/8.27.2/11.6DIM（α=4，N=100）20.0/37.66.2/13.06.5/14.94.1/5.0个4.6/6.7TI-DIM（α=1.6，N=20）25.8/41.49.6/17.410.4/19.96.5/7.57.4/9.2TI-DIM（α=4，N=100）19.5/33.47.7/13.17.5/16.74.0/5.24.8/6.6DR（α=4，N=100）（我们的）19.8/38.25.3/8.73.9/8.22.5/2.83.2/5.1InceptionV3PGD（α=1，N=20）46.8/67.523.9/51.825.2/47.427.0/45.727.5/48.7PGD（α=4，N=100）35.3/57.115.0/33.014.0/31.618.2/31.719.4/34.8MI-FGSM（α=1，N=20）42.0/63.920.0/44.320.9/43.522.8/39.323.7/42.9MI-FGSM（α=4，N=100）32.4/54.012.5/27.113.1/29.216.3/26.917.9/30.5DIM（α=1，N=20）32.5/54.512.9/27.513.9/29.714.2/24.016.3/27.7DIM（α=4，N=100）29.1/48.310.4/20.510.4/22.012.2/18.213.8/44.6TI-DIM（α=1.6，N=20）32.1/50.212.8/25.813.5/28.012.5/20.414.4/23.0TI-DIM（α=4，N=100）27.1/42.211.0/19.810.4/22.19.9/14.611.1/17.5DR（α=4，N=100）（我们的）24.2/45.18.5/18.99.0/19.58.3/14.39.8/17.0俄罗斯人152PGD（α=1，N=20）39.4/62.019.1/42.919.9/41.613.8/19.415.0/22.0PGD（α=4，N=100）28.8/51.512.2/25.911.2/24.48.2/11.38.8/13.9MI-FGSM（α=1，N=20）35.1/58.115.8/36.216.7/35.811.1/16.312.2/18.1MI-FGSM（α=4，N=100）26.4/48.211.2/23.59.9/21.37.0/9.58.2/11.4DIM（α=1，N=20）28.1/50.312.2/26.311.0/23.97.0/10.67.9/12.6DIM（α=4，N=100）24.7/43.28.8/19.47.8/16.15.1/7.16.2/10.3TI-DIM（α=1.6，N=20）27.9/45.611.7/21.711.3/22.56.8/8.77.5/9.9TI-DIM（α=4，N=100）22.3/36.79.0/15.88.7/19.15.0/6.65.7/8.2DR（α=4，N=100）（我们的）22.7/43.86.8/12.44.7/7.62.3/2.83.0/4.5表1：使用COCO 2017和VOC 2012数据集的验证图像的检测结果。我们提出的DR攻击在30种不同情况中的25种情况下表现最好，在所有实验中平均达到12.8 mAP。与最佳基线相比，它使mAP下降3.9倍（TI-DIM：16.7 mAP）。中间层的STD变化比顶层和底层大我们可以推断，对于初始层，预算约束损失函数以减小std，而对于输出附近的层，std已经相对较小，并且不能进一步减小太多基于这种观察，我们选择中间层之一作为DR攻击的目标。更具体地说，在下面的实验中，我们针对VGG16攻击conv 3 -3，针对inception-v3攻击A组的最后一层，针对ResNet 152攻击第二组瓶颈的最后一层（conv3 -8-3）。4.3. 开源模型实验我们将所提出的DR攻击与最先进的对抗技术进行比较，以证明我们的方法在公共对象检测和语义分割模型上的可移植性。我们使用Ima-geNet、VOC 2012和COCO 2017的验证集来测试对象检测和语义分割任务。对于ImageNet，从验证集中选择5000个正确分类的图像。对于VOC和COCO，确认中的1000张图像947集被选中。测试图像在github存储库中共享：分散减少测试图像[2]。COCO和VOC数据集的检测和分割结果分别见表1和表2ImageNet数据集上的检测和分割结果我们还在附录中包括所有数据集（包括ImageNet）的平均结果表。从表1和表2中可以看出，我们提出的方法（DR）在42个实验中的36个上实现了最佳结果，通过较大幅度地降低目标模型的性能对于检测实验，DRat- tack在30种不同情况中的25种上表现最好，并且对于语义分割，在12种不同情况中的11种上表现最好。对于检测，我们提出的攻击达到12.8 mAP平均在所有的实验。与最佳基线（TI-DIM：16.7 mAP）相比，其产生的mAP下降多3.9对于语义分割，我们提出的攻击实现了20.0所有实验的平均值都是mIoU。它实现与最佳基线相比，mIoU下降了5.9948标签(DIM：25.9mIoU）。为了总结附录中提供的ImageNet数据集上的结果，我们提出的方法（DR）在21个实验中的17个中获得了最佳结果。对于检测，我们提出的攻击在所有实验中平均达到7.4相对mAP。与最佳基线（TI-DIM：11.2）相比，其产生的相对mAP下降多3.8对于语义分割，我们提出的攻击实现了16.9所有实验的平均相对mIoU。与最佳基线相比，它实现了相对mIoU多4.8的下降（TI-DIM：21.7）。原始GCVAPI对抗性谷仓猫头鹰：99%脊椎动物：99%Turtle：84%bbox：[动物：77%bbox：[成人：可能Racy：可能成人：不太可能Racy：不太可能““““““图5：从测试集中选择的图像及其DR生成的相应AE的可视化。所有AE都在VGG-16 conv3.3层上生成，扰动被l∞≤16剪切，并且它们有效地欺骗了四个GCV API，如它们的输出所示。表2：使用COCO 2017和VOC 2012数据集的验证图像的语义分割结果。我们提出的DR攻击在12种情况中的11种情况下表现最好，在所有实验中平均达到20.0 mIoU。与最佳基线（DIM：25.9 mIoU）。4.4. 云API实验我们将所提出的DR攻击与最先进的对抗技术进行比较，以增强商业部署的Google Cloud Vision（GCV）任务1的可转移性：图像标签检测（标签）将图像分类为广泛的类别。1https://cloud.google.com/vision/docs对象检测（对象）检测图像中的多个对象及其标签和边界框。图像文本识别（文本）检测和识别图像中的文本，返回它们的边界框和文本记录。显式内容检测（SafeSearch）检测图像中的显式内容，如成人或暴力内容，并返回可能性。数据集。我们使用ImageNet验证集来测试标签和对象，以及NSFW Data Scraper [7]和COCO-Text [4]数据集分别针对SafeSearch和Texts进行评估。我们从每个数据集中随机选择100张图像进行评估，图1。5显示了我们测试集中的示例图像。请注意，由于API查询费用，无法对该部分进行更大规模的实验设置。为了生成AE，我们使用正常训练的VGG-16和Resnet-152作为我们的源模型，els，因为Resnet-152通常被MI-FGSM和DIM用于生成[36，13]。由于DR攻击针对特定层，因此根据表3中的分析结果和第2节中的讨论，我们为VGG-16选择conv3.3 ，为 Resnet-152 选择 conv3.8.3 。第 4.2.2条。攻击参数我们遵循默认设置在[13]中，当实施MI-FGSM攻击时，动量衰减因子μ= 1。对于DIM攻击，我们设置概率 p= 0 。 5 for the stochastictransformation function T (x; p) as in [36], and use thesame decay fac- tor µ = 1 and total iteration number N =20 as in the vanilla MI-FGSM.对于我们提出的DR攻击，我们不依赖于FGSM方法，而是使用Adam优化器（β1= 0. 98，β2= 0。99），学习率为5e-2，以减少目标特征图的离散度。最大对象安全搜索文本···隔离区使用Val. COCO和VOC数据集图片DeepLabv3ResNet-101mIoUFCNResNet-101mIoUCOCO/VOCCOCO/VOCVGG16PGD（α=1，N=20）37.8/42.626.7/29.1PGD（α=4，N=100）22.3/24.017.1/18.1MI-FGSM（α=1，N=20）32.8/36.222.7/25.0MI-FGSM（α=4，N=100）19.9/21.622.0/16.5DIM（α=1，N=20）30.3/33.215.5/22.4DIM（α=4，N=100）21.2/23.716.2/16.9TI-DIM（α=1.6，N=20）29.9/31.121.9/23.0TI-DIM（α=4，N=100）23.8/24.718.9/19.2DR（α=4，N=100）（我们的）17.2/21.812.9/14.4IncV3PGD（α=1，N=20）49.4/56.036.8/40.1PGD（α=4，N=100）37.1/41.326.1/28.3MI-FGSM（α=1，N=20）44.2/51.132.4/35.4MI-FGSM（α=4，N=100）33.7/39.124.0/35.4DIM（α=1，N=20）35.7/40.424.9/27.2DIM（α=4，N=100）30.4/33.921.3/22.3TI-DIM（α=1.6，N=20）35.3/37.026.4/27.7TI-DIM（α=4，N=100）29.0/29.822.5/23.5DR（α=4，N=100）（我们的）23.2/29.217.1/20.9Res152PGD（α=1，N=20）45.2/50.230.7/34.6PGD（α=4，N=100）31.5/35.121.6/24.0MI-FGSM（α=1，N=20）39.9/43.926.4/29.9·949≤模型攻击标签对象安全搜索文本acc.mAP（IoU=0.5）acc.AP（IoU=0.5）C.R.W2基线（SOTA）182.5%73.2百分百69.276.1%MI-FGSM百分之四十一42.6百分之六十二38.2百分之十五点九VGG-16昏暗百分之三十九36.5百分之五十七29.916.1%DR（我们的）23%32.9百分之三十五20.94.1%MI-FGSM百分之三十七41.0百分之六十一40.4百分之十七点四ResNet-152昏暗百分之四十九46.7百分之六十34.2百分之十五点一DR（我们的）百分之二十五33.3百分之三十一34.6百分之九点五1由于原始标签和Google使用的标签之间的不匹配，无法测量GCV模型的基线性能我们使用原始图像上的GCV预测结果作为地面实况，因此基线性能对于所有精度应为100%，对于mAP和AP应为100.0。在这里，我们提供最先进的性能[5，6，4，7]供参考。2正确识别的单词（C.R.W）[4]。表3：四个Google Cloud Vision模型的性能下降，我们攻击了一个错误，从左列中的角模型。我们提出的DR攻击将Lables和SafeSearch的准确率降低到23%和35%，对象和文本的mAP降低到32.9和20.9，文本的单词识别准确率仅为4.1%，优于现有的攻击。在实验中，所有攻击的扰动都受到在l∞= 16处的削波的限制，这对于人类观察者来说仍然被认为是较难感知的[25]。评估指标。我们只在单个网络上进行对抗性攻击，并在四个黑盒GCV模型上进行测试。攻击的有效性通过模型在攻击下的性能来衡量由于来自原始数据集的标签与GCV使用的标签不同，因此我们使用GCV API对原始数据的预测结果作为基础事实，这给出了100%相对准确度或100.0相对mAP和AP恢复的基线性能。结果我们在表3中提供了每个CV任务的最新结果作为参考。如表3所示，DR通过更大幅度地降低目标模型性能而优于其他基线攻击。例如，DR在VGG- 16模型上制作的对抗性示例将标签的准确率降低到23%，安全搜索降低到35%。使用DR创建的对抗性示例也将对象的mAP降低到32.9%，文本本地化的AP降低到20.9%，并且在识别单词时的准确率仅为4.1%。另一方面，像 MI-FGSM 和 DIM 这样的强基线在攻击SafeSearch时仅分别导致38%和43%的成功率，并且在攻击所有其他GCV模型时与DR相比效率较低。结果表明，分散减少攻击具有更好的跨任务可移植性。图5显示了每个GCV模型对原始和对抗示例的输出示例。Labels和SafeSearch的性能通过分类的准确性来衡量。更具体地说，我们使用top1accu- racy作为标签，并使用准确性来检测给定的色情图像作为可能或非常可能是成人的安全搜索。对象的性能由IoU=0.5时的平均精度（mAP）给出。对于文本，我们遵循IC-DAR 2017 Challenge [4]的双重评估方法我们使用IoU=0.5的边界框的平均精度（AP）来测量文本定位准确性，并使用正确识别的不区分大小写的单词（C.R.W）来评估单词识别准确性。当比较不同生成模型上的攻击有效性图2中的可视化。5表明，l ∞ 16的扰动图像很好地保持了与原始图像的视觉相似性，但欺骗了真实世界的计算机视觉系统。5. 讨论和结论我们提出了一种分散减少（DR）攻击，以提高对抗性示例的跨任务可转移性。具体来说，我们的方法减少了中间特征图的分散。与现有的黑盒攻击相比DR攻击背后的一个直觉是，通过最小化特征图的分散，图像变得这是因为如果通过扰动输入来抑制神经元激活，则可以检测到很少的特征（图11）。2）。此外，通过观察到低级别特征在CV模型中具有更多的相似性，我们假设当中间卷积层之一时，DR攻击将产生可转移的对抗性示例对不同CV任务的评估表明，与现有技术的攻击相比，这种增强的攻击大大降低了模型性能，因此将有助于规避针对不同任务模型或甚至基于CV的检测机制的集合的攻击。950引用[1] Githubrepositoryforourcode.https://github.com/ erbloo/dr_cvpr20. 2[2] Github 仓库为我们的评估数据。网址： http ：//github.com/erbloo/dr_images_cvpr206[3] Google Cloud Vision. 链接. 2[4] ICDAR 2017 COCO-Text上的强大阅读挑战链接. 七、八[5] ImageNet Challenge 2017. 链接. 8[6] Keras应用程序。链接. 8[7] NSFW Data Scraper. 链接. 七、八[8] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。arXiv预印本arXiv：1712.04248，2017。3[9] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。第1、3条[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。4[11] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Har

下载后可阅读完整内容，剩余1页未读，立即下载