没有合适的资源?快使用搜索试试~ 我知道了~
150540旋转一帧并欺骗DNN的旋转木马0Daksh Thapar,AdityaNigam印度理工学院曼迪0dakshthapar.github.io,faculty.iitmandi.ac.in/˜aditya0Chetan Arora印度理工学院德里0www.cse.iitd.ac.in/˜chetan0摘要0今天捕获的大部分视频都是从可穿戴摄像头拍摄的第一人称视频。与其他计算机视觉任务一样,深度神经网络(DNN)是大多数最先进的自我视觉技术的工作马。另一方面,众所周知DNN容易受到对抗性攻击(AA),这些攻击向输入添加不可察觉的噪声。已经展示了对图像和视频分析任务的黑盒和白盒攻击。我们观察到大多数AA技术基本上是向图像添加强度扰动。即使对于视频,同样的过程本质上也是对每个帧独立重复的。我们注意到,对于图像使用的不可察觉性定义可能不适用于视频,因为在两个连续帧中随机发生的小强度变化仍然可能是可察觉的。在本文中,我们提出了一个关键的新建议,即使用光流中的扰动来对视频分析系统进行AA。这种扰动对于自我视频特别有用,因为自我视频中本来就有很多晃动,再加上一点点,就可以使其高度不可察觉。总的来说,我们的想法可以被看作是在对抗性扰动中添加结构化的参数化噪声。通过将3D旋转添加到帧中实现我们的想法,我们发现使用我们的技术,与SOTAAA技术相比,可以在三分之一的查询中对自我活动检测系统进行黑盒AA。01. 引言0尽管在各种计算机视觉任务上取得了卓越的性能[3, 11, 12,33],深度神经网络(DNN)仍然非常容易受到不可察觉的对抗性扰动的影响[37]。对抗攻击(AA)的目标是在给定干净图像I的情况下,创建一个对抗性扰动P,将其添加到干净图像中,生成一个对抗样本Iadv = I +P,欺骗DNN模型产生错误的预测。由于目的是攻击系统,扰动应对人类来说是不可察觉的。0基于强度的噪声基于强度0扰动0迭代0优化0相机旋转0噪声0相机旋转0扰动0迭代0优化0干净的视频片段0基于强度的攻击。高SR,高ANQ0相机旋转攻击。0低SR,低ANQ应用0扰动0综合攻击。高SR,低ANQ0当前技术0提出的技术0图1.提出系统的简要流程。SR表示成功率,ANQ表示平均查询次数。成功的攻击需要高SR和低ANQ。对于给定大小为T×H×W×C的输入视频,其中T是帧数,H、W和C分别是每帧的高度、宽度和通道,基于强度的攻击需要预测T×H×W×C个参数。而我们提出的基于参数的扰动攻击,使用基于旋转的变换,只需要预测T×3个参数。这减少了预测参数的查询预算。几何变换是自然的扰动,不会破坏图像或视频的语义完整性。0最简单的设置是当对手完全访问模型(M),包括输入(X)/输出(Y)和精确梯度(G)时,可以简单地反向传播与所需(错误)输出相对应的损失,并使用它来指导输入中的扰动[16, 25,37]。这种设置被称为白盒攻击,但在现实生活中通常是不切实际的,因为无法完全访问模型。另一种设置是黑盒设置,当对手可以访问X和Y,但不能访问G时。在这种形式中,主要挑战是在没有访问G的情况下估计输入的梯度[6, 16,17]。AA技术的质量通常通过P的不可察觉性来确定,并且在黑盒攻击的情况下,技术需要找到多少个(X,Y)对来找到与特定I相对应的P。150550研究人员已经展示了对各种DNN模型在各种任务上的白盒和黑盒攻击[37]。此外,与我们的背景相关的是,当模型的输入是图像[16,17]或视频[20,49]时,攻击已经被展示出来。本文的重点是对视频分析(VA)系统进行黑盒对抗攻击。我们注意到,大多数针对VA系统的AA技术都是将黑盒流程从图像扩展到视频。视频被分解成帧,并通过在像素强度中添加随机扰动来创建对抗性示例。为了成功攻击,这些方法需要对目标模型进行大量查询。例如,[20]平均需要23K个查询来生成一个对抗样本。我们想强调的是,使用基于强度的噪声进行逐帧攻击不会协调连续帧之间的对抗扰动。虽然在单个帧中,少数个别像素的强度级别的变化可能是不可察觉的,但在播放为视频时,这种随机闪烁很容易被人类察觉到。本文的一个关键思想是对扰动进行参数化。参数化有两个优点:(1)更容易在帧内和帧间进行正则化,(2)通过仅估计少量参数,可以扰动大量像素,从而减少查询预算,这在黑盒攻击中是一个重要的考虑因素。虽然参数化扰动的思想是通用的,可以在各种环境中使用,但考虑到我们对视频的关注,我们将其用于对VA系统的攻击,更具体地说,是对自我中心VA系统的攻击。我们观察到,执行逐帧几何变换是在大量像素的强度级别上进行协调变化的最简单方法,跨视频的帧。变换将导致光流的变化,这是许多VA任务的重要线索。同时,执行逐帧几何变换可以保持帧内容的语义完整性,对人类来说是不可察觉的。0贡献:本文的主要贡献如下:01.我们建议添加新的参数扰动来对计算机视觉系统进行AA攻击。02. 对于VA系统,我们建议使用几何变换来实现这种参数扰动。03.我们提出了一种新颖的DNN架构,用于预测混合强度和几何扰动,可以成功欺骗VA系统进行黑盒AA攻击。04.我们对多个基准数据集和自我中心、第三人称视频的VA任务进行了详尽的实验,结果表明我们提出的架构优于SOTA技术,只需SOTA所需查询的三分之一即可欺骗DNN。02. 相关工作0对抗性攻击:Szegedy等人[37]已经表明,通过在原始图像上计算一个小的噪声,可以创建一个对抗性示例。Papernot等人[25]已经表明,通过转移本地训练网络的对抗性示例,可以对目标模型进行黑盒攻击。然而,这种技术仍然需要对目标模型的数据集和训练过程有所了解。自然进化策略已经在[16]中扩展为执行梯度估计。Ilyas等人[17]已经表明,时间和数据相关的先验可以减少黑盒攻击中的查询次数。Du等人[6]提出了基于元的方法,用于对图像分析模型进行黑盒攻击。然而,对于VA,攻击DNN的工作很少。据我们所知,目前还没有针对自我中心VA模型提出AA的方法。0对视频分析模型的对抗攻击:对于第三人称视频,Wei等人[44]研究了对抗扰动在视频中的稀疏性和传播性,以创建白盒攻击。Li等人[22]提出了生成对抗网络来合成视频分类DNN的对抗样本。Inkawhich等人[18]提出了一种类似于FGSM[10]的攻击方法,用于攻击双流视频分类器。Chen等人[4]在视频分类DNN中添加了一些伪帧来进行攻击。Jiang等人[20]提出了第一个黑盒视频攻击,他们使用ImageNet预训练模型为每个视频帧创建梯度,并通过使用自然进化策略进行了改进。最近的一些工作[45,47]只对少数选定的帧进行扰动,而不是整个视频。在[49]中,提出了一种基于运动的采样器,用于扰动视频中的每一帧。0第三人称视频分析:最近的第三人称视频动作识别方法使用了3D CNNs [2, 7, 19, 40, 43, 50]。3DCNNs将2D滤波器在时间维度上进行扩展,从视频中提取时空特征。由于早期的3D模型[19,40]很难训练,因此提出了许多后续的方法[2, 7, 31,41]。[34]中提出的双流方法结合了使用RGB图像的空间网络和使用光流输入的时间网络。光流信息在少样本视频分类中也被发现是有益的[51]。0第一人称视频分析:一些值得注意的普通自我中心视频分析工作包括佩戴摄像头者的活动和动作识别[1, 21, 28–30, 35,36,42],佩戴者凝视估计[15],时间分割[24]和视频摘要[32,46]。另一个独特的自我中心视频任务是识别拍摄视频的佩戴者。这个任务近年来引起了很多关注[7, 8, 13, 14, 23, 26,27, 30, 38, 39]。L = max(ly − maxk̸=y (lk), 0).(1)̸arg minVadv L(f(Vadv), y)s.t.dist(Vadv, V )max dist,(2)θ∗ = arg minθL(Pert(V, θ), y)s.t.θ 2k,(3)150560对抗视频片段0基于强度的噪声 相机旋转噪声0(结构噪声)0梯度估计0基于强度0扰动0梯度估计0相机旋转0扰动0迭代的PGD0(c)(d)0梯度组合0被迭代优化为下一个0使用DifferenceNet进行迭代0输入视频片段0迭代中的步骤(a)对强度噪声进行梯度估计(b)对旋转噪声进行梯度估计(c)梯度组合(d)0输入视频片段0噪声0(强度/结构)0应用噪声梯度估计器0黑盒0模型0查询0得分0扰动0(强度/结构)0梯度估计0图2.我们针对黑盒视频攻击的框架概述。迭代中的步骤编号如下:i)计算基于强度的噪声的梯度估计;ii)计算相机旋转噪声的梯度估计;iii)使用DifferenceNet组合梯度(提取I和Iadv之间的语义差异);iv)使用估计的梯度对视频执行迭代的投影梯度下降(PGD)优化。03. 提出的方法03.1. 梯度估计0我们考虑一个已经针对某个视觉任务进行了预训练的DNN模型f。该模型以一个视频V ∈ R T × H × W × C作为输入,其中T、H、W和C分别表示视频的长度、高度、宽度和通道数(每帧中的通道数)。假设一个视频分类模型,f的输出是一个标签y ∈ {1, ...,K},其中K是类别数。对抗攻击的目标是,在给定输入视频V的情况下,生成一个最小化损失函数的对抗视频Vadv:0这里 l 是与输入 V adv 对应的逻辑向量,l i 是向量的第 i个元素的值(对应于类别 i )。最小化 L会使模型对非目标对抗攻击的第二个最有信心的类别预测感到困惑。对于有目标的攻击,可以用相应类别的逻辑替换 max k �= y ( l k ) 。为了简化表示,本文中我们简单地使用 L ( V, y )代替 L ( f ( V ) , y ) 。选择对抗性视频 V adv 如下:0其中,l 为输入 V adv 对应的逻辑向量,l i 是向量的第 i 个元素的值(对应于类别 i )。最小化 L会使模型对非目标对抗攻击的第二个最有信心的类别预测感到困惑。对于有目标的攻击,可以用相应类别的逻辑替换 max k � = y ( l k ) 。为了简化表示,本文中我们简单地使用 L ( V, y ) 代替 L ( f( V ) , y ) 。选择对抗性视频 V adv 如下:0和查询数 ≤ Q。0我们可以使用任何由 θ ∈ R T × d 参数化的扰动来建模 Vadv ,其中 d 是 θ 的维度,使得 V adv = Pert ( V, θ )。这里的函数 Pert ( V, θ ) 将依赖于扰动的类型,并在第3.2 节中详细定义。为了生成对抗性视频 V adv,我们需要找到一个最优的扰动 θ � ,使得:0和查询数 ≤ Q。0这里 k 是允许的最大扰动。我们使用 ℓ 2 范数来约束 θ,但也可以使用其他合适的约束。l(g) = −⟨∇θL(Pert(V, θ), y), g∥g∥⟩,(4)g∗ = arg ming (l(g)).(5)∆ =�l(g + δr) − l(g − δr)δ�r,(6)l(g) = −⟨∇θL(Pert(V, θ), y),gg ⟩,(7)∆r,Pertcr(V, θ) = ∀i(Hi ∗ Vi),(9)150570对 θ的约束可以使用任何约束。上述扰动框架使我们能够推广对抗性攻击的加性、乘性或甚至一些复杂的不可微扰动。此外,它允许我们设计一个非常低维度的参数扰动 d,在有限的查询预算下更容易计算。黑盒对抗攻击的关键挑战是估计模型的梯度。这是因为在这种设置中,模型是不可访问的(除了输入、输出),并且用于生成 V adv 的梯度 � θL ( Pert ( V, θ ) , y ) 无法直接计算。因此,我们采用了[49]中建议的迭代优化策略来估计 �θ L ( Pert ( V, θ ) , y ) 。需要注意的是,对于迭代优化,我们只关心 � θ L ( Pert ( V, θ ) ,y ) 的方向,而不是其精确值,其中也包括幅度。因此,我们学习一个 R T × d 中的向量 g,其方向 ( g0∥ g ∥ ) 与 � θ L ( Pert ( V, θ ) , y ) 对齐。为了估计这样的 g,我们使用以下损失函数[17]:0这是 L 的方向导数的逆,沿着向量 g的方向。方向导数的逆提供了 g 的移动方向,以优化 l ( g )并接近所需的梯度 � θ L ( Pert ( V, θ ) , y ) ,如下所示:0为了计算 g � ,我们计算梯度 � g l ( g ) ,记作 ∆。我们通过两次查询估计期望,并应用真实采样[17]来获得:0d I ) 是高斯噪声,δ是一个小数,用于缩放损失变化的幅度。在两次查询估计中,r 向量充当 g 更新的方向候选项。我们在 r的方向和相反方向进行查询。这给我们一个标量,指示候选r 的好坏程度。我们相应地缩放 r 形成我们对 g的更新。最后,Eq. (4) 可以近似为[17]:0≈ − L ( Pert ( V, θ + ϵg ) , y ) − L ( Pert (V, θ ) , y )0其中 ϵ 是一个小的近似常数。代入等式(7)到等式(6)中,我们得到 GE ( V, y, θ, g ) 如下:0将等式(7)代入等式(6)中,我们得到 GE ( V, y, θ, g ) 如下:0= � L ( Pert ( V, θ + ϵg + ) , y ) − L ( Pert ( V, θ +ϵg - ) , y )0(8)其中 g + = g + δr 和 g - = g - δr 。03.2. 参数化噪声0从等式(8)可以观察到,为了估计梯度,我们使用了随机噪声(r)。对于基于强度的噪声,r in ∈ R T × H × W × C 用于估计梯度 g in ∈ R T × H × W × C[49]。这要求为对抗攻击估计 T × H × W × C个参数,这可能导致查询次数很高[49],使得这种攻击在实践中不现实。为了克服这些限制,我们提出了一种参数化噪声(相机旋转噪声 r cr),它可以适当地改变视频的几何特性以进行攻击。由于相机的旋转可以在欧拉空间中表示为一个3D向量,所以所提出的噪声 r cr ∈ R T × 3 仅需要预测 T × 3个参数用于对抗攻击。与基于强度的噪声相比,这显著减少了预测所需的查询次数。我们估计相机旋转梯度 g cr ∈ R T × 30从 r cr中使用梯度估计,如前一节所讨论的。这使我们能够找到一个新的扰动向量 θ ,其中每个帧的 θ i ∈ R 3 。回想一下,θ i对应于帧的3D旋转。我们使用3D旋转计算一个Homography,即 H i = K ∙ θ i K − 1 ,其中 K是相机内部矩阵(在我们的情况下假设为单位矩阵)。扰动可以应用于视频如下:0其中 V i 是视频 V 中的第 i 帧,� 表示使用 Homography Hi 对每个帧进行几何变换。为了确保扰动很小,我们将 r cr的幅度剪裁为 0.18弧度。我们观察到,在我们的实验中,使用参数化噪声可以显著减少渲染成功的黑盒攻击所需的查询次数,但以成功率为代价(参见第4.2节)。因此,我们建议使用可学习的组合参数将其与基于强度的扰动混合,如下一节所述。03.3. 梯度组合0为了解决使用参数化噪声成功率低的问题,我们提出了一种新颖的可学习梯度组合框架,适当地结合了基于强度和参数化的扰动。这种融合利用了视频中特定片段的时空特性。ˆV = Pertin(V, αγθin)Vadv = Pertcr( ˆV , α(1 − γ)θcr),(10)d = DifferenceNet(V, Vadv)γ = γ − σ�δdδγ�,(11)2 while arg max [f(V )] = y do3∆in = GE(V, y, θin, gin)// Eq 84∆cr = GE(V, y, θcr, gcr)// Eq 85gin = gin − η∆in// Grad.Update6gcr = gcr − η∆cr// Grad.Update7θin = θin − gin// Param.Update8θcr = θcr − gcr// Param.Update9ˆV = Pertin(V, θinγα)// Grad.Composition10Vadv = Pertcr( ˆV , θcr(1 − γ)α)// Grad.Composition11d = DifferenceNet(V, Vadv)12γ = γ − α × δdδγ13V = Vadv150580为了动态调整两种扰动的权重,并实现更低的查询。例如,如果两帧之间的运动非常小,基于强度的噪声可能更有效。然而,在物体或相机的大幅度时间运动的情况下,旋转噪声可能是有用的。我们提出了一种基于孪生网络的架构,名为DifferenceNet,用于预测每个帧的每个扰动的权重。0DifferenceNet:提出的DifferenceNet模型是一个3DCNN模型(使用I3D [2]流水线),用于计算输入视频(V)和对抗视频(V adv)之间的语义差异。DifferenceNet的任务是为语义上相似的视频提供较低的差异分数,否则为较高的分数。这是通过使用双重边界对比损失函数[48]对网络进行训练来实现的。网络在正对组(具有帧之间的相机旋转对应于实际视频)和负对组(具有帧之间的突然旋转)上进行训练。为了创建正对组和负对组,已生成了给定数据集 D中的帧之间的真实Homographies(H real)和随机/伪造的Homographies。对视频段 V 应用 H real、H rand ,我们得到(V p ,V n),构成正对组和负对组,分别为(�V,V p �),(�V,V n�)。最后,训练好的网络用于如下所述的梯度组合。0梯度组合:对于给定的输入 V,基于强度的扰动和基于相机的扰动被组合为:0其中, γ ∈ [0 , 1] T × 1 是组合参数, α是一个小常数。由于 γ 取决于( V, V adv)之间的语义差异,我们利用DifferenceNet来预测其值:0其中 σ 是一个小常数。03.4. 投影梯度下降0最后,我们利用投影梯度下降(PGD)将梯度估计及其组合转化为高效的对抗性示例优化(AEO)。我们在PGD的每次迭代中更新基于强度的扰动(Pert(V,θin)),基于相机的旋转扰动(Pert(V,θcr))和组合参数(γ)。完整的过程如算法1所示。0算法1:对抗性示例优化(AEO)0输入:原始视频 V ,其标签 y,用于更新对抗视频的学习率 α 。01 初始化 g in = 0 , g cr = 0 , θ in = 0 , θcr = 0 和 γ = 0 . 50输出:V adv04. 实验和结果0在本节中,我们提供了进行实验分析以验证所提方法的有效性的详细信息。我们从实验设置的细节开始,包括使用的数据集的详细信息,攻击的目标DNN模型,攻击设置和评估指标。最后,我们使用定量和定性实验展示了比较分析和消融研究。04.1. 数据集和评估0数据集:我们对三个视频任务进行视频攻击:使用Kinetics-400 [ 2 ]数据集的第三人称动作识别,通过Epic-Kitchens [5 ]数据集的第一人称活动识别,以及使用IITMD-WFP [ 38]数据集的第一人称佩戴者识别。Kinetics-400是一个大规模数据集,包含约300K个视频和400个类别。Epic-Kitchens是一个第一人称活动识别数据集,包含32个主体的55小时自我中心视频,其中包含主体执行的125个标记活动。IITMD-WFP数据集[ 38]包含从31个不同主体拍摄的3.1小时视频。该数据集在室内和室外场景下拍摄。0DNN视频分析模型用于实验:对于第三人称视频动作识别,我们遵循[ 49]的实验设置。我们选择视频动作识别模型I3D [ 2]作为我们的黑盒模型。对于在Kinetics-400上训练的I3D,我们使用ImageNet初始化的权重进行训练。对于第一人称活动识别,我们选择Kinetics-400V-Bad [20]4,04799.75ME-Sampler [49]2,71799.00Proposed1,25799.33150590数据集 方法 ANQ SR%0Epic-Kitchens V-Bad [20] 8,483 99.71 ME-Sampler[49] 7,326 100.00 提出的方法 3,564 100.000IITMD-FPR V-Bad [20] 5,480 94.67 ME-Sampler[49] 6,025 92.62 提出的方法 3,487 96.330表1.Kinetics-400,Epic-Kitchens和IITMD-FPR上的非定向攻击。被攻击的模型分别是I3D,Rolling-Unrolling LSTM和EgoGaitNet。0数据集 方法 ANQ SR%0Kinetics-400 V-Bad [20] 23,182 92.95 ME-Sampler[49] 11,120 94.67 提出的方法 6,234 95.820Epic-Kitchens V-Bad [20] 44,326 84.23ME-Sampler [49] 22,541 89.12 提出的方法 15,28391.560IITMD-FPR V-Bad [20] 34,382 82.19 ME-Sampler[49] 18,759 86.67 提出的方法 9,910 87.330表2.Kinetics-400,Epic-Kitchens和IITMD-FPR上的定向攻击。被攻击的模型分别是I3D,Rolling-Unrolling LSTM和EgoGaitNet。0我们选择Rolling-Unrolling LSTM[9]作为我们的黑盒模型。模型的预训练权重由作者提供。对于第一人称佩戴者识别,我们选择EgoGaitNet[38]模型。我们按照作者的建议执行训练过程,并使用提供的代码。0攻击设置[49]:我们在有限的查询下进行非定向和定向攻击。非定向攻击要求给定的视频被错误地分类为任何错误的标签,而定向攻击要求将其分类为特定的标签。我们按照[49]中的设置,从每个数据集的每个类别中随机选择一个视频。目标模型正确分类所有选择的原始视频。我们将像素归一化到0-1之间。我们将最大强度扰动限制为0.03,最大相机旋转扰动限制为0.18弧度,并将最大查询数限制为Q =60,000用于非定向攻击。对于定向攻击,我们选择最大强度扰动为0.05,最大相机旋转扰动为0.18弧度,并将最大查询数限制为Q = 200,000。如果一种技术是0数据集 方法 ANQ SR%0Kinetics-400 仅强度 3,569 99.0 仅旋转 1,067 38.19手动组合 1,884 62.50 提出的方法 1,257 99.330Epic-Kitchens 仅强度 8,238 100.00 仅旋转 3,286 62.81手动组合 4,467 79.67 提出的方法 3,564 100.000IITMD-FPR 仅强度 6,356 95.23 仅旋转 3,286 58.42手动组合 4,019 72.48 提出的方法 3,487 96.330表3.Kinetics-400,Epic-Kitchens和IITMD-FPR上的消融研究。被攻击的模型分别是I3D,Rolling-Unrolling LSTM和EgoGaitNet。0在这些约束条件下无法找到对抗性扰动时,我们记录其消耗的查询数为Q。0评估指标[49]:我们使用生成对抗性示例所需的平均查询数(ANQ)和攻击成功率(SR)作为比较的指标。ANQ衡量了在攻击所有视频时所进行的平均查询数,SR给出了在查询预算Q内的总体成功率。因此,较小的ANQ和较高的SR是可取的。04.2. 定量比较0非定向攻击:我们在表1中报告了我们提出的方法与SOTA的有效性比较。我们与V-BAD [20]和ME-Sampler[49]进行比较。据我们所知,这是唯一两个具有可用源代码的基于视频的对抗性攻击模型。我们看到我们的技术在SR方面达到了与SOTA相当的水平,同时查询预算只是其一小部分。我们还在表4中报告了每个被攻击模型的前5个性能最佳类别的比较性能。0定向攻击:我们在表2中报告了定向攻击的结果。我们还在表5中报告了每个被攻击模型的前5个性能最佳类别的结果。与非定向攻击类似,我们在这里也观察到了类似的SR性能,并且查询预算有了很大的改进。例如,在Epic-Kitchens数据集上,我们的方法只使用了15,283个查询,而V-BAD使用了44,326个查询,ME-Sampler使用了22,541个查询,改进了近3倍。即使对于Kinetics数据集,我们的方法也比V-BAD和ME-Sampler节省了16,948个和4,886个查询,并且达到了可比较的成功率。150600数据集 方法 类别1 类别2 类别3 类别4 ANQ 成功率% ANQ 成功率% ANQ 成功率% ANQ 成功率%0Kinetics-400 V-Bad [20] 4,618 99.54 4,975 99.57 4,857 99.83 4,573 99.85 ME-Sampler [49] 2,24699.32 2,554 98.71 2,794 98.68 2,825 99.46 Proposed 1,851 99.35 1,719 99.40 1,548 99.31 1,881 99.240Epic-Kitchens V-Bad [20] 8,421 99.61 8,156 99.72 8,195 99.70 8,711 99.86 ME-Sampler [49] 7,672100.00 7,914 100.00 7,574 100.00 7,057 100.00 Proposed 6,496 100.00 6,944 100.00 6,700 100.006,994 100.000IITMD-FPR V-Bad [20] 5,836 94.11 5,706 94.51 5,517 93.73 5,225 93.57 ME-Sampler [49] 5,720 92.535,661 91.34 6,566 91.77 5,970 91.06 Proposed 3,531 95.97 3,718 96.38 3,304 96.32 3,087 96.200表4. 针对Kinetics-400、Epic-Kitchens和IITMD-FPR中排名前4的类别的无目标攻击。被攻击的模型分别是I3D、Rolling-UnrollingLSTM和EgoGaitNet。0数据集 方法 类别1 类别2 类别3 类别4 ANQ 成功率% ANQ 成功率% ANQ 成功率% ANQ 成功率%0Kinetics-400 V-Bad [20] 23,059 91.74 27,234 93.14 25,735 93.47 20,838 93.15 ME-Sampler [49] 11,21795.24 11,181 94.62 11,329 95.27 10,959 93.51 Proposed 6,414 95.87 6,037 95.65 6,163 96.03 5,89495.930Epic-Kitchens V-Bad [20] 43,646 82.55 43,436 83.15 46,424 84.92 48,762 85.91 ME-Sampler [49]22,040 87.96 22,159 88.94 22,494 89.90 22,820 89.65 Proposed 15,037 92.34 15,071 91.49 15,11891.91 14,988 90.210IITMD-FPR V-Bad [20] 30,338 82.01 35,508 81.36 31,781 81.67 34,590 81.95 ME-Sampler [49] 18,55386.26 18,888 87.11 18,269 87.44 18,493 85.94 Proposed 9,908 87.23 10,471 87.81 10,337 87.92 9,90286.720表5. 针对Kinetics-400、Epic-Kitchens和IITMD-FPR中排名前4的类别的有目标攻击。被攻击的模型分别是I3D、Rolling-UnrollingLSTM和EgoGaitNet。04.3. 定性分析0我们在图3中展示了我们提出的框架与ME-Sampler[49]的定性比较分析。我们选择了每个视频的中间帧展示了三个视频段的分析结果。有关详细分析,请参阅补充材料。第一列显示原始帧,第二列显示使用ME-Sampler[49]攻击的帧,第三列显示使用我们提出的技术攻击的帧。我们还提到了每个帧成功攻击所需的查询次数。从图中可以看出,我们提出的框架与ME-Sampler类似,对视频帧产生了难以察觉的扰动。然而,我们提出的框架在成功攻击所需的查询次数上要少得多。04.4. 消融研究0基于强度与几何扰动的比较:我们进行了消融研究,以了解各种噪声的重要性。0我们的方法引入了基于强度和几何的混合噪声。在表3中,我们展示了仅使用一种噪声类型进行扰动时的结果。我们发现,仅使用基于强度的攻击需要更多的查询来生成扰动,而基于旋转的攻击则需要更少的查询,但成功率也较低。将两者结合在提出的框架中,可以在较低的查询预算下实现高成功率。0手动对比学习γ:通过使用DifferenceNet,我们的模型自动学习了组合基于强度和几何扰动的组成因子。在表3中,我们还展示了手动设置组合权重后的结果。可以看到,与几何扰动类似,该配置在低查询预算下实现了低成功率。自动学习组合权重可以获得最佳结果,从而验证了DifferenceNet的必要性。0γ的分布:我们模型的一个关键组成部分0.20.40.60.81.0composition parameter 0255075100125150175frequency= 0.55,= 0.11150610原始帧 被攻击的帧0ME-Sampler[49]0被攻击的帧0提出的框架0查询:6,723 查询:2,4610查询:5,327 查询:2,0830查询:5,976 查询:2,7420图3.所提出系统的比较性定性分析。详细分析请参见补充材料。第一列显示原始帧,第二列显示使用ME-Sampler[49]攻击的帧,第三列显示使用我们提出的技术攻击的帧。0合成参数的直方图0图4.Epic-Kitchens数据集上学习到的合成参数的直方图。γ的最小值和最大值分别为0.07和0.96。鉴于γ的这种变异性,需要可学习的梯度合成来进行成功的攻击。0是可学习的梯度合成框架,其中使用DifferenceNet学习合成参数γ。图4显示了在Epic-Kitchens数据集上学习到的合成参数的直方图。我们看到γ参数的分布类似于高斯分布。我们报告高斯的均值为0.55,标准差为0.11。γ的最小值和最大值分别为0.07和0.96。鉴于γ的这种变异性,需要可学习的梯度合成来进行成功的攻击。0非常小的运动0偏好强度噪声0标称运动两种噪声都被偏好0不良运动0偏好旋转噪声0图5.具有低、中和高γ值的视频。具有小的时空变化的视频,γ值较高。具有大的时空变化的视频,γ值较低。0γ的值(用于成功的攻击),手动梯度合成完全失败,正如我们在消融研究中所示(见表3)。0γ值与视频内容之间的关系:为了了解γ值与相应视频之间的关系,我们选择了一些具有低、中和高γ值的视频。这些视频的一些表示帧在图5中显示。我们观察到,具有小的时空变化的视频会导致较高的γ值。相反,大的变化会导致较小的γ值。这是可以预期的,因为在时空变化较小的视频中,强度噪声比几何噪声更有影响力。因此,所提出的框架通过学习一个较高的γ值来偏好强度噪声。05. 结论0黑盒对DNN进行视频分析的对抗性攻击利用了基于强度的噪声进行对抗扰动。然而,这种框架需要大量的查询来估计扰动。为了克服这个问题,我们提出了一种基于参数的噪声对抗攻击。它利用基于强度的噪声和相机旋转噪声来生成对抗性视频。梯度估计已经在两种噪声上进行,并使用可学习的新型梯度合成框架进行合并。我们已经展示了该框架在第一人称和第三人称视频分析任务上的有效性。06. 致谢0这项工作得到了印度政府DST项目编号T-138的部分支持。150620参考文献0[1] Bharat Lal Bhatnagar, Suriya Singh, Chetan Arora, and CVJawahar.无监督学习深度特征表示用于聚类自我中心动作。在第26届国际人工智能联合会议论文集中,页码为1447-1453,2017年。20[2] Joao Carreira and Andrew Zisserman. Quo vadis, actionrecognition? a new model and the kinetics dataset.在IEEE计算机视觉和模式识别会议论文集中,页码为6299-6308,2017年。2, 50[3] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.带有扩张可分离卷积的编码器-解码器用于语义图像分割.在欧洲计算机视觉会议(ECCV)上,页码801-818,2018年。10[4] Zhikai Chen, Lingxi Xie, Shanmin Pang, Yong He, and QiTian. 用于通用视频攻击的附加对抗帧.在IEEE/CVF冬季计算机视觉应用会议上,页码3199-3208,2021年。20[5] Dima Damen, Hazel Doughty, Giovanni Maria Farinella,Sanja Fidler, Antonino Furnari, Evangelos Kazakos, DavideMoltisanti, Jonathan Munro, Toby Perrett, Will Price, andMichael Wray. 扩展视角视觉:Epic-Kitchens数据集.在欧洲计算机视觉会议(ECCV)上,2018年。50[6] Jiawei Du, Hu Zhang, Joey Tianyi Zhou, Yi Yang, andJiashi Feng. 对深度神经网络的查询高效元攻击.arXiv预印本arXiv:1906.02398,2019年。1,20[7] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, andKaiming He. Slowfast网络用于视频识别.在IEEE/CVF国际计算机视觉会议上,页码6202-6211,2019年。20[8] Jessica Finocchiaro, Aisha Urooj Khan, and Ali Borji.第一人称视角的高度估计.在2017年IEEE冬季计算机视觉应用会议上,页码1142-1150,IEEE,2017年。20[9] Antonino Furnari and Giovanni Farinella.滚动展开LSTMs用于第一人称视频的动作预测.IEEE模式分析与机器智能交易,2020年。60[10] Ian J Goodfellow, Jonathon Shlens, and ChristianSzegedy. 解释和利用对抗样本.arXiv预印本arXiv:1412.6572,2014年。20[11] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn.在IEEE国际计算机视觉会议上,页码
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功