基于深度学习动作识别模型的结构脆弱性

155 浏览量更新于2023-10-15 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7668请稍等：深度动作识别抗单帧攻击的结构脆弱性Jaehui Hwang，Jun-Hyuk Kim，Jun-Ho Choi，和Jong-SeokLee韩国延世大学集成技术{jaehui.hwang，junhyuk.kim，idearibosome，jong-seok.lee}@ yonsei.ac.kr摘要基于视频的动作识别任务近年来得到了广泛的研究。在本文中，我们研究了基于深度学习的动作识别模型的结构脆弱性，该模型使用一帧攻击来对抗对抗攻击我们的分析表明，模型非常容易受到一个插花正确标签+摄动⋯ ⋯时间帧攻击由于其结构特性。实验表明，该攻击具有较高的欺骗率和不明显的攻击特征。此外，我们表明，强通用的一帧扰动下，可以得到各种情况下。我们的工作提出了一个严重的问题，即最先进的动作识别模型在各个方面的对抗性脆弱性。1. 介绍近年来，由于基于大量计算资源和数据的基于深度网络的算法的发展，使用视频的人类动作识别已经得到了广泛的研究[6]。从网络设计的角度来看，动作识别的主要研究课题是如何对视频片段中的时间信息进行建模。关于这一点，已经进行了各种尝试，例如利用长短期存储器（LSTM）模块[3]或光流[1]，但是最近，基于3D卷积神经网络（CNN）的动作识别模型被广泛使用。为了提高基于3D CNN的动作识别模型的性能和效率，已经提出了时间维度上的各种机制，例如帧选择[4]和卷积运算[1，22，20]。许多研究人员已经发现了基于深度学习的算法在对抗所谓的对抗性攻击时的脆弱性，这种攻击向输入数据添加了不明显的扰动，以误导目标模型产生错误的输出。据报道，许多国家的最先进的深形象受攻击帧图1：针对易受攻击的帧的单帧攻击的整体示意图在只有一个攻击帧的情况下，目标动作识别模型将Kinetics-400 [8]中的给定视频错误地分类方法非常容易受到对抗性攻击[16]，并且可能引起严重的安全问题[5]。另一方面，关于基于视频的深度动作识别系统的易损性的研究并不多我们认为，在深层模型的动作识别的时间信息建模的方式有显着的影响模型的脆弱性，我们定义为结构脆弱性。虽然存在一些针对动作识别系统的对抗性攻击的尝试[23，14]，但它们没有充分考虑最近动作识别模型的结构脆弱性。因此，它们不完全满足成功的对抗性攻击应该满足的两个标准：1）实现高欺骗率，以及2）保持对抗扰动不可见以隐藏视频剪辑被攻击。Wei等[23]提出了一种只扰动视频片段的几帧的攻击方法，以减少计算资源并实现不明显性。然而，该方法仅以基于LSTM的模型为目标，并且依赖于LSTM的特定信息时间传播。因此，它在最新的基于CNN的动作识别模型上没有实现高欺骗率（参见表1）。对⋯ ⋯错误标签削苹果7669另一方面，Ponyet al. [14]提出了一种攻击方法，以找到随时间改变给定视频剪辑的整体颜色的闪烁扰动序列。然而，已知在时间维度上变化的伪影比空间伪影更容易被人类观察者检测到因此，这种对抗性攻击不足以满足第二个标准，即不显眼（见图7）。在本文中，我们发现了最近基于CNN的深度动作识别模型的结构脆弱性，据我们所知，这在以前还没有被探索过。使用此漏洞，我们还表明，仅在视频剪辑的单个易受攻击帧中的扰动可以显著降低深度动作识别模型的准确性，如图1所示。当目标视频剪辑具有30或25帧每秒（FPS）时，受攻击的帧仅显示33或40毫秒这项工作的主要贡献可以总结如下。• 我们使用三种最先进的基于CNN的深度动作识别模型研究了由深度模型的结构属性引起的漏洞，并研究了这些模型的哪些因素使它们极易受到对抗性攻击。我们表明，努力有效地模拟时间信息诱导的脆弱性问题。• 我们展示了所谓的一帧攻击的可能性在白盒攻击sce- nario的动作识别模型当我们的分析发现只有一个脆弱的帧被基于梯度的对抗性攻击方法干扰时，这种干扰可以轻松击败基于深度学习的动作识别系统。这种一帧攻击可以欺骗最先进的基于视频的动作识别模型，欺骗率几乎为100%。此外，这种对抗性攻击是不明显的，这是通过主观实验证明。• 我们进一步探讨视频不可知的通用扰动的基础上的一帧攻击。我们表明，普遍的扰动，这是从一个小数目的视频，可以影响其他输入视频剪辑具有高愚弄率。此外，一帧攻击可以有效地应用于时不变场景，其中扰动被添加到具有未知时间偏移的输入视频剪辑。2. 相关工作2.1. 动作识别近年来，随着深度学习技术的发展，动作识别的性能得到了显著的提高神经网络[1，3，4，7，15，19，20，22]。在早期的尝试中，CNN+LSTM结构[3]通过集成二维卷积层（已广泛用于图像相关任务）和针对序列数据的LSTM模型来实现高另一方面，已经提出了利用空间维度和时间维度两者中的特征的三维（3D）卷积层[7，19]。处理视频的另一种方法是同时使用两个CNN（称为双流网络），它们分别处理原始RGB帧（利用空间特征）和它们的光流（利用时间特征）[15]。这两种方法有时会结合起来，以进一步提高动作识别的性能[1]。近年来，已经开发了更先进的深度动作识别模型。广泛使用的方法之一是膨胀的三维（I3D）网络[1，22]，其是通过将卷积层的二维内核膨胀到三维的预训练图像分类模型的微调版本双流方法也已经被扩展到名为SlowFast [4]的方法，其采用具有不同时间分辨率的视频数据（即，帧速率）作为输入。最近关于动作识别的研究中的另一趋势是采用核因子分解（例如，交互减少的信道分离网络（ir-CSN）[20]）以降低计算复杂度。2.2. 对抗性攻击已经表明，基于深度学习的图像分类模型在白盒场景下极易受到对抗性攻击。Szegedy等人[18]提出了一种基于优化的攻击方法，以最小化可能改变给定模型的分类结果的输入扰动量。Goodfellow等人[5]开发了快速梯度符号法（FGSM），其根据从给定模型获得的梯度的符号来计算扰动。Kurakin等人[9]将FGSM扩展为一种迭代的FGSM（I-FGSM）方法，该方法虽然这些方法在给定输入图像的整个区域中发现扰动，但是Su等人（2005）在图 1中示出了扰动。[17]展示了单像素攻击的可行性，其试图找到仅一个像素的扰动来欺骗深度图像分类器。深度学习模型的脆弱性已经通过几种高级方法进行了进一步评估，而不仅仅是为每个输入图像找到扰动。Liu等[11]研究扰动的可转移性，即检查为一个模型发现的扰动是否也可以为另一个模型工作。Moosavi-Dezfooli等人[12]发现图像独立的通用扰动，可以应用于任何图像欺骗给定的分类器。7670·--×个联系我们联系我们~·联系我们.Σ2.3. 对抗性攻击动作识别针对动作识别模型的白盒对抗攻击的研究较少。Li等[10]发达通过采用生成对抗网络（GAN）对卷积3D（C3D）模型[19]进行对抗攻击。Wei等[23]提出了一种基于优化的方法来为基于LSTM的模型生成对抗性扰动。Pony等人[14]开发了一种方法，该方法改变给定视频剪辑中每个帧的整体颜色以获得闪烁扰动。然而，这些方法仅在传统的动作识别模型上得到了验证。此外，它们将扰动添加到给定视频的多个帧，这对于人类观察者来说可能是可见的。3. 结构易损性在本节中，我们将展示动作识别模型的结构脆弱性的存在。为此，视频序列的单个帧被I-FGSM [9]和均匀随机噪声扰动，并且针对每个帧检查识别性能。然后，我们分析是什么因素导致这种脆弱性。3.1. 分析方法使用I-FGSM。我们使用I-FGSM [9]来扰动帧，这是广泛使用的强对抗性攻击方法之一。该方法如下迭代地找到视频剪辑中的第i帧的扰动。设X0=X0（1），X0（2），…，X0（T）表示被目标动作识别模型M（）正确分类为y的原始视频剪辑（具有T个帧），即，M（X0）=y.攻击的目的是从X0中找到视频剪辑X的攻击版本，其中仅第i帧X0（i）被改变为包含不明显扰动的被攻击帧X（i）为了找到X（i），通过从先前迭代处的帧Xn（i）迭代地找到迭代n + 1处的对抗帧Xn +1（i）来应用I-FGSM更新规则：X~n+1（i）=1)、...、X0（T）}。我们预期当输入X时模型输出错误的预测（即，M（X）=y）。使用均匀随机噪声。我们使用[-64，64]内的均匀随机噪声作为扰动，将其注入到某个帧。这种类型的扰动进行测试，以了解结构的脆弱性。此外，由于生成随机噪声扰动在计算上是高效的，因此它可以用于识别给定动作识别模型的脆弱帧3.2. 实验装置数据集和模型。我们使用Kinetics-400 [8]，这是广泛使用的动作识别大规模基准数据集之一。从Kinetics-400的测试集中，我们为每个类随机选择十个视频。因此，总共选择了4000个视频来评估攻击方法的欺骗作为目标动作识别模型，我们考虑具有各种模型结构的三种最先进的模型，包括I3 D [22]，SlowFast [4]和ir-CSN [20]。这些模型在Kinetics-400数据集上显示出出色的识别性能我们采用MMAction2 [2]上提供的预训练模型，这是一个开源的存储库，为上述动作识别模型提供测试工具。在SlowFast模型的变体中，我们在MMAction2的实现中使用8 8实现细节我们使用各种超参数进行I-FGSM方法。为了攻击单个帧，我们将迭代次数设置为N三十五十一百扰动量为ε2，4，8，16。我们只报告了N=30的情况，根据经验发现这足以攻击目标模型。3.3. 动作识别模型的脆弱性图2和图3显示了三种模型的两种扰动的欺骗率令人惊讶的是，我们观察到存在脆弱的帧索引（或者，简单地说，脆弱的帧），其显示出比其他帧显著更高的欺骗率，特别是在I3D和Slow的情况.n.nΣΣ（一）快了我们还确认这些脆弱的帧是ob-夹子0，255X（i）+NsgnXn（i）J（X，y），定期服务具体地，I3 D和SlowFast在i∈ {3，7，11，15，19，23，27，31}处具有易受攻击的帧，并且Xn+1（i）= Clip−ε，ε（Xn+1（i）−X0（i））+X0（i），（2）其中ε调节要添加的扰动的量，sgn（）是符号函数，Xn⑴J（Xn，y）是损失函数J（Xn，y）的目标帧的梯度，并且裁剪a，b（X）=min max（X，a），b。（三）在 N 次迭代之后，通过 X=XN={X0 （ 1 ）， X0（2），…XN（i），X0（i+我1、5、9、13、17、21、25、29。IR-CSN模型没有显示出这样的趋势。相比其他在两个模型中，它总体上表现出相对较高的脆弱性这些观察结果在不同的ε值上保持一致。在易受攻击的帧中，I3 D、SlowFast和ir-CSN的最易受攻击的帧分别是第31帧、第29帧和第1帧。可以看出，即使加入均匀的随机噪声，最脆弱的帧7671i3D慢快ir-CSN×× ××× ×联系我们联系我们10.80.60.40.205 10 15 20 25 30帧索引(a) i3D10.80.60.40.205 10 15 20 25 30帧索引(b) 慢快10.80.60.40.205 10 15 20 25 30帧索引(c) ir-CSN图2：取决于帧索引的通过I-FGSM扰动单个帧的愚弄率。0.120.10.08帧Conv. 层（跨距2）时间0.06最大池化0.04（步幅2）0.0205 10 15 20 25 30帧索引(a) i3D时间图3：取决于帧索引的由均匀随机噪声扰动单个帧的愚弄率。帧可以被识别。请注意，虽然图3是使用所有视频剪辑获得的，但我们发现只有100个随机选择的剪辑足以发现最脆弱的帧。慢径(b) 慢快快径我们通过分析模型的结构特性来讨论这些有趣的观察结果的原因，如图4所示。I3D 如图4a所示，I3D模型[22]最初经由具有5的核大小的卷积层从给定视频剪辑中提取特征。77和时间步长2。然后，它们由具有1 3 3的内核大小和2的时间步幅的最大池化层处理。通过该过程，具有32帧的视频剪辑被收缩为八帧特征，即，有效时间步长变为4。并且，可能存在通过两层的不对称信息提取，即，当卷积层的权重在时间维度上具有不同的值时，该层的输出更多地依赖于特定帧处的信息，而更少地依赖于进入内核的五个的情况下在我们的实验中使用的预训练的I3D模型中，第一卷积层的权重的平均幅度被测量为0.01、0.01、0.02、0.03和0.10，这分别是0.01、0.01、0.02、0.03和0.10。图4：结构脆弱性说明用红框标记的帧对应于图2中示出高欺骗率的脆弱这意味着该层主要依赖于五个输入帧中的第五帧中的信息（由图4a中的粗线指示）。通过这两种机制（有效步长4和不对称信息提取），在i3、7、11、15、19、23、27、31处插入的扰动容易攻击模型（图4a中用红框标记的帧），而在其他帧处的扰动则不会。慢快。SlowFast [4]是一个双流模型，包括快速路径和慢速路径。由于快速路径使用所有32个帧，而慢速路径仅每隔四个帧占用一个帧，因此两个路径仅同时使用八个帧，这在图4b中用红框标记。我们发现，高度脆弱的帧（i1，5，9，13，17，21，25，29）完全匹配的两个路径使用的帧。其他帧⋯⋯⋯⋯⋯⋯⋯⋯愚弄率愚弄率愚弄率愚弄率7672源帧索引源帧索引一一一0.9五、五0.8100.7100.6十五十五0.5200.4200.950.80.7100.6150.50.4200.90.80.70.60.50.425305 10 15 20 2530目标帧索引(a) i3D0.30.20.1025305 10 15 20 2530目标帧索引(b) 慢快0.30.20.1025305 10 15 20 2530目标帧索引(c) ir-CSN0.30.20.10图5：每个模型中不同帧之间的可转移性。（x，y）处的值表示使用针对第y帧生成的扰动的针对第x红色和蓝色分别表示高值和低值仅通过快速路径进行处理，因此对这些帧的扰动不是很成功。注意，快速路径具有I3D的结构，但是与原始I3D不同，时间步长为1，因此上面观察到的周期性图案在这里不出现。ir-CSN 。我们研究中使用的 ir-CSN [20] 模型基于ResNet-152，它比使用ResNet-50的其他两个模型更深入。如上所述，ir-CSN模型在所有帧上相对脆弱;例如，当ε为16时，即使最低的欺骗率也为75.4%。第一卷积层和第一池化层中的步幅是1，因此所有输入帧在这些层中被均匀地处理。因此，与I3D和SlowFast不同，所有帧的漏洞都非常相似。还观察到，愚弄率在两个边缘帧周围增加，这似乎是因为零填充突出了边缘帧中的扰动。扰动的可传递性。我们使用I-FGSM研究了帧之间扰动的可转移性，即，为一帧生成的扰动是否也可用于另一帧位置以直接攻击模型。图5示出了存在显示出特别高的可转移性的成对的源和目标帧位置，并且可转移性模式根据动作识别模型而不同。对于I3D和SlowFast，在相对更脆弱的帧之间实现了高可传输性（如图2所示）。转移扰动的欺骗率仍高于均匀随机噪声攻击。这表明脆弱帧的扰动具有使模型错误操作的共同特征。此外，在I3 D和ir-CSN的情况下，存在相邻帧之间的相对高水平的可转移性。但是，在SlowFast中情况并非如此，因为一帧攻击联系电话：+86-21-88888888I3D [22] 0.83 0.95 0.99慢快[4] 0.73 0.90 0.96[20] 0.60 0.79 0.91联系我们1.000.980.97魏[23]0.810.720.68表1：三个动作识别模型上的单帧攻击和比较攻击方法[23]的欺骗率一帧攻击是用不同的ε值进行的。慢速路径不取所有相邻帧，而是仅取每第四帧。4. 针对单帧攻击的在第3节中，我们可以找到与动作识别模型的结构脆弱性相关的最脆弱的框架。在本节中，我们在白盒场景下执行单帧攻击，其仅将I-FGSM算法应用于最脆弱的帧，即，第31帧、第29帧和第一帧分别用于I3D、SlowFast和ir-CSN。我们根据两个标准来评估这种攻击的性能：1）欺骗率和2) 扰动的不明显程度。实验结果表明，通过利用模型的结构脆弱性，单帧攻击可以欺骗模型，与现有的攻击方法相比，具有较高的欺骗率和较高的不可见性。4.1. 愚弄率表1总结了每种情况下一帧攻击的欺骗率。该攻击对所有目标模型都实现了高欺骗率。特别是当ε等于或大于源帧索引7673× ∈{} ×联系我们联系我们联系我们KK8以上，欺骗率超过90%。即使ε小到2，欺骗率也超过60%。为了比较，我们实现了[23]中的攻击方法该方法的欺骗率低于一帧攻击的欺骗率，除了ir-CSN的情况下，其中的ε=2。考虑到一帧攻击，最多可达=16，是相当不显眼的(see第4.2节），[23]中的方法不能有效地捕获动作识别模型的脆弱性。这是因为它被设计为利用基于LSTM的模型的特定机制（时间信息传播）。4.2. 不显眼我们进行了一个主观测试，以检查一帧攻击的不显眼程度。我们使用4（视频的数量）4（2、4、8、16）3（目标模型的数量）=48个扰动视频。采用了15名参与者，这符合ITU-R BT.500-13建议[21]中主观测试所需的参与人数。我们的测试基于[21]中的双刺激损伤量表（DSIS）方法。换句话说，参与者观看原始视频和它的扰动版本顺序为三秒钟有了这些结果，我们可以确认一帧攻击的不明显性。5. 对通用单帧攻击的脆弱性在第4节中，一帧攻击发现每个视频片段的对抗性扰动，并降低识别模型的性能，显示了漏洞的风险。在本节中，我们研究了通用攻击的可能性[12]，这是为了找到一个视频不可知的扰动，可以影响目标动作识别模型的任何视频剪辑。此外，我们调查的可能性扩展的一帧攻击的时不变的通用攻击，假设一个实时的动作识别的情况。5.1. 攻击方法以与（1）和（2）描述的方法类似的方式获得视频不然而，代替每个视频剪辑的梯度，在符号函数中使用K个视频的平均梯度，即，KGn+1=1 ΣΣk=1i∈IJ（Xn，y）（4）换了然后，参与者回答他们是否注意到视频对之间的差异我们还包括原始视频对，以获得参与者的对于扰动帧及其原始版本的对重复相同的过程，其中一个图像的曝光时间被设置为两秒。为了比较，我们实现了针对高水平的不显眼性的闪烁攻击[14]，其中闪烁扰动被添加到所有帧以攻击视频剪辑，并且还评估了所得到的视频。图6显示了当我们设置2，4，8，16时I3D的扰动框架的示例。我们还提出了这些帧的检测率（当被视为图像时）和包含这些帧的视频（当被视为视频时）。参与者很容易发现，在框架中的扰动，为高值的因此，我们获得更高的检测率，当他们被视为图像比当他们被视为视频。图7示出了主观测试的总体结果。当被视为图像时，被一帧攻击扰动的帧相对容易被检测到，特别是对于大的ε值。图像的检测率随着ε的增加而增加，这是很自然的。然而，包含扰动帧的视频几乎未被检测到，显示出甚至低于相同原始视频对的错误检测率（“基线”）的检测率相比之下，闪烁攻击是容易检测的。其中，I是用于找到通用扰动的目标帧索引的集合，Xk（i）是第k个视频剪辑的第i个帧，并且yk是第k个视频剪辑的地面实况标签5.2. 实现细节为了找到普遍的扰动，我们考虑两个不同的框架集I：多个高度脆弱的框架的集合和仅最脆弱的框架的集合。我们设N=100，且ε32，48，64。注意，与视频特定扰动的情况相比，需要更大数量的迭代和更大的ε值来找到通用扰动，如在先前的研究中也提到的[14，23]。此外，找到通用扰动需要高计算复杂度，因为需要在每次迭代时从所有目标视频计算梯度。采用更大数量的视频来找到通用扰动花费更多时间，但是可以预期更高的欺骗率，因为从更多样化的视频中找到扰动为了检验这一点，我们改变视频的数量（K）以找到通用扰动，其中K100、200、500、1000、1500。为了测试通用扰动，我们从Kinetics-400数据集中随机选择另外1000个视频，这些视频与用于生成通用扰动的视频不同。每一个都有一个中间灰色的图像显示在两者之间，按照[21]。视频对的顺序随机KXk（i）7674联系我们原始帧 = 2 = 4 = 8 = 16检出率图像视频0.130.070.530.000.870.130.930.07图6：I3D的扰动的可见性和检测率，其中ε=2、4、8、1610.80.60.40.202四八一六并测量欺骗率。图8b示出了I3D和SlowFast的结果。示出了在第3.3节中发现的脆弱帧索引对于所转移的通用扰动也是高度脆弱的，即，通用扰动在脆弱帧之间是高度可传递的。对多个脆弱帧的攻击。虽然单帧攻击即使在仅利用最脆弱的帧时也可以找到强的通用扰动，但是可以使用图7：检测率方面的主观测试结果。“图像”和“视频”分别对应于被一个帧攻击扰动的图像帧和包含被攻击帧的视频剪辑被显示给参与者的情况。‘Baseline’ indi-cates5.3. 通用攻击攻击最脆弱的框架。我们首先从第3.3节中发现的最脆弱的帧中找到一个通用扰动（即，（4）中的I仅具有一个帧索引）。图8a示出了相对于K值的这种通用一帧攻击的欺骗率。结果表明，增加视频的数量通常有利于实现更高的愚弄率。当使用1500个视频时，对于每个目标动作识别模型，ε=32的攻击都达到了80%以上的欺骗率，表明通用的一帧攻击是可行的。泛微扰的可转移性。我们还研究了从最脆弱的框架中发现的普遍扰动的可转移性。为此，对于每个目标帧索引，我们添加相同的通用多个脆弱帧。为了评估这一点，我们使用在第3节中发现的所有脆弱帧（4）中的I具有多个帧索引）。图8c示出了当所发现的扰动被注入到最脆弱的帧时的结果。当与仅使用最脆弱帧发现的通用攻击的结果（图8a）相比时，该结果示出了从多个脆弱帧发现的例如，当采用500或1000个视频来找到通用扰动时，在图8c中的ε此外，即使当采用少量视频时，也可以发现足够强的普遍扰动。例如，当只有200个视频时，所有情况下的愚弄率在48，64超过90%被雇用。6. 抗时不变普适攻击我们还考虑了实时识别场景，其中视频数据被连续生成，并且视频剪辑被重复选择用于使用滑动窗口从生成的视频序列中识别在这种情况下出现了两个挑战。首先，可能没有足够的时间来生成特定于输入视频的扰动。因此，计算出图像视频基线闪烁检出率7675i3D慢快ir-CSNi3D慢快一一一0.80.80.80.60.60.60.40.40.40.20.20.200 500 1000的视频（一）05 10 15 20 25 30帧索引（b）第（1）款0电话：+86-021 - 88888888传真：+86-021 - 88888888的视频（c）第（1）款图8：通用一帧攻击的结果。(a)当每个视频剪辑的最脆弱帧被攻击时，相对于视频的数量的欺骗率。（b）使用1500个视频中的每一个的最易受伤害的帧找到的通用扰动到其他帧的可转移性，其中ε=48。(c)当使用每个视频剪辑中的多个脆弱帧来获得扰动时，相对于视频数量的愚弄率。10.80.60.40.20i3D慢快电话：+86-021 - 88888888传真：+86-021 - 88888888的视频接下来的32帧。这确保了P个扰动帧中的一个作为该过程的特殊情况，我们可以简单地扰动每L个帧中的前P个帧，例如，第一至第四、第三十三至第三十六等图9示出了该攻击相对于用于找到通用扰动的视频的数量的结果。当使用1000个视频时，所有情况下的欺骗率都超过70%。这证实了即使在具有挑战性的实时环境针对时不变通用攻击的场景图9：时不变通用攻击相对于视频数量的欺骗率需要使用先验来确保实时操作。其次，在被选择用于识别的视频剪辑与攻击者观察到的视频剪辑可以处理这种情况的攻击方法被称为时不变攻击[14]。在本节中，我们将研究通用单帧攻击作为时不变攻击的可行性。如第3.3节所示，I3D和SlowFast周期性出现易受攻击的帧。通过利用这一点，时间不变的通用攻击可以被设计为如下。令P表示脆弱帧的周期，并且L表示视频剪辑的长度，其对于I3D和SlowFast两者分别为4和32。然后，我们将预先计算的通用一帧扰动添加到每L个帧中的P个帧，该通用一帧扰动是通过在章节5.3中对多个脆弱帧进行攻击而生成的，使得P个帧中的每一个的帧索引对应于除以P时的不同余数。例如，第1、第10、第19和第24帧（当除以4时，其余数分别为1、2、3和0）被扰动，其被重复达同样值得注意的是，这里呈现的攻击比[10，14]中的现有方法更有效。它们需要考虑时间偏移的所有可能情况来生成扰动，这在所提出的攻击方法的情况下是不需要的。7. 结论我们深入分析了深度动作识别模型在对抗性攻击中的结构基于对给定视频片段中的单个帧的扰动结果，我们分析了该漏洞是由诸如卷积层和最大池化层中的步幅以及输入帧的不均匀使用之类的结构属性引起的。因此，我们证明了强大的一帧攻击的可能性，被发现是非常不显眼，通过主观实验。最后，我们研究了在各种攻击场景中发现具有高欺骗率的通用扰动的可能性。确认这项工作得到了人工智能研究生院计划（延世大学，2020-0- 01361）的支持。i3D慢快愚弄率愚弄率愚弄率愚弄率7676引用[1] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[2] MMAction2贡献者。Openmmlab的下一代视频理解工具箱和基准测试。github.com/open-mmlab/mmaction2，2020.[3] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第2625-2634页[4] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集，第6202-6211页[5] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。2015年学习表征国际会议论文集[6] Samitha Herath、Mehrtash Harandi和Fatih Porikli。深入到行动识别：一个调查。Image and Vision Computing，60：4[7] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence，35（1）：221[8] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal.人体动作视频数据集。arXiv：1705.06950，2017。[9] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。在2017年学习代表研讨会国际会议的会议记录中[10] Shasha Li ， Ajaya Neupane ， Sujoy Paul ， ChengyuSong ， Srikanth V Krishnamurthy ， AmitK RoyChowdhury，and Ananthram Swami.针对实时视频分类系统的隐形对抗扰动。网络和分布式系统安全研讨会，2019年。[11] Yanpei Liu，Xinyun Chen，Chang Liu，and Dawn Song.深入研究可转移的对抗性例子和黑盒攻击。在2016年学习代表国际会议论文集[12] Seyed-Mohsen Moosavi-Dezfooli ， Alhussein Fawzi ，Omar Fawzi，and Pascal Frossard.普遍对抗性扰动。在IEEE计算机视觉和模式识别会议论文集，第1765-1773页[13] Alexandre Ninassi、Olivier Le Meur、Patrick Le Callet和Dominique Barba。视频质量评估中考虑空间视觉失真的时间变化 IEEE Journal of Selected Topics in SignalProcessing，3（2）：253[14] Roi Pony Itay Naeh和Shie Mannor针对视频识别网络的空中对抗性闪烁攻击。在IEEE/CVF计算机视觉和模式识别会议论文集，第515-524页[15] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别在神经信息处理系统进展的论文集，第568-576页[16] Dong Su，Huan Zhang，Hongge Chen，Jinfeng Yi，Pin-Yu Chen，and Yupeng Gao.鲁棒性是准确性的代价吗？- 对18种深度图像分类模型的鲁棒性进行了全面研究。在欧洲计算机视觉会议论文集，第631-648页[17] Jiawei Su ， Danilo Vasconcellos Vargas ， and KouichiSakurai. 一个像素攻击欺骗深度神经网络 IEEETransactions on Evolutionary Computation，23（5）：828[18] Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna 、 Dumitru Erhan 、 Ian Goodfellow 和 RobFergus。神经网络的有趣特性。在2013年学习表征国际会议论文集。[19] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在Proceedings of the IEEE International Conferenceon Computer Vision，第4489[20] Du Tran ， Heng Wang ， Lorenzo Torresani ， and MattFeis-zli.使用通道分离卷积网络的视频分类。在IEEE计算机视觉国际会议论文集，第5552-5561页[21] 国际电信联盟。ITU-R BT.500-13建议：电视图像质量主观评定方法。2012年。[22] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议集，第7794-7803页[23] 魏星星、朱军、沙原、苏航。稀疏对抗干扰视频。在AAAI人工智能会议集，第33卷，第8973-8980页[24] 尹昭、陆羽。利用时间噪声评估视频质量在2010年IEEE多媒体和博览会国际会议论文集，第708-712页中

下载后可阅读完整内容，剩余1页未读，立即下载