自注意力舞蹈：视频中异常检测的新视角

14 浏览量更新于2023-10-16 收藏 17.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1730通过自注意力舞蹈：对视频中异常检测的条件随机场的新视角0Didik Purwanto，Yie-Tarng Chen和Wen-HsienFang台湾科技大学，台湾，中华民国0电子邮件：{d10602806，ytchen，whf}@mail.ntust.edu.tw0摘要0本文提出了一种新颖的弱监督异常检测方法，该方法首先使用关系感知特征提取器从视频中捕获多尺度卷积神经网络（CNN）特征。随后，将自注意力与条件随机场（CRFs）相结合，作为网络的核心，以利用自注意力在捕捉特征的短程相关性方面的能力和CRFs在学习这些特征的相互依赖性方面的能力。这样的框架不仅可以学习演员之间的时空相互作用，这对于检测复杂的运动很重要，还可以学习它们在帧之间的短期和长期依赖关系。此外，为了处理特征的局部和非局部关系，我们开发了一种新的自注意力变体，通过考虑具有不同时间局部性的一组团。此外，考虑到特征的局部和非局部关系，我们考虑了一种对比多实例学习方案，以扩大正常和异常实例之间的差距，从而实现更准确的异常判别。模拟结果表明，新方法在广泛使用的UCF-Crime和ShanghaiTech数据集上具有优越的性能。01. 引言0异常检测旨在识别与正常行为不符的事件，并从一系列图像中确定异常事件发生的时刻。由于其广泛的应用，如犯罪检测[1]、智能监控[2]和暴力警报[3]等，异常检测引起了越来越多的关注。在现实世界的视频中检测异常可能具有一些困难，例如各种照明条件、多个摄像机角度、室内和室外条件以及类内和类间变化问题。此外，异常活动通常发生在短时间内。0图1：异常检测的挑战：（a）异常由演员之间的时空相互作用形成；（b）异常行为可能发生在短时间内。0由于许多常用数据集仅提供视频级别的注释，因此考虑了大量的弱监督异常检测算法。例如，Sultani等人[1]采用了多实例学习（MIL），将正常和异常样本与弱标记注释结合起来，以检测异常事件。Lin等人[3]使用双分支模块学习上下文信息。此外，Zhang等人[4]考虑了内部包损失，以最小化每个包中负实例之间的距离。为了更好地学习运动线索信息，一些最新的方法利用了深度运动特征[5,6]。例如，Zhu等人[5]提出了一种时序增强网络来建模运动感知特征表示。Liu等人[7]消除了背景信息的影响，以学习特定区域的异常。然而，[1,5,7]侧重于当前信息，并没有充分利用帧之间的时序依赖关系。最近，Zhong等人[2]采用了图卷积网络（GCN）来迭代地改进噪声异常标签。然而，这种迭代过程以性能为代价。Zaheer等人[8]提出了一种自我推理网络。 1740图2：所提方法的整体流程。0通过调用二进制聚类来减轻视频片段的噪声标签。最近，Zaheer等人[9]使用了一种正常抑制方案来防止批间相关性问题。Wu等人[10]将音频-视觉模态纳入到广泛使用的双流架构中。鉴于充分建模帧之间的时空结构关系的重要性，如图1(a)所示，其中“抢劫”事件是由“收银员”和“强盗”之间的动态交互形成的，本文提出了一种强大的弱监督异常检测方法。新方法首先使用一个关系感知特征提取器从视频中捕获多尺度卷积神经网络（CNN）特征。该提取器是著名的时序关系网络（TRN）[11]的扩展，具有多尺度分区和内积操作的使用，旨在提供更具辨别力的全局和局部特征及其短程相关性。随后，新网络的核心是将自注意力与条件随机场（CRFs）相结合，以利用自注意力在学习特征的短程相关性和CRFs在学习这些特征的相互依赖性方面的能力。条件随机场（CRFs）和自注意力的组合受到[12]的启发。然而，存在一些关键差异：i）我们的问题是弱监督学习，而[12]是监督学习；ii）构建的空间-时间图的节点，我们计算自注意力并进行CRF推理，是由一个新的关系感知特征提取器生成的，以捕获全局或局部区域中的异常；iii）我们同时学习节点之间的空间和时间关系，并考虑多个参与者节点的推理，以解释它们之间的多样关系，而[12]独立地建模了节点的空间和时间关系，如图3所示；iv）我们对自注意力的定义与[12]不同，通过采用具有不同时间局部性的一组团来学习复杂的运动及其短期和长期依赖关系。模拟结果表明，新方法在广泛使用的UCF-Crime和ShanghaiTech数据集上具有优越的性能。本文的主要贡献包括：i）我们提出了一种新颖的弱监督异常检测方法，该方法首先使用关系感知特征提取器从视频中捕获多尺度卷积神经网络（CNN）特征。随后，我们将自注意力与条件随机场（CRFs）相结合，以利用自注意力在捕捉特征的短程相关性方面的能力和CRFs在学习这些特征的相互依赖性方面的能力。这样的框架不仅可以学习演员之间的时空相互作用，这对于检测复杂的运动很重要，还可以学习它们在帧之间的短期和长期依赖关系。此外，考虑到特征的局部和非局部关系，我们开发了一种新的自注意力变体，通过考虑具有不同时间局部性的一组团。此外，考虑到局部和非局部关系，我们考虑了一种对比多实例学习方案，以扩大正常和异常实例之间的差距，从而实现更准确的异常判别。模拟结果表明，新方法在广泛使用的UCF-Crime和ShanghaiTech数据集上具有优越的性能。0我们开发了一种关系感知特征提取器，将TRN[11]与多尺度分区和内积操作相结合，生成显著特征；ii）我们将自注意力与CRF相结合，有效地学习视频中具有不同时间局部性的参与者的动态行为；iii）我们设计了一种有效的对比MIL方案，扩大了视频中正常和异常实例之间的差距。02. 相关工作0无监督异常检测。通过无监督学习方案（如优化单类分类模型、自编码器解码器[13,14]和基于生成对抗学习的特征重构[15]）可以捕捉视频中的异常事件。例如，Hasan等人[14]使用自编码器通过重构误差来捕捉异常事件。Yu等人[13]提出了一种对抗性事件预测方法，通过时间顺序的事件预测来检测异常。然而，由于正常样本的变化不足，这些方法可能会产生更多的误报[14]。时间推理。时间推理是从过去数据中学习信息以有益于当前检测和未来预测的重要问题，在计算机视觉中非常重要[16,17]。Santoro等人[16]使用关系网络来利用视觉问答任务中的先验信息。此外，Sermanet等人[17]考虑了时间对比网络，生成对象和参与者的关系特征，进行自监督学习的动作识别。注意机制。由于其有效的学习能力，注意机制已广泛应用于各种应用领域[18,19]。Zhao等人[18]提出了一种特征注意模块，用于增强低层次的空间特征和高层次的上下文，用于显著性检测。Zhang等人[20]将生成对抗网络与注意网络相结合，用于定位面部图像中的某些特定属性。Purwanto等人[21]使用自注意力更好地提取低分辨率视频中动作的长期时间依赖关系。图形模型。图形模型近年来受到了广泛关注[22,23]。例如，Si等人[23]使用注意力增强的图卷积LSTM网络来从骨架数据中捕捉动作。Li等人[24]将深度关系建模和特征学习相结合，从低维特征表示中检测人物。 1750图3：[12]和我们的工作之间空间-时间图的关键差异的示意图：(a)[12]独立地建模节点之间的空间和时间关系；(b)我们的工作联合学习它们。03.1. 总体方法03. 提出的方法03.1. 总体方法0为了参考，图2概述了所提出的工作，其中包括三个主要模块：第3.2节中的关系感知特征提取器，第3.3节中的自注意力CRF，以及第3.4节中的对比MIL方案。第一个模块，关系感知特征提取器，用于捕捉每个帧中检测全局或局部异常行为所必需的多尺度CNN特征。第二个模块是自注意力CRF，其中使用自注意力来捕捉特征的短程相关性，而CRF用于建模这些特征之间的相互依赖关系。最后，由于问题是弱监督学习，第三个模块将MIL与对比损失相结合，扩大了正常和异常实例之间的差距，从而实现更准确的检测。03.2. 特征提取0本节考虑了一种新的特征提取器，是TRN在[11]的扩展。TRN可以很好地学习和推理多个时间尺度上帧之间的时间依赖关系，并已应用于各种计算机视觉任务[11]。然而，TRN的输入是整个帧，对于其中出现的某些对象，无论是前景还是背景都被平等对待。因此，这对于异常检测问题来说是不足够的[25,26]。为了解决这个困境，我们在两个方面修改了TRN：首先，我们将每个帧分成多个尺度；每个分割的图像被称为图像块。根据分割的尺度，图像块对应于全局特征或局部特征，这些特征提供了一些有利于异常检测问题的特定区域内出现的对象的推理能力。0分别从卷积块的输出中获取全局特征和局部特征，全局特征对应整个帧的表示，而局部特征基于多尺度网格划分。这种多尺度图像块使网络能够更好地学习特定区域中的异常模式[25]。其次，为了充分利用相邻帧内对象之间的连接，其中异常可能相似，我们使用内积操作[27]，这是一种编码数据序列的有效方案[23,19]，以揭示图像块的短程相关性。具体来说，让网络的中间特征图为D ∈ RK × W × H ×C，其中K是视频的长度，C是通道的维度，W和H分别表示特征图的宽度和高度。内积γ(a, a′) =ψ1(da)Tψ2(d′a)现在用于决定相邻帧中特征图中位置a和a′之间的短期依赖关系，其中da，d′a ∈D分别表示位置a和a′处的特征，ψ1和ψ2是线性嵌入层。将位置a处的所有这些依赖关系收集起来得到[γ(a, 1), ∙ ∙ ∙, γ(a,KWH)]，它与中间特征图连接，然后通过与可训练权重相乘，将其转换为相应位置的标量注意权重，以重新加权卷积块的输出。为了降低复杂性，我们对图像块应用全局平均池化。然后将这些特征连接成B = [b1,1, ∙ ∙ ∙,bK,G]，其中bi,j表示第j帧中图像块i的特征，G是每帧中图像块的总数。因此，相应的图像块特征可以提供关于异常活动的丰富语义信息。03.3.自注意力条件随机场03.3.1 空间-时间图模型0时空图是一种有效的建模长期依赖性的方法，用于封装对象之间的动态交互[28, 29,30]，并学习短期依赖性以捕捉在短时间间隔内发生的异常事件，如图1所示。对于一个包含K帧的时间窗口，例如帧1到K，在每个帧中有G个图像块，我们可以建立一个完全连接的图G = {V, E}，其中V = {(i, j) | i ∈ {1, ∙ ∙ ∙, G}, j ∈ {1, ∙ ∙∙,K}}是节点的集合，每个节点对应一个图像块；E是连接图中每对节点的边的集合。每个节点(i,j)与来自第3.2节中的关系感知特征提取器导出的特征bi,j相关联。如图4所示，建立了一个空间-时间图，其中分区尺度为3，在每个帧中导致14个图像块。 + i,j ̸ ¯hτ i,j = hi,j = � τ ∈K wτ ¯hτ i,j , (4) 1760图4：空间-时间图的示意图，其中分区尺度为3，在每个帧中有14个图像块。0连接节点(i, j)与节点(i′, j′)的边的权重p(bi,j,bi′,j′)现在由相应节点特征之间的成对相似性分配：0p(bi,j, bi′,j′) = exp(θ1(bi,j)Tθ2(bi′,j′))，(1)0其中θ1和θ2是线性嵌入函数。通过这个函数，与彼此紧密交互的两个附近对象（如“强盗”和“收银员”）之间的关系将比与彼此无关的对象（如“强盗”和“食品柜”）之间的关系更强。03.3.2 条件随机场0由于异常可以由几个对象之间的时空交互形成，因此理解相邻帧中对象之间的内在关系对于异常检测至关重要[25]。因此，在此处调用具有图形建模和判别分类优势的CRFs来对跨帧的全局和局部特征之间的相互作用进行建模，以捕捉它们的上下文关系。考虑一组节点标签X = {0,1}，其中0表示正常模式的标签，而1表示异常模式的标签，以及一组随机变量z = {z1,1, ∙ ∙∙, zG,K}，其中zi,j是与节点(i,j)相关联的随机变量，并被赋予X中的一个标签。图可以通过在所有节点特征B上条件化的CRFs来学习，其可以由Gibbs分布P(z | B) = 1来描述0n(B) exp(−E(z | B))，其中E(z |B)表示标签分配的能量，n(B)是分区函数[31]。对于全连接CRF模型，总能量可以写成[32]0E(z | B) = �0i,j ϕu(z i,j | b i,j)0(i′,j′) � =(i,j) ϕp(z i,j, z i ′,j ′ | b i,j, b i ′,j′)，(2)0其中ϕu(z i,j | bi,j)是一元能量，即为为节点(i,j)分配标签的代价；ϕp(z i,j, z i ′,j ′ | bi,j, b i ′,j ′)是0通过考虑节点(i,j)与节点(i′,j′)之间的关系来计算为节点(i,j)分配标签的成对能量。然而，传统的CRFs不容易与CNN网络相结合[33]。此外，当异常事件涉及许多对象时，如拥挤场景中，非局部依赖关系没有得到充分利用，导致检测不准确。为了克服这些问题，我们将在下面讨论自注意力。03.3.3 新的自注意力0与卷积网络或RNN相比，自注意力可以直接与其他远距离位置的响应进行关联，而不会遇到梯度消失的问题。此外，与RNN相比，自注意力可以实现更快的计算，甚至使用更少的参数[34]。因此，我们利用自注意力来建模时空图中节点的关系，无论是局部的还是非局部的，如第3.3.1节所述。为了处理特征的短期和长期关系，我们考虑一组完整的子图，即具有不同时间局部性的团。如果团Cτj具有时间局部性τ，则它由连接帧j及其(τ-1)个相邻帧中的每对节点构成。注意，Cτj相当于一个(τG)-团[35]，两者都由τG个节点组成。当团具有较小的时间局部性时，它旨在强调相邻帧之间的短期依赖关系，而较大的团则可以突出节点之间的非局部连接。因此，如果我们将自注意力机制应用于将节点(i,j)与Cτj中的其他节点相关联，我们可以得到具有时间局部性τ的自注意力输出，¯ h τ i,j ∈ R 1 × F，如下所示[27]0� (i′,j′) ∈Cτj p(b i,j, b i′,j′) θ 3 (b i,j) , (3)0其中p(∙)是在(1)中定义的成对相似性函数，θ3是一个线性嵌入层[27]。为了利用特征的各种非局部关系，节点(i,j)的自注意力输出h i,j被定义为节点¯ h τ i,j, τ ∈K的自注意力输出的叠加，可以表示为0其中K是一组预设的时间局部性，wτ是可训练的标量权重。这些K个连续帧中所有节点的自注意力输出可以表示为H =[h1,1, ∙ ∙ ∙ , hG,K] ∈ RKG × C。3.3.4带有自注意力的条件随机场0鉴于上述自注意力的优势，我们利用它来弥补CRFs的不足之处。 eu i,j = fu( bi,j) . (5) For a more compact representation, the unary energy of all nodes, Eu = [ eu i,j , · · · , eu G,K] , can be computed by Eu = fu( B ) . Likewise, in light of the relational reasoning of graphs based on feature similarity in [22, 32], the total pairwise energy of assigning the same label to node ( i, j ) based on its correlations with all of the other nodes, ep i,j =� ( i′ ,j ′) ̸ =( i,j ) ϕp( zi,j , zi′ ,j ′ | bi,j , bi′ ,j ′) , can be modelled by applying the self-attention mechanism to the cliques with different temporal localities as follows ̸ ̸ 3.4. Contrastive Multi-Instance Learning 1770在第3.3.2节中，我们利用自注意力来建模节点之间的非局部关系，其中使用自注意力计算标签分配的总能量(2)。如[33]所述，将标签z i,j ∈z分配给节点(i,j)的一元能量可以通过调用线性前馈分类器fu(∙)来确定，该分类器将从第3.2节的关系感知特征提取器中得到的节点特征bi,j作为输入。为了更紧凑地表示，所有节点的一元能量E u = [e u i,j, ∙ ∙ ∙ , e uG,K]可以通过E u = f u(B)计算得到。同样，根据[22,32]中基于特征相似性的图的关系推理，基于节点(i,j)与所有其他节点的相关性，可以通过将自注意力机制应用于具有不同时间局部性的团来建模相同标签分配的总成对能量e p i,j = � (i′,j′) � =(i,j) ϕ p(z i,j, z i′,j′ | b i,j, b i′,j′) ，如下所示0epi,j =0(i',j') ≠ (i,j) u(zi,j, zi',j')ˆp(bi,j, bi',j')fp(e3(bi,j)),0(6)其中fp是一个线性前馈层[32]，将节点表示转换为标签预测；u(zi,j, zi',j')是兼容性函数，如[33,36]所述，可以由Potts模型决定，其中u(zi,j, zi',j') =1，如果zi,j ≠ zi',j'，否则等于0；我们还使用了ˆp(bi,j, bi',j')= �0i' ∈ Cτj wτp(bi,j, bi',j')[37]。为了减少（6）中的计算开销，我们还限制了基于一组预定团的成对能量的估计。同样，所有节点的总成对能量Ep = [εp1,1, ∙ ∙ ∙, εpG,K]可以简洁地表示为0Ep = fp(H)U, (7)0其中H是所有节点的自注意力输出，U是一个对称矩阵，可以训练以提供数据相关的惩罚[33]，因此可以为具有相似属性的节点对分配相同的标签而产生低成本。通过均场推理可以最小化标签的总能量。03.3.5 均场推理0接下来，我们通过均场推理来近似标签的Gibbs分布，使用所有节点的独立边缘分布的乘积表示，W(z) = �0i,j W zi,j，其中W zi,j由一元能量和成对能量决定[37]：0W zi,j = 0Zi,j exp(−(eu i,j + ep i,j)), (8)0算法1 自注意力CRF的均场推理0输入：B，max_iter � 节点特征，迭代次数输出：ˆE � 所有节点的边缘分布 1: l = 0 2: Eu ← fu(B) �计算一元能量 3: E ← 104: ˆE ← softmax(E) 5: while l ≤ max_iter do 6: Ep ← fp(H) � 计算成对能量 7: Ep ← EpU � 兼容性变换 8:E ← ˆE - Ep � 一元能量相加 9: E ← 1010: ˆE ← softmax(E) � 更新边缘分布 11: l ← l + 1 12: end while0其中Zi,j是归一化常数[37]。与将CNN核叠加以修正边缘分布的常见推理方案[33, 36,38]不同，我们考虑了一种新的均场推理算法，该算法通过将均场推理视为自注意力网络，学习了节点之间的非局部关系。新均场推理中的总迭代次数总结在算法1中，其中边缘分布ˆE首先由一元能量Eu在步骤3中初始化，其元素eui,j通过将每个节点特征bi,j通过线性变换fu(∙)（5）得到。在每次迭代中，通过在步骤6中进行消息传递，得到成对能量Ep，该步骤将线性变换fp(∙)应用于第3.3.4节中得到的自注意力输出H。然后，在步骤7中，通过将Ep乘以U进行兼容性变换，其中U是一个可训练的矩阵，用于学习不同节点的二进制标签分配的相关性。随后，在步骤8中，通过减去一元能量来细化边缘分布，然后在步骤9中进行归一化。最后，在步骤10中，通过使用softmax层[33]获得边缘分布。收敛后的ˆE被视为最终的边缘分布。0由于大多数常用的基准测试只有视频级别的注释，我们利用了MIL，该方法已被证明可以有效地从正常和异常样本中学习异常-正常的规范，而且是在弱监督的方式下进行的[39]。为了训练一个MIL模型，我们使用H中的向量hi,j，每个向量对应一个正常或异常样本。接下来，将正常和异常样本分别聚集为负样本集Bn和正样本集Bp。然后，使用回归神经网络训练一个MIL模型fs，通过fs(hi,j)来为每个hi,j生成异常分数vi,j。然而，传统的MIL[1]在这个问题上有两个主要限制：i）它没有考虑到时间上下文的潜在关系。 Ltotal = Lbn + α1 Lsp + α2 Lts + Lcs , (9) Lcs = ( Bp . Bn )2 ( i,j ) , ( i ,j ) || hi,j − hi′ ,j ′ ||2 2 , 4.3. Ablation Studies Impact of Each Module. We investigate the detection performance using different combinations of modules, as shown in Table 1, from which we can see that the proposed relation-aware network surpasses TRN by 1% and 0.42% on the UCF-Crime and ShanghaiTech datasets, respectively. This is because the new relation-aware feature extractor can learn the fine-grained information, which is essential to de- tecting the abnormal behaviours of small objects. We can1780异常事件；ii）大多数视频由正常事件组成，而异常事件仅发生在少数片段中，导致检测不准确[ 5]。基于此，我们考虑了一个新的损失函数，将对比损失与传统的多实例学习（MIL）[ 1]相结合。新的损失函数不仅计算了hinge损失，还考虑了一些上述讨论的限制，具体形式如下：0其中L bn是基于所有样本ˆE的边际分布的二元交叉熵损失[ 7]，该样本是通过第3.3.5节中的均场推断获得的；L sp和Lts分别表示稀疏性和时间平滑损失[ 1]，基于异常事件在视频中很少发生的假设，用于平滑相邻视频段之间的异常分数，并且α 1，α2是平衡参数。最后一项L cs是对比损失。与[ 40]基于复杂的数据增强来有效学习各种图像表示不同，我们的对比损失旨在扩大B n和B p的嵌入之间的距离，可以表示为：0(10)其中| B p |和| B n |分别表示正样本和负样本的基数，||h i,j − h i ′ ,j ′ || 2是两个样本h i,j和h i ′ ,j′之间的欧氏距离。04. 实验结果04.1. 数据集和评估指标0UCF-Crime [ 1]。这个数据集是一个大规模的异常检测数据集，包含了1900个视频，通过室内和室外的闭路电视摄像头在白天和黑夜的场景中捕捉到了13种类型的异常事件。这些活动包括虐待、逮捕、袭击、射击、纵火、偷窃、爆炸、道路事故、入店行窃、打斗、抢劫、破坏和入室盗窃。ShanghaiTech [ 41]。它包含了437个视频，时长从15秒到一分钟以上，涵盖了各种情况和照明条件，如复杂的光照条件和多个摄像头角度，在室外位置由闭路电视摄像头记录。评估指标。模拟主要遵循UCF-Crime [ 1 ]和ShanghaiTech [ 2]提供的协议。我们通过基于接收器操作特征曲线的面积（AUC）来量化检测性能[ 42]。此外，我们还使用误报率（FAR）作为另一个指标，其中模型仅在正常视频上进行测试，阈值为0.5% [ 1 ]。0图5：使用新的自注意力CRF前后的热图可视化(a)。04.2. 实现细节0我们使用TRN [ 11]作为我们的主干架构，使用预训练的ResNet-50模型 [ 43]，动量、权重衰减和基础学习率分别设置为0.9、0.0005和0.0001。使用SGD优化器来优化这个网络。对于UCF-Crime，使用[ 44]中的预热学习率在前10个epoch中使用，然后线性增加到基础学习率以解决过拟合问题。dropout设置为0.8，并且调用部分批归一化策略[ 45]来训练模型。UCF-Crime和ShanghaiTech的训练分别进行了100和225个epoch。批大小分别设置为18和16。分区比例设置为3，每个帧中有G =14个图像块，对每个图像块应用全局最大池化以降低构建图模型的复杂性。动态停止策略用于确定每个视频在均场推断中的适当迭代次数。对比MIL使用Adam优化器进行训练，权重衰减为0.00001，批大小为32，训练50个epoch。学习率设置为0.0001。α 1和α2设置为8e−5。对于UCF-Crime，我们主要遵循[ 1]提供的评估协议，而对于ShanghaiTech，我们采用[ 2]提供的二分类分割集。 Table 1: Comparison with different combinations of modules. The best results are bold-faced. TRN Relation-aware network Self-Attention CRF Contrastive Loss Datasets UCF-Crime ShanghaiTech ✓ - - - 81.52 95.01 - ✓ - - 82.43 95.43 - ✓ ✓ - 83.89 96.67 - ✓ ✓ ✓ 85.00 96.85 Table 2: Performance comparison using different sets of cliques in deciding the new self-attention. The best results are bold-faced. Number of Cliques Datasets UCF-Crime ShanghaiTech {1} 83.03 95.32 {1,2} 83.42 95.84 {1,2,4} 84.06 96.36 {1,2,4,6} 84.98 96.83 {1,2,4,6,8} 85.00 96.85 also notice that by employing our self-attention CRF to model the dynamic behaviours of the global and local ab- normal features with multiple scales of temporal locality, the detection performance can be further enhanced by 1.4% and 1.1% on UCF-Crime and ShanghaiTech, respectively. Finally, with the use of the new contrastive loss, the per- formance can be further boosted by 0.18% to 1.01% due to its capability to broaden the gap between the normal and abnormal samples in weakly supervised training. To further demonstrate the effectiveness of the combina- tion of self-attention and CRF, we also provide the heatmaps before and after employing this new scheme, as shown in Fig. 5, from which we can see that by employing the pro- posed self-attention CRF, dynamic behaviours of the mul- tiple actors involving in anomaly events can be more pre- cisely identified. Impact of the New Self-Attention. Next, we examine the performance of the proposed method using different sets of cliques, C τ j , in the computation of the new self-attention, as shown in Table 2, from which we can note that the per- formance improves incrementally by using a set contain- ing more cliques. This is because with more cliques the self-attention can more substantially highlight the local and non-local relations between the two actors to render more precise detection performance. 4.4. Performance Analysis To provide further insights into our approach, we also provide some successful and failure detection results, as shown in Figs. 6 and 7, respectively. For UCF-Crime, which contains more involved action scenarios, we can see from Fig. 6(a) that our approach can well detect hu- man anomaly activity such as ‘ Shoplifting ’. However, our method cannot well distinguish a man approaching the car from the incidence of the arson, as shown in Fig. 7(a). This is because the dark situation resulting in a substantial loss of visual information. For ShanghaiTech, which mostly con- tains small objects in outdoor scenarios, we can observe Table 3: Comparison with the state-of-the-art works on the UCF- Crime dataset. The best results are bold-faced. † indicates use op- tical flow, ⋄ uses two-stream network, while others only use RGB. Supervision Method Source Backbone Performance AUC FAR Unsupervised Hasan et al. [14] CVPR16 - 50.6 27.2 Sun et al. [46] MM20 TCN 72.7 - Yu et al.⋄ [13] TNLSS21 3DCNN 81.84 - Fully supervised Liu et al. [7] MM19 NLN 82 - Weakly supervised 75.41 1.9 78.28 - Hao et al. [6]⋄ 78.51 - 78.66 - Zhu et al. [5]† 79 - 79.54 - 82.12 0.1 82.44 - 83.03 - 85.00 0.024 60.85 - 71.2 - Yu et al. [47]⋄ 74.48 - 83.5 0.1 84.16 - 84.44 - 89.67 - 91.24 0.27 Hao et al. [6]⋄ 94.2 - 96.85 0.004 1790Sultani等人[1]0CVPR18 C3D0Lin等人[3]0AVSS19 C3D0SCN20 ResNet0Zhang等人[4]0ICIP19 TCN0BMVC19 I3D0Zaheer等人[8]0SPL21 C3D0Zhong等人[2]0CVPR19 TSN0Wu等人[10]0ECCV20 I3D0Zaheer等人[9]0ECCV20 C3D0关系感知0表4：与ShanghaiTech数据集上最新方法的比较。最佳结果以粗体显示。�使用双流网络，而其他方法仅使用RGB。0监督0方法0源骨干0性能0AUC FAR0无监督0Hasan等人[14]0CVPR16 -0Gong等人[15]0ICCV19 -0MM20 -0弱监督0Zhang等人[4]0ICIP19 TCN0Zaheer等人[8]0SPL21 C3D0Zhong等人[2]0CVPR19 TSN0Zaheer等人[9]0ECCV20 C3D0Wan等人[48]0ICME20 I3D0SCN20 ResNet0关系感知0从图6(b)可以看出，“汽车经过”可以被很好地检测到。另一方面，如图7(b)所示，由于摩托车在视频开始时距离监控摄像头较远，外观变得不清晰，因此提出的方法只能在摩托车靠近摄像头时检测到异常活动。04.5. 与最新方法的比较0本小节将提出的方法与UCF-Crime和ShanghaiTech数据集上的主要最新方法在AUC和FAR方面进行比较。对于UCF-Crime，我们的比较如表3所示，从中我们可以看出，除了[13]之外，基于无监督的方法[14,46]通常由于缺乏各种训练数据而提供较差的性能。[13]的性能通过使用由3DCNN模型提取的过去和未来帧学习的时间数据得到提升。[7]是一种完全监督的方法，通过使用一个异常引导网络来学习异常模式，提供更好的性能。对于弱监督方法，我们可以注意到[3]通过使用双分支网络有效地学习视频帧之间的语义信息，比[1]获得更好的性能。类似地，[6]通过考虑一个双流网络来更好地学习运动线索信息，获得了轻微的改进。[4]和[5] 1800图6：(a) UCF-Crime和(b) ShanghaiTech数据集上的成功案例。红色方块表示异常的真实情况，蓝线表示随时间变化的异常分数。0图7：(a) UCF-Crime和(b) ShanghaiTech数据集上的失败案例。红色方块表示异常的真实情况，蓝线表示随时间变化的异常分数。0可以通过建模运动感知特征获得稍微更好的检测性能。[8]通过利用自我推理网络减轻异常数据中的噪声标签，提升了[4,5]的性能。[2]通过使用图卷积网络迭代地改进输出的检测标签，获得了相当大的提升。[10]通过一个整体模块利用长期时间依赖

下载后可阅读完整内容，剩余1页未读，立即下载