基于鲁棒时域特征幅度学习的视频异常检测方法

58 浏览量更新于2023-10-13 收藏 982KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4975≤∈≈ǁ ǁ ǁǁ基于鲁棒时域特征幅度学习的1陈元宏1RajvinderSingh3 Johan W.Verjans1，2，3古斯塔沃·库奇罗11阿德莱德大学澳大利亚机器学习研究所2阿德莱德大学健康与医学学院3南澳大利亚健康与医学研究所摘要具有弱监督视频级标签的异常检测通常被公式化为多实例学习（MIL）问题，其中我们的目标是识别包含异常事件的片段尽管当前的方法显示出有效的检测性能，但是它们对阳性实例的识别，即，异常视频中的罕见异常片段在很大程度上被占主导地位的负面事件所偏置，特别是当异常事件是与正常事件相比仅表现出小的差异的该问题在忽略重要的视频时间依赖性的许多方法中加剧。为了解决这个问题，我们引入了一种新的和理论上合理的方法，称为鲁棒时间特征幅度学习（RTFM），它训练一个特征幅度学习函数，以有效地识别阳性实例，大大提高了MIL方法的鲁棒性，从异常视频的负面实例RTFM还采用膨胀卷积和自注意机制来捕获长距离和短距离的时间依赖性，以更忠实地学习特征幅度。大量的实验表明，RTFM使能MIL模型（i）在四个基准数据集（上海科技，UCF-Crime，XD-Violence和UCSD-Peds）上的性能大大优于几种最先进的方法，（ii）实现了显着提高的细微异常区分能力和采样效率。1. 介绍视频异常检测由于其在自主监视系统中使用的潜力而被深入研究[15，56，66，78]。视频异常检测的目标是识别异常事件发生的时间窗口-在监控的背景下score（��图1. RTFM通过训练特征量学习函数，提高了MIL方法对异常视频中正常片段的鲁棒性，更有效地检测出异常片段。左：异常和正常片段（x+和x-）的时间特征幅度，来自异常和正常视频（X+和X-）。假设μ = 3表示异常视频中的异常片段的数量，我们可以通过选择具有最大时间特征幅度的前k个μ片段来最大化Δ分数（X+，X-），其测量异常和正常视频的分数之间的差异（分数是用前k个片段的幅度的平均值计算的）。右图：∆得分（X+，X−）随着k [1，µ]增加，然后随着k> µ而减少，这表明我们提出的支持RTFM的MIL模型在kµ时提供了更好的异常和正常视频之间的分离，即使有一些具有大特征幅度的正常片段。尽管在这种情况下已经探索了专门用正常视频训练的一类分类器（OCC，也称为无监督异常检测）[15，17，27，30，46，47，76]，但性能最好的方法使用具有正常或异常的视频级标签注释的训练样本来探索弱监督设置[56，66，78]。与OCC方法相比，这种弱监督设置的目标是以相对较小的人工注释工作为代价获得更好的异常分类准确性。弱监督异常检测的主要挑战之一是如何从标记为异常的整个视频这是由于两个原因，即：1）来自异常视频的大多数片段由正常事件组成，这可能会压倒视频得分��+：��−��−+��+��+��−Top-3（+）��--��− ��−��−��−Top-3（ −）��−特征量值4976训练过程和挑战少数异常片段的拟合;以及2）异常片段可能与正常片段没有足够的不同，这使得在正常和异常片段之间进行清楚的分离具有挑战性。使用多实例学习（MIL）方法[56，66，74，80]训练的异常检测通过平衡具有相同数量的异常和正常片段的训练集来缓解上述问题，其中正常片段是从正常视频中随机选择的，而异常片段是异常视频中具有最高异常分数的片段。尽管部分地解决了上述问题，MIL也引入了四个问题：1）异常视频中的最高异常分数可能不是来自异常片段;2)从正常视频中随机选择的正常片段可能相对容易拟合，这挑战了训练的收敛性; 3）如果视频具有多于一个的异常片段，则我们错过了具有每个视频包含更多异常片段的更有效的训练过程的机会;以及4）分类分数的使用提供了弱的训练信号，其不一定能够在正常和异常片段之间进行良好的分离。这些问题在忽略重要时间依赖性的方法中更加恶化[27，30，66，78]。为了解决上述问题，我们提出了一种新的方法，称为鲁棒时间特征幅度（RTFM）学习。在RTFM中，我们依赖于视频片段的时间特征幅度，其中具有低幅度的特征负）片段和高幅度特征表示异常（即，positive））snip- pets. RTFM理论上由前k个实例MIL[24]激发，其使用具有来自异常和正常视频的最高分类分数的k个实例来训练分类器，但是在我们的公式中，我们假设异常片段的平均特征幅度大于正常片段的平均特征幅度，而不是假设异常片段和正常片段的分类分数之间的可分离性[24]。RTFM解决了上述MIL问题，如下所示：1）从异常视频中选择异常片段的概率增加; 2）从正常视频中选择的硬负正常片段将更难拟合，从而改善训练收敛; 3）每个异常视频可以包括更多的异常片段;和4）与使用分类分数[ 24，56 ]的MIL方法相比，使用特征幅度来识别阳性实例是有利的，因为它能够实现更强的学习信号，特别是对于具有可以在整个训练过程中增加的幅度的异常片段，并且特征幅度学习可以与MIL异常分类联合优化以强制执行大的裕度在特征表示空间和异常分类输出空间两者处的异常片段和正常片段之间。图1激发了RTFM，示出了前k个特征的选择（基于它们的幅度）可以在异常和正常视频之间提供更好的分离，当每个异常视频具有多于一个异常片段并且异常视频的平均片段特征量大于正常视频的平均片段特征量时。在实践中，RTFM在来自异常和正常视频的具有最大幅度的前k个片段特征之间实施大的余量，这具有最大程度地分离异常和正常视频表示的理论保证。然后选择来自正常和异常视频的这些前k个片段特征来训练片段分类器。为了在每个视频中无缝地结合长距离和短距离的时间依赖性，我们将长距离和短距离时间依赖性的学习与扩张卷积金字塔（PDC）[69]和时间自我注意模块（TSA）[65]相结合。我们在四个异常检测基准数据集上验证了我们的 RTFM ，即 ShanghaiTech[27]，UCF-Crime [56]，XD-Violence [66]和UCSD-Peds[23]。我们表明，我们的方法使用不同的预训练特征（即，C3D和I3D）。我们还表明，我们的方法实现了更好的采样效率和微妙的异常的可辨别性比流行的MIL方法。2. 相关工作无监督异常检测。传统的异常检测方法假设的可用性正常的训练数据，并解决问题与一类分类使用手工制作的功能[2，32，64，75]。随着深度学习的出现，最近的方法使用来自预训练的深度神经网络的特征[11，19，40，54，77]。另一些则是在正规流形的潜空间上施加约束来学习紧正规性表示[1，3Al-或者，一些方法依赖于使用生成模型的数据重构，以通过（相反地）最小化重构误差来学习正常样本的表示[6，14，18，18，27，34这些方法假设看不见的异常视频/图像通常不能很好地重建，并且将高重建误差的样本视为异常。然而，由于缺乏异常的先验知识，这些方法可能过拟合训练数据，并且无法区分异常事件和正常事件。读者可以参考[38]，以全面回顾这些异常检测方法。弱监督异常检测。利用一些标记的异常样本已经显示出比无监督方法显著改善的性能[26，37，39，50，56，58，66，71然而，获得大规模帧级标签注释太昂贵因此，当前SOTA视频异常检测方法依赖于使用更便宜的视频级注释的弱监督训练。Sultani等人[56]建议使用4977XX−∼∼ǁ ǁ ≥ ǁǁt=1F →XX X →∈ǁ ǁ−特征（例如， I3D [7]或C3D [60]）的尺寸Dǁ ǁ≥θ，kΩ（X）{x}T不2--||介绍了大规模弱监督视频异常检测数据集 UCF-Crime。从那时起，这一方向引起了研究界的注意[62，66，74]。弱监督视频异常检测方法主要基于MIL框架[56]。然而，大多数基于MIL的方法[56，74，80]未能利用异常视频标签，因为它们可能受到由被错误地选择为异常视频中的顶部异常事件的正常片段引起的阳性袋中的标签噪声的影响。为了解决这个问题，Zhong etal.[78]将该问题转化为噪声标签下的二分类问题，并利用图卷积神经网络（GCN）消除标签噪声。尽管本文显示了比[56]更准确的结果，但GCN和MIL的训练在计算上是昂贵的，并且它可能导致不受约束的潜在空间（即，正常和异常特征可以位于特征空间的任何位置），这可能导致不稳定的性能。相比之下，我们的方法有微不足道的计算开销相比，原来的MIL配方。此外，我们的方法通过基于12范数的时间特征排名损失来统一表示学习和异常得分学习，从而实现正常和异常特征表示之间的更好分离，与先前的MIL方法相比改进了弱标签的探索[56，62，66，74，78，80]。3. 方法：RTFM我们提出的鲁棒时间特征幅度（RTFM）方法旨在使用弱标记视频进行训练来区分异常和正常片段。给定一组弱标记的训练视频D=正常和异常视频。接下来，我们讨论了我们提出的RTFM的理论动机，然后详细描述了该方法。3.1. RTFM的理论动因[24]中的Top-kMIL将MIL扩展到阳性袋包含最小数量的阳性样本并且阴性袋也包含阳性样本的环境，但程度较小，并且它假设分类器可以分离阳性和阴性样本。我们的问题是不同的，因为阴性袋不包含阳性样本，我们不做分类可分性假设。遵循上面介绍的命名法，从视频中提取的时间特征由（1）中的X=sθ（F）表示，其中片段特征由X的行Xt表示。异常片段由x+P+（x）表示，而正常片段由x-1（x）表示。Px−（x）。异常视频X+包含从P+（x）提取的μ片段和从P x −（x）提取的（T μ）dr a wn，而正常视频X−具有从Px−（x）采样的所有T片段。学习一个可以对视频和片段进行作为正常或异常，我们定义了一个函数，该函数使用片段的幅度对片段进行分类（即，我们使用l2范数来计算特征幅度），其中，代替假设正常和异常片段之间的分类可分离性（如[24]中所假设的），我们做出更温和的假设：E[x+2]E[x−2]。这意味着通过学习从sθ（F）中提取特征，使得正常特征的特征量小于异常特征的特征量，我们可以满足这一假设。为了实现这样的学习，我们依赖于基于来自视频的前k个片段的平均特征幅度的优化[24]，由下式定义：我我|iD=|1，其中F∈FRT×D预先计算1{（F，y）}g（X）=maxΣx，（2）T个视频片段，并且y∈ Y={0，1}表示T个视频片段。k tt=1xt∈Ωk（X）视频级注释（如果Fi是正常视频，则yi= 0，否则yi= 1）。 RTFM使用的模型表示为其中gθ，k（. ）由θ参数化以指示其依赖性。通过rθ，φ（F）=fφ（sθ（F）），并返回表示T个视频片段分类为异常或正常的T维特征[0，1]T，其中参数θ，φ定义如下。该模型的训练包括端到端多尺度时间特征学习、特征幅度学习和RTFM使能的MIL分类器训练的联合优化，其中损失在s θ（. ）产生xt，Ωk（X）包含xtT中的k个片段的子集，Ωk（X）=k。异常视频与正常视频之间的可分离性由下式表示：d θ，k（X+，X−）=g θ，k（X+）− g θ，k（X−）。（三）对于下面的定理，我们定义了从Ωk（X+）截取的片段是异常的概率，其中p+（X+）=min（µ，k），kk+|D|当ε >0且从正常Ω（X−）开始，p+（X−）= 0。这minΣl（s（F），（s（F）），y，y）+l（fKK（s（F）），y），s θiθjθ，φi，j=1ij fφ θ i我（一）定义意味着它很可能在Ωk（X+）中的前k个片段中找到异常片段，只要k≤µ。其中sθ：是时间特征提取器（其中T是片段分类器，ls（. 表示损失函数，其最大化来自正常和异常视频的前k个片段特征之间的可分性，并且）是训练片段分类器f Φ（. ）还使用了定理3.1（异常和正常视频之间的预期可分离性）。假设E[x+2]E[x−2]，其中X+有µ异常样本和（T µ）正常样本，其中µ [1，T]，X−有T正常样本。设D θ，k（. ）是随机变量，其中可分性得分d θ，k（. [24 ]（3）K4978d=1--DK≤K≤.Σ。Σ|（c1）（c2）∈×----K∈L{×k、d∈图2.我们提出的RTFM接收T三维特征矩阵 F从包含T片段的视频中提取。然后，MTN捕获之间的长和短范围的时间依赖性视频片段之间的全局时间依赖性和全局时间依赖性（我们在补充材料的图1中描绘了MTN）。MTN在时域上使用扩张卷积的金字塔来学习视频片段的扩张卷积通常应用于空间域，其目标是在不损失分辨率的情况下扩大感受野[69]。在这里，我们提议在时间维度上使用扩张卷积，因为捕获相邻视频片段的多尺度时间依赖性以用于异常检测是重要的。MTN从预先计算的特征F= [fd]D学习多尺度时间特征。然后给定特征fd∈RT，给出了带核的一维扩张卷积运算截取特征以产生X=sθ（F）。接下来，我们最大化异常和正常视频特征之间分离性和训练（l）k、d其中k∈{1，…，D/4}，d∈{1，…D}，l ∈使用来自异常和正常视频的前k个最大幅度特征片段的片段分类器1. 如果0k µ，则PDC1、 PDC2、 PDC3和表示过滤器尺寸的W由下式定义：f（l）=ΣW（l）*（l）fd，（4）d=10≤E[Dθ，k（X+，X−）]≤E[Dθ，k+1（X+，X−）]。其中*（l）表示-中的扩张卷积算子2.对于一个有限的μ，则lim E [D θ，k（X+，X−）] = 0.k→∞证据请参见补充材料中的证明。因此，该定理的第一部分意味着当我们在异常视频的前k个片段中包括更多样本时，异常和正常视频之间的可分离性倾向于增加（即使它包括一些正常样本），只要k μ。该定理的第二部分意味着，当我们包括超过µ top实例时，异常和正常视频分数变得无法区分，因为阳性和阴性袋中的阴性样本数量都很大。这两个点如图所示。1，其中score（X）= g θ，k（X），score（X+，X−）= d θ，k（X+，X−），且=0。4来计算p+（X+）。该定理表明，通过最大化前k个时间特征片段与异常和正常视频（对于k μ）的可分离性，我们可以促进异常视频和片段的分类。它还表明，使用前k个特征来训练片段分类器允许更有效的训练，假定异常视频中的前k个样本中的大多数将是异常的，并且我们将使用前k个最难的正常片段进行平衡训练最后的考虑是，因为我们每个视频只使用前k个样本，所以我们的方法可以用相对少量的训练样本进行有效优化3.2. 多尺度时间特征学习受视频理解中使用的注意力技术的启发[25，65]，我们提出的多尺度时间网络（MTN）捕获多分辨率局部时间以l，f（l）为下标RT 表示输出特征af-然后在时间维度上应用扩张卷积。PDC1、 PDC2、 PDC3的膨胀系数分别为1、2、4（这在补充材料的图1中示出）。视频片段之间的全局时间依赖性是通过自注意模块实现的，该模块在捕获视频理解[65]、图像分类[77]和对象检测[44]上的长距离空间依赖性方面表现出有前途的性能。受先前使用GCN对全局时间信息进行建模的工作的启发[66，78]，我们重新制定了空间自注意力技术，以在时间维度上工作并捕获全局时间上下文建模。详细地说，我们的目标是产生一个注意力地图M RT ×T，估计片段之间的成对相关性。我们的时间自我注意力（TSA）模块首先使用1 × 1卷积将空间维度从F ∈ RT ×D减少到F（c ）∈ RT ×D/4，其中F（c）=Conv1×1（F）。然后，我们对F（c）应用三个独立的1 × 1卷积层，以产生F（ c1 ），F（ c2 ），F（ c3 ）∈ RT ×D/4，如F（ ci ）=Conv1×1（F（c）），其中i∈{1，2，3}。注意-然后用M=F F 建立映射，产生 F（ c4 ） =Conv1×1（MF（c3））。在该最终11卷积之后添加跳过连接。功能层，如F（TSA）=F（c4）+F（c）。（五）MTN的输出由PDC和MTN模块F¯=[F（l）]l∈L的输出级联而RT×D，带=PDC1、 PDC2、 PDC3、TSA。W4979使用原始特征F的跳过连接产生最终的时间特征表示X=sθ（F）=F¯+F，4980..Σ.Σas其中参数θ包括本节中描述的所有卷积的权重3.3. 特征幅度学习使用在Sec. 在图3.1中，我们提出了损失函数来对（1）中的sθ（F）进行建模，其中来自正常视频的前k个最大片段特征幅度被最小化，并且来自异常视频的前k个最大片段特征幅度被最大化。更具体地，我们提出以下损失l s（. ），其最大化正常和异常视频之间的可分离性：ls（sθ（Fi），sθ（Fi），yi，yi）=max 0，m−dθ，k（Xi，Xj），如果yi=1，yj= 00，否则（六）其中m是预定义的裕度，Xi=s θ（Fi）是异常视频特征（对于正常视频的Xi 类似），并且d θ ， k（. 表示（3）中定义的可分性函数，其计算前k个实例的得分与g θ，k（. ）中的异常和正常视频。3.4. 支持RTFM的片段分类器学习为了学习片段分类器，我们使用集合Ω k（X）来训练基于二进制交叉熵的分类损失函数，该集合Ωk（X）包含具有来自（1）中的sθ（F）的最大l2范数特征的k个特别地，损失lf（. （1）定义为lf（ fφ（ sθ（F）），y）=在上海科技大学，UCF犯罪由复杂多样的背景组成。训练集和测试集都包含相同数量的正常和异常视频。该数据集涵盖了1，610个具有视频级标签的训练视频和290个具有帧级标签的测试视频XD-Violence是最近提出的大规模多场景异常检测数据集，其从现实生活电影、在线视频、体育流媒体、监控摄像机和CCTV收集[66]。该数据集的总持续时间超过217小时，包含4754个未修剪的视频，其中训练集中有视频级标签，测试集中有帧级标签。它是目前最大的公开可用的视频异常检测数据集。ShanghaiTech是来自固定角度街道视频监控的中等规模数据集。它有13个不同的背景场景和437个视频，其中307个正常视频和130个异常视频。原始数据集[27]是假设正常训练数据可用的异常检测任务的流行基准Zhong等人[78]通过选择异常测试视频的子集到训练数据中来重组数据集，以构建弱监督训练集，使得训练集和测试集都覆盖所有13个背景场景。我们使用与[78]中完全相同的程序将ShanghaiTech转换为弱监督设置。UCSD-Peds是一个由两个子数据集组成的小规模数据集-Ped 1有70个视频，Peds 2有28个视频。先前的工作[16，78]通过随机选择6个异常视频和4个正常视频到训练集中，剩余的作为测试集，重新制定了弱监督异常检测的数据集。我们报告平均结果x∈ΣΩk（X）−（ylog（fφ（x））+（1−y）log（1−fφ（x），（7）这个过程的10倍以上。评估措施。类似于以前的论文[14，27，56，62，74]，我们使用ROC其中x=sθ（f）。注意，在[56]之后，l f（. ）是由时间平滑性和稀疏性正则性所伴随的其中时间平滑度定义为fφ（sθ（ft））-曲线（AUC）作为所有数据集的评价指标。此外，在[66]之后，我们还使用平均精度（AP）作为XD暴力数据的评估指标fφ（ sθ（ft−1））Σ2以针对相邻的实施类似的异常分数。集较大的AUC和AP值指示较好的性能。最近的一些研究[12，45]建议使用该区域-bouring片段，而稀疏正则化定义的检测准则（RBDC）和基于轨迹的检测准则（RDDC）。不t=1 |对异常事件施加先验|toimposeapriorthatabnormalevents检测标准（TBDC），以补充AUC测量在每个异常视频中都是罕见的。4. 实验4.1. 数据集和评价措施我们的模型在四个多场景基准数据集上进行评估，这些数据集是为弱监督视频异常检测任务创建的：上海科技 [27] 、 UCF-Crime [56] 、 XD- Violence [66] 和UCSD-Peds [68]。UCF-Crime是一个大规模的异常检测数据集[56]，包含1900个未修剪的视频，来自真实世界的街道和室内监控摄像头，总持续时间为128小时。与静态背景不同4981当然，但这两种方法在弱监督环境下都不适用因此，我们专注于AUC和AP测量。4.2. 实现细节在[56]之后，每个视频被分成32个视频片段，即，T= 32。对于所有实验，我们在（6）中设置裕度m= 100，k= 3。模型中描述的三个FC层（第3）有512、128和1个节点，其中每个FC层后面都有一个ReLU激活函数和一个dropout函数，dropout率为0.7。2048D和4096D特征是从“混合5c”中提取的。4982××和在MTN中，我们将金字塔扩张率设置为1，2和4，并且我们对每个扩张的卷积分支使用3 1 Conv1D。对于自注意块，我们使用11Conv1D。我们的RTFM方法使用Adam optimiser [22]以端到端的方式进行训练，权重衰减为0.0005，批次大小为64 ，持续 50 个 epoch 。对于 ShanghaiTech 和 UCF-Crime，学习率设置为0.001，对于XD-Violence，学习率设置为0.0001。每个小批次由来自32个随机选择的正常和异常视频的样本组成。该方法使用PyTorch [42]实现。对于所有基线，我们使用与我们相同的骨干发表的结果为了公平比较，我们使用与[56，66，78]相同的基准设置4.3. 关于ShanghaiTechShanghaiTech上的帧级AUC结果见表1。1.一、我们的方法RTFM与以前的SOTA非监督学习方法[15，27，30，41，70]和弱学习方法相比，具有更好的性能。监督方法[62，74，78]。利用I3 D-RGB特征，我们的模型在该数据集上获得了最佳AUC结果：97.21%。使用相同的I3 D-RGB功能，我们的RTFM启用MIL方法比当前基于SOTA MIL的方法[56，62，74]高出10%至14%。我们的模型优于[62]超过5%，即使它们依赖于更高级的特征提取器（即，I3 D-RGB和I3 D流）。这些结果证明了我们提出的特征幅度学习所获得的收益。我们的方法也比基于 GCN 的弱监督方法 [78] 好11.7%，这表明我们的MTN模块在捕获时间依赖性方面比GCN更有效此外，考虑到C3 D-RGB特征，我们的模型实现了91.51%的SOTA AUC，大大超过了之前使用C3 D-RGB的方法。监督方法特征AUC（%）Conv-AE [15]-60.85Stacked-RNN [30]-68.00无监督[27]第二十七话-73.40Mem-AE [14]-71.20MNAD [41]-70.50VEC [70]-74.80GCN-异常[78]C3D-RGB76.44GCN-异常[78]TSN-流量84.13GCN-异常[78]TSN-RGB84.44Zhang等人[74个国家]I3D-RGB82.50Sultani等人 * [56个]I3D RGB85.33弱监督AR-Net [62]I3D流程82.32AR-Net [62]I3D-RGB85.38AR-Net [62]I3 D-RGB I3 D流91.24我们C3D-RGB91.51我们I3D-RGB97.21表1.帧级AUC性能与其他SOTA非/弱监督方法在上海科技的比较* 表明我们使用I3D特征重新训练[56]中的方法。最好的结果在红色和第二个最好的蓝色。4.4. 关于UCF-Crime的UCF-Crime的AUC结果见表1。二、我们的方法优于所有以前的无监督学习方法[15，30，55，63]。值得注意的是，使用相同的I3 D-RGB功能，我们的方法也优于目前的SOTA基于MIL的方法，Sultani等人。[56]8.62%，Zhang et al. [74] 5.37%，Zhu et al.[80] 5.03%和Wu等人[66] 1.59%。Zhong等人[78]使用计算成本高的交替训练方案来实现82.12%的AUC，而我们的方法利用了有效的端到端训练方案，并且比他们的方法高出1.91%。我们的方法也超过了目前的SOTA无监督方法，BODS和GODS [63]，至少13%。考虑到C3D特征，我们的方法比传统的弱监督方法高出最小2.95%和最大7.87%，这表明我们的RTFM方法的有效性，无论骨干结构如何。监督方法特征AUC（%）SVM基线-50.00Conv-AE [15]-50.60Sohrab等人[55个]-58.50无监督Lu等人[29日]C3D RGB65.51BODS [63]I3D RGB68.26神[63]I3D RGB70.46Sultani等人[56个]C3D RGB75.41Sultani等人 * [56个]I3D RGB77.92Zhang等人[74个国家]C3D RGB78.66运动感知[80]PWC流量79.00GCN-异常[78]C3D RGB81.08弱监督GCN-异常[78]TSN流量78.08GCN-异常[78]TSN RGB82.12Wu等人[第六十六话]I3D RGB82.44我们C3D RGB83.28我们I3D RGB84.30表2. UCF-Crime上的帧级AUC性能。* 表明我们使用I3D特征重新训练[56]中的方法。最好的结果在红色和第二个最好的蓝色。4.5. 关于XD-暴力的XD-暴力是最近发布的数据集，几乎没有结果报告，如Tab. 3 .第三章。在AP中，我们的方法超过所有无监督学习方法至少27.03%。与SOTA弱监督方法[56，66]相比，我们的方法比Wu等人的方法好2.4%和2.13%。[66]和Sultani et al. [56]使用相同的I3D功能。与Sultani等人的MIL基线相比，使用C3D功能，我们的RTFM达到了最佳的75.89% AUC[56]。我们的方法的一致的优越性加强了我们提出的特征幅度学习方法的有效性，使基于MIL的异常分类。4.6. UCSD-Peds结果我们在Tab中显示了UCSD-Ped 2上的结果。4，分别具有TSN-Gray和I3 D-RGB特征。我们的方法在具有相同TSN-Gray特征的情况下超过了之前的SOTA [78]3.2%。最后，我们实现了4983图3.我们的方法在UCF-Crime（stealing 079，shoplifting 028，robbery 050 nor-mal 876）和ShanghaiTech（010052，010053）测试视频上的异常得分和特征幅度值。粉色区域表示手动标记的异常事件。表3. 比较与其他SOTA的AP性能方法使用少60%标记的异常训练视频，它仍然可以优于Sultani等人。[56]。这是因为RTFM可以更好地识别异常视频中的阳性实例，因此，它可以比基于MIL的方法更有效地利用相同的训练数据[56]。请注意，我们重新训练Sultani等人。的方法使用相同的I3D功能。百分之一百对XD-暴力的无监督/弱监督方法。* 表明我们使用I3D特征重新训练[56]中的方法。最好的结果在红色和第二个最好的蓝色。最佳98.6%平均AUC，超过Sultani et al.[56] 6.3%，使用相同的I3D功能。95.0%百分之九十百分之八十五百分之八十百分之七十五点零百分之七十表4. 与其他SOTA65.0%60.0%2535 45 55 63异常视频UCSD Ped2上的弱监督方法。* 表明我们使用I3D特征重新训练[56]中的方法。最好的结果在红色和第二个最好的蓝色。4.7. 样本效率分析我们调查的样本效率，我们的方法，通过寻找其性能w.r.t.用于上海科技培训的异常视频数量。我们将异常训练视频的数量从原来的63个视频减少到25个视频，正常训练视频和测试数据固定。[56]中的MIL方法用作基线。为了公平比较，在两种方法中使用相同的I3D特征，并且平均AUC结果（（从使用不同随机种子的三次运行计算））示于图4中。正如预期的那样，我们的方法和Sultani等人的性能。[56]随着异常训练视频数量的减少而减少，但我们模型的下降率小于Sultani等人的下降率。[56]，表明我们的RTFM的鲁棒性。值得注意的是，我们的方法仅使用25个异常训练视频，比使用所有63个异常视频的方法[56]好约3%，即，虽然我们的图4.AUC w.r. t异常训练视频的数量4.8. 精细异常判别我们还研究了我们的方法检测UCF-Crime数据集上的微妙异常事件的能力，通过研究每个单独的异常类的AUC性能。模型在完整的训练数据上进行训练，我们使用[56]作为基线，结果如图所示。五、我们的模型在以人为中心的异常事件上表现出显着的性能，即使异常非常微妙。特别是，我们的RTFM方法优于Sultani等人。[56]在8个以人为中心的异常类中（即，纵火、纵火、入室盗窃、抢劫、枪击、入店行窃、偷窃、故意破坏），在细微异常类别（如入室盗窃、入店行窃、故意破坏）中显著地将AUC性能提高10%至15%RTFM的理论结果支持这种优越性，保证了良好的分离性的积极和消极的情况。对于逮捕、打架、交通事故和爆炸类，我们的方法显示出与[56]竞争的性能我们的模型在以下方面的效率较低：96.79%我们Sultani等人[56个]91.21%89.89%百分之九十四点八七92.68%86.79%87.03%82.84%81.74%70.46%AUC监督方法特征AP（%）无监督SVM基线OCSVM [53]哈桑等人[第十五条]---50.7827.2530.77Sultani等人[56个]C3D RGB73.20弱监督Sultani等人 * [56个]I3D RGB75.68方法特征AUC（%）GCN-异常[78]TSN-流量92.8GCN-异常[78]TSN-灰色93.2Sultani等人 * [56个]I3D RGB92.3我们TSN-灰色96.54984×虐待类，因为该类在训练数据中包含压倒性的以人为中心的虐待事件，但是其测试视频仅包含动物虐待事件。百分之八十五百分之八十百分之七十五点零百分之七十65.0%60.0%55.0%百分之五十表5.我们的方法在上海科技和UCF-Crime上的消融研究。4.10.定性分析45.0%40.0%虐待逮捕纵火突击入室盗窃爆炸战斗道路接入抢劫拍摄行窃偷UCF-Crime中的异常类在图3中，我们示出了由我们的MIL异常分类器针对来自UCF的不同测试视频图5.AUC结果w.r.t.关于UCF犯罪的个别课程4.9. 消融研究我们使用I3D功能对ShanghaiTech和UCFCrime进行了消融研究，如表1所示其中，时间特征映射函数sθ被分解为PDC和TSA，并且FM表示从Sec.三点三基线模型用11卷积层代替PDC和TSA，并且用如[56]中的原始MIL方法由此产生的基线在上海科技上仅达到85.96%AUC，在UCF犯罪上仅达到77.32% AUC（结果与[56]中的结果相似）。添加PDC或TSA后，AUC性能分别提高到89.21%和91.73%，UCF分别提高到79.32%和78.96%。当添加PDC和TSA两者时，两个数据集的AUC结果分别增加至92.32%和82.12%。这表明PDC和TSA有助于整体性能，并且它们还在捕获长范围和短范围时间关系两者方面相互补充。当仅将FM模块添加到基线时，AUC在ShanghaiTech和UCF Crime上分别大幅增加了7%和4%以上，这表明我们的特征幅度学习比原始MIL方法有了显著改进，因为它能够更好地利用标记的异常视频数据。此外，将PDC或TSA与FM组合有助于进一步改善性能。然后，全模型RTFM在两个数据集上可以达到97.21%和84.30%的最佳性能在RTFM的理论动机中做出的假设是前k个异常特征片段的平均特征幅度大于正常片段的平均特征幅度。我们在UCF-Crime的测试视频上测量，来自异常视频的前k个片段的平均大小为53.4，正常的为7.7。这凭经验表明，我们对定理3.1的假设是有效的，并且RTFM可以有效地最大化正常和异常视频片段之间的这通过异常片段的平均分类得分为0.85和正常片段的平均分类得分为0.13进一步证明。犯罪和上海科技。使用来自UCF-Crime的三个异常视频和一个正常视频（stealing 079、入店行窃028、robbery 050 和 normal 876 ）。如 L2范数值曲线所示（即，橙色曲线），我们的FM模块可以有效地为正常片段产生小的特征幅度，为异常片段产生大的幅度。此外，我们的模型可以成功地确保正常和异常片段的异常分数之间的大余量（即，分别为空白和粉红色阴影区域）。我们的模型还能够检测一个视频中的多个异常事件（例如，#30379;，这使得问题更加复杂。此外，对于异常事件偷窃和入店行窃，异常是微妙的，几乎看不到通过视频，但我们的模型仍然可以检测到它。我们还显示了由我们的模型产生的上海科技010052和01 0053的异常得分和特征幅度（图12中的最后两个图）。（3）第三章。我们的模型可以有效地产生大的异常分数的异常事件的车辆进入这两个场景。5. 结论我们介绍了一种新的方法，名为RTFM，启用前kMIL方法弱监督视频异常检测。RTFM学习时间特征幅度映射函数，其1）从包含许多正常片段的异常视频中检测罕见的异常片段，以及2）保证正常片段与异常片段之间的大余量。这在两个主要方面改进了随后的基于MIL的异常分类：1）我们的支持RTFM的模型学习更多的区分特征，这些特征提高了其区分复杂异常的能力（例如，微妙的异常）从硬的负面例子;以及2）它还使得MIL分类器能够实现异常数据的显著改进的利用。这两个能力分别导致更好的微妙异常的可辨别性和样本效率比目前的SOTA MIL方法。他们也是两个主要的驱动力我们的模型在所有三个大型基准测试中实现SOTA性能。我们Sultani等人[56个]79.0%75.7%75.1%百分之七十三点六70.7%70.8%百分之七十点三百分之七十点一70.0%70.3%69.8%百分之六十六点三65.3%百分之六十三点三百分之六十一点八百分之五十九点八百分之五十九点五59.1% 59.1%百分之五十六点三百分之五十五点九百分之五十五点九百分之五十四点六百分之四十九点四48.7%百分之四十五点二AUC基线PDCTSAFMAUC（%）-上海AUC（%）-UCFC85.9677.39CC89.2179.32CC91.7378.96CCC92.3282.12CC92.9981.28CCC94.6382.97CCC93.9182.58CCCC97.2184.304985引用[1] Davide Abati、Angelo Porrello、Simone Calderara和RitaCucchiara。用于新颖性检测的潜在空间自回归。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[2] Arslan Basharat、Alexei Gritai和Mubarak Shah。学习用于异常检测和改进的对象检测的对象运动模式。2008年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2008年。2[3] Liron Bergman和Yedid Hoshen。基于分类的通用数据异常检测。arXiv预印本arXiv：2005.02359，2020。2[4] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.用于无监督异常检测的综合真实世界数据集。在 IEEE/CVF 计算机视觉和模式识别会议（CVPR）上，2019年6月。2[5] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.不知情的学生：学生-教师异常检测与鉴别潜在嵌入。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6

下载后可阅读完整内容，剩余1页未读，立即下载