DyAnNet：一种自训练视频异常检测网络

116 浏览量更新于2023-10-16 收藏 981KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5541回归训练分段袋精炼袋标签视频片段光流P优化回归DyAnNet：一种场景动态引导的自训练视频异常检测网络Kamalakar Vijay Thakare1，Yash Raghuwanshi1，Debi Prosad Dogra1，Heeseung Choi2，3，and Ig-JaeKim2，31Indian Institute of Technology，Bhubaneswar，Odisha，752050，India2韩国科学技术研究院人工智能与机器人研究所，首尔02792，大韩民国3韩国延世大学延世-KIST融合研究所，首尔03722{tkv15，yr15，dpdogra} @ iitbbs.ac.in，{hschoi，drjay} @ kist.re.kr摘要用于视频异常检测的无监督方法可能不如有监督方法执行得好。然而，使用非监督方法学习未知类型的异常比监督方法更实用，在本文中，我们使用隔离树为基础的无监督聚类划分的深层特征空间的视频片段。RGB流生成视频片段的伪异常分数，并且流流生成视频片段的伪动态性分数。然后使用多数投票方案融合这些分数，以生成阳性和阴性片段的初步袋。然而，这些袋可能不准确，因为分数仅使用当前段生成，其不表示典型异常事件的全局行为。然后，我们使用一个细化策略的基础上设计的一个流行的I3D网络，以改善这两个分数的跨分支前馈网络然后，通过分段重新映射策略来细化袋。将段的动态性分数与异常分数相加的直观性是来提高证据的质量该方法已经在三个流行的视频异常数据集上进行了评估，即，UCF-犯罪，CCTV-战斗和UBI-战斗。实验结果表明，该框架实现了竞争的准确性相比，国家的最先进的视频异常检测方法。1. 介绍视频异常检测（VAD）是视频监控中的一个重要问题.一般来说，视频异常检测任务覆盖很大的范围，包括道路交通监控[33，37]，暴力检测[21，24，31]，人类行为[14，23，25]，人群监测[3，43]等。视觉监视主要由公共和私人机构完成第一阶段第二阶段第三ass = 1伪标签分配图1. 概况.在第一阶段，我们获得低置信度伪标签。在第二阶段，我们结合迭代学习来使用这些标签训练回归器网络。训练成功后，我们在第三阶段用更自信的标签替换旧标签，并重新训练回归量。经过几次之后，使用回归量的优化版本来预测异常分数。在大规模上。因此，研究人员很容易得到庞大的数据分析任务，同时分析和注释大量的视频数据。此外，最近现有的视频异常检测方法[9，23，25，33，38，48，49]严重依赖于完全或弱监督。然而，为如此庞大的数据集生成注释是劳动密集型和耗时的。近年来，用于视频异常检测的无监督方法正被监督或半监督方法所取代。Ravanbaksh等人[36]已经训练了生成对抗网络（GAN）用于视频异常检测。Nguyen等人[27]具有级联的外观和运动编码器和解码器，用于完成该工作。Gong等[10]提出了记忆增强的自动编码器（MemAE）来检测视频异常。使用GAN或AE的主要优点是它们能够捕获高级视频特征。最近，Doshietal.[8]提出了一个持续学习的框架-合格> 1培训5542当数据到达时，模型递增地训练，而不会忘记学习的（过去的）信息。这种类型的框架可以是可行的，在视觉监控视频数据不断进入监控系统。然而，所有这些方法都有如下几个局限性(1) 在持续学习中，需要设计一个单独的机制来避免灾难性的遗忘[8]，（2）GAN和AE非常容易受到不稳定训练的影响，即，数据中的细微变化在标记中强加了大的变化，从而影响正态分布，（3）大多数现有技术的VAD方法严重依赖于标记的正常/异常数据，以及（4）VAD方法或者利用基于外观的特征或者利用深度特征。为了解决这些局限性，我们采用了迭代学习[44]机制，其中模型在每次传递过程中都会使用更精确的数据进行反复调整。此外，我们的目标是结合持续和AE学习的技术优势。我们提出的框架结合了DNN的强大功能和合理的手工运动功能。这些时空特征与低层运动特征相结合框架还可以在输入数据到达时以端到端的方式重新训练所提出的框架的概述在图中描绘1.一、它分为三个阶段：i）伪标签分配，ii）回归量训练，以及iii）使用优化的回归量细化标签。为了使回归者能够理解细微的异常，我们获得了运动特征，即使用光流的动态分数在第一阶段，我们不知道实际的标签;因此我们使用OneClassSVM和iForest [19]获得了中间低置信度异常标签。我们还获得动态性标签使用动态性得分。在第二阶段，我们使用第一阶段生成的标签训练了两个这是改进置信度分数的迭代过程通过这种方式，两个回归子都在细化的标签上进行训练，并且它们学习区分性特征。迭代学习方法还确保两个回归子学习新的区分模式而不丢失过去的信息。我们通过实验发现，对于最初的几次迭代，两个回归器都逐渐学习内部模式，并在一些迭代后稳定下来。两个回归器并行地独立训练。确切地说，在迭代学习中，模型在每次迭代中使用细化的数据进行重新训练。通过这种方式，所提出的方法不需要任何级别的监督。然而，对于持续学习[8]或弱监督方法[27，38，48]，某种形式的监督是强制性的。这些方法认为视频异常，即使一小段包含异常。相比之下，我们使用动态性和使用非监督方式估计的异常分数来识别异常片段，从而消除了监督的要求为此，我们做出了以下贡献：• 设计一个无监督的端到端视频异常检测器保护框架，其使用迭代学习来在每次迭代中使用细化的标签来调整模型;• 提出一种新的技术，通过将深度特征与合理的运动特征相结合来在无监督场景中分配中间标签;• 进行广泛的实验以理解所提出的框架相对于其它现有技术方法的有效性。本文的其余部分组织如下。在下一节中，我们将介绍相关的工作。节中3、提出了建议的框架。实验和结果在第二节中给出4.第一章的结论和未来的工作在第二节。五、2. 相关工作视频异常检测（VAD）领域中的现有工作主要从活动识别和场景理解中汲取动力[38]。这些方法利用各种类型的视频特征、训练过程或两者。在本节中，我们将简要讨论在最近的VAD方法中广泛遵循的主要类别。2.1. 基于重建的方法几种VAD方法[1，10，22，27，29，30，39，46]采用自动编码器（AE），生成对抗网络（GAN）及其变体，假设在正常数据上显式训练的模型可能无法成功重建异常事件，因为这些样本通常不存在于训练集中。Park等人[29]已经使用AE来使用空间和时间变换在正常帧内生成长方体。Zaheer等人[46]已经使用当前生成器生成了良好质量的重建，通过这种方式，新的鉴别器学会检测异常输入中甚至很小的失真。Gong等[10]在AE中引入了存储模块，构造了MemAE。这是现有AE的改进版本。Szymanowicz等人[39]已经训练了一个AE，使用五个连续的帧和每像素的预测误差来获得显着图。Ravanbakhsh等人[36]已经使用GAN进行了然而，这些方法的有效性高度依赖于模型的重建能力。否则，它可能会显着降低模型2.2. 基于特征的方法基于特征的VAD方法可以通过使用手工或5543AN--AN∈NN∈AN A一阶段3：段重新映射合格> 1阶段1：伪标签分配I3D RGB Stream（）视频片段第二阶段：分数学习光流合格= 1I3D Flow Stream（）阶段3：段重新映射合格> 1动态估计伪标签生成图2.DyAnNet。拟议框架的体系结构整个框架分为三个阶段：（1）伪标签分配，(2) 分数学习，以及（3）使用细化标签的片段重新映射我们采用迭代学习机制来训练回归器，并重新定义了输入包和在每一个通道的末端。我们构建了一组优化的回归，通过每个通道获得，并用它来预测异常和动态得分的每个部分。（较细的箭头表示标签通过，较粗的箭头是视频特征，即，蓝色箭头是原始RGB帧，而红色箭头表示片段的光流深刻的特征早期的尝试使用了手工制作的特征，例如对象轨迹[26，47]，直方图梯度（HOG）[18]，隐马尔可夫模型（HMM）[16]和基于外观的特征[11]。然而，最近的深度学习方法[9，38，48，49]已经实现了视频异常检测的稳健结果。Feng等人[9]Zhu等人在特征编码过程中引入了自我引导注意力。[49]注入了运动感知特征，提高了分类器的识别能力。Sultani等人[38]使用弱监督解决了异常检测问题，[48]使用了图卷积网络（GCN）。除此之外，还采用了不同的训练机制，例如持续学习[8]，对抗训练[36]，自训练[9，28]和主动学习[41]，以获得稳健的视频异常检测结果。尽管上述技术已经取得了不错的性能，但它们仍然受到一些可以避免的限制：（1）它们严重依赖于人工标记的正常/异常数据。然而，为庞大的数据生成注释是耗时且容易出错的。（2）由于缺乏对异常事件的通用定义，在一个上下文中正常的少数异常事件在另一个上下文中可能被认为是异常的，例如，马拉松赛跑犯罪跑这些场景通常导致AE和GAN的不稳定训练。我们已经解决了这些限制使用迭代学习结合低和高级别的功能。3. 该方法我们首先提供了一个详细的描述所提出的视频异常检测框架。我们的框架-指南针具有以下三个阶段：（1）伪标签分配，（2）异常分数学习，以及（3）段重新映射。3.1. 整体架构所提出的框架的高级架构在图中描绘。2.问题公式如下：假设输入视频（V）被划分为n个段，使得V=S1、S2、. . .，Sn.目标是设计一个函数，如等式中所示1生成一个异常性得分ys和动态性得分yd，以预测每个视频片段的标签y∈ {0，1}Θ：V→y∈ {0，1}（1）阳性片段包含异常活性，并且通常具有比正常片段更高的异常和动态性得分，使得Θ（Si）> Θ（Sj），其中Si是异常片段，Sj是正常片段。请注意，在此训练期间没有标记数据可用为了解决这种情况，我们采用了迭代学习[44]和袋形成[38]。首先，我们已经向视频片段Si分配了伪异常性分数y_s和伪动态性分数y_d。这些中间标签有助于形成两个单独的袋子。这里，V是一袋正段，其中S如果对于Sy=1，通常具有较高的y=s和y=d值。类似地，V是负段的袋子，其中对于正常段S，如果y = 0，则S，并且我们期望y=s和y=d的值都更低。注意， =。在第二阶段，两个独立的回归，例如，已经使用这些伪标签训练了P2P和P2P在第三阶段，我们使用这些经过训练的回归器来优化袋子的内容培训通行证重新定义了每个5544ANΣ1ANANS∈ A ∈ ND0否则包的一部分在下一次传递中，使用和对和进行调优。在随后的章节中，我们将提供详细的阶段的描述方向来估计动态性得分。现在，第i帧的帧级动态性得分Di使用等式（1）来估计五、3.2. 伪标签分配训练过程从未标记的数据开始因此m×nDi=Skm×nk=1（五）我们不知道和你就不该这么做为了处理这个问题，我们初始化并通过生成伪异常性得分y_s和伪动态性得分y_d。为了获得y值，我们组合使用了OneClassSVM和iForest [19注意，这两种算法都在视频片段的特征向量上运行。我们已经使用在Kinetic数据集上预训练的I3D提取了分段特征[5]。OneClassSVM与SVM算法类似。但是，它使用hypersphere来覆盖所有数据实例。该算法尝试使用支持向量所有位于其中m和n表示框架的高度和宽度我们然后获得片段内所有帧的动态性得分。它由[Di ，Di+1，. . . ，Dp-1]，假设在一个段中有p我们平均所有帧级动态性得分，以获得片段的伪动态性得分y_d然后分数在[0，1]内不被归一化。我们现在使用Eq.六、y=f（y，y）=.1如果y≤s，y≤d>τ（6）超球体很可能是异常。设F=f（S）为段S的特征提取函数。异常分数可以使用等式（Eq.二、d（F）= maxδ（c，F）（2）F∈V其中F是特征点，c是SVM构造的最小超球面的中心，δ是距离函数。iForest通过随机选择任何特征和拆分值来隔离数据实例。树结构可以描述这种递归分区;因此分区的数量等于数据实例到根节点的路径长度。从根到叶的路径的倒数是F的异常分数。使用Eq. 3、当量6确保了具有比预定义阈值τ更高的异常和动态性分数的段应该被放置在具有中间标签y=1的A中。3.3. 学习异常和动态分数理想情况下，当分数学习器提供异常片段时，它应该生成高异常分数作为正常片段的补偿。然而，在本场景中，由于缺乏基本事实，标签是不准确的此外，每个段的标签已决定使用异常和动态分数。因此，我们仔细地设计了一个函数Θ，如等式2所示。7使用两个不同的分数学习器函数，即，d（F）= 2[−E（l（F））]g（|F|）Θ（S）=f（θ（Z）R），（ZF）），（7）其中l（F）是F的路径长度，E（. ）表示F在n棵隔离树上的平均路径长度，g（. ）是给定子样本的预期路径长度。我们在[0，1]区间内对每个特征点的异常得分进行归一化，并取n棵隔离树上的平均得分，以获得视频片段的伪异常得分y_s除了异常分数，我们还获得了每个片段的动态分数片段的动态性是指使用运动信息获得的像素位移随时间预期对于快速变化的视频场景，预期动态性分数更高。设Pk表示前一个像素的第k个像素的坐标其中，Mk是下一帧中使用光流获得的像素的估计位置像素的位移（Sk）可以使用等式（1）计算。4、Sk=SAD（Pk，Mk）（4）其中SAD是绝对差之和。我们已经使用绝对位移来考虑任何情况下的运动其中ZR表示RGB帧，ZF表示片段S的光学流，y_s=（λ（ZR）），y_d=（λ（ZF）），S或S和f（. ）是在等式（1）中定义的标签映射函数。6.典型的3DCNN可以在这里合并以实现卷积和卷积。我们采用I3D [5]网络的RGB和流模式，然后是3层FCN，分别实现分数学习器和分数学习器。我们使用均方误差（MSE）损失训练异常分数学习器（ZR，W）和动态分数学习器（ZR，W），其中W和W分别是和的可训练权重。3.4. 基于迭代学习的训练过程从第一阶段中分配给片段的伪标签开始。然而，标签并不像地面事实那样正确。在这个阶段，我们的目标是用更准确的标签来微调标签和标签，以实现稳定的性能。为了实现这一点，我们引入了迭代学习机制。设Pi为第i个通道其中A和N已经基于伪（三）5545ANANANANANΣSIΣDi异常和动态分数。然后，我们使用这些伪标签通过MSE损失来训练R2和R3。我们得到了两个回归器的次优化的方差σPi和σPi. 最后，我们重新估计这两个分数使用方程。8通过这些回归器的优化版本，4. 实验在本节中，我们介绍了实现细节、数据集、评估指标、所提出的方法与最近最先进的VAD方法的比较、定性结果、消融实验以及训练y∈Pi+1=P（ZR），yPi+1=P（ZF）（8）并测试性能迭代。4.1. 实现细节其中，yPi+1和yPi+1是通过子在[38，49，48]之后，我们将每个视频分为32个非优化回归现在，我们使用这些新的分数来完善和使用Eq。6，并使用新的输入批次在第n次通过Pi+1中重新训练了P2Pi和P2Pi特别地，对于迭代学习中的每一次通过，我们使用一个全新的集合。和，并重新训练回归变量。我们只使用新的分数，而不是将它们与旧的分数相结合，因为这种没有任何监督的混合通常会产生错误的分数。我们已经经验性地发现，所提出的方法在流行的视频异常数据集上表现更好最后，每一遍生成一个优化的版本，因此，所提出的迭代学习方法的结果在一组优化的回归模型。3.5.训练和推理我们采用迭代学习来实现回归器的稳定性能。在第一遍中，我们已经获得了伪异常和动态性分数来初始化和.然而，实际的训练发生在第二阶段，其中使用伪标签训练两个回归量模型R1和R2。请注意，I3D和I3D是I3D [5]网络，后面是一个3层FCN，最后是一个神经元，以产生相应的分数。因此，我们将MSE损失用于网络训练，因为该公式被认为是回归而不是二元分类。在每一遍中，两个回归量网络都使用固定数量的训练迭代进行训练，这取决于训练集中可用的样本数量最后，使用未优化的版本的fixed和fixed来重新排列下一遍的和的内容。迭代学习中的每一遍输出和的优化版本。在推理阶段，我们使用一组次优化的模型来生成优化的异常和动态分数。最终的分数生成可以使用Eq. 9、重叠的时间段。然后，我们从I3D [5]网络的混合5C层中提取特征，得到1024D特征分量，并将其馈送到PCA以将维度降低到100个分量。这些组件已用于训练OneClassSVM和iForest [19]分类器以生成伪异常分数。我们在实验过程中使用了 scikit-learn 中给出的OneClassSVM和iForest [19]的默认参数。我们使用SelFlow [20]和Farneback算法进行光流估计，以计算片段的动态性分数。我们已经使用I3D [5]作为骨干网络实现了回归器R2和R3，该骨干网络在I3D原始工作中推荐的Kinetic数据集我们已经用3层FCN替换了I3D的FCN层。第一层包含512个单元，然后是32个单元，最后是1个单元以生成分数。我们还尝试了更深层次的网络。然而，我们并未观察到显著的性能偏差。我们已经训练了初始学习率为0.005的回归器和AdaGrad优化器。在[12，38，48，49]之后，我们设置τ= 0。50比较我们已经试验了更低的（τ）值。这种分析见补充文件。实验表明，这两个回归得到实质性的改善，只有在前几个通过，同时实现稳定的性能。我们已经在后续章节中讨论了通过改变训练迭代次数和遍数得到的结果。4.2. 数据集我们使用了三个真实世界的视频异常数据集进行实验，即UCF-Crime [38]，CCTV-Fights [31]，[6]《易经》中的“[38]第三十八话：它是一个视频异常数据集，包含使用CCTV摄像机记录的13个真实世界异常。它包含了1900个真实世界的正常和犯罪视频Kys=i（ZRi=1）及ydK=Zi（ZFi=1）（9）抢劫、故意破坏、入室盗窃、枪击、虐待等活动。CCTV-Fights [31]：该数据集提供1000场战斗其中k是通过次数。R2i和R2i表示在第i遍之后获得的优化模型。ys和yd分别是使用RPMI和RPMI来自两个回归器的输出神经元都使用softmax，因此对于输入视频片段，异常和动态分数总是落在[0，1]之间。真实场景中录制的视频。这些视频的总时长为17.68小时，使用搜索关键词收集，UBI-Fights [6]：它拥有1000个真实世界的视频，其中784个是正常的，216个是真实的战斗场景。它5546包含在室内和室外环境中记录的视频，没有管理控制或监督，高度遮挡，以及变化的照明条件。4.3. 绩效评估指标C3D [40]和Inception V3 [5]。表1.三个视频异常数据集D1上最先进方法的帧级AUC评分（%）：CCTV-战斗[31]，D2：UBI-战斗[6]和D3：UCF-犯罪[38]。前两个结果以红色和蓝色显示。上述所有测试视频帧数据集被标记为正常或异常。因此，根据之前关于异常检测的工作[9，27，28，29，31，38，39，45，48，49]，我们计算帧级接收器操作特性（ROC）曲线和曲线下面积（AUC）作为评估度量。4.4. 与最新技术水平的我们将我们的方法与最近最先进的视频异常检测方法[7，8，9，11，12，13，15，17，27，28，29，34，35，38，49]在上述三个数据集上。选项卡. 1显示了所有方法的性能。可以观察到，在所有三个数据集上，所提出的无监督方法优于其他弱监督方法[9，38，49]。Zhu [49]，Panget al. [28]和Lerouxet al.[17]通过引入基于注意力的深度特征、有序回归和多分支深度自动编码器，在所有数据集然而，整合多个深度网络并将基于注意力的特征添加到网络中不足以检测多个异常事件。可以观察到，由Leroux等人引入的多分支框架。[17]在CCTV-Fights [31]和UBI-Fights [6]上表现良好，因为这些数据集仅关注战斗事件然而，它在UCF-Crime [38]上表现中等，因为数据集解决了多种异常活动。Doshi等人[8]采用了连续学习，其中模型在输入数据到达时学习新的模式，而不会忘记学习的信息。然而，这种类型的学习需要不断流入的数据。此外，这种持续学习方法可以有效地利用单个固定位置的时间信息[8，34]。然而，为实验选择的VAD数据集[6，31，38]是多场景的，并提供复杂的时间丰富性。为了解决这个问题，Doshiet al.[8]使用固定位置摄像机构建了然而，据我们所知，这个数据集还没有公布。Perez等人[31]已经引入了CCTV-Fights数据集，并计算了C3 D [40]，I3 D [5]和其他流行的骨干架构的性能然而，流行的基于3D-CNN的骨干架构，如C3 D [40]和I3 D [5]已经被纳入所提出的框架以及其他方法[9，38]。因此，我们没有明确包括[31]中用于比较的方法然而，我们已经研究了建议的框架中的骨干架构的有效性选项卡. 2显示了四种流行架构的AUC（%），即伪ResNet 3D [32]，时间段网络[42]，年方法D1D2D3监督2016Hasan等人[第十一届]52.4364.8750.6半2017Hinami等人[12个]56.7067.1257.10半2018Ravanbaksh等人[35]第三十五届60.3769.4561.61不太好2018Sultani等人[38个]72.5578.7075.41弱.2019Ionescu等人[13个国家]73.8678.4976.20不太好2019Nguyen等人[27日]76.4377.1875.65半2019Zhu等[49个]75.2081.0279.0弱.2020Degardin等人[6]美国77.1484.6076.90弱.2020Ramachandra等人[34个]73.8182.4575.46半2020Pang等人[28日]76.7884.6578.50不太好2021Feng等人[9]第一章81.4385.1982.30弱.2021Kopuklu等人[第十五条]74.9079.6375.12弱.2022Doshi等人[八]《中国日报》75.8680.7179.46半2022Park等人[29日]73.2877.2375.40不太好2022Leroux等人[17] 76.2078.0676.78不太好我们的（Farneback Flow）79.3184.1281.40不太好[20]第20话86.3184.50不太好根据Zhonget al. [48]，Panget al. [28]已经将异常检测公式化为无监督有序回归，并执行图像级异常检测。然而，在异常事件的背景我们的框架利用空间和时间信息，因此优于庞等人提出的方法。[28]以显著的优势。表2.所提出的方法在AUC（%）方面的性能，其中不同的骨干架构用于实施AUC和AUC回归器。骨干央视格斗P3D [32]78.42[三十一]UBI-Fight84.20[6]美国[38]第三十八话84.78TSN [42] 77.1083.0881.22C3D [40] 76.5681.9179.96I3D [5]81.01 86.3184.50根据到目前为止讨论的性能结果，重要的是要注意，所提出的框架i）使用低级运动特征和时空特征解决了[9，29，49]面临的特征选择问题，ii）采用迭代训练而不是依赖于弱标签[38，48，49]。因此，我们的方法在AUC（%）评分方面实现了合理的增益。4.5. 定性分析我们提出了使用所提出的方法在从 CCTV- Fight[31]，UBI-Fights [6]和UCF-Crime [38]数据集拍摄的一些测试视频这样的结果呈现在图1A和1B中。分别为3、4和5。请注意，经训练的回归量R1和R2生成相应的分段级异常和动态性得分。5547因此，我们使用三次插值来插值这些分数，以实现平滑曲线。可以看出，该方法成功地检测到异常段，并根据地面实况生成更高的异常和动态性分数。图3.结果可视化：从CCTV-Fight [31]数据集拍摄的测试视频的定性结果每个图像表示时间片段中的帧。阴影部分是地面实况，水平线表示阈值。从图从图3和图5可以看出，两个回归器都准确地检测到几帧之前场景中的异常图案和突然变化这表示对敏感内容的快速响应。此外，所提出的框架能够检测视频中多次发生的异常事件从图从图3和图4可以看出，在没有任何异常活动的情况下，两个回归器都生成非常低的分数，从而产生朝向视频的后面部分的较低的假警报。图4.结果可视化：来自UBI-Fight [6]数据集的测试视频的定性结果图5，第一个描述UCF-Crime [38]数据集爆炸事件的插图爆炸通常会使摄像机的整个视野在这个例子中，在成功检测到第一次爆炸后，由于速度更快，图5. 结果可视化：来自UCF-Crime [38]数据集的测试视频的定性结果。移动烟雾时，回归因子产生了高动态性分数。然而，检测到烟雾不一定是异常事件。因此，该方法预测了同一段的异常评分非常低然而，在第二次轻度爆发期间，两个回归变量都同意产生相对较高的分数。补充材料中提供了更多关于异常检测的定性结果4.6. 遍数和训练迭代为了理解迭代训练机制，我们在图3A和图3B中呈现了在CCTV-战斗[31]、UBI-战斗[6]和UCF-犯罪[38]训练期间的每次通过时所提出的框架的AUC（以%计）结果。6、7和8。对于CCTV-Fights [31]，我们的方法在第9次和第10次通过时实现了稳定的然而，对于UBI-Fights [6]和UCF-Crime [38]，该框架它在第7或第8次通过后达到稳定的性能。请注意，在每一次通过期间，使用细化的伪标签重新训练子优化版本的pseudo和pseudo。因此，有必要限制这种训练，以避免过度拟合。我们已经观察到，训练迭代的次数可以由输入批量大小和训练集中的样本总数决定。例如，CCTV-Fight [31]，UBI-Fights [6]和UCF-Crime [38]数据集在训练集中包含因此，具有批量大小32的30次训练迭代/遍足以训练模型。然而，我们通过实验发现，只要在一个通道内完成大量迭代，迭代/通道的数量就不重要这确保了模型被迭代地重新训练因此，我们可以用更少的训练迭代次数和大量的遍数来实现相同的性能，反之亦然。由于所有数据集在训练集中都提供了几千个样本，我们发现10遍和30次训练迭代足以训练两个回归量。所有实验5548本文的研究就是在这种统一的背景下进行的。31图6. 通过与AUC：针对每次通过的CCTV-Fights [31]数据集视频，所提出的方法的AUC（%）性能，其中x轴是通过次数，y轴表示AUC。主链在表中表示。2.本文还阐述了考虑低层运动特征对判断场景异常的作用从Tab。3和定性结果，可以安全地得出结论，包括运动特征有助于实现良好的检测性能以及较低的误报警率（FAR）。我们已经探索了各种无监督算法来生成伪异常分数。选项卡.图4显示了这些实验的AUC性能。结果表明，OCSVM与iForest结合使用时，系统性能最佳。表3.具有和不具有动态性得分的所提出的方法的AUC（以%计）和误报警率（FAR）改善的AUC和相应的FAR分别以红色和蓝色显示。动态性[31]第三十一话UBI战斗[6]UCF-犯罪[38]否75.21（5.8）81.64（4.7）79.76（1.8）81.01（1.7）86.31（1.4）84.50（0.5）图7. 通过与AUC：针对UBI-Fights [6]数据集视频提出的方法对每次通过的AUC（%）性能。表4.所提出的方法在AUC（%）方面的性能，采用不同的无监督算法与iForest [19]相结合以生成伪异常分数。S中央支助和人口管理办公室38图8. 通过与AUC：针对UCF-Crime [38]数据集视频提出的方法对每次通过的AUC（%）性能。4.7. 消融研究所提出的方法具有三个主要模块：i）伪标签分配，ii）骨干架构，以及iii）动态评分以有效地检测异常。在第一阶段，我们采用OneClassSVM和iForest [19]来获得每个时间段的伪异常分数。我们已经用鲁棒协方差[2]和局部离群因子（LOF）[4]取代了这两种无监督异常检测算法。然而，观察到AUC性能显著下降（3% -5%）。在第二阶段，我们采用了双流I3D [5]，然后是3层FCN来生成分数。为了检查这个主干的效率，我们用相同的设置重新进行了实验关于以下方面的总体AUC性能5. 结论和未来工作本文讨论了使用迭代学习的大规模视频异常检测是一种可行的方法，以避免注释依赖。我们已经证明，通过采用迭代训练，模型可以学习区分特征。此外，我们已经证明，通过采用伪标签生成，可以避免任何类型的监督，仍然可以实现非常好的性能。两个关键见解是：i）低级特征对于异常检测同样重要，以及ii）迭代训练有助于减少FAR，并且有可能在几帧之前检测到异常事件。我们可以探索更多的先进技术，以利用低层次和深层次的功能在未来。然而，假设任何人工智能辅助的视觉监控框架都可以完全取代人工监控是不明智的从本质上讲，训练数据的数量和底层模型的质量在决策中起着重要的作用。确认这项工作得到了韩国科学技术研究所（KIST）机构计划项目2E31082和国家研究基金会（NRF）项目（批准号：2018 M3E3A1057288），在IIT Bhubaneswar执行，项目代码为CP 220。6算法MCDM 央视格斗77.24[三十一] UBI-Fights84.07[6]美国[38]第三十八话81.11PCA79.9485.1383.58LOF77.6084.8682.025549引用[1] Davide Abati、Angelo Porrello、Simone Calderara和RitaCucchiara。用于新颖性检测的潜在空间自回归在procComput. 目视模式识别。（CVPR），第481- 490页，2019年。[2] 法特玛河谢尔？阿尔卡拉夫科尼斯河Douglas Martin和Ruben H.萨格勒布用于数据挖掘的可扩展稳健协方差和相关估计第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集，第14-23页，2002年[3] Shreetam Behera，Thakare Kamalakar Vijay，H Man-ishKausik和Debi Prosad Dogra。Pidlnet：一个物理诱导的深度学习网络，用于人群视频的表征。2021年第17届IEEE高级视频和基于信号的监控（AVSS）国际会议，第1-8页[4] 马库斯·M放大图片创作者：Thomas T. Ng，andJ o？rgSande r. LOF：识别基于密度的局部离群值。SIGMODRec. ，29：93[5] Jo aoCarreira和Andr e wZisserman 。Quovadis，动作识别？新模型和动力学数据集。在过程计算中目视模式识别。（CVPR），第4724-4733页，2017年。[6] 布鲁诺·德加丹和雨果·普罗纳。人类活动分析：用于检测异常事件的迭代弱/自监督学习框架IEEEInternationalJoint Conference on Biometrics （ IJCB ），第 1-7 页IEEE，2020年。[7] 布鲁诺·德加丹和雨果·普罗恩·卡塔尼亚。迭代弱/自监督分类框架用于异常事件检测。Pattern RecognitionLetters，145：50[8] Keval Doshi和Yasin Yilmaz。重新思考视频异常检测-一种持续学习的方法。在温特。Conf. on Appli.的Comp.Vis。（WACV），第3036-3045页，2022年。[9] 冯家昌，洪发庭，郑伟世。Mist：用于视频异常检测的多实例自训练框架在过程计算中目视模式识别。（CVPR），第14009-14018页，2021年6月。[10] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha， Moussa Reda Mansour ，Svetha Venkatesh ， andAnton Van Den Hengel.记忆正态性以检测异常：用于无监督异常检测的存储器增强深度自动编码器。在Proc.Int. Conf. Comput.目视（ICCV），第1705-1714页，2019年。[11] 放大图片作者：Mahmudul Hasan，Jonghyun Choi，JanNeumann，Amit K. Roy-Chowdhury和Larry S.戴维斯学习视频序列中的时间规律。在过程计算中目视模式识别。（CVPR），第733-742页，2016年。[12] 日南亮太、桃美、佐藤新一通过学习深层共性知识实现异常事件的联合检测和叙述。在proc Int. Conf. Comput.目视（ICCV），第3639-3647页，2017年。[13] RaduTudorIonescu ， Sorina Smeureanu ， MariusPopescu，and Bogdan Alexe.使用缩小的正态性聚类检测视频中的异常事件在温特。Conf. 关于Appli的Comp.Vis。（WACV），第1951-1960页，2019年。[14] Okan Kopuklu，Jiapeng Zheng，Hang Xu，and GerhardRigoll.驾驶员异常检测：数据集和对比学习approach. 在温特。 Conf. on Appli. 的 Comp. Vis 。（WACV），第91-100页，2021年1月。[15] Okan Kopuklu，Jiapeng Zheng，Hang Xu，and GerhardRigoll.驾驶员异常检测：数据集和对比学习方法。在温特。Conf. on Appli.的Comp. Vis。（WACV），第91-100页，2021年1月。[16] 路易斯·克拉茨和西野光使用时空运动模式模型在极端拥挤场景中的异常检测在proc Comput. 目视模式识别。（CVPR），第1446- 1453页，2009年。[17] 萨姆·勒鲁，波丽，还有彼得·西蒙.多分支神经网络用于不利照明和天气条件下的视频异常检测在温特。Conf.on Appli.的Comp. Vis。（WACV），第2358-2366页，2022年1月。[18] Weixin Li，Vijay Mahadevan，and Nuno Vasconcelos.拥挤场景中的异常检测与定位IEEE Transactions on PatternAnalysis and Machine Intelligence，36（1）：18[19] 刘飞、丁启明、周志华。基于隔离的异常检测。ACM翻译知识发现。数据，6（1），2012。[20] PengpengLiu ， MichaelLyu ， IrwinKing ， JiaXu.Selflow：光流的自监督学习在proc Comput. 目视模式识别。（CVPR），第4566-4575页，2019年。[21] 策武路、建平石、贾佳雅。MATLAB中150 FPS下的异常事件在过程计算中目视模式识别。（CVPR），第2720-2727页，2013年。[22] Yiwei Lu ， K Mahesh Kumar ， Seyed shahabeddinNabavi，and Yang Wang.使用卷积vrnn进行异常检测的未来帧预测。在2019年第16届IEEE高级视频和基于信号的监控（AVSS）国际会议上，第1-8页[23] Amir Markovitz 、 Gilad Sharir 、 Itamar Friedman 、 LihiZelnik- Manor和Shai Avidan。用于异常检测的图嵌入姿势聚类在过程计算中目视模式识别。（CVPR），2020年6月。[24] Sadegh Mohammadi，Alessan

下载后可阅读完整内容，剩余1页未读，立即下载