没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于交叉U网和级联滑动窗口的Yujun Kima,Jin-Yong Yua,Euijong Leeb,Young-Gab Kima,a大韩民国首尔世宗大学计算机和信息安全与智能无人机融合工程系b大韩民国忠北国立大学计算机科学系阿提奇莱因福奥文章历史记录:2022年1月18日收到2022年3月27日修订2022年4月15日接受2022年4月30日在线提供保留字:异常检测卷积神经网络实时系统视频监控A B S T R A C T随着视频监控呈指数级增长,自动检测视频监控中异常事件的方法至关重要。针对视频监控中的异常事件,提出了几种异常检测方法.最近,许多研究使用深度学习来获得高异常检测精度。大多数研究只考虑了异常检测的准确性,而没有考虑视频监控中至关重要的异常检测速度。本文提出考虑异常检测准确性和速度的Cross U-Net框架。Cross U-Net框架使用新提出的深度学习模型,该模型使用基于U-Net的两个子网络。它使得收缩路径中每隔三层该框架还使用了级联滑动窗口方法,这是一种新提出的估计帧异常分数的方法。我们使用Ped2,Avenue和ShanghaiTech数据集评估了Cross U-Net框架的异常检测准确性和速度。我们在三个数据集上实现了竞争异常检测精度和实时异常检测。©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着视频监控的数量呈指数级增长,为了减少异常事件检测的时间和成本,自动检测异常事件的方法是必不可少的。传统方法(Cong,2011 , Saligrama 和 Chen2012 , Cong 等 人 , 2013 ,JavanRoshtkhari和Levine 2013,Xiao等人,2014)使用手工制作的特征,诸如定向梯度直方图(HOG)(Dalal和Triggs 2005)和定向流直方图(HOF)(Dalal例如,2006年)。然而,这些方法在复杂场景中的异常检测准确性方面并不鲁棒。最近,视频监控中的许多异常检测方法都使用了深度学习模型,以提高复杂场景中的鲁棒性和更高的异常检测精度。这些方法分为基于对象的异常检测和基于帧的异常检测。*通讯作者。电子邮件地址:awakening95@naver.com(Y.Kim),instrument_u@naver.com ( J.-Y. Yu ) , kongjjagae@cbnu.ac.kr ( E. Lee ) ,alwaysgabi@sejong.ac.kr(Y.- G. Kim)。沙特国王大学负责同行审查基于对象的异常检测(Hinami等人,2017年,Ionescu等人,2019年,Morais等人,2019,Doshi和Yilmaz 2020,Markovitz等人,2020,Yu等人,2020,Ganokratanaa等人,2021,Georgescu等人,2021)使用在帧中检测到的对象作为模型的输入,并且它获得每个对象的异常分数。它基于对象的异常分数来推断帧的异常。此方法受帧中背景噪声的影响较小,因为它仅使用帧中检测到的对象,而不是整个帧。因此,当检测具有多个场景的帧的异常时,其具有高的异常检测精度。然而,该方法需要在数据预处理中花费时间的对象检测,并且它取决于对象检测性能,因为如果未检测到异常对象,则该方法不会检测到异常事件。它还具有不一致的推理时间,因为它推断帧中检测到的所有对象的异常分数,并且随着帧中检测到更多对象,它会变慢。例如,Ionescu等人(2019)提到,在具有12 GB RAM的Nvidia Titan XpGPU上,对象检测阶段大约需要74 ms,特征提取和推理阶段每5个对象大约需要16 ms。换句话说,基于对象的异常检测方法使它们在帧中有许多对象时变慢。因此,实时异常检测。基于帧的异常检测(Hasan等人,二〇一六年;Ravanbakhsh等人,2017年; Xu等人,2017年; Luo等人,2017a,b;Leehttps://doi.org/10.1016/j.jksuci.2022.04.0111319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comY. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3274例 如 , 2018 年 ; Liu 等 人 , 2018 年 ; Luo 等 人 , 2019; Nguyen 和Meunier2019; Zhou等人,2019 a,b; Chang等人,2020年; Lu等人,2020; Pang等人,2020年; Park等人,2020年; Tang等人,2020;Zaheer等人,2020 a,b,Cai等人,2021 a,b; Feng等人,2021;Wang等人,2021;杨例如,2021; Yu等人,2021年; Yuan等人,2021; Chang等人,2022年;Li等人,2022)使用帧作为模型的输入,并且它获得每个帧的异常分数。与基于对象的异常检测不同,该方法不需要对数据进行必要的预处理。它不受时间和地点的限制,对每帧都有一致的推理时间,即使有很多物体也不会慢下来在一个框架中。因此,它适合于实时异常检测。然而,这并不意味着每一种基于帧的异常检测方法都可以进行实时异常检测。必须考虑数据预处理、建模等方面的耗时,实时异常检测。视频监控中的异常事件应尽快检测和处理,危险情况(例如,抢劫、袭击、枪击)应该是实时可检测的。然而,许多研究没有考虑异常检测速度。他们只考虑了更高的异常检测精度。本文提出了一种兼顾精度和速度的Cross U-Net框架。该框架使用基于帧的异常检测方法进行实时异常检测。该框架由预测阶段和推理阶段组成。我们使用所提出的交叉U网模型,该模型具有基于U网的两个子网(Ronneberger等人,2015年,在预测阶段。 它使用前一帧和下一帧作为模型的输入来预测当前帧。交叉U网模型的特点是,每三层的输出在收缩路径与相应的层的输出在其他子网络组合,作为下一层的输入。它捕获上下文,并使用前一帧以及每个子网络中的下一帧,用于简明地预测当前帧。我们使用建议的级联滑动窗口方法在推理阶段。它用于获得异常分数,并从帧中减少背景噪声。该方法选择在实际帧和预测帧之间具有大差异的一些补丁作为窗口移动。级联滑动窗口法的关键是减小窗口尺寸。认为视频监控距离目标越远,目标越小。本文的主要贡献如下:1) 我们提出了Cross U-Net,这是一种新的深度学习模型,它使用两个分别接收前一帧和下一帧的子网络来预测当前帧它使收缩路径中每隔一层与其他子网络的特征图的2) 我们提出了级联滑动窗口作为一种新的异常分数估计方法,认为对象的大小变得越来越小,因为它远离监控视频。使用Cross U-Net和级联滑动窗口,我们在Avenue中获得了90.8%的竞争性帧级AUC(Lu et al., 2013),Ped2中为97.0%(Mahadevan等人, 2010年)和上海理工大学的72.5%(Luo et al.,2017a)与最先进的异常检测方法相比。3) 我们的框架实现了实时异常检测,这在视频监控中很重要,通过在Avenue中获得31 ms的处理时间,在Ped2中为33 ms,在ShanghaiTech中为41 ms。我们的论文组织如下:我们展示了异常检测的相关工作,我们展示了第2节中的跨U-Net框架。我们在第3节中介绍了我们的CrossU-Net框架,该框架使用了一个新的模型和一个新的异常分数估计方法。我们在第4节中展示了评估Cross U-Net框架性能的实验过程和结果本节展示了Cross-U-Net框架在考虑准确性和速度时具有出色的性能。我们在第5节中总结了我们的研究和未来的工作。2. 相关工作在本节中,我们展示了针对视频监控的异常检测研究。本文将异常检测分为基于对象的异常检测和基于帧的异常检测。根据是否适合实时划分。我们解释了每种方法的优点和缺点,以及为什么基于对象的异常检测不适合实时和基于帧的异常检测适合实时。然后,我们展示了交叉U-Net框架的设计动机2.1. 基于对象的异常检测基于对象的异常检测使用在帧中检测到的对象作为模型的输入。它获得每个对象的异常分数,并使用异常分数推断帧的异常Doshi和Yilmaz(2020)使用YOLO(Redmon等人,2016)和FlowNet 2(Ilg等人, 2017),用于分别获得关于帧中的对象和帧的光流的信息。他们使用对象和光流信息推断 Ganokratanaa等人(2021)提出了一种深度残差时空平移网络(DR-STANTIONAL)模型。该模型被训练以产生正常帧中检测到的对象的相应的密集光流他们通过计算合成的和真实的密集光流之间的局部像素的重建误差来推断然后,他们应用在线硬否定挖掘来消除假阳性检测结果。Georgescu等人(2021)通过对象层面的自我监督和多任务学习检测视频中的异常事件。多任务学习包括时间箭头、运动不规则性、中间盒预测和模型提取。 Yu等人(2020)提出了视频事件完成(VEC),其训练DNN来完成被擦除的补丁和被擦除的补丁的不完整视频事件的光流,以解决异常检测问题。Ionescu等人(2019)使用了基于特征金字塔网络的单次物体检测器(Lin等人,2017年,用于物体检测。它们裁剪当前帧中的检测到的对象以及前一帧和下一帧中的对应部分。对于每个对象,他们通过使用卷积自动编码器来提取潜在的外观特征和潜在的运动特征然后利用目标的特征,通过一对多支持向量机(one-versus-rest SVM)来推断目标的异常值,并利用当前帧目标中异常值最高的目标来推断当前帧的异常 Markovitz等人(2020)使用人体姿势图作为输出潜在向量的时空图自动编码器(ST-GCAE)模型的输入。然后,他们使用Dirichlet过程混合模型从潜在向量中获得Morais等人(2019)使用了Alpha姿势(Fang等人, 2017)以获得在帧中检测到的人的动态骨架特征。他们将骨骼特征分解为全局和局部成分。然后,他们获得了一个anom-aly得分为每个人使用的全局和局部组件作为输入的消息传递编码器-解码器递归神经网络(MPED-RNN)模型,他们提出的他们根据帧中最高的异常分数来推断帧的异常。Markovitz等人的方法和Morais et al.有Y. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3275-þþ-----þ þþ- 我的天--问题是它不能检测除了人以外的物体,因为他们检测基于骨骼特征的异常事件。基于对象的异常检测方法受背景噪声的影响较小,在多场景下具有较高的异常检测精度。然而,它们对于每个帧具有不一致的推断时间,因为其推断在帧中检测到的所有对象的异常分数。这意味着难以根据时间和地点进行实时异常检测。因此,基于对象的异常检测方法是不适合的实时异常检测,这是重要的视频监控。2.2. 基于帧的异常检测基于帧的异常检测使用帧作为模型的输入。它获得每个帧的异常分数,并使用异常分数推断帧的异常。Hasan等人(2016)使用了具有HOF和HOG的卷积自动编码器(Conv-AE)。Luo等人(2017 a)使用了一种具有时间相干稀疏编码(TSC)的堆栈递归神经网络(sRNN),该网络强制相似的相邻帧使用相似的重建系数进行编码。Lu等人(2020)使用了基于Meta学习的方法。Park等人(2020)使用了一种具有新更新方案的内存模块,其中内存中的项记录了典型的正常数据模式。Zaheer等人(2020 a)提出了一种聚类辅助弱监督(CLAWS)网络框架,该框架使用随机批量选择方案和常态抑制机制。Cai等人(2021a,b)将多尺度特征提取模块与ConvGRU模块融合,更好地建立正常事件预测模型,区分异常事件与正常事件。Chang等人(2022)使用两个自动编码器分离时空信息。一个是空间自动编码器,重建最后一帧。另一种是时间自动编码器,它使用连续的视频帧来预测第一帧和最后一帧之间的RGB差异。Liu et al.(2018)使用了生成对抗网络(GAN)。他们在异常检测时使用了一台发电机,除了一台发电机。识别器仅在培训时使用。该生成器基于U-Net,并使用前一帧预测下一帧。它是使用帧和关于帧的光流来学习的。使用FlowNet(Dosovitskiy等人,2015年)。他们只在训练中使用光流。因此,当检测到异常事件时,它比训练时减少了数据预处理时间。Yang等人(2021)提出了一种基于GAN的未来帧预测模型,用于异常检测。他们使用3D U-Net作为生成器,从先前的帧预测下一帧。Li等人(2022)提出了一种基于GAN的上下文相关视频异常检测方法。他们使用了两个生成器,每个生成器基于U-Net预测当前帧。一个使用前一帧,另一个使用下一帧作为输入。Yu等人(2021)通过学习从当前帧预测未来帧对未来事件的表征和对过去事件的表征的限制学习。Yuan等人(2021)提出了一种基于预测的视频异常检测方法TransAnomaly。它们将视频视觉Transformer(Arnab等人,2021年)和U-Net。Nguyen和Meunier(2019)使用了两个子网,它们共享相同的编码器并使用当前帧作为输入。一个是卷积自动编码器,其重建当前帧,另一个是U-Net,其使用FlowNet 2预测当前帧和下一帧之间的光流。当他们估计异常分数时,为了减少背景噪声,他们使用滑动窗口方法,该方法选择在预测的光流和真实光流之间以及在重构的当前帧和真实当前帧之间具有最大差异的块作为异常分数。Chen等人(2020)使用了两个基于U-Net的网络。一个使用先前帧预测当前帧,另一个预测当前帧使用下一帧。他们使用滑动窗口方法来估计异常分数,以减少Nguyen和Meunier(2019)等背景噪声。然而,它选择两个子网络中的预测当前帧之间具有较大差异的一些补丁。基于帧的异常检测方法对于帧具有这意味着该方法可以不受时间和地点的限制,实时地进行异常检测,而不像基于对象的异常检测方法。然而,它比基于对象的异常检测方法受到背景噪声的影响,因为它使用一帧我们的框架使用基于基于帧的异常检测方法的Cross U-Net模型进行实时异常检测,无论时间和地点如何,并且它使用基于滑动窗口方法的级联滑动窗口方法(Nguyen和Meunier 2019,Chen等人,2020年,减少背景噪音。我们实现了出色的异常检测准确性和实时性异常检测使用我们的框架。2.3. 动机当我们设计视频监控中的异常检测模型时,我们设计了U-Net模型,该模型使用前一帧t预测当前帧t 1时t 2或t 3、如图所示图凌晨1然后,我们使用两种异常分数估计方法测量了Ped 2数据集的U-Net的帧级AUC一种是利用实际帧和预测帧之间的差的平方,另一种是利用级联滑动窗口。当使用具有级联滑动窗口的前一帧t2时,我们获得94.21%的最高AUC,如表1所示。然后,为了更准确地预测当前帧t,我们将先前帧t1时t2或t3和下一帧t1时t2或t3用作U-Net模型的输入当使用级联滑动窗口的前一帧t2和下一帧t2的级联时,我们获得了95.39%的最高AUC然后,受Chen et al. (2020年),我们在U-Net模型的基础上设计了一个具有两个子网的模型,如图所示。1 b. 一个子网具有前一帧t1时t2或t3,另一个子网有下一帧t1,t2,或t3。每个子网络的最后一层输出连接,并且模型预测当前帧。当使用级联滑动窗口的前一帧t2和下一帧t2时,该模型具有最高的AUC为93.93%这意味着该模型不能比使用U-Net模型更好地预测当前帧。在两个U-Net的级联中,每个子网仅使用它们的输入(即,前一帧或下一帧)来捕获上下文,并且使得能够在收缩路径和扩展路径中定位当前帧然后,每个子网络被协调用于预测当前帧。它与U-Net不同,U-Net捕获上下文并使用前一帧和下一帧来定位当前帧。我们认为这种差异使得两个U-Net的级联比U-Net更难因此,我们将收缩路径中每隔三层当比较模型时,与其他子网络对应的特征图的3D U-Net(Ziçek 等人, 2016 )、V-Net(Milletari等人,2016 )、UNet++(Zhou et al.,2019 年a,b) ,ResUNet-a(Diakogiannis等人,2020)和U2-Net(Qin等人,2020年),基于U-Net。这种型号是Cross U-Net,我们建议,如图所示。 1杯Cross U-Net拥有最高的Y. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3276þ-------Fig. 1. U-Net的详细结构(a),两个U-Net的级联(b)和用于检测异常事件的交叉U-Net(c)。在U-Net中,我们不仅使用前一帧预测当前帧,而且使用前一帧和下一帧的组合预测当前帧我们发现,与Ped 2中的U-Net和两个U-Net的级联相比,Cross U-Net具有最高的AUC当使用级联滑动窗口的前一帧t2和下一帧t2时,AUC为96.99%。它的AUC比U-Net模型高。测试模型的结果如下:1) 使用前一帧t,每个测试模型都具有最高AUC 2或下一帧t 2作为输入。这意味着模型很好地预测了在使用前一帧t-1或下一帧t-1训练模型时不学习的异常帧。2) 使用级联滑动窗口时,交叉U形网的AUC高于U形网。这意味着交叉U网比U网模型更好地区分了异常部分和正常部分。在此基础上,采用级联滑动窗口方法,以前一帧t2和后一帧t2作为Cross U-Net模型的输入,设计了Cross U-Net框架。我们使用前一帧t2和下一帧t2作为交叉U网模型的输入来预测当前帧tY. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3277ð-Þ××----þ-þ---我...B¼××半]××××ð·Þ×××M Hx; xð·Þ.. Σb表1Ped 2中u-net、u-net串联和交叉u-net模型的帧级auc(%)比较 当我们测量每个模型的AUC时,我们不包括视频中的前三帧和后三帧,因为输入帧是t-3和t-3的模型不能获得前三帧和后三帧的异常分数。使用级联滑动窗口方法选择在差异平方中具有大差异的一些块,并计算所选块的平均值以用作异常得分。图2显示了我们解释的框架介绍了交叉U网模型和级联滑动窗口模型模型输入框架AUCRealFramePredictedFrame2级联滑动窗口在第3.2和3.3节中详细说明。3.2.交叉U网模型U-Nett-1 91.52 93.91t-2 91,11 94.21t-3 90.72 93.31t-1,t- 190.27 94.72t-2,t- 290.64 95.39t-3,t- 390.81 95.03我们提出了一种新的深度学习方法--Cross U-Net模型用于预测当前帧t的模型。 Cross U-Net模型有两个基于U-Net的子网,如图所示。 1杯一个子网络使用前一帧t-2,而另一个子网络使用下一帧t-2。前一帧和下一帧转换为灰度,并调整大小为256× 256×1,级联两个U型网t-1,t-189.73 91.57t-2,t- 291.12 93.93t-3,t- 388.42 91.85在每个子网中使用。每个子网络由一条收缩路径和一条扩张路径组成。收缩路径重复两个3×3卷积层交叉U形网t-1;t 189.18 95.47t-2,t- 291.56 96.99t-3,t-391.30 96.49(三)3 conv),a 22最大池化层,并与另一个子网的对应特征图。dropout在最后一个2 2最大池化层之前使用。级联因为我们在Ped2中获得了最高的AUC。然而,异常帧t2和下一帧t2可能导致其他数据集中的异常检测准确度低于其他输入。例如,如果人或物体覆盖了前一帧t2和下一帧t2中的异常事件,则当前帧可以被推断为正常。此外,如果发生异常事件,上一帧t-2和下一帧t-2类似于正常的与另一子作品这是Cross U-Net模型区别于其他模型的基本特征。该算法能够很好地预测当前帧,这就是为什么我们称之为交叉U网模型。每个子网络的收缩路径的公式表示如下:(MHxi;i0事件,则当前帧可以被推断为正常。因此,输入获得最高AUC的Cross U-Net模型取决于摄像机设置(如位置和地点)、摄像机性能(如帧速率和分辨率)、异常类型等。1和t1帧和t3和t Avenue中的3帧,我们获得了89.7%的AUC各占90.5%。AUC值低于使用t 2和T2帧。许多异常检测研究使用特定的帧作为模型的输入,以评估其方法在每个数据集中的性能。因此,我们使用前一帧t2和下一帧t2,在每个数据集中评估我们的方法时。3. 跨U-NET框架在本节中,我们将解释用于异常检测的Cross U-Net框架。我们在3.1节中描述了Cross U-Net框架的总体结构。我们在第3.2节中解释了用于预测当前帧的所提出的交叉U网模型,并在第3.3节中解释了用于获得异常分数的所提出的级联滑动窗口方法。我们在第3.4节中解释了从级联滑动窗口方法获得的异常分数的归一化。3.1.概览结构针对实时异常检测的Cross U-Net框架基于基于帧的异常检测,它对每帧都有一致的推理时间,即使帧中有很多对象也不会变该框架由预测阶段和推理阶段组成。预测阶段使用前一帧和下一帧来预测当前帧作为交叉网络模型推理阶段推断出我我其中xi表示收缩路径中除x 0之外的每三层输出的索引xi是另一个子网的相应输出。H是一个复合函数,由两个3 3卷积层组成,每个层后面是一个整流线性单元(ReLU)。M表示最大池化层,并且表示级联。每个子网络在两个卷积运算之前连接每第三层(一).该方法使每个子网络都能利用收缩路径上的前一帧和下一帧来提取当前帧的上下文信息,并使每个子网络都能利用扩张路径上的前一帧和下一帧的特征来定位当前帧。扩展路径重复2 2上采样层,随后是2 2卷积层(2 2上卷积),与来自收缩路径的对应特征图级联,以及两个3 3卷积层,并且在第一个卷积层之前使用丢弃2 2上采样层。每个子网络的最后一层使用3 3卷积层制作具有两个通道的特征图。然后,每个子网络的特征图被连接,并且11卷积层(11 conv)利用一个通道制作特征图。具有一个通道的特征图是预测的当前帧。Cross U-Net模型的每个卷积层后面都有一个ReLU。Cross U-Net模型在训练时仅使用正常当前帧的前一帧和下一帧来预测正常当前帧。我们使用预测正常当前帧和异常当前帧的差异来推断异常。我们使用逐像素均方误差作为损失函数:HW. BΣ1XX. b/2基于异常分数确定当前帧的异常获得异常分数,其获得预测的当前帧与真实的当前帧之间的差的平方那么它L F;F公司简介1/1第1页Fij-Fij;200万xi1¼;i>0ð1ÞY. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3278b输出:异常评分SBb bbBbb¼-B¼BBS拉克莱特千分之一b21结束时,BbB2bs2i¼xjy;Kbs2jy;nI¼色深产品介绍BP¼ --一种我们使用级联获得每帧的异常分数其中,bF是预测的当前帧,F是真实的当前帧。H正常补丁I上的窗口开始向右移动,在坐标x0和y0处的移动量与s相同如果窗口向右W是帧的高度和宽度。我们使用的框架256× 256尺寸。因此,在我们的模型中,h和w3.3. 提出的异常评分估计方法在从Cross U-Net模型获得预测的当前帧之后,我们使用级联滑动窗口方法来估计异常分数。异常分数用于推断帧是否包括异常。算法1示出了关于级联滑动窗口方法的算法。算法1级联滑动窗输入:实际当前帧Fi;j、预测当前帧Fi;j、帧大小s、窗口大小s、窗口减小大小d1初始化坐标x<$0和y<$0,每个贴片的平均值pk在I的左侧,窗口W向I的左侧移动,并向上移动,就像S。然后我们随着窗口大小d的减小而减小s,窗口开始向右移动s。我们重复上述操作,直到窗口到达I的右上角。如果窗口没有到达I的右侧或顶部,因为I的剩余空间小于窗口,当窗口没有到达I的右侧时,它移动到x1/4s-s,当窗口没有到达I的顶部时,它移动到y s s。它在算法1的第9行和第18行中示出。当窗口移动时,我们计算对应于窗口的补丁pk的平均值它与实际帧和对应于pk的预测帧之间的均方误差相同。在窗口到达I的右上角后,我们按升序对pk进行排序,并从pk的前面选择n个补丁。然后,我们对n个补丁进行平均,并将平均值用作异常得分S。随着d减小的窗口大小是级联滑动的关键-ing窗口,如算法1的第25行所示。它认为2i;j 1/4。Fi;j -bFi;j*2/* 图像在正方形上视频监视和对象之间的距离越长物体越小。我们通过将级联滑动窗口方法Fi;j和Fi;j之间的差异 */3而ys做<4如果是,则5而xs做<实际当前帧和预测当前帧之间的均方误差我们还根据第4.3.1节中的d6如果x≤s,则7BP8其他1Px3.4. 异常检测91syp¼PPbIi j滑动窗口异常分数的范围从0到颜色深度2,Cross U-Net模型的输出帧,颜色深度为11 X12end while13其他xs第256章在我的地盘上因此,从级联滑动窗口获得的异常分数的范围从0到65536。然而,这个范围太大,无法设立关于失范的阈值14而xs做<15如果x≤s,则Aly of frames.因此,我们需要将异常评分标准化。的当量(3)(Luo等人,2017 a; Luo等人,2017 b; Lee等人,2018 年;刘16BP1PxPbsIi;j例如, 2018年; Chen等人, 2020)将异常评分标准化k½2i¼xjs-bs0到1之间,如下所示:17其他P PST1St-mintSt318p1bs2Si¼s-bsSjs-bsIi;j0ð Þ¼-maxtSt-最小S t;19end if20x¼x秒22结束,如果23x¼ 0其中,St是帧t的异常分数,并且S0(t)是正常分数。化异常评分。 maxtSt表示最大异常评分,videos,and min t视频, 表示视频中的最小异常分数。然而,在现实世界中,maxtSt和mintSt是可以改变的。24我的天25s sd26end while27按升序排序(pk)28第1页n1pi29返回S在算法1中,我们将帧的宽度和高度表示为帧大小s,将窗口的宽度和高度表示为窗口大小s。我们首先在真实帧和预测帧之间的差的平方上获得图像I,因为它使得I的异常部分的像素具有比使用真实帧和预测帧之间的差大的值。它比使用真实帧和预测帧之间的差异更有助于检测异常补丁。因为如果包括微小异常部分的异常块使用真实帧和预测帧之间的差异,则块的平均值可能与预测帧的平均值相似或较小。在获取新帧时,它导致重新计算获得的异常分数和阈值。为了解决这个问题,我们通常-将异常评分调整为0和1之间,如下所示:S0000圣维特;400其中,colordepth表示Cross U-Net模型的输出帧的颜色深度。即使最大异常分数和最小异常分数改变,也不需要该归一化来重新计算所获得的异常分数和阈值。4. 实验本节展示了评估Cross U-Net框架性能的过程和结果。我们在4.1节中介绍了用于评估框架性能的数据集,并解释了数据集的特征。我们在4.2节中介绍了用于评估性能的实验装置我们K10结束,如果i¼s-bs我Y. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3279××××图二、Cross U-Net框架概述。它显示了我们的框架使用Cross U-Net模型预测当前帧与前一帧和下一帧。然后,我们的框架推断当前帧的异常使用级联滑动窗口方法与预测的当前帧和真实的当前帧。评估我们的框架我们将真实帧、预测帧以及真实帧和预测帧之间的差异可视化,以分析我们的框架在4.4节中我们测试了Cross U-Net模型4.1. 数据集我们使用三个数据集来评估Cross U-Net框架的性能,如下所示:中大道。该数据集提供了16个训练视频和21个测试视频,分辨率为640 360,帧速率为25 fps。其特征在于,对象尺寸变得更小因为对象变得远离记录视频的视频监视。UCSD Ped2.该数据集提供了16个训练视频和12个测试视频,分辨率为360 240,帧率为10fps(Sabokrou et al.,2015年)。其特征在于,即使对象变得远离视频监控,对象大小也是相似的。上海科技大学。该数据集提供了330个训练视频和107个测试视频,分辨率为856 480,帧速率为24 fps。与Ped2和Avenue在1个场景中捕获的视频不同,该数据集在13个场景中捕获了4.2. 实验装置测量. 我们采用许多异常检测方法中使用的帧级AUC来评估我们的框架的- 是的为了获得我们的方法的帧级AUC,我们首先使用级联滑动窗口方法获得每个帧的异常分数。然后,我们通过设置阈值来获得真阳性率(TPR)和假阴性率(FPR),该阈值基于异常分数来确定帧是否异常。在通过改变阈值获得TPR和FPR之后,我们计算受试者操作特征(ROC)并使用ROC计算帧级AUC。实施细节。我们使用Python实现了Cross U-Net框架。我们使用OpenCV(Bradski和Kaehler,2008)库将视频转换为图像,并在数据预处理中将图像转换为256 256的灰度图像。当我们调整图像大小时,我们在Avenue和ShanghaiTech数据集中使用双线性我们使用Keras库训练我们的模型,并将dropout层的dropout率该模型使用ADAM(Kingma and Ba,2014)优化器,我们将ADAM 的 学 习 率 设 置 为 0.0001 。 我 们 在 Ped2 训 练 了 600 个epoch,在Avenue训练了400个epoch,在ShanghaiTech训练了200个epoch。4.3. 实验结果本节显示了帧级AUC和运行时间的实验结果,包括详细的实验过程。实验结果表明,我们的框架具有竞争力的帧级AUC和实时异常检测在三个数据集。4.3.1. 帧级AUC在基于级联滑动窗口方法获得帧级AUC之前,我们首先基于Cross U-Net模型的每个历元的实际帧与预测帧之间的均方误差获得帧 级 AUC 我 们 在 Avenue 的 第 299 个 时 期 获 得 了 89.13% 的 最 高AUC,●●●●●Y. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3280Ped2的第591个历元和上海理工大学的第184个历元分别为70.38%和70.38%。3 .第三章。然后,我们获得了帧级AUC的基础上级联滑动窗口方法使用的历元具有最高的AUC在每个数据集的均方误差我们通过改变窗口减小大小(像素),初始窗口大小(像素)和补丁数量进行测试窗口减小大小从0到5。初始窗口大小从最小的初始窗口大小,最后一个窗口大小大于12,对于每个窗口减小大小,除了窗口减小大小0. 当窗口减小大小为0时,初始窗口大小表2基于级联滑动窗口方法的帧级AUC,根据三个数据集中的窗口减小大小。从162开始使用至1502 因为速度和最初的胜利一样慢DOW尺寸较小。表2显示了三个数据集中的最高AUC以及相应的初始窗口大小和贴剂数量(根据窗口减小大小)。随着窗口减小大小在三个数据集中的增加,它表明初始窗口大小增加并且补丁数量减少,除了当窗口减小大小在Avenue中为1时。在Ped2和ShanghaiTech中,当窗口减小大小为0时,我们获得了最高的AUC,分别为96.99%和72.48%。这表明,在两个数据集中使用滑动窗口方法可以获得最高AUC。然而,当窗口减小大小为4时,我们在Avenue中获得了90.77%的最高AUC。这表明,图3.第三章。当使用三个数据集中每个时期的实际帧和预测帧之间的均方误差时的帧级AUC图四、当窗口减小大小固定为产生最高AUC的值时,根据初始窗口大小,每个数据集具有最高AUC的贴片编号数据集窗口减小尺寸AUC(%)/初始窗口大小(像素)/贴片数量大道090.59/362/6190.65/352/7290.61/522/4390.74/542/3490.77/572/3590.68/592/3PED2096.99/292/1196.62/402/1296.13/502/1395.51/542/1494.78/572/1594.09/592/1上海科技072.48/202/2171.82/362/1271.45/522/1371.26/582/1471.14/732/1571.07/742/1Y. Kim,Jin-Yong Yu,E. Lee等人沙特国王大学学报3281××××窗口方法在诸如Avenue的数据集中是有效的,其中对象大小随着其变得远离视频监控而变得更小。我们研究了当窗口减小大小固定为使AUC最高的值时,贴片数和初始窗口大小之间的关系。我们观察到,当初始窗口尺寸较小时,需要许多补丁来区分正常事件和异常事件。我们还观察到,当初始窗口尺寸较大时,补丁的数量收敛到1,如图所示。 四、如表3所示,与最先进的异常检测方法相比,我们在三个数据集中获得了竞争性AUC,尽管所提出的方法在上海科技中具有比Avenue和Ped2相对较低的AUC。我们的方法在Avenue和ShanghaiTech中的AUC比Park等人高2.3%和2%。(2020),其在Ped2中具有相同的AUC。我们的方法在Avenue中的AUC比Ionescu等人(2019)高4.2%,后者在上海科技大学中的AUC最高。与我们的方法相比,DR-β在Ped 2中的AUC高0.6,在Avenue中的AUC相同Ionescu等人DR-1使用基于对象的异常检测方法。因此,随着帧中对象数量的增加,它们需要更多的每帧处理时间。我们在相同的环境中比较了我们的方法和他们的方法的处理时间,我们在4.3.2节中证明了我们的方法比他们的方法快。当我们在上海理工大学测量我们的方法的AUC时,我们在每个场景中使用相同的级联滑动窗口的窗口大小和窗口减小大小,以与Avenue和Ped2进行同等评价。它导致AUC下降,因为它没有针对每个场景进行优化。通过对每个场景的参数进行优化,我们可以在上海理工大学获得更高的AUC。4.3.2. 运行时间在视频监控中,必须准确、快速地检测到异常事件,并对危险情况进行实时处理。我们测试了我们的方法在三个数据集中具有最高AUC时的平均运行时间。运行时间是指获得一帧的异常分数的时间。我们按顺序计算了每个测试视频的帧的运行时间。然后,我们通过将运行时间的总和除以帧的数量来获得平均运行时间。在测试方法的运行时间时,我们将运行时间分为三个部分:预处理时间、预测时间和推理时间。 预处理时间包括将视频转换为图像(如果视频中提供了数据集),将RGB转换为灰度(如果图像是RGB),以及将大小转换为256 256 1以用作Cross U-Net模型的输入。预测时间是交叉U形网模型使用前一帧和下一帧预测当前帧的时间。推断时间是使用级联滑动窗口方法推断当前帧的异常分数的时间。我们在配备Intel(R)Core(TM)i9- 10940 XCPU@3.30 GHz的NVIDIA TITAN RTX GDDR 6 24 GB上测试了我们的方法,并使用基于TensorFlow 1.15.0的Keras 2.3.0来预测Cross U-Net模型。表4显示了我们的方法在三个数据集中的平均运行时间。我们得到了每帧的平均运行时间Avenue为31 ms,Ped2为33 ms,Shanghai Tech为41 ms。这意味着我们的方法
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功