没有合适的资源?快使用搜索试试~ 我知道了~
2665(阳性袋)基于正态性指导的多示例学习的弱监督视频异常检测Seongheon Park1Hanjae Kim1Minsu Kim1Dahye Kim1Kwanghoon Sohn,2*1延世大学2韩国科学技术学院(KIST){sam121796,incohjk,minsukim320,dadjun,khsohn} @ yonsei.ac.kr摘要弱监督视频异常检测(wVAD)的目的是基于视频级监督区分异常和正常事件大多数现有的作品利用多实例学习(MIL)与排名损失来解决这个任务。然而,这些方法依赖于基于MIL的分类器的噪声预测,用于在排名损失中选择目标实例,从而降低模型性能。为了克服这个问题,我们提出了常态引导的多输入-异常视频异常视频(阳性袋)预测得分选择错误(a)上一个MIL排名模型初始分数细化分数立场学习(NG-MIL)框架,其将来自无噪声正常视频的各种正常模式编码成用于构造基于相似性的分类器的原型。通过集成两个分类器的预测,我们的方法可以细化异常分数,减少弱标签的训练不稳定性此外,我们还引入了正态聚类正常视频(阴性袋)NGRMU S相似性正确的选择!和常态引导的三重损失约束内袋,:异常视频中的正常实例:异常视频中的异常实例S:相似性度量提高NG-MIL的效果,增加分类器的可区分性。在三个公共数据集上进行了广泛的实验(ShanghaiTech,UCF-Crime,XD-Violence):普通视频:选定的损失(b)我国U:原型更新证明我们的方法与现有的弱监督方法相当或更好,实现了最先进的结果。1. 介绍随着对监控视频分析需求的不断增长,视频异常检测(VAD)已成为人类便利和安全的重要算法,例如安全[12],医学成像[39],工厂自动化[8]和自动驾驶[2]。异常通常被定义为偏离正常模式的行为或外观模式[5,7]。VAD旨在预测视频序列中每个片段的这种异常分数。一种典型的方法是将VAD视为视频动作分类的特殊情况[18,41],具有正常和异常两个类别。然而,训练分类器需要具有细粒度帧级注释的大规模数据集,这是昂贵的。*通讯作者图1.先前的MIL排名模型(a)和我们的提出的NG-MIL模型(b)。我们改进不可靠的初始预测的常态导向细化模块(NGRM),它编码的正常模式的全局特征。且耗时。为了缓解这个问题,一些研究人员已经解决了弱监督VAD(wVAD)[33,52,46,9,38,17,48,29],其仅需要指示视频中是否存在异常内容的视频级注释由于其具有较低的人工成本注释的竞争力的性能,wVAD方法吸引了相当大的研究兴趣。为了在没有细粒度标签的情况下检测视频的异常片段 , 常 见 的 方 法 是 将wVAD 公 式 化 为 多 实 例 学 习(MIL)问题,其中视频被表示为包含若干连续帧的实例的包。如果包(视频)的任何实例是异常的,则将其标记为阳性;如果包(视频)只有正常的实例,则将其标记为阴性。在通过二元分类器估计实例得分后,得分最高的实例被相同的实例。分类器分类器2666分别从阳性袋和阴性袋中取出然后,使用MIL排名损失将采样的正面和负面实例限制为具有较大的余量[33]。最近的wVAD方法[52,9,38,17,29]受益于排名损失,因为它提高了异常对正态的可辨别性。然而,在阳性包中所选择的前k个目标可能包含一些正常段,因为基于MIL的分类器容易产生噪声异常分数。随着训练的继续,该错误可能会加剧排名损失中的目标实例选择,从而降低整体性能[27,1]。一些工作试图用自训练[9,17]或图神经网络[51]来细化预测此外,MIL排序损失忽略了正包中大量的正常实例,这阻碍了检测被正常实例包围的硬异常实例。同时,一类分类(OCC)方法[11,24,50,19,10,26,21]专注于将正常数据的频繁出现的模式编码为质心[28]或潜在向量[50]的形式编码的紧凑表示使模型能够捕获训练样本与整个正态特征分布之间的全局关系。异常基于与学习到的异常的偏差来检测。然而,由于缺乏异常的先验知识,与wVAD方法相比,这种OCC方法表现出相对较低的性能[46]。在本文中,我们提出了常态引导多实例学习(NG-MIL)框架,以克服MIL排名损失的上述限制,如图所示。1.关键思想是利用阴性袋中的许多正常实例,这些实例是无噪声的[46],用于消除异常预测分数中的误报。受OCC方法中的常态表示[10,26]的启发,我们将所有正常视频集的正常模式所生成的原型被用来制定一个额外的异常分类器,其分数被定义为反余弦相似性的原型和未标记的实例之间的积极袋。这种基于相似性的分类器允许通过模型集成[36,35,16,49]与基于MIL的分类器来细化异常分数。此外,我们提出了常态聚类和常态引导的三重损失,以提高歧视的anoma-lies与原型内的积极袋。主要贡献概述如下:• 我们提出了常态引导的多实例学习框架,以改进基于MIL的分类器与基于相似性的分类器的异常预测。它由常态原型组成,在否定中利用无噪声实例包• 我们提出了正态聚类和正态引导的三重损失,以增加分类器的判别能力• 我们进行了大量的实验来验证我们的方法的有效性,并表明它在三个VAD基准数据集上的性能大大 优 于 最 先 进 的 方 法 , 即 ShanghaiTech [19],UCF-Crime [33]和XD-Violence [44]。2. 相关作品异常检测作为一类分类。传统的异常检测框架将任务表述为在给定许多正常样本的情况下对正常性进行建模,并基于与正常性的偏差来声明异常。早期的工作试图使用手工制作的特征来学习判别性决策边界,例如OC-SVM [31],内核OC-SVM [30]和SVDD [37]。随着深度卷积网络的出现,许多方法采用图像重建模型[11,50,19,23]来以无监督的方式学习正常的数据表示。然而,这些方法甚至以很小的错误率重建异常测试样本[10],导致漏检。最近的一些论文[10,26]通过引入正规原型解决了这个问题。每个原型通过聚集来自训练样本的特征来更新,训练样本是正常数据的近似质心。通过用最接近的原型替换深层特征,这些方法可以降低重构模型的泛化能力。我们的方法还利用了正常数据的原型表示。与上述OCC方法相反,我们利用原型来改进基于MIL的分类器的初始噪声预测。弱监督视频异常检测。wVAD最近受到了很多关注,因为标记视频级注释比帧级注释快得多且容易得多。Sultani等人[33]将wVAD公式化为MIL问题,并提出了MIL排名损失,这允许使用视频级符号训练分类器[25]。最近的方法将MIL排名损失的优化和改进的异常检测性能。例如,Wanet al. [48]将MIL等级损失扩展到内部正袋以鼓励袋内的可辨别性。Zhu等[52]提出了通过注意机制考虑时间上下文的时间增强MIL排名损失Wu等[43]为特征提取引入了因果卷积,以在准确的异常检测中捕获长期依赖性尽管他们的结果看似合理,但他们的表现是2667m=1∈不不t=1不不 t=1我Mm=1 经验Σi,m--S=联系我们×受到来自弱超声波信号的不可靠分类分数的限制为了缓解这个问题,Zhonget al.[51]提出使用图卷积神经网络从视频级标签中受自我训练[45]的启发然而,这些方法仍然依赖于不可靠的基于MIL的分类器的预测用于伪标签生成。与我们的方法同时,Liuet al. [20]还可以学习无噪声负袋中的常态,以增强基于MIL的wVAD性能。与这种使用自动编码器的方法不同,我们将常态编码为原型,即,正常特征的质心它允许模型获得正常实例的紧凑决策边界[10,40,26]。此外,我们使用学习的常态来以端到端的方式从基于MIL的分类器中改进分数。容易出错的初始噪声预测。在下文中,我们详细阐述了法线引导细化模块(第二节)。3.2)学习目标(二)3.3)。NG-MIL的总体框架如图所示。二、3.2.法线导向细化模块正态性引导细化模块(NGRM)被设计为使用正态性原型集合P=pmM来细化不可靠异常分数,其中每个正态性由原型pmRD/4表示。它包括两个主要过程,正常的更新和异常预测细化。具体介绍如下。常态更新 我们的正态更新过程旨在从所有正常视频中捕获全局正态特征。它受到了以前基于记忆的方法的启发[32,13,10,26]。为了更新常态原型pm,我们首先将f n投影到fn中,以对齐特征维度。t t3. 方法我是PM。然后,我们计算每个投影实例特征fn和所有正态性proto之间的余弦相似度。3.1. 背景和动机多实例排序框架[33,52,9,38,17,29]广泛用于弱监督视频异常检测,这要归功于其区分异常的能力P型:nt,mfˆnp⊤tm,m1,.,M.(二)||f||pm||pm||仅使用视频级标签的lous段 给定具有T个非重叠片段的视频B={v t}T,通过特征提取器E(·)计算每个实例ft ∈ R D,使得ft=E(vt)∈RD。然后,该方法定义它产生大小为T M的2维相似性图。每个投影实例被分配以更新最近的正态性原型。我们表示用于更新第m个正态性原模型的投影距离指数U的集合。将异常视频作为阳性包Ba={fa}T和m将正常视频作为负包Bn不={fn}Tt=1. 他们类型. 请注意,投影实例特征可以是-签署到一个单一的常态原型。 然后我们更新通常旨在通过排名损失来最大化正和负包中的前k个最高实例之间的异常分数使用投影实例特征的常态原型如下:1L= [1−c(fa)+1c(fn)]、(1)pm←(1−λ)pm1+λ |Um|中国(3)秩Kii=1kj+j=1t∈Um其中[·]+是铰链函数,c(f a),c(f n)表示其中λ表示指数加权的动量i j移动平均线。注意,我们更新了正态性原型-第i、第j索引的预测异常分数以降序排序。最小化等式中的排名目标(1)提高了异常实例相对于正常实例的实例区分能力。然而,它们仍然使用仅在视频级标签上训练的异常分类器来选择前k个实例。它通常会导致异常视频中正常实例的高置信度异常分数,从而在随后的学习过程中积累错误,如第2节所示。四点七在本文中,我们提出了常态引导的多实例学习(NG-MIL),其中常态原型使用来自正常视频的不同常态模式指导异常预测精细化。由uti-仅当指定了投影实例特征时才键入。异常预测细化。与现有的方法[33,9,38,17,29]不同,这些方法利用最高得分实例来区分异常片段的表示,我们通过将正常原型作为指导来扩展它,我们首先计算每个实例和正态原型之间的余弦相似度。然后,我们沿着Mnormality原型应用softmax操作,并将其用作相似性得分的注意力权重,如下所示:M将常态原型与非常态原型的相似性立场作为额外的分类分数,我们完善了g(f,P)=λexp(si,m/τ)m=1i,ms, (4)KK/τ)2668n={fn不CLST不p∈PM我 211ΣKE:编码器IS :实例中的实例选择m:平均值+:元素求和余弦相似度F:softmax函数w:加权平均数E密耳分类器更新优化视频top-kS反转FW是M+LNG-MIL实例SFW反转NGRMtop-kE密耳分类器图2.提出了NG-MIL框架的总体架构,该框架由编码器、NGRM和基于MIL的分类器组成首先,我们将一对异常和正常视频输入网络,通过预先训练的骨干和编码器生成特征嵌入。然后,基于MIL的分类器预测异常分数,该异常分数由NGRM细化。最后,NG-MIL排名损失与细化分数一起应用。注意,正常和异常分支共享相同的编码器和分类器。在测试阶段,单个未标记的视频是网络的输入。其中τ是温度超参数。我们进一步将ReLU函数应用于g,以确保它是非负的。请注意,我们的模型对异常和正常视频应用相同的规则,因此为了简洁起见,我们省略了上标a和n我们可以简单地将异常得分a(fi,P)表示为实例和正常原型之间的反向相似性得分,使得:a(f i,P)= 1 − g(f i,P).(五)最后,我们通过集成两个预测来改进分数每个分类器的得分,如下[36,35,16,49]:(1),NG-MIL排名损失允许选择更有信心的目标实例进行排名损失,这消除了弱标签的训练不稳定性。正态性聚类损失。 集群驱动loss [6],我们进一步提出了正态聚类损失,以鼓励负袋中的每个实例与其最近邻居原型之间的聚类:不L=minp−fn2。(八)i=1M1r(fi)= (c(fi)+a(fi,P)).(六)23.3.学习目标我们利用三个损失来优化我们的网络:正规性引导的MIL排名损失LNG−MIL,以及NGRM的两个辅助损失Lclst和Ltri,它们正则化了所述的实例特征在于分别位于所述的负极袋和正极袋内。正态性引导的MIL等级损失。使用第二节中3.2,我们建议NG-MIL排名损失如下:这种聚类损失降低了异常的类内方差,这有利于NGRM中基于相似性的异常分类的可辨别性正态性引导的三重态丢失。为了从基于MIL的分类器和基于相似性的分类器中进行准确的分类,我们期望异常实例特征在正袋和负袋中都远离正常实例特征。然而,NG-MIL在Eq.(7)只考虑前k个实例作为优化单元,忽略正包中的正常实例由于异常视频中的大多数片段包含正常事件,这阻碍了分类器检测被正常事件包围的异常实例K KL=[1−1r(fa)+1r(fn)]、 (7)从这个动机出发,我们引入常态引导NG−MILKii=1kj+j=1三重损失,使正常和异常实例特征之间的差距大幅度恶化。我们先取样其中i和j是分数r的索引,以降序排序伪异常集a={fa,.,fa}和伪nor-命令。与等式中的基本MIL等级损失相比马尔塞特拉T−k+1、...、fa},其中包含top-k和26692时间平滑项,定义为L=(r(f)-tsij= arg min f −i+1 − p m。(Σ:伪异常实例:伪正常实例:正常原型特征空间ΩΩP图3.正态性引导的三重态损失的图示。对于每个样本(即,正样本),则最近的正态原型成为锚。然后,来自最接近每个锚的伪异常集合的样本正态性引导的三重态损失最小化锚点和阳性样本之间的距离使用来自Eq.(6)按降序排列。因此,损失公式为:K4. 实验4.1. 数据集和评估指标我 们 在 三 个 视 频 异 常 检 测 基 准 上 进 行 实 验 ,ShanghaiTech [19] , UCF-Crime [33] 和 XD-Violence[44]。ShanghaiTech是一个中等规模的数据集,包含437个校园监控视频,13个场景中有130个异常事件。由于原始训练数据集仅包含正常视频,Zhonget al. [51]将测试视频重组为训练数据,反之亦然。UCF-Crime是一个大规模的复杂数据集,包含1900个室内和室外未经修剪的真实世界监控视频。训练集包括800个正常视频和810个异常视频,测试集包括150个正常视频和140个异常视频,其中包含13种异常事件。XD-Violence是一个从电影、野外场景和监控摄像头中收集的大规模多样化数据集。该数据集包含4754个视频,其中包括2349个正常视频和2405个异常视频。训练集包含3954个视频,测试集包含800个视频。L=1<$[<$f<$a−p<$−min<$f<$a−p<$2+γ],三Ki=1T−i+1J2fa∈aj2+(九)评估指标。根据以前的工作[33,52,46,9,38,17,48,29],我们绘制曲线下面积其中γ是预定义的裕度,并且j是从伪正态集中的每个样本中最接近的原型:E2T2m∈M我们的损失通过惩罚(P,n,n,a)中的三元组来增强正袋中正规性的类内紧性和类间可分性,从而显著提高了NGRM的精化质量.总损失我们的总损失函数定义为NG-MIL排序损失L NG−MIL、正态聚类损失L clst和正态引导三重损失L tri的总和。此外,继Sultaniet al.[33]我们将T1i=1r(fi+1))2和稀疏约束项定义为帧级接收机工作特性(ROC)的AUC作为评估我们的方法的性能。ROC曲线显示了所有分类阈值下的性能 , 主 要 用于 二 进 制 分 类 任 务 。 此外 , 对 于 XD-Violence数据集,我们还使用平均精度(AP)作为评估指标[44,38,17]。请注意,较高的AUC和AP意味着更好的异常检测性能。4.2.实现细节我们从预训练的I3D [4]的“mixed 5 c”层中提取2,048 D特征,或者从预训练的C3D [14]的“fc 6”层中提取4,096 D特征编码器由时间卷积层和ReLU激活函数组成。根据以前的作品[38,33],我们将每个视频分为32个不重叠的片段。基于MIL的类-不i=1 r(fi),利用时间一致性的特征sifier是3层MLP,其中节点的数量是512,事件的频繁性和真实世界场景中异常事件的罕见性。最后,总损失定义为:128、1、1。每一层后面都是ReLU激活函数和速率为0.7的dropout函数。Ltotal=LNG−MIL+λtLclst+λcLtri+ λr(Lts+Ls),(十一)NGRM包含32个用于上海科技的原型和64个用于UCF-犯罪和XD-暴力的原型,在所有正常视频中通过K均值聚类算法[22]初始化那个…其中λt、λc和λr为不同的损失信号分配相对重要用于正态性更新的mentum参数被设置为0.1,并且等式(1)中的温度超参数被设置为0.1。(4)到0.5。注意:拉:推2670×监督方法特征AUC(%)单类Conv-AE [11]-50.60分类ST-图[34]-72.70Sultani等人[33个]C3D RGB75.41Sultani等人 * [33个]I3D RGB77.92IBL [48]C3D RGB78.66移动感知[52]PWC流量79.00GCN异常[51]TSN RGB82.12弱监督[46]第四十六话雾[9]C3D RGBC3D RGB83.0381.40雾[9]I3D RGB82.30RTFM [38]C3D RGB83.28RTFM [38]I3D RGB84.03MSL [17]C3D RGB82.85MSL [17]I3D RGB85.30BN-SVP [29]I3D RGB83.39弱监督我们C3D RGB83.43我们I3D RGB85.63表1.在ShanghaiTech上,在一类分类和弱监督模式下,帧级AUC与其他SOTA方法的性能比较带 * 的方法由[38]报道。最高的结果用粗体表示。我们在测试阶段不更新正态性原型。我们将正态性引导的三重态损失的裕度值设置在等式中。(9)至8。我们的方法使用Adam优化器以端到端的方式进行训练重量衰减为0.0005,批量大小为64。每个小批次由32个随机选择的正常和异常视频组成。通过在对数尺度上使用网格搜索的交叉验证,我们将超参数λt,λc和λr分别设置为0.1,0.1和0.54.3. 在上海科技上海科技的AUC结果见表1.我们的方法使用I3D RGB特征实现了97.43%的AUC得分,使用C3D RGB特征实现了96.02%的AUC得分,优于现有的最先进的一类分类(OCC)[11,24,26,3,47]和弱监督方法[48,51,33,40,46,9,38,17,29]。这些结果证明了我们提出的NG-MIL的有效性。4.4. UCF-犯罪表现关于UCF-犯罪的业绩见表2。与上海理工大学的结果一致,我们的方法优于所有OCC [11,34]和弱监督方法[33,48,52,51,46,9,38,17,29]。例如,与 I3D RGB 功 能 , 我 们 的 方 法 优 于 Sultani 等 人 。[33]7.71%,GCN异常[51] 3.51%,MIST [9] 3.33%,RTFM [38] 1.60%,[17] 0.33%,BN-SVP [29] 2.24%。认为-利用C3D RGB特性,我们的方法也取得了有竞争力的结果。与计算成本高的替代训练[51]和自我训练[17,9]方法相比,我们的表2.在UCF-Crime上的一类分类和弱监督模式下,帧级AUC与其他SOTA方法监督方法特征AP(%)单类OC-SVM [31]-27.25分类Conv-AE [11]-30.77Sultani等人[33个]C3D RGB73.20Sultani等人 * [33个]I3D RGB75.68Wu等人[第四十四届]I3D RGB75.41弱监督Wu etal. [44]RTFM [38]I3 D RGB/音频C3D RGB78.6475.89RTFM [38]I3D RGB77.81MSL [17]C3D RGB75.53MSL [17]I3D RGB78.28弱监督我们C3D RGB75.91我们I3D RGB78.51表3.在XD-Violence上,AP与其他SOTA方法在一类分类和弱监督模式下的性能比较。方法通过以端到端的方式训练模型,证明了我们模型的有效性。4.5. 关于XD-ViolenceXD-暴力的性能如表3所示。我们的模型超过OCC方法[31,11],AP最低为47.74%。此外,与其他最先进的弱监督方法相比,我们的方法比Sultani等人的性能更好。[33] 2.83%,RTFM[38]0.70%,MSL [17] 0.23%,使用I3D RGB特征。具体地,与Wu等人的具有RGB和音频特征的训练方法相比。[44]可以观察到,我们的方法甚至可以仅用RGB特征实现相当4.6. 消融研究高k精度为 了 验证我们的NG-MIL框架的有效性,我们使用top-k精度度量:Top-k精密度(%)=TPI100,(12)TPI+FPI监督方法特征AUC(%)Conv-AE [11]-50.60单值分类Stacked-RNN [24]MNAD [26]AMMC [3]---68.0070.5073.70GCL [47]-78.93IBL [48]C3D RGB82.50GCN异常[51]TSN RGB84.44Sultani等人 * [33个]I3D RGB85.33AR-Net [40]I3D RGB/Flow91.24[46]第四十六话C3D RGB89.67雾[9]C3D RGB93.13弱监督雾[9]I3D RGB94.83RTFM [38]C3D RGB91.51RTFM [38]I3D RGB97.21MSL [17]C3D RGB94.81MSL [17]I3D RGB97.32BN-SVP [29]C3D RGB96.00弱监督我们C3D RGB96.022671基线RTFM我们基线RTFM我们AUC(%)1005090100954080907030856080501 30 60 90200时期编号201 30 60 90 20075时期编号(a) 上海科技(b)UCF -犯罪图4.(a)上海科技和(b)UCF的比较结果-在每个时期(k=3)通过Top-k精度测量的犯罪。701 8 16 32 64 128原型编号图5. AUC与上海科技和UCF-Crime上不同数量的原型有关。方法上海科技UCF-犯罪基线93.1383.01NGRMsim94.0183.64NGRM97.4385.63表4. Top-k选择策略在上海科技和UCF-Crime上的比较结果,通过AUC测量。其中TPI和FPI指示前k个实例中的真阳性请注意,这是指-表5.上海科技和UCF-Crime损失函数分析的AUC结果。在测试异常视频上确认。该度量的值越高,表明前k个实例被更准确地选择来计算排名损失,这可以提高模型的整体学习。我们将top-k精度性能与其他top-k排名模 型 ( 包 括 基 线 和 RTFM ) 进 行 比 较 , 使 用ShanghaiTech和UCF-Crime基准测试的I3 D RGB功能。在图4中,我们观察到我们的方法在top-k精度方面显示出更快的收敛速度和更高的性能。对于上海理工大学,我们的方法优于基线和RTFM的16.03%,8.12%在第一个时期,11.54%,2.04%收敛后。在UCF-Crime上观察到类似的结果,在第一个时期显示出16.79%、8.66%的改善这表明我们的NGRM有助于更准确地采样top-k实例。利用准确样品的优势,与其他方法相比,我们的模型还获得了更好的AUC性能,如表1和表2所示。Top-k选择策略在表4中,我们使用I3 D RGB特征调查了我们的精炼策略对上海科技和UCF-Crime的贡献。我们考虑三种类型的top-k选择策略的MIL排名损失:(1)仅使用基于MIL的分类器(基线)(2)仅使用基于相似性的分类器的NGRM(NGRM sim),以及(3)使用基于MIL的分类器和基于相似性的分类器两者的NGRM(NGRM)。通过细化的分数选择前k个实例在很大程度上优于仅分数,并且相似性-仅方法对上海理工大学和UCF-Crime的影响分别为4.30%、3.42%和2.62%、1.99%。这表明NG-MIL框架有助于整体性能,其学习基于相似性的分支和基于MIL的分支之间的互补信息,从而避免陷入局部最小值。原型的数量。我们使用ShanghaiTech和UCF-Crime来研究原型数量M的影响。我们通过使用不同数量的具有I3D RGB特征的原型进行实验五、可以观察到,预测的异常分数具有最高的AUC,在上海科技上M= 32时为97.43%,在UCF-Crime上M= 64这表明,从真实世界的监视中捕获的UCF犯罪比上海理工大学仅在校园中捕获的正常模式更具多样性。此外,原型数量不足(M10)显着降低性能,这验证了建模不同的正常模式的重要性。损失组成部分的影响。我们使用表5中的I3 D RGB特征对上海科技和UCF-Crime的每个拟议损失函数进行了成分分析。NG-MIL排序损失的基线达到93.13%,每个数据集的AUC为83.03%。提出的正态性引导的三重态损失Ltri比上海理工大学和UCF-Crime的NG-MIL排名损失提高了2.38%,1.03%,而上海科技UCF-犯罪Top-k精密度(%)Top-k精密度(%)LNG−MILL三Lclst上海科技UCF-犯罪✓93.1383.03✓✓95.5184.06✓✓96.5984.87✓✓✓97.4385.632672异常视频01_01301异常视频05_00211异常视频12_01421正常视频04_000310.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 80 160 240 320框架编号00 80 160 240 320400框架编号00 160 320 480框架编号00160320480640800框架编号入室盗窃037_x2641商店行窃007_x264爆炸004_x2641 1普通904_x26410.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20032064096012801600框架编号0080016002400320040004800框架编号003206409601280 1600框架编号00160320480640800框架编号图6.在上海理工大学和UCF-Crime测试视频中显示异常分数橙色曲线显示我们的方法的异常分数粉色区域表示地面实况异常帧。每个红色和绿色框显示异常和正常事件。最好用彩色观看。正态性聚类损失Lclst分别提高了3.46%和1.84%。综合考虑所有损失分量的模型的预测效果最好,分别为97.43%和85.63%。它表明,这两种损失是有效的提高性能随着NG-MIL排名损失,通过增加视频中的异常的可辨别性。4.7. 定性分析在图6中,我们可视化了上海科技和UCF-Crime中几个具有挑战性的案例我们比较我们的模型与基线以下SEC。4.6.基线模型无法区分异常事件和正常事件,其中混淆了与任何其他背景信息相似的异常事件(12 0142、入室盗窃037、入店行窃007),并且还错过检测假阳性正常事件(04 0003、爆炸004、正常904)。与基线模型相比,我们的方法成功地完全预测了长期异常事件(01 0130,05 0021,12 0142,盗窃037),单个短期异常事件(爆炸004),多个异常事件(盗窃037,商店 行 窃 007 ) , 以 及 仅 正 常 事 件 ( 04 0003 , 正 常904),在正常和异常事件之间具有大的分数边界。此外,我们的模型检测到一些类似于正常事件的chal-challening 异 常 事 件 ( Burglary 037 , Shoplifting007),显示了我们的正常性引导的三重丢失的有效性。5. 结论在这项工作中,我们确定了前弱监督视频异常检测方法的固有局限性基于多实例学习的排序模型。我们观察到,大多数方法仅依赖于不可靠的异常分数来进行高置信度异常实例选择,这可能导致错误的异常预测。为了解决这个问题,我们提出了改进异常分数从基于MIL的分类器正常的原型,描述正常信息的全局特性。此外,我们还引入了正态性聚类和正态性引导的三重态损失来提高精化过程的质量。三个流行的VAD数据集上的实验结果表明,我们的方法的有效性,表现出改进的性能比国家的最先进的方法。更广泛的影响。该方法可应用于实时智能视频监控系统中,大大提高了监控效率.视频异常检测系统是为了提高社会安全而设计的,然而,它也可能具有一些潜在的负面社会影响。监控数据和VAD数据集可能会对不相关的个人造成隐私问题。因此,这些数据的收集过程应该通知收集中的人员,并且必须很好地制度化以使用VAD算法。鸣谢。这项工作得到了2022年延世签名研究集群计划( 2022- 22-0002 ) 和 KIST 机 构 计 划 ( 项 目 编 号 2E31051 -21-203)的支持。异常分数异常分数异常分数异常分数异常分数异常分数异常分数异常分数2673引用[1] Eric Arazo , Diego Ortego , Paul Albert , Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差。IJCNN,2020年。[2] 丹尼尔· 博格多尔,马克西米利安· 尼切,J· 马里乌斯·Z?自动驾驶中的异常检测:调查。CVPR,2022年。[3] Ruichu Cai,Hao Zhang,Wen Liu,Shenghua Gao,andZhifeng Hao.视频异常检测的外观-运动记忆一致性网络。AAAI,2021年。[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。CVPR,2017年。[5] Varun Chandola、Arindam Banerjee和Vipin Kumar。异常检测:一个调查。2009年共同国家安全报告[6] Chaofan Chen,Oscar Li,Daniel Tao,Alina Barnett,Cynthia Rudin,and Jonathan K Su.看起来像这样:深度学习用于可解释的图像识别。NeurIPS,2019。[7] 程凯文,陈益堂,方文贤。使用层次特征表示和高斯过程回归的视频异常检测和定位。CVPR,2015年。[8] Laura Erhan , M Ndubuaku , Mario Di Mauro , WeiSong,Min Chen,Giancarlo Fortino,Ovidiu Bagdasar,and Antonio Li- otta.传感器系统中的智能异常检测:多角度的评论。信息融合,2021年。[9] 冯家昌,洪发庭,郑伟世。Mist:用于视频异常检测的多实例自训练框架CVPR,2021年。[10] Dong Gong , Lingqiao Liu , Vuong Le , BudhadityaSaha,Moussa Reda Mansour,Svetha Venkatesh ,andAnton van den Hengel.记忆正态性以检测异常:用于无监督异常检测的存储器增强深度自动编码器。ICCV,2019。[11] Mahmudul Hasan , Jongghyun Choi , Jan Neumann ,Amit K Roy-Chowdhury,and Larry S Davis.学习视频序列中的时间CVPR,2016年。[12] HelenMHodgetts,Fran coisVachon,CindyChamberland,andSe'bastienTrembla y. 见无恶:认识到安全监视和监控的挑战JARMAC,2017年。[13] Linjiang Huang,Yan Huang,Wanli Ouyang,and LiangWang.弱监督时间动作定位的关系原型网络。AAAI,2020年。[14] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模CVPR,2014年。[15] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[16] Bin Li,Yin Li,and Kevin W Eliceiri.双流多示例学习网络用于具有自监督对比学习的整个幻灯片图像分类。CVPR,2021年。[17] 李硕,方琉,焦立成。基于Transformer的自训练多序列学习在弱监督视频异常检测中的应用。AAAI,2022年。[18] 刘昆和马华东。探讨监控影片中异常侦测的背景偏差。ACM MM,2019年。[19] Wen Liu , Weixin Luo , Dongze Lian , and ShenghuaGao.异常检测的未来帧预测CVPR,2018年。[20] 杨柳,刘静,赵梦阳,李爽,宋良。弱监督视频异常检测的协同正态性学习框架IEEE Transactions on Circuitsand Systems II:《快报》,2022年。[21] Zhian Liu , Yongwei Nie , Chengjiang Long , QingZhang,and Guiqing Li.一种通过内存增强流重构和流引导帧预测的混合视频异常检测框架。ICCV,2021年。[22] 斯图尔特·劳埃德。脉码调制中的最小二乘量化IEEEtrans-actions on information theory,1982.[23] Weixin Luo,Wen Liu,and Shenghua Gao. 使用卷积lstm进行异常检测以记住历史记录。ICME,2017.[24] Weixin Luo,Wen Liu,and Shenghua Gao.堆叠式rnn架构中以ICCV,2017年。[25] 奥德·马龙和托马的洛扎诺·佩雷斯。一个多实例学习的框架NeurIPS,1997年。[26] Hyunjong Park,Jongyoun Noh,and Bumsub Ham.用于异常检测的学习记忆引导的正态性CVPR,2020年。[27] Mamshad Nayeem Rizve 、 Kevin Duarte 、 Yogesh SRawat和Mubarak Shah。为伪标签辩护:一个用于半监督学习的不确定性感知伪标签选择框架。arXiv预印本arXiv:2101.06329,2021。[28] Lukas Ruff , Robert Vandermeulen , Nico Goernitz ,Lucas Deecke , Shoaib Ahmed Siddiqui , AlexanderBinder,Em-manuelMüller,andMariusKloft. 深度一级分类。ICML,2018。[29] Hitesh Sapkota和Qi Yu贝叶斯非参数子模视频分割鲁棒异常检测。CVPR,2022年。[30] Bernhar dSchoülk opf,JohnCPlatt,JohnShawe-Taylor,Alex J Smola,and
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功