没有合适的资源?快使用搜索试试~ 我知道了~
1237/DEHO1RViH&OHDQHU(* 1)6WHSW≥2+iJK图形卷积标签噪声清理器:训练即插即用动作分类器进行异常检测钟家兴1,2李楠楠3,1,2孔伟杰1,2刘山4托马斯H。李1葛李1、2 1北京大学电子与计算机工程学院2鹏程实验室3深圳龙岗智能视频音频技术研究所4腾讯美洲jxzhong@pku.edu.cnlnnsiat@gmail.comweijie.pku.edu.cnshanl@tencent.comtli@aiit.org.cngeli@ece.pku.edu.cn摘要弱标记下的视频异常检测在以往的研究中被归结为一个典型的多示例学习问题在本文中,我们提供了一个新的视角,在噪声标签下的监督学习任务。在这种观点下,只要清除标签噪声,我们就可以直接将全监督行为分类器应用于弱监督异常检测,并最大限度地发挥这些成熟分类器的优势。为此,我们设计了一个图卷积网络来纠正噪声标签。基于特征相似性和时间一致性,我们的网络将监督信号从高置信度片段传播到低置信度片段。以这种方式,网络能够为动作分类器提供干净的监督。在测试阶段,我们只需要从动作分类器中获得片段预测,而在3个不同尺度的数据集上,使用2种类型的动作分类器进行了大量的实验,值得注意的是,我们在UCF-犯罪上获得了82.12%的帧级AUC分数。1. 介绍视频中的异常检测因其在现实世界中的广泛应用而得到了长期的研究。智能监视、暴力警报、证据收集等。由于异常事件在常见环境中很少见到,因此在以前的工作中,异常通常被定义为与通常模式不同的视觉或外观模式[6,1,13]。基于该定义,异常检测的流行范例是一类分类[66,11](也称为一元分类),即,以仅用正常训练样本对通常模式进行编码。然后,独特的编码模式被检测为异常。但是,不可能收集所有正常行为,&ODVViIIFDWiRQ6WDJH&OHDQiQJ6WDJH6小时OHFW6QiSSHW(/HVV QRiVH)9iGHR/DEHO9iGHR6QiSSHWV6QiSSHW(1RiV\)$FWiRQODVViIiHU6WHS W =1图1:替代优化机制的概念。由动作分类器预测的噪声标签被用来训练标签噪声清洁器,然后它们被细化。重新分配清理后的标签以优化操作分类器。这两个训练过程交替执行。一个数据集因此,一些正常事件可能偏离编码模式,并可能导致错误警报。近年来,有一些关于新兴的二进制分类范例的研究[20,22,58]:训练数据包含异常和正常视频。遵循二进制分类范式,我们尝试解决弱监督异常检测问题,在训练数据中在这个问题中,既没有修剪的异常段,也没有时间的注释,考虑到人力成本。弱监督异常检测问题在先前的工作中被视为多实例学习(MIL)任务[20,22,58]。它们将视频(或片段集合)视为包,其由被视为实例的片段(或帧)组成,并且通过包级注释来学习实例级异常标签。在本文中,我们解决1238这个问题从一个新的角度来看,制定它作为一个监督学习任务下的噪音标签。噪声标签是指异常视频内的正常片段的错误注释,因为被标记为“异常”的视频可能包含相当多的在这种观点下,一旦噪声标签被清除,我们就可以直接训练完全监督的动作分类器在训练和测试阶段,我们的噪声标记视角都有明显的优势。 我们的动作分类器参与了整个学习过程,而不是简单地为MIL模型提取离线特征。在训练过程中,动作分类器和全监督更新之间的唯一区别因此,我们保留了这些动作分类器的所有优点,例如精心设计的结构,可转移的预训练权重,随时可用的源代码等。在测试方面,训练好的分类器可以直接进行预测,不需要任何后处理。该方法将特征提取和异常判定无缝集成到一个模型中,非常方便、高效直观地说,一个经过良好训练的分类器产生的预测噪音更少,而清洁的标签反过来又有助于训练一个更好的分类器。为此,我们设计了一个替代的训练过程,如图1所示。它包括两个交替阶段,清洁和分类。在清理阶段,我们训练一个清理器来纠正从分类器获得的噪声预测,清理器提供具有更少噪声的精细标签。在分类阶段,动作分类器使用清理后的标签进行重新训练,并生成更可靠的预测。这样的循环操作被执行多次,直到收敛。我们的清洁器的主要思想是通过高置信度的预测来消除低置信度预测的噪声。我们设计了一个图卷积网络(GCN)来建立高置信度片段和低置信度片段之间的关系。在图中,片段被抽象为顶点,异常信息通过边传播。在测试过程中,我们不再需要更干净,直接从训练的分类器中获得片段异常结果为了验证我们的模型的普遍适用性,我们用两种类型的主流动作分类器进行了广泛的实验:3D-conv网络C3 D [59]和双流结构TSN [62]。此外,我们在3个不同尺度的数据集上对所提出的方法进行了评估,UCF-Crime [58],ShanghaiTech [43] and UCSD-Peds [35].实验结果表明,该模型提高了弱监督异常检测的性能。简而言之,本文的贡献有三个方面:• 我们将弱标记异常检测问题描述为噪声标注下的监督学习任务,并提出了一种替代训练方法。框架来优化动作分类器。• 我们提出了一个GCN清洁噪音标签。据我们所知,这是第一个在视频分析领域应用GCN来纠正标签噪声的工作。• 我们使用两种类型的动作分类器在3个不同规模的异常检测数据集上进行了实验,其中最先进的性能验证了我 们 方 法 的 有 效 性 。 源 代 码 可 从https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection获得。2. 相关工作异常检测。作为最具挑战性的问题之一,视频中的异常检测已被广泛研究多年[30,67,65,19,34,3,47,35]。大多数研究都假设异常是罕见的或不可见的,偏离正常模式的行为应该是异常的。他们试图通过各种统计模型来编码规则模式,例如。社会力模型[45]、纹理上的动态模型混合[35]、视频卷上的隐马尔可夫模型[21,30]、时空域上的马尔可夫随机场[28]、高斯过程建模[49,11],并将异常识别为离群值。稀疏重建[41,31,13,67]也是用于通常模式建模的另一种流行方法。它们利用稀疏表示来构造正常行为的字典,并将异常检测为具有高重建误差的异常。 最近,随着深度学习的巨大成功,一些研究人员设计了抽象特征学习[19,12,42]或视频预测学习[40]的深度神经网络用于异常检测。与仅在正常行为上建立检测模型的作品相反,有研究[2,20,58]采用通常和不寻常的数据进行模型构建。其中,MIL用于弱监督设置下的运动模式建模[20,58]。Sultani等人[58]提出了一种基于MIL分类器来检测异常,其中深度异常排名模型预测异常分数。与他们不同的是,我们将弱标签的异常检测问题表示为噪声标签下的监督学习,并设计了一种替代的训练过程来逐步促进动作分类器的区分。行动分析。 动作分类由来已久计算机视觉领域的问题,以及大量的研究工作[61,59,62,10,26,63]已经提出。大多数现代方法都引入了深度架构模型[10,59,57,62],包括最流行的双流网络[57]、C3D [59]及其变体[62,15,53,10]。到目前为止,基于深度学习的方法已经达到了最先进的性能。除了行为分类之外,最近一些研究者1239i=1F专注于时间动作定位[68,38,69,56,16]。时间动作检测和异常检测的性能指标是完全不同的:动作检测的目的是找到一个时间间隔重叠的地面真相尽可能多的,而异常检测的目的是一个强大的帧级性能在各种歧视阈值。在本文中,我们试图利用强大的动作分类器,以一种简单可行的方式来检测异常。标签下的学习。解决噪音标签问题的研究工作[33,48,51,17]一般可分为两类:噪声降低和损失校正。在减少噪音方面,他们的目标是通过明确或隐含地制定噪声模型来纠正噪声标签,例如条件随机场(CRF)[60],知识图[37]。后一组中的方法被开发用于直接学习与标签噪声,利用校正方法进行损失调整。Azadi等人[4]通过在损失函数上引入正则化项来主动选择训练特征。与一般的方法不同,我们的GCN是针对视频的,并充分利用了基于视频的特点。图卷积神经网络 近年来,图卷积网络[50,29,52,36,18]的激增已经这些工作的一个重要方向是利用谱图理论[8,14],其在谱域上分解图形信号并定义一系列用于卷积的参数化许多研究人员提出了谱卷积的改进,从而在节点分类和推荐系统等任务上实现了高级性能我们的标签噪声清洁器的目标是在高置信度注释的监督下对图(整个视频)中的节点(视频片段)进行分类。3. 问题陈述给定具有N个片段的视频V={vi}N,可识别标签Y∈ {1,0}指示该视频是否包含异常片段。请注意,在训练数据中。异常检测的目标是一旦异常在测试视频中发生,就精确定位异常的时间位置Sabato和Tishby [54]提供了一种理论分析,其中MIL任务可以被视为在单侧标签噪声下的学习在一些先前的工作[20,22,58]中,弱监控信号下的异常检测被描述为典型的MIL问题。因此,我们自然地将异常检测从MIL公式化到噪声标签设置。MIL制剂。在该公式中,每个片段vi被认为是异常标签yi不可用的实例。这些剪辑根据给定的视频级异常标签Y:a组成阳性/阴性袋而负包(Y=0)完全由正常片段组成。因此,异常检测被建模为MIL下的关键实例检测[39],以搜索yi=1的正实例vi。这种MIL设置允许在bag-level监督下学习实例级标签,并且由此衍生出一组方法[20,22,58]。噪声标记学习公式。很明显,标签Y=0是无噪声的,因为它意味着视频V中的所有片段vi都是正常的:Y=0<$yi=0,<$vi∈V.(1)然而,Y = 1是有噪声的,因为在这种情况下,部分由异常片段组成:Y=1/yi=1,vi∈V.( 二)这被称为单侧标签噪声[7,9,55],因为噪声仅与Y=1一起出现。只要适当地处理标签噪声w.r.t. Y=1,我们能够容易地将各种成熟的动作分类器应用于异常检测。4. 图卷积标签噪声清除器与许多噪声标记的学习方法类似,我们的方法采用了类似EM的优化机制:交替地训练动作分类器和噪声清除器。在噪声清洁器的每个训练步骤中,我们已经从动作分类器中获得了粗略的片段异常概率,并且我们的噪声清洁器的目标是通过高置信度来校正低置信度异常分数。与其他一般的噪声标记学习算法不同,我们的清洁器是专门为视频设计的。据我们所知,这是第一个在噪声标记的视频中部署GCN的工作。在图卷积网络中,我们利用视频的两个特性来校正标签噪声,即,特征相似性和时间一致性。直觉上,特征相似性意味着异常片段共享一些相似的特征,而时间一致性意味着异常片段可能在时间上彼此接近。4.1. 特征相似图模块如图2所示,来自动作分类器的特征首先用两个完全连接的层进行压缩,以消除维数灾难[5]。我们使用属性图[52]F=(V,E,X)对特征进行类似的建模,其中V是顶点集,E是边集,X是顶点的属性。特别地,V是如第3节中定义的视频,E描述了片段之间的特征相似性。pets,X∈RN×d表示这N个片段的d维特征F的邻接矩阵AF∈RN×N定义为:正极袋(Y=1)包括至少一个异形夹,A(i,j)= exp(Xi·Xj -max(Xi ·X))、⑶1240F−1(i,i)FFF不不^图2:标签噪声清理器的训练过程概述。 动作分类器从异常视频片段中提取时空特征,并输出噪声片段级标签。将来自分类器的片段级特征压缩并馈送到两个图模块中,以对片段的特征相似性和时间一致性进行建模。在两个基于图的模块中,较暗的节点表示片段的较高异常置信度。这两个模型的输出被融合并用于预测具有较少噪声的片段级标签。通过高置信度片段更新损失以校正预测噪声。其中元素AF(i,j)类似地测量第i个片段和第j个片段之间的特征由于相邻标记应该是非负的,我们将相似性绑定到range(0,1]与标准化指数函数。基于图F,具有相似特征的片段被紧密地连接,并且标签分配根据不同的邻接值而不同地传播通过图-拉普拉斯运算,驱动附近的顶点具有相同的根据Kipf和Welling [29],我们用重正化技巧近似图拉普拉斯算子:以捕获具有相关对象/区域的相似性关系的长期依赖性,而我们试图传播具有整个片段/帧的相似性级别的监督信号。4.2. 时间一致性图模块如[24,46,64]中所指出的,时间一致性对于许多基于视频的任务是有利的。时间一致性图T直接 建 立 在 视频的 时 间 结 构 上 。 它 的 邻 接 矩 阵AT∈RN×N只与第i和第j个节点的时间位置有关A^F =D2AD~F−1第二条、第四条片段:A(i,j)=k(i,j),(6)其中自环邻接矩阵A=AF+In,并且FIn∈RN×N是单位矩阵;=jA(i,j)是其中k是非负核函数。认为本核应该区分各种时间距离对应的度矩阵。 最后,一个特征相似性图模块层被计算为:H=σ(A) XW),(5)其中W是可训练参数矩阵,并且σ是激活函数。由于整个计算过程是可微的,我们的特征相似性图模块可以以端到端的方式进行训练。因此,神经网络能够无缝地结合单个或多个堆叠模块。虽然上述过程包含一些元素计算,但我们在附录中提供了一个高效的矢量化实现。最近,Wang和Gupta [63]也建立了相似度图来分析视频。然而,无论是目标还是方法,都与我们的大不相同:他们的目标并紧密连接附近的片段。在实践中,我们使用指数内核(a.k.a.Laplacian kernel)整齐地在(0,1]中有界:k(i,j)= exp(−||i − j||)的情况。(7)同样,我们得到了重正化邻接矩阵,对于图-拉普拉斯近似,T如等式4,并且该模块的正向结果被计算为:TH=σ(A) XW), (8)其中W是可训练参数矩阵,σ是激活函数,X是输入特征矩阵。堆叠的时间一致性图形层也可以方便地包括到神经网络中。ŏŏ10 11 12 13 14 15$QRPDO\9iGHR6QiSSHWVV=v020-1(2004年12月28日星期五)512128$FWiRQ&ODVViIiHUŏ6QiSSHW7 HPSRUDO&RQViVWHQFUDSKT$YHUDJH3RROiQJ3UHGiFWiRQpi/RVV6iJPRiGWŏ101112131415ŏ6QiSSHW1XPEHU6QiSSHWi-1(1RiV\)Y={+*i}/6HOHFW+iJK/DEHOVRIHŏŏ辍学辍学F1241i=1˜Σ˜˜4.3. 损失函数最后,将上述两个模块的输出与平均池化层融合,并由Sigmoid函数激活,以进行图中每个顶点的概率预测pi第i个片段。损失函数L基于两种类型的监督:L=LD+LI,(9)其中LD和LI分别在直接和间接给定来自动作分类器的粗略片段式异常概率Y={yi}N。定义了直接监督下的损失术语作为高置信度片段的交叉熵误差1L=−[ylnp+(1−y)ln(1−p)],(10)训练分类器显然,在训练或测试阶段几乎不需要改变动作分类器因此,我们可以方便地在弱标签下训练完全监督的动作分类器,并直接将其部署用于异常检测,而无需所有的花里胡哨。5. 实验5.1. 数据集和评估指标我们在三个不同尺度的数据集上进行了实验,UCF-Crime [58],ShanghaiTech [43] and UCSD-Peds [35].UCF-Crime是一个真实世界监控视频的大规模数据集。它有13种类型的异常,1,900个长的未修剪视频,其中包括1,610个训练视频和290个测试视频。ShanghaiTech是一个包含437个视频的中等规模数据集D|H|我我我i∈H包括13个现场的130起异常事件在标准协议[43]中,所有训练视频都是正常的,并且该设置其中H是高置信度片段的集合。 我们-用“10-crop”扩增对每个视频帧进行采样正如Kendall和Gal [27]所指出的,方差度量了预测的不确定性。换句话说,较小的方差表示较高的置信度。该置信度标准在概念上简单,但实际上有效。间接监督项是一种时间整合策略[32],用于进一步利用少量标记数据,因为高置信度预测仅来自整个视频的一部分。 其主要思想是平滑 不同训练步骤中所有片段的网络预测:N不适合二进制分类任务。因此,我们通过随机选择异常测试视频到训练数据中来重新组织数据集,反之亦然。同时,训练视频和测试视频都覆盖了所有的13个场景.这一新的数据集分割将可用于后续比较。更多详情请参阅Ap-钟摆UCSD-Peds是由两个子集组成的小规模数据集:Peds 1有70个视频,Peds 2有28个视频。由于前者更频繁地用于像素异常[66],我们只对后者进行实验[43]。类似地,默认训练集不包含异常视频。在Heet al.[20],随机纳入UCSD-Peds 2上的6个异常L= 1|pIN ii=1-pi|、(11)训练数据,其余的视频构成了测试集我们也重复这个过程10次,并报告平均性能。其中,pi是我们的噪音清洁器在不同的训练时期。在原始的“冷启动”初始化和我们的实现之间有一个主要的区别,4.4. 交替优化我们的噪声清洁器的训练过程只是交替优化的一部分。另一部分,即,我们的分类器的训练过程与常见的全监督更新完全相同,除了标签是来自我们训练的清洁器的片段式预测。在重复这种交替优化若干次之后,最后的异常检测结果直接由最后1评估指标。根据先前的工作[43,20,58],我们绘制帧级接收器工作特性(ROC)曲线,并计算曲线下面积(AUC)作为评估指标。在时间异常检测任务中,较大的帧级AUC意味着较高的诊断能力,以及在各种区分阈值下的鲁棒性能。5.2. 实现细节动作分类器。为了验证我们模型的普遍适用性,我们在实验中使用了两种主流的动作分类器结构。C3D[59]是一个3D卷积网络。该模型在Sports-1 M数据集上进行了预训练[26]。在训练过程中,我们将其FC7层的特征输入到我们的标签噪声清理器中。时间段网络 ( TSN ) [62] 是 一 个 双 流 架 构 。 我 们 选 择 BN-Inception [23]预训练,1242表1:对UCF犯罪的消除研究。表2:《统一现金框架》-犯罪的数量比较*和*表示没有约束条件和有约束条件时的损失。√ √ √ √√ √Kinetics-400 [10]作为主干,并从其全局池层中提取特征来训练我们的噪声清洁器。动作分类器都是在Caffe[25]平台上实现的,具有与[62]相同的视频采样和数据增强在所有的实验中,如果没有特别指定,我们保持标签噪音清洁器。在我们将作者列表和致谢部分添加到我们的摄像机就绪版本中之后,由于空间有限,这部分必须移至附录。请参阅我们的Github页面和附录。步骤1步骤2步骤3807570我们 的光流 分支的AUC 性能 仍然从70.87% 提高 到78.08%,相对增益为10.2%。间接监督。我们对TSN的光流模态进行了消融研究。首先,我们将间接监督项从损失中剔除,以验证其有效性.如表1的第2行,性能从74.60%略微下降到73.79%,但是步骤-1的结果的增益仍然相当大。在下面的消融中,我们去除了间接监督项以消除干扰。时间一致性。我们想探讨两个问题:时间信息有用吗?我们的图卷积可以利用这些信息吗? 通过排除其他干扰因素,仅存在时间一致性模块。为了去除时间信息的图形,我们用0.5(其边界的中值)填充等式6中的AT,并再现替代训练过程。作为路C3 D TSN-RGBTSN-光流如表1的第3行所示,图3:UCF-Crime的逐步执行情况。5.3. UCF犯罪在视频级别的监督下,我们用18,000次迭代训练C3D。对于TSN,两个流的初始迭代次数都是20,000。在每个重新训练步骤中,我们在4,000次迭代时停止更新过程。逐步的结果。如图3所示,我们报告了每个步骤的AUC性能,以评估我们的替代训练机制的有效性。即使仅给定视频级标签,C3 D和TSN的RGB分支也可以在Step-1处实现下降性能。 在训练过程中引入动作分类器是一个明智的选择。然而,TSN的光流流远未达到饱和,这反映了我们噪声净化器的必要性。在接下来的步骤中,所提出的方法显着提高了检测性能的所有的动作分类器。面对最初预测中最大的噪音,时间图比步骤-1差,在这种情况GCN只记住高置信度预测的模式,而忽略其他片段。关于图卷积的消除,我们观察到独立时间一致性模块将AUC提高到72.93%,如表1的第4行,这表明我们的图卷积真正利用了时间信息。特征相似性。同样,我们只保留特征相似性模块来研究相似性图和卷积运算的有效性我们首先通过将邻接矩阵的所有元素设置为中值来破坏特征相似性图。如在表1的第5行,AUC值下降到67.23%,没有曲线图。在恢复原始特征相似度图之后,单个特征相似度模块可以将AUC值从70.87%增加到72.44%,如表1的第6行所示。这说明相似性图和卷积都有利于清除噪声标签。定量比较。我们比较我们的方法与国家的最先进的模型上3个指标,即,ROC间接培训时间特征AUC方法AUC(%)误报警(%)舞台监督一致性相似性(%)SVM基线50.0–√Conv.图形转换图Hasan等人[19个]50.627.2Step-2第二步74.60Lu等人[41个]65.513.1第二步73.79Sultani等人[58]74.44–√第二步67.57Sultani等人第58话75.411.9第2步:¥72.93我们Step-2步骤67.23C3d81.082.8第二步72.44TSNRGB82.120.1AUC(%)124310.90.80.70.60.50.40.30.20.1表4:UCSD-Peds 2的定量比较。根据审稿人的意见,我们做了更多的比较,如附录所示。000.10.20.30.40.50.60.70.80.9 1假阳性率图4:UCF犯罪的ROC曲线。表3:ShanghaiTech上的逐步AUC(%)。动作分类器C3D TSNRGBTSN光流曲线、AUC和虚警率。如图4所示,我们的所有动作分类器的曲线几乎完全包围了其他动作分类器,这意味着它们在各种阈值上始终三条曲线的光滑性表明了我们所提出的方法的高稳定性。如表2所示,我们最多将AUC值提高至于在0.5检测分数下的虚警率,C3D略劣于Sultani等人,而其他两个分类器则相当令人满意,如表2所示。值得注意的是,TSN的RGB分支将虚警率降低到0.1%,接近目前最佳结果的1/20。对测试集进行定性分析。为了观察我们的模型的影响,我们可视化了动作分类器预测的前后变化。如图5所示,我们的去噪过程基本上消除了正常和异常片段内的动作分类器的预测噪声有趣的是,如图5c所示,分类器从开始到结束都未能检测到“Arrest007”视频中的异常事件 在观看了“逮捕”课程的所有视频后,我们终于发现了可能的原因:该测试视频中的类似场景在训练数据中不存在。在这段视频中,一名男子因故意破坏洗衣机而在自助洗衣店被捕,如图5d所示,而这意味着,在一般场景中检测异常事件仍然是一个很大的挑战,现有模型的泛化能力有限。5.4. 上海科技实验室逐步的结果。如表3所示,在交替训练w.r.t.所有的动作分类器TSN光流分支的结果TSN灰度93.2± 2.3TSNOpticalFlow92.8± 1.6在步骤-3处的“重复”反映了过度的迭代可能会使检测性能恶化。然而,我们的方法表现稳健,因为AUC值仅略有下降。定性分析与UCF-Crime不同的是,ShanghaiTech的新分裂中的训练数据具有临时的基本事实。在此基础上,可以直观地了解我们GCN的工作原理。图6中的异常事件是学生跳过栏杆,如图7所示。时间一致性模块(右上方)倾向于平滑原始的高置信度预测(左上方的橙色点因此,它用密集的高置信度预测正确地注释了第150-200帧,但忽略了重新为不充分的高置信度输入保留基本事实。特征相似性模块(右下角)倾向于通过相似度传播信息。 它标记了一个长间隔的片段,包括学生之前的助跑和随后的减速动作,可能是因为它们在光流上具有“同一方向上的快速移动”的类似表示。整个GCN(左下角)结合这两个模块可以制作更精确的标签。5.5. UCSD Peds在UCSD-Peds中,一些地面实况只有4帧,但C3 D的预测单元达到16帧的长度。因此,我们用TSN进行了实验。为了使输入维度与RGB分支匹配,原始灰度帧被复制到3个原色通道中。逐步的结果。在重复实验10次后,我们获得了图8中的箱形图。第一步的平均结果已经足够好了,所以我们首先将前90%的高置信度预测输入GCN。我们观察到,所提出的方法不仅提高了检测性能,而且稳定了10次重复实验的预测。定量比较。我们报告“二元分类器Lu等人Hassan等人Sultani等人C3D(我们的)TSN-RGB(我们的)TSN-Flow(我们真阳性率步骤-173.7980.8378.23步骤-276.1682.1784.19步骤-376.4484.4484.13方法AUC(%)亚当[1]63.0[44]第四十四话85.0SRC [13]86.1AMDN [66]90.8美国[20]90.11244105130155180205230255280305 330)UPH 1XPEHUHFRU6\O$QRPD105130155180205230255280305 330)UPH 1XPEHUƒ/DVW ODVViIIFDWiRQ1.0)HDWXUH 6iPiODUiW\2QO\1.00.80.80.60.60.40.40.20.20.00.0&RPEiQHG7HPSRUDO RQViViWHQF\2QO\1.01.00.80.80.60.60.40.40.20.20.00.0105130155180205230255280305 330105130155180205230255280305 330)UPH 1XPEHU)UPH 1XPEHU8美元(%)1.00.50.0GT1.04710 50400.50.0 0750 1500 2250 3000 3750 4500 5250 6000 6750 7500帧号(a) 中国人0051.00.50.0GT7750107101.00.50.0010002000300040005000600070008000900010000 11000 12000 13000 14000帧号(b) 中国人0791.00.50.0GT1530 21601.00.5粤ICP备05016888号-1图5:UCF-Crime测试结果的可视化。 蓝色曲线是在视频级别标签下训练的动作分类器的预测,橙色曲线是在清理监督下的结果。绿色的最好在Adobe Reader中查看,其中(d)应该作为视频播放。2SWiFDO)ORZ99 9997 9795 9593 9391 9189 8987 87*UD\-VFDOH85 856WHS6WHS*7 *7图6:GCN输出在上海科技大学的可视化w.r.t.视频“05 0021”左上角的粗略预测来自光流分支,而其他三个是由GCN模块清理的片段式标签。(a)RGB(b)Flow-X(c)Flow-Y图7:上海科技上的“05 0021”部分视频。最好在AdobeReader中查看,其中(a)-(c)应该作为视频播放。AUC的“±标准差我们的方法优于其他方法,模式如表4所示。6. 结论在本文中,我们从一个新的角度来解决弱监督异常检测,通过将其视为监督异常检测,图8:UCSD-Peds 2上逐步性能的箱须图。噪声标签下的学习任务与以往文献中的MIL公式相比,这种观点具有两个明显的优点:a)它直接继承了成熟的动作分类器的所有优点; b)异常检测通过具有极大便利性的整体端到端模型来完成。此外,我们利用GCN来清洁标签以训练动作分类器。 期间在替代优化过程中,GCN通过将异常信息从高置信度预测传播到低置信度预测来降低噪声。我们在3个不同尺度的数据集上使用2种类型的动作分类网络验证了所提出的检测模型,其中优异的性能证明了其有效性和通用性。谢谢。 这项工作得到了部分支持视频技术国家工程实验室深圳分部项目,国 家 自 然 科 学 基 金 和 广 东 省 大 数 据 科 学 研 究( U1611461 ) , 部 分 由 深 圳 市 科 技 计 划(JCYJ20170818141146428)资助,部分由深圳市基础研究计划(JCYJ20170818141120312)资助。我们感谢三位匿名评论者提出的宝贵意见。此外,我们感谢Jerry的英语编辑。$QRPDO\6FRUH异常分数异常分数异常分数$QRPDO\6FRUH异常分数异常分数异常分数8美元(%)1245引用[1] A. Adam,E.里夫林岛Shimshoni和D. Reinitz使用多个固定位置监视器进行稳健的实时异常事件检测。IEEETransactionsonPatternAnalysisandMachineIntelligence,30:555-560,2008。1、7[2] K. Adhiya,S.Kolhe和S.帕蒂尔使用监督机器学习技术跟踪和在计算、通信和控制进展国际会议论文集,第96-99页2[3] B. Anti和B.奥默用于异常检测的视频解析在CVPR,第2415-2422页,Nov. 2011. 2[4] S. Azadi,J. Feng,S. Jegelka和T.达雷尔。带噪声标签的深度cnn的辅助图像正则化。ICLR,2016年。3[5] 理查德·贝尔曼动态规划普林斯顿大学出版社,普林斯顿,新泽西州,美国,第1版,1957年。3[6] Y.贝内泽斯山口Jodoin、V.Saligrama和C.罗森伯格基于时空共现的异常事件检测。在CVPR,第2548-2465页,2009年。1[7] 阿夫里姆·布鲁姆和亚当·卡莱关于从多实例示例中学习的说明。Machine Learning,30(1 ):23- 29,Jan1998. 3[8] J. Bruna,W.Zaremba、A.Szlam和Y.乐存。图上的谱见ICLR,2014年。3[9] Marc-Andr Carbonneau , Veronika Chebergina , EricGranger,and Ghyslain Gagnon.多实例学习:问题特征和应用的调查。Pattern Recognition,77:329- 353,2018。3[10] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第4724-4733页IEEE,2017年。二、六[11] 程凯文,陈益堂,方文贤。基于层次特征表示和高斯过程回归的视频异常检测与定位。在CVPR,2015年6月。一、二[12] Y. S. Chong和Y. H.小泰使用时空自动编码器的视频中的异常事件检测。神经网络国际研讨会,第189-196页,2017年6月2[13] Y. Cong,J. Yuan,and J.刘某用于异常事件检测的稀疏重建成本。在CVPR,第3449一、二、七[14] M. Defferrard,X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。在NIPS,2016年。3[15] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在CVPR,第1933-1941页,2016年。2[16] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. 用于时间动作检测的Cas- caded边界回归。在BMVC,2017年。3[17] Goldberger和E.本·鲁文训练深度神经网络-使用噪声适应层。在ICLR,2017。3[18] A. Grover和J.莱斯科韦茨Node2vec:可扩展的网络特征学习。InKDD,2016. 3[19] M. Hasan,J. Choi,J. Neumann,A. K. Roy-Chowdhury和L. S.戴维斯学习视频序列中的时间规律。在CVPR,第733-742页,2016年6月。二、六[20] Chengkun He,Jie Shao,and Jiayu Sun.一种异常引入学习 的 异 常 事 件 检 测 方 法 。 Multimedia Tools andApplications,77(22):295732018年11月。一二三五七八[21] T. Hospedales,S. Gong和T.翔一种用于视频行为挖掘的马尔可夫聚类主题模型。在ICCV,第1165-1172页,Sep. 2009. 2[22] 景火、杨高、杨万俟、尹虎君。通过多实例字典学习的异 常 事 件 检 测 。 In Hujun Yin , Jose 'A.F. Costa 和Guilherme Barreto编辑,智能数据工程和自动学习-IDEAL 2012,第76施普林格柏林海德堡。第1、3条[23] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少 内 部 协 变 量 偏 移 来 加 速 深 度 网 络 训 练 。 在International Conference on Machine Learning , 第 448-456页5[24] Dinesh Jayaraman和Kristen Grauman缓稳特性分析:视频中的高阶时间相干性。在CVPR,第3852-3861页,2016年。4[25] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe:用于快速特征嵌入的卷积架构在ACM Multimedia,MM'14,第675-678页,New York,NY,USA,2014中。ACM。6[26] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模在CVPR中,第1725-1732页二、五[27] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性?在重症盖永联合V. Luxburg,S. Bengio,H.瓦拉赫河Fergus,S.Vish-wanathan和R. Garnett,编辑,NIPS,第5574Curran Associates,Inc. 2017. 5[28] J.Kim和K.格劳曼局部观察,全局推断:一种用于检测具有增量更新的异常活动的时空mrf。见CVPR,第2921-2928页,2009年6月。2[29] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。在2017年国际学习表征会议(ICLR)的会议记录中。三、四[30] L. Kratz和K.西野使用时空运动模式模式在极端拥挤场景中的异常检测。在CVPR,第1446-1453页,2009年。2[31] W. L,W。Liu和S.高.堆叠式rnn架构中以稀疏编码为基础之异常侦测研究。在ICCV,2017年10月。2[32] Samuli Laine和Timo Aila用于半监督学习的时间集成在2017年国际学习表征会议(ICLR)的会议记录中。5[33] 拉森湖Nonboe,M. Hintz-Madsen和L. K.汉森鲁棒神经网络分类器的设计。见ICASSP,1998年。31246[34] N. Li,H. Guo,L. Xu和X.吴 用于异常检测的时空视频卷内的上下文信息的多尺度分析。在IEEE图像处理会议(ICIP),第2363-2367页,10月21日,2014. 2[35] W. Li,V. Mahadevan,and N.瓦斯康塞洛斯拥挤场景中的 异 常 检 测 与 定 位 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,36:18- 32,2014。二、五[36] Y. Li,D. Tarlow,M. Brockschmidt和R.泽梅尔门控图序列神经网络2015年,国际会议。3[37] Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功