没有合适的资源?快使用搜索试试~ 我知道了~
2655可解释的视频异常检测南佛罗里达Tampa,FL 33620kevaldoshi@usf.eduYasin Yilmaz南佛罗里达Tampa,FL 33620yasiny@usf.edu摘要大多数视频异常检测方法都是基于数据密集型端到端训练的神经网络,从视频中提取时空特征。在这种方法中提取的特征表示是不可解释的,这妨碍了异常原因的自动识别。为此,我们提出了一个新的框架,可以解释检测到的异常事件,一段监控录像除了独立监控对象外,我们还监控它们之间的交互,以检测异常事件并解释其根本原因。具体来说,我们证明了通过监测对象的相互作用获得的场景图提供了一个解释的异常的情况下,同时执行- ING竞争力相对于最近的国家的最先进的方法。此外,所提出的可解释方法实现了跨域适应性(即,在另一监视场景中的迁移学习),这对于大多数现有的端到端方法来说是不可行的,因为对于每个监视场景缺乏足够的标记训练数据。该方法的快速和可靠的检测性能进行了评估,在理论上(通过渐近最优性证明)和经验上1. 介绍随着闭路电视(CCTV)摄像机数量的不断增加以及随后实时连续生成的视频数据量的不断增加,人工操作员手动分析所收集的数据现在变得效率低下并且几乎不可能。特别是,实时检测事件的能力对于预防潜在灾难至关重要因此,视频异常检测技术引起了越来越多的研究兴趣.大多数最近的方法依赖于时空特征提取的黑箱的方式,提供有限的视觉可解释性,不能明确地解释异常的上下文。几乎所有现有算法都忽略的一个关键任务是可解释的决策,其中模型能够准确地解释异常的原因视频异常检测的关键应用之一是在异常发生时采取适当的措施然而,对异常事件的适当反应往往取决于其严重程度,如果没有模型的可解释性,就不能准确地估计。例如,一场车祸可能需要立即关注,而一个人只是乱穿马路不需要.最近的视频异常检测方法提取视频中检测到的对象的外观和运动特征,并在学习到的标称数据模式发生变化时发出警报[17,12,8,9]。然而,虽然对象和它们的相对运动是视频的核心构建块,但通常是对象之间的关系定义其整体解释。例如,由一个人和一辆自行车组成的视频可能涉及骑自行车的人,站在旁边,甚至携带自行车。与现有的方法不同,我们在这里关注对象交互,除了独立监控对象。另一个关键的观察是,活动通常在语义上彼此相关,但是语义信息尚未被任何现有的视频异常检测方法利用。例如,类似地,现有的方法无法执行跨域适应性,其中在监视场景上训练的模型能够在很少或没有额外训练的情况下在全新的场景虽然在[24]中讨论了类似的任务,但所提出的方法仍然需要来自新场景的一些训练数据来使用元学习对其模型进行微调。这种方法可能并不总是可行的,因为它需要人类操作员手动收集一组代表性的标称帧,其还包括与监视场景有关的新活动。另一方面,人类能够解释异常的原因,并适应2656将所学知识应用到不同场景中。我们认为,理解不同对象之间关系的多样性对于可解释性和跨领域适应性至关重要近年来,由于场景图的可解释性和推广到不同任务的能力,场景图在图像处理中吸引了具体来说,场景图结合计算机视觉和自然语言处理来生成图像的视觉图形表示,其中节点表示对象,边缘表示它们之间的关系。在本文中,我们的目标是解决可解释性和跨域适应性的挑战,通过监测每个对象单独以及其与场景中的其他对象的相互作用我们在本文中的贡献可以总结如下:• 我们提出了一种新的可解释的方法,使用场景图的视频异常检测。• 我们提出了一种新的基于语义嵌入的方法,用于使用深度度量学习的视频异常检测,这反过来又显著降低了理论和计算要求。• 我们使用公开的数据集广泛评估了我们提出的方法,并表明除了可解释性和跨域适应性之外,它还具有竞争力。据我们所知,所提出的方法是第一个可解释的和语义嵌入的方法在视频异常检测文献。2. 相关工作视频中的异常检测已经被广泛研究了几年。虽然早期的方法专注于使用手工制作的运动特征,如方向梯度直方图(HOG)[2,3,20],隐马尔可夫模型,els(Hacker)[18,16]、稀疏编码[47,27]和外观特征[4,20],最近的方法已经完全由深度学习算法主导。最近的算法可以大致分为基于重建的方法[13,15,26,29,30]和基于预测的方法[22,19,7,9],基于重建的方法试图基于重建误差对帧进行分类,基于预测的方法试图预测未来的帧,主要是通过使用生成对抗网络(GAN)[14]。最近,已经提出了基于骨骼轨迹的方法[28,33],因为基准数据集中的大部分异常涉及异常的人体姿势。在这样的算法中,RNN架构通常用于学习标称姿态,并且在测试期间使用估计误差来检测异常水平。 除了这些方法,[32]还提出了一种图1. 提出了视频异常检测框架。我们提出了一个两分支的管道,其中全局监测分支观察不同对象之间的交互,以可解释的方式,和本地监测分支观察每个人的个体骨骼姿态。最后,它们的统计数据被连续监控,以快速可靠地检测异常事件。Siamese网络学习时空补丁并使用补丁之间的相异度检测异常。虽然这些方法在流行的基准数据集上具有竞争力,但它们完全依赖于复杂的神经网络,并且大多数都这限制了它们的可解释性,并使它们难以在新数据上进行训练,这在视频异常检测等复杂的顺序应用中至关重要此外,没有明确的程序使这些方法适用于不同的标称基线。近年来,针对图像和语言相关任务,提出了几种视觉关系理解方法。几种方法[23,48,41,5,39,37]采用的常见方法是使用现成的检测器来检测感兴趣的对象,然后将第二步视为分类任务[23,48,41,5,39,38,21,36,40,42,44,45,46],其接收对象对的特征并输出它们的关系的标签。对于视频异常检测,据我们所知,我们是第一个提出一个视觉关系理解为基础的方法。3. 提出的技术3.1. 整体结构在现有的视频异常检测文献中,单一的目标是检测相对于训练数据而言是意外的帧大多数检测器通常以端到端的方式在一批视频帧上训练基于重构或预测的深度学习模型,但是我们...2657|--Σe我J−−我我JJXXXX认为对于一般的视频监视,这样的设置不是最佳的,因为学习的视觉嵌入非常依赖于诸如照明、视点变化、遮挡等条件。此外,由于端到端训练神经网络的黑盒性质,这些模型是不可解释的。此外,标准框架隐含地假设,对于将部署检测器的目标场景中的每个活动,都有足够的训练数据可用[24]。 这样的假设需要人类手动注释来自每个场景的数小时的视频以生成无异常的训练数据集,这远非理想。由于人类根据活动感知视觉环境,我们认为从语义上学习视频活动比将整个帧存储在缓冲区或学习高维视觉嵌入更自然和有效基于这些缺点,我们提出了一种新的双监控方法来检测视频异常。所提出的方法包括两个分支的监测,即全球和本地对象监测,其次是顺序异常检测(图。①的人。全局对象监视分支专门观察场景中不同对象之间的交互并生成场景图,而局部对象监视分支独立地监视视频中的每个人顺序异常检测模块最后通过对两个对象监测模块的统计信息进行监测,检测出异常(联合CNN)。联合和单独的外观特征被连接并通过一个多层的预处理器(MLP),以获得VRD数据集中存在的每个谓词类以及非谓词类的得分向量v1类似地 , 由 两 个 MLP 处 理 各 个 外 观 特 征 以 获 得 两 个(K+1)维得分向量v2和v3,其中K表示谓词类的数量。另一个得分向量v4由语义模块提供,其采用对象标签(例如,person和bike),并使用经验概率qi,.. . .,qK。这些先验概率为谓词预测提供了基本知识.启发式地,两个对象之间的可能组合通常是有限的。例如,人与自行车之间的关系通常是“骑”或“上”,而永远不会是“吃”或“穿”。因此,这允许我们生成经验分布qi=P(pred i sub,obj)。交互检测的最后一步是对四个得分向量v=v1+v2+v3+v4求和,并应用softmax函数计算谓词类概率ev(i)以快速和可靠的方式。在下面的章节中,我们将详细讨论我们提出的框架。pi=K+1v(i)i=1,i = 1,. . . ,K +1,3.2. 全局对象监控我们的目标是捕捉和监控监控视频中成对对象之间的相互作用(图1)。2)的情况。类似于[46,43,23],我们提出了一种视觉语义方法来通过场景图检测对象对之间的交互场景图由作为图顶点和预测的对象组成将两个对象(如动词)关联起来的词)作为图边。交互检测网络使用VRD数据集以完全监督的方式进行训练[23],其中v(i)是向量v的第i个元素。为了训练谓词检测/分类网络,我们增加了众所周知的交叉熵损失,以便用对比损失[46]更快地收敛,其目的是最大化每个主体和客体的相关对象的最低亲和力和不相关对象的最高亲和力之间的差距:ms(i)=minΦ(si,o+)−maxΦ(si,o−),它由一组具有对象和关系的图像组成船舶注释。 每个检测到的相互作用,然后moni-1j∈X+Jk∈Xi−K(一)通过比较可能的异常,mo(j)=minΦ(s+,oj)-maxΦ(s-,oj)。K用于视频监视的标称训练数据集中的受检测交互(例如, ShanghaiTech数据集[26])。 出去-1我i∈X+k∈Xj−putGMstat(t)是表示帧t中的交互相对于名义交互的语义距离的标量。交互检测:如图2.提出的方法首先检测每帧中的包围盒,然后对它们进行成对处理。卷积神经网络(CNN)用于分别从每个边界框(Individual CNN)提取个体外观特征。并行地,另一个CNN处理边界框的并集以提取联合外观特征对于主语s i,+和−分别表示相关和不相关的宾语的集合。类似地,+和−被定义为对象oj的相关和非相关主语的集合。这些集合是从训练集合中预先确定的Φ(s,o)= 1 pφ是主体s和客体o之间的亲和度,表示主体-客体对之间相互作用的概率。在用具有M个边界框的每个图像的VRD数据集进行训练时,考虑到所有N = M(M 1)个主体-对象对,计算以下损失并通过支持的MLP反向传播。2658NΣ∗max{0,α−m(i)}−λlogp,1i联系我们2不不不max{ 0,α1−ms(i)}+不不不分别表示锚实例、正实例和负实例的语义嵌入向量当posi-图2. 所提出的方法的全局对象监视分支检测和监视对象之间的交互。在每个视频帧t中,它检测可能的对象对的交互三元组(主语、谓语、宾语)。对于不相关的对象,谓词可以为空。然后,通过计算其与从训练数据中学习的一组标称嵌入的语义距离来监控每个交互。生成一组人工异常交互嵌入以支持度量学习网络。最后,帧t中语义距离的最大值作为全局监测统计量GMstat(t)用于序列异常检测。ducev1,v2,v3,以及联合CNN1:Σ1Σi=1 N1标称和异常嵌入。用g(·)表示度量学习嵌入,目标ive是最小化g(ai)−g(p)(二)其中α1O1是保证金阈值,低于该阈值的保证金-活动实例(即,交互三元组)p是从标称训练集中随机选择的,负实例是从人工生成的异常集合中随机采样的cur a loss,λ有助于将交叉熵损失与对比损失,和i=1,. . .,K+1表示实际的谓词类。为了最小化这个损失函数,网络被训练为选择正确的谓词类,同时最大化相关主宾对之间的亲和力,并最小化不相关主宾对之间的亲和力。交互监控:对于每个帧t中的每个检测到的交互i,监视具有最高概率谓词类的(主语、谓语、宾语)三元组Lous相互作用三元组,例如,人打人。请注意,生成异常(主语、谓语、宾语)三元组是一项简单的任务,不需要实际的异常视频。在训练过程中,仅使用名义实例作为锚点,以便度量学习MLP通过损失函数学习将名义语义嵌入映射为彼此接近并远离异常实例Lm= max{0,α2+g(a)−g(p)−寻找可能的异常点证据首先,使用语义嵌入将单词三元组映射到数值向量g(a)−g(n)(三)网络,如Word2Vec模型。经验上,300维嵌入被发现是有用的。然后,将三个嵌入的平均值ai输入到MLP以进行度量学习。 度量学习的目标是提取来自交互嵌入的异常不存在/存在信息为此,我们使用另一种对比损失,它最小化标称嵌入之间的欧几里得距离,并最大化标称嵌入之间的距离。单个CNN仅使用单个对象单独训练,而不是对,如第3.6节所述。其中α2用作到标称实例的距离与到异常实例的距离µ有助于将对比损失与L2正则化器相结合,从而确保在训练期间对标称(正)实例进行小嵌入在测试过程中,预期锚实例的嵌入g(ai)将很小,类似于检测到的交互为标称和统计时的g(p当相互作用是反常的时,大于g(p)。我们使用标量嵌入g(ai)∈R,并使用最大嵌入-Ld=2659−WH不θi,l=(xi,l,yi,l),xi,l =tt,yi,l =tt.ittt tt在帧中的所有检测到的交互中作为用于该帧中的异常检测的GM stat(t)= max g(a i)。我3.3. 本地对象监控为了研究视频中的社会行为,重要的是要仔细研究人体运动。对于汽车、卡车、自行车等无生命物体,监视光流足以判断它们是否描绘某种异常行为。然而,对于人类,我们也需要监控他们的姿势,以确定一个动作是否异常。因此,建议使用预先训练的多人姿势估计器(如AlphaPose[10])来提取骨骼轨迹。在时间t的每一帧中,姿态i由图像坐标受最近提出的基于门控递归单元(GRU)的模型(称为消息传递编码器-解码器递归神经网络[28])的启发,我们提出了图2所示的本地监控分支。3中,编码器和解码器网络都被分成两个GRU分支。当一行GRU处理全局特征时,另一行处理局部特征。LMstat(t)=max<$θi<$−θi <$,将具有与训练中的重构误差类似的幅度,而对于异常帧,它将在统计上大于标称重构误差。3.4. 顺序异常检测全球和本地监测统计数据,θ i=. xi,yii=1,…J,其中J是姿势关节的数量。帧t被组合zt=[GMstat(t),LMstat(t)]和se。顺序监测可能的异常(图)。①的人。两检测到的对象-对象交互的最大语义距离GMstat(t)和人姿态的最大重建误差LMstat(t)被期望取与标称训练数据集的值类似的值,并且当异常事件开始时增长。然而,一般来说,由于若干因素,诸如标称和异常视频事件中固有的高方差以及特征的不完美性质,确定标称和异常zt图3. 提出了本地监测分支机构的方法。我们将每个人的骨架姿态输入到消息传递编码器-解码器网络中,并计算重建误差。然而,由于诸如视点变化和遮挡的波动条件,提取的骨架运动需要首先被归一化。这可以分为两类,全局身体运动和局部身体姿势。具体地,整体身体运动描述相对于环境的由于深度在二维图像坐标中缺失,因此边界框的形状用于将全局姿态分量归一化为:提取管道。此外,zt中的帧的瞬时异常统计可能容易导致频繁的错误警报。由于在连续视频帧中展开的异常真实世界事件的时间性质,我们考虑以下顺序变化检测问题:zt<$f0,tτ;zt<$f1,t≥τ,(4)<其中f0和f1表示标称和异常概率分布,τ表示异常开始时间。为了以顺序的方式统计监控zt,我们测量其到标称训练集Z的欧几里得距离。特别地,到第k个最近点的距离dti,gi,gi,g ii计算Z中的邻居(kNN),并将其与标称值进行比较。θt=(xt,yt,wt,ht)最终基线dα,以量化帧中的任何异常证据i,gmaxi{xi}+ mini{xi}i,gmaxi{yi}+mini{yi}t. 在训练中获得标称基线dα,Xt为t t,yt=2t t,2(1α)训练实例的k个NN距离的百分位数其中,α是一个统计显著值,wi= max{xi} − min{xi},hi = max{yi} − min{yi},titIT TITcance水平,如0。05.也就是说,每个训练z向量相对于内的其他向量的k然后将局部分量归一化为Z是计算出来的,距离大于xi−xi,gyi−yi,g选择所有距离的(1−α)%作为dα。在测试期间,对于时间t处的每个向量zt,t t t t t titit t算法计算瞬时帧级异常2660不0联系我们不t→f(z)不证据δtasδt=logd2−logd2。(五)• 最后将d<$global和d<$local与阈值η进行比较,以确定异常源。t α例如,如果我们检测到异常的来源,δ t的这种特殊形式使得定理1中给出的渐近最优性结果成为可能。最后,我们将序列决策统计量t更新为s t= max{s t−1+ δ t,0},s0= 0。(六)当决策统计量st超过阈值h时,我们判定存在异常,T= min{t:s t≥ h}。定理1当名义分布f(z)有限时全局对象监视分支,则它意味着异常是由于两个对象之间的先前不可见的相互作用而引起的,并且在[τr,T]期间使GMstat(t)变大的相互作用被提供为异常原因。如果异常的源是本地对象监视分支,则其意味着异常是由于异常的人的动作而引起的。在训练过程中,我们从一个人的轨迹中提取固定长度的片段且连续,且异常分布f1(zt)是均匀分布,随着训练集的增长,决策统计量δt在概率上收敛到对数似然比,δp logf1(zt) 作为 |→ ∞,(7)|→ ∞,(7)3.6.实现细节我们使用在MS-COCO数据集上预训练的YOLO-v4对象检测模型在全局监控分支中生成边界框。为简单起见,未在VRD数据集上对对象检测模型进行微调我们使用0吨也就是说,所提出的数据驱动检测器收敛到最小化期望检测延迟的最小化最大化最优的最小化最大化最小化VGG-16作为提取表观特征的个体CNN模型。它在MS-COCO数据集上进行预训练,然后以端到端的方式在VRD数据集上进行联合CNN模型也是一个VGG-16模型,它使用来自个体CNN模型的权重进行初始化。最小值最大值Tτz1,...,zτEτ[(T−τ)+|z1,. . . ,zτ]s. t.E∞[T]≥β。(八)CNN模型在使用VRD数据集训练联合CNN模型的过程中,我们遵循[46]并独立地对相关和不相关的对进行采样。具体来说,我们抽取了128个样本,Eτ 表 示 给 定 异 常 在 时 间 τ 发生的期望, ( . )+=max{., 0},E∞表示假定异常从未发生的期望,即, E∞[T]是预期的虚警周期。证据在补充文件中提供。3.5.异常解释我们进行了深入的分析,以确定所提出的方法的哪个分支检测到异常。我们首先检查决策统计量st,并确定哪个分支导致了增长。因此,在时间T处发出警报之后,我们• - 首先确定测试统计ST从上次为零开始增加的时刻τn,其可以被看作是异常开始时间的估计• 然后计算平均统计量d<$=1dn, (9)n/对象,然后对于它们中的每一个,根据等式(1)选择相关和不相关的对象/主题。(一). 该模型使用0.001的学习率和Adam优化器进行训练。在推理过程中,我们采用每个对象对,并通过乘以预测的主语、宾语、谓语概率来对关系提案进行排名。交互检测模型中的MLP具有两个完全连接的交互监控部分采用Word2Vec方法进行语义嵌入用于度量学习的MLP具有三个全连接层。我们使用AlphaPose[10]从视频中提取姿势信息,并使用PoseFlow在视频中跟踪它们 最近邻(k=1)为在顺序异常检测算法中使用,显著性水平α=0。05.所提出的框架的概述总结在算法1中。4. 实验在本节中,我们在两个基准数据集上评估了所提出的方法在可解释性、在线异常检测、异常帧定位和跨域适应性方面的性能。我们考虑两T−τ+1不t=τ公开提供的基准数据集,即香港中文大学Avenue数据集和ShanghaiTech校园数据集。我们对于每个分支nglobal,local,其中(dglobal)2+(d局部)2=d2,在我们的评估中不考虑UCF-Crime[34]数据集,因为它旨在用于不同的t t2661←算法一:整体算法的结构1:输入:视频帧F1,F2,. . .2:培训阶段:3:使用等式2在VRD数据集上训练全局对象监视分支中的交互检测模块。(二)、4:提取训练视频帧中检测到的三元组的语义嵌入以形成标称语义嵌入包。5:生成一组人工异常交互,并提取其相应的语义嵌入。6:使用等式(1)训练交互监控MLP。(三)、7:使用AlphaPose提取人体骨骼姿态并训练本地监控分支。8:测试阶段:9:whilest hdo十:不t+111:在时刻t获得视频帧Ft。12:计算GM stat(t)和LM stat(t)以形成z t。13:计算异常证据δt和决策根据Eq. (5)和等式(六)、十四: end while图15:在时间t处判定异常,并通过比较等式15来识别源。(9)以?视频异常检测问题4.1. 结果可解释性:为了显示我们提出的方法的可解释性性能,我们首先手动注释了每个视频的根本原因然而,有多个可能的谓词来解释每一个异常活动。例如,在一个人骑自行车的情况下,“per-son on bike”和“personuse bike”都是可能的解释。由于手动注释所有这些可能的组合是不可行的,我们使用Recall@k度量来评估可解释性性能。由于我们是第一个提出一个可解释的视频异常检测模型,我们无法将我们的性能与任何其他方法进行比较。该方法的定量性能如表1所示。解释性方法召回@5我们0.373表1.ShanghaiTech数据集的可解释性表现我们通过将其与注释的地面事实进行比较,计算建议检测器的前5个预测的召回率在图4中,我们展示了我们模型的定性性能。如图所示,所提出的方法能够解释和说明异常在中间一列中,我们可视化了来自联合CNN的特征图,从中可以看出,分类器能够学习两个对象之间的交互。另一方面,现有的方法只学习外观或运动特征,这不能解释异常的对象交互。更多的定性分析可以在补充文件中找到。跨域适应性:我们的目标是比较所提出的算法的跨域场景自适应能力,看看它可以推广到新的场景。在这种情况下,我们只在ShanghaiTech数据集中的单个摄像机(摄像机1)的训练视频上训练我们的模型,并在其余摄像机的测试视频上评估其性能,以及Avenue数据集。跨域场景自适应大多未被探索,据我们所知,仅[24]讨论了类似的少数镜头自适应概念。然而,[24]中讨论的所提出的方法需要几个无异常的视频帧来使其模型适应新场景,这可能并不总是可行的。特别地,在[24]中使用了类似于[22]的基于GAN的框架,并且MAML算法[11]用于元学习。如表2和表3所示,考虑到零拍摄适应性,所提出的方法能够在帧级AUC方面优于现有技术的方法在所考虑的两个数据集中,被认为是异常的行为是相似的,这满足我们的由于文献中没有零炮自适应结果,我们将我们的性能与代码可用且适用于零炮自适应的方法进行了比较。[24]中的少镜头自适应方法需要视频适应新场景,因此不适合零镜头自适应。异常帧定位:为了显示我们的算法的异常定位能力,我们还使用常用的帧级AUC标准将我们的算法与广泛的最先进的方法进行比较,如表4所示。通过简单的后处理技术,可以使关注异常空间定位的像素级标准等同于帧级标准[31]。因此,对于异常定位,我们考虑帧级AUC准则。虽然[17]最近显示出比其他算法有显着的进步具体而言,与确定级联视频上的AUC相反,首先计算每个视频片段的AUC,然后对这些AUC值取平均值。如表4所示,我们提出的算法在CUHKAvenue 数据集上的性能优于现有 的算法,并且在ShanghaiTech数据集上的性能具有竞争力多时间尺度框架[33]是唯一一个在ShanghaiTech数据集上优于我们的框架,因为异常大多是2662方法Cam-1凸轮-2凸轮-3凸轮-4凸轮-5凸轮-6凸轮-7凸轮-8凸轮-9凸轮-10凸轮-11凸轮-12Stacked RNN[26]0.64120.60830.61160.62310.68340.69510.64820.62940.68670.67890.69240.6485未来帧预测[22]0.67800.61780.66320.65880.69840.73510.68140.61860.67430.67890.65480.6509我们0.74290.69240.74110.69140.74410.79850.77630.62580.71250.6580.75310.7038表2. 所提出的检测器在来自上海科技数据集的不同相机上的跨域适应性的帧级AUC方面的性能。图4. 一个来自中大大道和上海科技大学数据集的例子显示了所提出的方法的可解释性。中间一列是通过在通道维度上求平均值对联合CNN特征的可视化,其中白色框表示异常发生的位置。我们表明,相对于基于外观或运动的方法,所提出的方法学习异常的真正原因,并输出可解释的结果。帧级AUC方法上海科技大道Stacked RNN[26]0.6430.724未来帧预测[22]0.6520.749[28]第二十八话0.6830.702我们0.6890.79表3. 当在来自ShanghaiTech数据集的相机1上训练并在整个ShanghaiTech和Avenue数据集上测试时,每个模型在跨域适应性的帧级AUC方面的总体性能。异常定位(AUC)方法中大道上海科技Del等人[6]美国78.3-Conv-AE[15]80.060.9ConvLSTM-AE[25]77.0-[35]第三十五话--StackedRNN[26]81.768.0[22]第二十二话85.172.8[28]第二十八话-73.4多时间尺度预测[33]82.8576.03我们85.7871.18表4. 两个数据集上帧级AUC的异常帧定位比较。由先前看不见的人类姿势引起,并且[33]使用基于过去-未来轨迹预测的框架来广泛地监视它们。5. 结论对于视频异常检测,我们提出了一个可解释的框架,这也是零拍跨域自适应能力。我们提出了一个双分支管道,它可以监控视频中的本地和全球活动。全局分支观察不同对象之间的交互,局部分支观察人类行为。顺序检测器在统计上监测两个分支的可能异常,并在检测到异常时确定异常的根本原因,从而提供可解释性。在极小极大意义下,在控制虚警率的同时,最小化平均检测延迟,推导出所提出的顺序检测器的渐近最优性通过对基准数据集的广泛测试,我们表明所提出的方法能够解释检测到的异常的原因,并在跨域适应性方面显着优于最先进的方法2663引用[1] Mic he`leBass e ville和IgorVNikifor ov。检测突变:理论与应用,第104卷。彭蒂斯·霍尔·恩格尔伍德悬崖,1993年。[2] Rizwan Chaudhry , Avinash Ravichandran , GregoryHager和Rene 'Vidal。非线性动力学系统的定向光流直方图与宾内柯西核函数在人类行为识别中的应用。2009年IEEE计算机视觉与模式识别会议,第1932- 1939页IEEE,2009年。[3] Rensso Victor Hugo Mora Colque , Carlos Caetano ,Matheus Toledo Lustosa de Andrade,and William RobsonSchwartz.光流方向、幅度和熵的直方图,用于检测视频中 的 异 常 事 件 。 IEEE Trans- actions on Circuits andSystems for Video Technology,27(3):673[4] 杨聪、袁俊松、季柳。用于异常事件检测的稀疏在CVPR 2011中,第3449-3456页。IEEE,2011年。[5] Bo Dai,Yuqi Zhang,and Dahua Lin.使用深度关系网络检测视觉关系。在CVPR,2017年。[6] Allison Del Giorno , J Andrew Bagnell , and MartialHebert.一种用于大型视频中异常检测的判别框架。欧洲计算机视觉会议,第334施普林格,2016年。[7] 费东,张宇,聂秀山。用于视频异常检测的双元生成对抗网络。IEEE Access,8:88170[8] Keval Doshi和Yasin Yilmaz。持续学习用于监控视频中的异常检测。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第254-255页[9] Keval Doshi和Yasin Yilmaz。基于虚警率渐近界的监控视频在线异常检测。模式识别,114:107865,2021。[10] 方浩树,谢淑琴,戴玉荣,陆策武。区域多人姿态估计。InICCV,2017.[11] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议,第1126-1135页。PMLR,2017年。[12] Mariana-Iuliana Georgescu , Radu Tudor Ionescu , Fa-had Shahbaz Khan,Marius Popescu,and Mubarak Shah.一个场景无关的框架与对抗训练视频中的异常事件检测。arXiv预印本arXiv:2008.12328,2020。[13] Dong Gong , Lingqiao Liu , Vuong Le , BudhadityaSaha,Moussa Reda Mansour,Svetha Venkatesh ,andAnton van den Hengel.记忆正态性以检测异常:用于无监督 异常 检测 的存 储器 增强深 度自 动编 码器 。在IEEE/CVF国际计算机视觉会议集,第1705[14] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,andYoshua Bengio 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1406.2661,2014。[15] Mahmudul Hasan , Jongghyun Choi , Jan Neumann ,Amit K Roy-Chowdhury,and Larry S Davis.学习视频序列 中 的 时 间 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 733[16] Timothy Hospedales,Shaogang Gong,and Tao Xiang.一种用于视频行为挖掘的马尔可夫聚类主题模型。2009年IEEE第 12 届 计 算 机 视 觉 国 际 会 议 , 第 1165-1172页IEEE,2009年。[17] Radu Tudor Ionescu 、 Fahad Shahbaz Khan 、 Mariana-Iuliana Georgescu和Ling Shao。以对象为中心的自动编码器和虚拟异常,用于视频中的异常事件检测。在IEEE计算机视觉和模式识别会议论文集,第7842-7851页[18] 路易斯·克拉茨和西野光使用时空运动模式模型在非常拥挤的场景中进行异常检测。2009年IEEE计算机视觉和模式识别会议,第1446-1453页。IEEE,2009年。[19] Sangmin Lee,Hak Gu Kim,and Yong Man Ro. Bman:用 于 异 常 事 件 检 测 的 双 向 多 尺 度 聚 合 网 络 IEEETransactions on Image Processing,29:2395[20] Weixin Li,Vijay Mahadevan,and Nuno Vasconcelos.拥挤 场 景 中 的 异 常 检 测 与 定 位 IEEE Transactions onPattern Analysis and Machine Intelligence,36(1):18[21] Yikang Li , Wanli Ouyang , and Xiaogang Wang. Vip-cnn:用于视觉关系检测的视觉短语推理卷积神经网络。在CVPR,2017年。[22] Wen Liu , Weixin Luo , Dongze Lian , and ShenghuaGao.异常检测的未来帧预测在IEEE计算机视觉和模式识别会议论文集,第6536-6545页[23] 卢策武,兰杰·克里希纳,迈克尔·伯恩斯坦,李菲菲.具有语言先验的视觉关系检测。参见ECCV,第852-869页。施普林格,2016年。[24] Yiwei Lu,Frank Yu,Mahesh Kumar Krishna Reddy,and Yang Wang.少镜头场景自适应异常检测。arXiv预印本arXiv:2007.07843,2020。[25] Weixin Luo,Wen Liu,and Shenghua Gao. 使用卷积lstm进行异常检测以记住历史记录。在2017年IEEE多媒体和博览会国际会议(ICME),第439-444页。IEEE,2017年。[26] Weixin Luo,Wen Liu,and Shenghua Gao.堆叠式RNN架构中基于稀疏编码的异常侦测在IEEE计算机视觉国际会议论文集,第341-349页[27] 玄墨、维沙尔·蒙加、拉贾·巴拉、樊志刚。视频异常检测的自适应稀疏表示IEEE Transactions on Circuits andSystems for Video Technology,24(4):631[28] Romero Morais、Vuong Le、Truyen Tran、BudhadityaSaha、Moussa Mansour和Svetha Venkatesh。学习骨架轨迹中的规则性以用于视频中的异常检测。在IEEE计算机视觉和模式识别会议论文集,第11996-12004页2664[29] Trong Nguyen Nguyen和Jean Meunier。基于外观-运动相关的视频序列异常检测在IEEE/CVF计算机视觉国际会议论文集,第1273-1283页[30] Hyunjong Park,Jongyoun Noh,and Bumsub Ham.学习记忆引导的常态异常检测。在IEEE/CVF计算机视觉和模式识别会议的论文集,第14372-14381页[31] Bharathkumar Ramachandra和Michael Jones。街景:一种新的视频异常检测数据集和评估协议。在IEEE计算机视觉应用冬季会议上,第2569-2578页[32] 巴拉瑟库玛·拉玛昌德拉,迈克尔·琼斯,兰加·瓦特萨瓦.学习一个距离函数与连体网络定位视频中的异常。在IEEE/CVF计算机视觉应用冬季会议论文集,第2598-2607页[33] RoystonRodrigues,NehaBhargava, RajbabuVelmurugan,and Subhasis Chaudhuri.异常人体活动检测的多时间尺度轨迹预测。在IEEE计算机视觉应用冬季会议上,第2626-2634页[34] Waqas Sultani,Chen Chen,and Mubarak Shah.监控视频中的真实世界异常检测。在IEEE计算机视觉和模式识别会议论文集,第6479-6488页[35] 孙倩茹刘红原田达也在线生长神经气体在变化的监控场景中的异常检测。Pattern Recognition,64:187[36] Danfei Xu,Yuke Zhu,Christopher Choy,and Li Fei-Fei.通过迭代消息传递生成场景图。在CVPR,2017年。[37] 徐阳,张汉旺,蔡剑飞。混洗后组装:学习对象不可知的视觉关系特征。在ECCV,2018。[38] Guojun Yin , Lu Sheng , Bin Liu , Nenghai Yu ,XiaogangWang , JingShao , andChenChangeLoy.Zoom-net:挖掘深度特征交互,用于视觉关系识别。在ECCV,2018。[39] Ruichi Yu,Ang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功