没有合适的资源?快使用搜索试试~ 我知道了~
15425基于Meta Prototype Network李辉1,陈澈2,甄翠1*,徐春艳1,李永1,杨建艳12南京理工大学PCALab,2北卡罗来纳大学夏洛特分校{hubrthui,zhen.cui,cyx,yong.li,csjyang}@ njust.edu.cn,chen. uncc.edu摘要基于自动编码器(AE)的帧重构(当前或未来帧)在正常数据上训练的模型,异常场景的重建误差通常比正常场景大得多。以前的方法将记忆库引入AE,用于在训练视频中编码不同的正常模式。然而,它们消耗内存,并且无法处理测试数据中在这项工作中,我们提出了一个动态原型单元(DPU)编码的正常动态原型的实时,没有额外的内存成本。此外,我们将元学习引入到我们的DPU中,形成了一个新的少量常态学习器,即元原型单元(MPU)。它通过仅消耗几次更新迭代来实现对新场景的快速适应能力。在各种基准上进行了广泛的实验。优越的性能超过国家的最先进的demonstrates我们的方法的有效性。我们的代码可在https://github.com/ktr-hubrt/MPN/获得。1. 介绍视频异常检测(VAD)是指识别不符合预期的行为或外观模式[2,3,5,28]。近年来,这一研究课题越来越受到关注,因为它在公共安全的监督中发挥着重要作用,例如:在机场、边境口岸或政府设施中监视视频的任务变得越来越重要。然而,“异常”在概念上是无限的,而且往往是模糊的,这使得收集各种可能的异常的数据是不可行的。因此,异常检测通常被公式化为非监督学习问题,旨在学习模型以仅利用正常数据来利用规则模式。在推理过程中,与编码的规则模式不一致的模式被认为是异常。*通讯作者图1:我们的方法概述。(1)我们设计一个动态原型单元(DPU),用于学习一个用于编码正常动态的原型池;(2)引入元学习方法,将DPU公式化为一个少量正常学习器该方法通过学习目标模型的初始化,并在推理过程中根据新场景调整模型参数,提高了场景适应能力彩色效果更佳深度自动编码器(AE)[38]是一种流行的视频异常检测方法。研究人员通常采用AE来用历史框架模拟正常模式,并重建当前框架[11,31,39,4,40,1]或预测即将到来的帧[22,34,24,26,10]。为了简单起见,我们将这两种情况称为帧预测。由于模型只使用正常数据进行训练,因此对于异常(看不见的模式)输入,预计预测误差会比正常输入更高。以前,许多方法都是基于这种假设的异常检测。然而,这个假设并不总是正确的。一方面,现有的方法依赖于大量的正常训练数据来建模共享的正常模式。这些模型容易面临“过度泛化”的先前的方法[37,10]提出了使用记忆库显式地对正常训练视频中的共享正常模式进行建模,15426提出了增强帧中正常区域的预测同时抑制异常区域的方法。然而,将正常模式存储为整个训练集的记忆项是非常消耗内存的。为了解决这个限制,我们建议以注意力的方式对正常动态进行编码,这在表示学习和增强中被证明是有效的[46,20,13]。一个正常的学习,命名为动态原型单元(DPU),被开发成容易纳入AE骨干。它以连续法线帧的编码作为输入,然后学习挖掘不同的法线动态作为紧凑的原型。更具体地说,我们在AE编码图上应用了一种新的注意力操作,该操作为每个像素位置分配一个常态权重以形成常态图。然后,原型作为一个整体的本地编码向量的指导下正常的权重。应用多个并行注意力操作来生成原型池。利用提出的紧致性和多样性特征重构损失函数,训练原型项,使其能够以端到端的方式表示最后,AE编码映射与原型重构的常态编码进行聚合,用于后续的帧预测。另一方面,出现在不同场景中的正常模式彼此不同。例如,一个人在步行区跑步被视为异常,而这种活动在操场上是正常的。先前的方法[22,10]假设训练视频中的正常模式与VAD的无监督设置中的测试场景的正常模式一致。然而,这种假设是不可靠的,特别是在现实世界的应用中,其中监控摄像机安装在具有显著不同场景的各个地方因此,迫切需要开发一种具有自适应能力的异常检测器。为此目的,[37]定义了一个规则,用于根据阈值更新存储体中的项,以记录正常模式并忽略异常模式。然而,不可能在各种场景下找到用于区分正常和异常帧的统一且最优的阈值在这项工作中,我们从一个新的角度来处理这个问题,受到[25]的启发,这是视频异常检测的少镜头设置。在少数镜头设置中,来自多个场景的视频在训练期间可访问,并且来自目标场景的少数视频帧在推断期间可用。解决这个问题的一个方法是使用Meta学习技术.在这个元训练阶段,训练一个少镜头目标模型,以适应一个新的场景与一些帧和参数更新迭代。使用来自不同场景的视频数据重复该过程,以获得模型初始化,该模型初始化用作快速适应新场景的良好起点因此,我们将我们的DPU模块制定为少量正常学习器,即Meta Prototype Unit(MPU),用于学习目标场景中的常态。而不是通过调整整个网络[25]粗略地转移到新场景,这可能会导致“过度泛化”问题,我们建议冻结预训练的仅消耗少量参数和更新迭代,我们的元学习模型具有快速有效适应未知场景的能力。我们的方法的概述如图所示。1.一、我们总结了我们的贡献如下:i)我们开发了一个动态原型单元(DPU),用于学习将正常数据的多样性和动态模式表示为原型。因此,设计了一种注意操作,用于聚集正常动态以形成原型项目。整个过程是端到端的差异化和培训。ii)我们将元学习引入到我们的DPU中,并将其改进为少量正常学习器-元原型单元(MPU)。该方法仅消耗少量参数和更新迭代次数,有效地赋予了模型快速自适应能力。iii)我们的基于DPU的AE在各种无监督异常检测基准上实现了新的最先进(SOTA)性能。此外,实验结果验证了我们的微处理器在少拍设置的适应能力。2. 相关工作异常检测。由于缺乏异常数据和昂贵的注释成本,视频异常检测已被制定为几种类型的学习问题。例如,无监督设置仅假设正常训练数据[19,27,23],弱监督设置可以访问具有视频级标签的视频[43,53,28]。在这项工作中,我们专注于非监督设置,这是更实际的实际应用。例如,监控摄像机的正常视频数据对于描述正常性的学习模型是容易访问的。早期的方法,基于稀疏编码[7,51,23],马尔可夫随机场[14],动态纹理的混合[30],概率PCA模型的混合[15]等,将该任务作为新颖性检测问题来处理[28]。后来,深度学习(特别是CNN)已经战胜了许多计算机视觉任务,包括视频异常检测(VAD)。在[27]中,Luoet al.提出了一种基于时间相干稀疏编码的方法,该方法可以映射到堆叠RNN框架。最近,许多方法利用深度自动编码器(AE)来对规则模式进行建模并重建视频帧[11,31,39,4,40,1]。AE的多个变体已经被开发为用于视频异常检测的空间和时间信息的合作。在[26,6]中,作者研究了递归神经网络(RNN)和长短期记忆(LSTM),用于对自然界中的规则模式进行建模15427序 列 数 据Liu 等 [22] 提 出 用 AE 和 生 成 对 抗 网 络(GAN)预测未来框架。他们假设视频序列中的异常帧是不可预测的。它比以前的基于重建的方法具有更好然而,这种方法存在预测误差较小)。Gong等人(MemAE)[10]和Parket al. (LMN)[37]在AE中引入一个内存库,用于异常检测。E编码器D解码器包围操作聚合操作第他们将训练视频中的正常模式记录为银行中的记忆项目,这带来了额外的记忆成本。而我们建议学习常态与注意机制来衡量正常程度。学习过程是完全可区分的,并且原型是动态学习的,具有在空间和时间上适应当前场景的优点,与[10,37]中使用预定义规则查询和更新存储库以记录粗略模式交叉训练数据相比。此外,原型是在推理过程中基于实时视频数据自动导出的,而无需参考从训练阶段收集的记忆项[10,37]。为了适应测试场景,Parket al. [37]通过使用阈值来区分异常帧并记录正常模式,进一步扩展存储体的更新规则。然而,不可能在各种场景下找到用于区分正常和异常帧的统一且最优的阈值相反,我们将元学习技术引入到我们的DPU模块中,使其能够快速适应新的场景。注意力机制。注意机制[48,49,13,[2019 - 09 -1600: 00:00]在许多国家,计算机视觉任务。目前的方法可以大致分为两类,分别是通道方向注意力[49,13,42,50]和空间方向注意力[42,52,49、16、9]。SENet [13]设计了一种有效且轻量级的门控机制,通过通道重要性自校准特征图。Wang等人[48]提出了CNN中间阶段之间的然而,大多数优先注意模块都专注于优化特征学习和增强的主干我们建议利用注意力机制来测量空间局部编码向量的正常性,并使用它们来生成编码正常模式的原型项目少拍和元学习。在少量学习中,研究者的目标是模仿人类快速灵活的学习能力,这种能力可以快速适应新的场景,只需几个数据示例[18]。一般来说,元学习已经被开发来解决这个问题。Meta学习方法主要分为三类:基于度量的方法[17,47,44],基于模型的方法[41,33]和基于优化的方法[8]。这些方法通过在多个任务之间的元更新机制,可以快速适应新的任务图2:基于DPU的模型框架。提出的动态原型单元(DPU)被插入到自动编码器(AE)中,以学习用于编码正常动力学的原型。原型是在常态权重的指导下从AE编码中获得的,AE编码的常态权重是以完全可微注意的方式生成的。然后,重构常态编码图(绿色)作为学习原型的编码。其进一步与AE编码映射图聚合以用于后面的帧预测。参数优化期间的任务。然而,上面的大多数方法都是为图像分类等简单任务而设计的。最近,Luet al. [25]遵循基于优化的元学习方法[8],并将其应用于训练场景自适应异常检测的模型他们简单地将整个网络设置为用于元学习的少数目标模型,用于学习整个模型的初始化参数集。然而,在这项工作中,我们分别学习两组初始参数和更新步长,以便以较少的参数和更新迭代对模型中的设计模块进行详细更新。3. 方法在本节中,我们详细介绍了VAD的建议方法。首先,我们描述了在动态原型单元(DPU)的正常动力学的学习过程,3.1,我们在第二节中解释了框架的目标函数。3.2.然后在SEC。3.3,我们提出了少量常态学习器的细节。最后是SEC。3.4,我们详细介绍了VAD框架的培训和测试程序。3.1. 动态原型单元基于DPU的AE的框架如图所示二、DPU被训练为学习和压缩实时序列信息的正常动力学作为多个原型,并用正常动力学信息丰富输入AE编码。请注意,DPU可以插入AE的不同我们在SEC进行消融研究。4.4分析DPU位置的影响。让观察到的视频帧(Ik-T +1,Ik-T +2,...,I k),简化动态原型单元DPU池ED…AE编码查询编码聚集编码…15428不不不˜MMM不不不1Σ作为xk。 然后将所选择的AE的隐藏编码馈送到我们的DPU P τ:RH×w×c→RH×w×c。最后,DPU的输出编码通过剩余的AE层(在DPU之后)运行,以预测即将到来的地面实况帧yk=lk+1。我们将帧序列表示为第k阶矩的输入输出对(xk,yk)DPU的前向传递是通过生成以完全可微的注意力方式的动态原型池,然后通过检索原型来重建常态编码,并最终聚合信息。常态增强编码和用于异常检测的帧预测。为了训练我们的模型,整体损失函数L由特征重建项Lfea组成以及帧预测项Lfra。 这两个术语是bal-按重量计算λ1为:L= Lfra+ λ1Lfea.(三)帧预测损失用公式表示为地面实况yt和网络预测yt之间的L2距离:将具有常态编码的编码作为输出。的L=y-是的(四)整个过程可以分解为3个子过程,frat t2分别是注意力、包围力和恢复力。具体地说,第t个输入编码映射Xt=fθ(Xt)∈首先从AE中提取Rh,w,c,视为N=whvec。c维的tors,{x1,x2,...,XN}。在子流程中设计特征重构损失,使学习到的正规原型具有紧致性和多样性。它有两个术语Lc和Ld,旨在t t t这两个属性分别,并写为:注意力,M个注意力映射函数{Rc→R1}M被用来分配常态m=1n,mmLfea=Lc+λ2Ld,(5)编码向量的权重,wt∈Wt=m(Xt)。对对于每个像素位置,常态权重测量编码向量的常态程度。这里,Wm∈Rh×w×1表示由第m个注意力函数生成的第m然后,一个唯一的原型p_m被导出为具有子过程Ensemble中的归一化常态权重的N个编码向量的集合,如下:其中λ2是权重参数。紧性项LC用于用紧原型重构正规编码。它测量输入的平均L2距离编码向量及其最相关的原型为:NL=xn−p,(6)Nn,mcNt t2pm= nxtxn。(一)n=1tNn′,m不S. T.,n=argmaxβn,m,(7)n=1n′=1wt不m∈[1,M]同样,M原型也是从多重注意力中衍生出来的函数形成一个原型池,P={pm}M。其中βn,m是等式中提到的相关分数。二、注意ttm =1最后,在检索子过程中,来自AE编码映射的输入编码向量xn(n∈N)被用作查询以检索原型池中的相关项,用于重构正常的cy编码Xt∈Rh×w×c。F或每个获得的常态编码向量,这进行为:argmax仅用于获得最大值的索引,相关向量,并且不参与反向传播。我们进一步促进原型项目之间的多样性,推动学习的原型远离对方。分集项Ld表示为:x<$n=<$βn,mpm,(2)L=2mm[−||p- p′||+γ].( 八)t t tm=1n mdM(M−1)m=1m′=1Mm2个以上其中βn,m=xtptxnpm'表示相关分数为-这里,γ控制原型之间的期望裕度m′=1t不在第n个编码向量xn和第m个原型项pm之间。所获得的常态图与原始编码X聚合,作为使用逐通道求和操作的最终输出。其核心思想是丰富声发射编码,利用正常信息来增强视频帧的正常部分的预测DPU的输出编码经过剩余的AE层用于稍后的帧预测。3.2. VAD目标函数在本节中,我们将介绍流水线中的目标函数,这些目标函数使原型学习能够用于正常动力学表示,特征重建能够用于M15429利用上述两个术语,原型项目是鼓励对用于正常帧预测的紧凑和多样的正常动态进行编码。3.3. 少拍VAD中的Meta学习通常,AE将连续的视频帧作为输入,并重建当前帧或预测后续帧。在这项工作中,我们专注于后一种范式。我们首先考虑被公式化为fθ(Eη(x))=Dδ(Pτ(Eη(x)的VAD架构,其中η、δ表示AE编码/解码函数E、D、req的参数。所设计的模型将帧样本序列x作为输入。然后,馈送AE编码X=Eη(x),15430k=10000 0θ00θ进入DPU模块Pτ。DPU学习使用参数集τ对连续视频帧中的正常动态信息进行编码。我们的少拍目标模型fθ(X),即元原型单元(MPU),由主模块DPU和AE解码器组成,参数集θ=τ<$δ。取后续帧样本y作为地面实况,目标模型基于在第2节中定义的目标函数进行更新3.2.该过程被表示为具有帧对(x,y)的更新函数U。在推理过程中,测试视频的短正常剪辑是可用于在VAD的少镜头设置中调整模型以适应新的场景。为了模拟这种自适应过程,在训练阶段实施元训练策略在元训练中,追求良好的初始化θ0,以便目标模型从θ0开始并应用更新函数U的一次或几次迭代,可以快速适应具有有限数据样本的新场景。我们采用梯度下降式更新函数[21,36],它由α参数化。然后函数U被公式化为:U(θ,<$L; α)= θ − α <$<$L。(九)网络架构详细信息。我们的框架实现为图2所示的单个端到端网络。我们采用[22,37]中相同的网络架构作为AE的骨干,以便于公平比较。在DPU模块中,M个注意力映射函数被实现为全连接层,以生成一系列常态映射,并进一步形成动态原型池。DPU的输出编码通过AE解码器进行帧预测.此外,DPU模块被元训练为少量学习器,即。Meta Prototype Unit(MPU)。详情如下。异常评分。为了更好地量化视频帧在推理过程中的异常程度,我们研究了特征重构和帧预测这两个线索。由于动态原型类型池中的正常动态项被学习以编码正常编码的紧凑表示,如在Eq. 5.在推理过程中,通过测量特征重构项的紧凑性误差,可以自然地得到异常得分,为:Sfea=Lc(Xt,Pt). Xt和Pt表示输入编码θθ图和t阶矩的动态原型池L是设计的损失函数(等式3)为目标模式。表示元素级乘积。α是控制一次更新迭代的步长的参数,它被设置为与参数集θ的大小相同。为了保证场景自适应的鲁棒性,在Meta训练过程中,基于来自同一场景中不同输入输出对的误差信号关键的思想是,目标模型还应该推广到同一场景中的其他帧,而不仅仅是七帧,分别 与以前的方法[22,10,37]一样,预测误差也被用作异常描述符: 这样我们得到了 两种异常分数,并将它们与一个平衡权λs组合为:S= Sfra+ λsSfea。训练阶段。 在元训练之前,首先仅使用帧预测损失来预训练(方程式4).然后,在一个元训练片段中,我们对双输入输出对的K个元组进行随机采样模型训练的所有帧。给定一个随机的{[(xi,yi),(xj,yj)]i/=j}K从一个视频-从正常视频的输入输出对(xk,yk),目标模型的具有初始化θ0的一个更新步骤被导出为:θi+1=U(θi,iL(yk,fθ(Eη(xk).(10)在T次更新迭代之后,公式中的参数更新10和信号向后在方程。十一岁从不同视频采样的具有K个镜头数据的多个剧集被构造为训练小批量。在对不同场景视频采样的帧对进行多次训练后得到了θε我们将T更新迭代的轮将一个片段中的迭代次数T设置为1,以保证快速适应能力。然后,我们用θ来评估模型,通过在与(xk,yk)相同的场景中随机采样的输入输出对(xj,yj)来运行网络,以最小化场景误差信号。应用梯度算法[32,29,8,36]的梯度函数来计算上述目标函数的梯度,以获得良好的初始化模型θf,已获得,准备好进行场景适配。测试阶段。在测试阶段,给定一个新的测试序列,我们简单地使用序列的前几帧来构造K-shot输入输出帧对,用于更新模型参数。在元训练阶段使用相同的过程。更新后的模型用于之后检测异常。4. 实验将步长α更新为:θj,αj=argminE[L(yj,fj(En(xj)].(十一)θ0,α3.4.视频异常检测流水线我们首先解释整个网络架构的细节以及异常分数是如何产生的。然后,我们描述了我们的框架的训练和测试阶段。4.1. 问题设置、数据集和设置问题设置。 为了更好地评估我们的方法的有效性,我们遵循两个异常检测问题的设置,这是无监督设置和少数镜头设置。第一种方法在现有文献中被广泛采用[37,10,22,19,23,27],其中在训练期间只有正常视频可用。训练的模型用于15431检测测试视频中的异常。请注意,测试视频的场景在此设置下的培训期间可见。第二个是元学习评估,它基于从不同数据集收集训练和测试视频,以确保训练和测试过程中场景的多样性。在[ 25 ]中,这种设置也称为总之,第一种设置挑战了方法在一个固定相机下的性能,而后一种设置检查了在给定新相机时的适应能力。我们认为,上述设置是必不可少的评估一个强大的和实用的异常检测方法。数据集。四个流行的异常检测数据集被选择来评估我们的方法在不同的问题集。1)UCSD Ped1 Ped2数据集[19]分别包含34个和16个训练视频,36个和12个测试视频,包含12个不规则事件,包括骑自行车和驾驶车辆。2)CUHK Avenue数据集[23]由16个训练视频和21个测试视频组成,其中包含47个异常事件,如跑步和投掷物品。3)ShanghaiTech数据集[27]包含13个场景的330个训练视频和107个测试视频。4)UCF-Crime数据集[43]包含从大量真实世界监控摄像头收集的正常和犯罪视频,其中每个视频来自不同的场景。我们使用来自该数据集的950个正常视频进行元训练,然后在交叉数据集测试中在其他数据集上测试模型,如[25]所示。评价根据先前的工作[22,26,30],我们使用ROC曲线下面积(AUC)评估性能。ROC曲线通过改变每个逐帧预测的异常评分的阈值来获得实施细节。将输入帧的大小调整为256×256的分辨率,并归一化为[−1,1]的范围。在AE预训练期间,模型以学习率为0进行训练。0001,批量为4。在默认设置中,DPU在第三次插入后插入AECNN层向后计数,分辨率为256×256×128的编码特征图。Ped1、Ped2、Avenue和Shanghai Tech上的训练epoch分别设置为60、60、60、10。在Meta培训期间,AE骨干冻结,只训练少量目标模型MPU。MPU参数集θ的更新迭代的学习速率被设置为0。00001,用于1000个训练时期。小批量设置为10集,步长α的学习率为0。00001目标函数中的平衡权重被设置为λ1=1,λ2=0。01号。特征多样性项中的期望裕度γ被设置为1。最后,将超参数λs设置为1。实验使用四个Nvidia RTX-2080Ti GPU进行。4.2. 与SOTA方法的比较在无人监督的情况下进行评估。我们首先进行了一个实验,以表明我们提出的骨干网架构是国家的最先进的。注意表1:与最新异常检测方法的定量比较我们在无监督环境中测 量 了 UCSD Ped1Ped2 [19] 、 CUHK Avenue [23] 和ShanghaiTech [27]的平均AUC(%)。粗体数字表示最佳性能,下划线数字表示第二佳性能。方法Ped1PED2大道上海MPPCA [14]59.069.3--MPPC+SFA [14]68.861.3--MDT [30]81.882.9--MT-FRCN [12]-92.2--[45]第四十五话68.482.280.6-SDOR [35]71.783.2--ConvAE [11]75.085.080.060.9[第27话]-91.080.667.9StackRNN [27]-92.281.768.0[22]第二十二话83.195.485.172.8AMC [34]-96.286.9-[25]第二十五话83.795.985.373.7[25]第二十五话86.396.285.877.9MemAE [10]-94.183.371.2LMN [37]-97.088.570.5我们的没有DPU。83.295.184.066.7我们的是DPU。85.196.989.573.8这种健全性检查使用标准的训练/测试设置(训练集和测试集由原始数据集提供),并且我们的表1显示了在几个异常检测数据集上使用标准无监督异常检测设置时,我们提出的架构和其他方法之间的比较。MemAE[10]和LMN [37]是与我们的方法最相关的方法。他们学习了一个大的记忆库,用于存储训练视频中的正常模式。而我们建议学习一些以输入数据为条件的动态法线原型,这更节省内存。卓越的性能也证明了我们的DPU模块的有效性。在ped1和Shanghai Tech上,我们方法的AUC低于rGAN [25]。这是合理的,因为rGAN的模型架构更复杂。rGAN使用ConvL-STM通过多次堆叠AE来保留历史信息但是,我们只应用单个AE。在少拍设置下的评价。 为了证明我们的方法的场景适应能力,我们进行了跨数据集测试,通过元训练的上海科技和UCF-Crime的正常视频的训练集,然后使用其 他 数 据 集 ( UCSD Ped 1 , UCSD Ped 2 , CUHKAvenue)进行验证。比较结果见表2。正如我们所看到的,在大多数情况下,预训练的DPU模型比rGAN更通用。基于原型的特征重构大大提高了帧预测异常检测毛皮-此外,4 -5%的增益可以实现与我们的MPU(10-拍摄到0-拍摄)在各种基准。我们的基于MPU的AE的性能优于/可与SOTA相少数镜头学习者(rGAN(Meta))[25],具有显著15432表2:在交叉数据集测试设置下的K-快照(K=0、1、5、10)场景自适应异常检测的比较请注意,K=0表示模型仅经过预训练,没有任何自适应。上海理工大学目标方法0次注射(K=0)1次注射(K=1)5次拍摄(K=5)10次注射(K=10)UCSD Ped 1[25]第二十五话73.176.9977.8578.23rGAN [25](Meta)73.180.681.4282.38我们的(Meta)74.4578.5479.3580.20UCSD Ped 2[25]第二十五话81.9585.6489.6691.11rGAN [25](Meta)81.9591.1991.892.8我们的(Meta)90.1794.4694.6795.75中大道[25]第二十五话71.4375.4376.5277.77rGAN [25](Meta)71.4376.5877.178.79我们的(Meta)74.0678.9280.2581.69UCF 犯罪目标方法0次注射(K=0)1次注射(K=1)5次拍摄(K=5)10次注射(K=10)UCSD Ped 1[25]第二十五话66.8771.774.5274.68rGAN [25](Meta)66.8778.4481.4381.62我们的(Meta)75.5277.1978.3379.53UCSD Ped 2[25]第二十五话62.5365.5872.6378.32rGAN [25](Meta)62.5383.0886.4190.21我们的(Meta)86.0488.4387.8389.89中大道[25]第二十五话64.3266.767.1270.61rGAN [25](Meta)64.3272.6274.6879.02我们的(Meta)82.2685.6285.6685.91表3:各种SOTA方法的模型复杂度和推理速度分析。推理速度信息是通过在具有E5-2650v4@2.20GHz和27.5 G内存的4个CPU核心的机器上的单个Nvidia RTX-2080 Ti GPU上运行官方实现来收集的。GT 1/8 1/4 1/2 1/1图3:从L2范数的角度对AE编码激活图进行可视化。GT代表地面实况帧,其他列的注释表示输入图像分辨率(256×256)的相应比率。更快的自适应和推理速度。我们提供了更详细的模型复杂性和推理速度在秒。四点三4.3. 模型复杂度和推理速度使用单个Nvidia RTX-2080 Ti GPU,我们的模型可以以166.8 FPS运行。请注意,我们的DPU模块仅消耗1.28K额外参数(10个原型)。虽然MemAE [10]的参数大小比我们的小,但MemAE中使用的大内存库导致了耗时的读取操作,整个推断过程也是如此。除了模型参数之外,我们的模型不需要额外的原型存储空间,这些原型可以被视为潜在特征向量。此外,在-我们的方法的推理速度几乎比rGAN快80倍[25]。我们的模型(K = 1)的场景自适应更新迭代仅需0。04秒(23.9 FPS)。这几乎比rGAN快19倍[25](K=1),0.75秒(1.3 FPS)。快速的推理速度使我们的在实际应用中更有利。4.4. 消融研究模型分量分析我们首先分析了DPU的有效性。我们将M=10设置为DPU中注意力映射函数的默认数量。结果列于表4中。很明显,我们的DPU在各种基准测试中的整体表现我们还在图4中可视化了一些示例预测误差图以及DPU中的常态图。为了更好地分析学习到的常态图,我们将所有方法参数(M)FPS[25]第二十五话19.02.1MemAE [10]6.286.7LMN [37]15.0126.3我们12.7166.815433(a)(b)(c)(d)(e)(f)图4:测试用例和DPU正常图的一些示例的可视化不同列中的图片组分别表示(a)地面实况帧,(b)误差图,(c)DPU中的正常图的总和,(d)不同的正常图表4:设计的DPU模块的AUC分析。在表中,FR和FP分别代表从特征重建和帧预测导出的异常分数设置上海大道PED2Ped1AE基线(FP)66.783.995.183.2AE伴DPU(FP)71.185.292.683.5AE伴DPU(FR)71.987.196.274.1AE伴DPU(FP FR)73.889.596.985.1表5:DPU模块堵塞点分析分辨率除以输入图像的分辨率(256×256)。决议1/11/21/41/8AUC89.1986.7284.6681.18M映射的总和运算如图。4(c). 常态图编码场景的不同常态属性,如道路、草地和建筑物,如(d)列所示。(f).此外,可疑区域中的权重远小于地图的其他部分中的权重,这表明正常模式被很好地编码为原型。DPU分辨率分析。为了研究DPU模块堵塞点的影响,我们用不同分辨率的编码图对四个位置进行了结果列于表5中。AUC结果源自Ped2数据集上的特征重建异常评分。性能随着分辨率的提高而提高。我们使用图1中的空间编码向量的L2范数来可视化编码的激活图3 .第三章。激活值越高,编码向量中包含的信息越多。我们发现,在更高的分辨率层的AE,更多的异常线索,这是有益的测量异常程度的特征重建。原型数量分析。为了将正常动力学编码为原型,我们建议利用多个at-表6:DPU中原型数量的AUC分析Number15102040FR87.6990.4992.5988.2684.37FP94.8695.4596.2295.7095.11整体95.2295.5796.9096.0395.74用于测量编码向量的正规性并导出作为向量集合的原型的张力映射函数。注意力函数的数量,也就是原型的数量,作为一个场景中所需的不同原型的上限。Ped2的实验结果见表6。根据结果,M=10是所需原型的适当数量。随着样本数目的增加,样本中包含的噪声信息越来越多,样本的多样性得不到保证,导致样本性能急剧下降。5. 结论在这项工作中,我们已经引入了一个原型学习模块,明确建模视频序列中的正常动态与无监督异常检测的注意机制。原型模块是完全不同的,并以端到端的方式进行培训。在没有额外内存消耗的情况下,我们的方法在无监督设置中的各种异常检测基准上实现了SOTA此外,我们还利用Meta学习技术对原型模块进行了改进,使其成为一个少量的常态学习器。广泛的实验评估表明场景自适应方法的效率。致谢。本工作得到了国家自然科学基金项目(Grants Nos.62072244、61972204、61906094)、江苏省自然科学基金项目(批准号:BK 20190019)。15434引用[1] 大卫·阿巴提,安杰洛·波雷洛,西蒙娜·卡尔代拉拉,丽塔·库奇亚拉。用于新颖性检测的潜在空间自回归。在CVPR,2019年。一、二[2] Amit Adam,Ehud Rivlin,Ilan Shimshoni,and DavivReinitz.使用多个固定位置监视器进行稳健的实时异常事件检测TPAMI,2008年。1[3] Yannick Benezeth,P-M Jodoin,Venkatesh Saligrama,and Christophe Rosenberger.基于时空共现的异常事件检测。2009年,CVPR。1[4] 拉格哈文德拉·查拉帕蒂,阿迪蒂亚·克里希纳·梅农,还有圣杰·舒拉.强大的、深层的和感应异常检测。在2017年的机器学习和数据库知识发现欧洲联合会议上。一、二[5] Varun Dagiola,Arindam Banerjee,and Vipin Kumar.异常检测:一项调查。ACM计算调查,2009年。1[6] 杨善忠和杨浩泰。使用时空自动编码器的视频异常事件检测。在2017年神经网络国际研讨会上2[7] 杨聪,袁俊松,季柳。异常事件检测的稀疏在CVPR,2011年。2[8] Chelsea Finn Pieter Abbeel和Sergey Levine模型不可知元学习,用于深度网络的快速适应。在ICML,2017年。三,五[9] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhiwei Fang,and Hanqing Lu.双注意力网络在场景分割中的应用。在CVPR,2019年。3[10] Dong Gong , Lingqiao Liu , Vuong Le , BudhadityaSaha,Moussa Reda Mansour,Svetha Venkatesh ,andAnton van den Hengel.验证正常性以检测异常:用于无监督异常检测的内存增强深度自动编码器。在ICCV,2019年。一、二、三、五、六、七[11] Mahmudul Hasan,Jonghyun Choi,Jan Neumann,AmitK Roy-Chowdhury,and Larry S Davis.学习视频序列中的时间在CVPR,2016年。一、二、六[12] 日南亮太桃美佐藤真通过学习深度通用知识,联合在CVPR,2017年。6[13] 胡杰,李申,孙刚。挤压-激发网络。在CVPR,2018年。二、三[14] 金载秋和克里斯汀·格劳曼。局部观察,全局推断:一种用于检测增量更新异常活动的时空mrf。2009年,CVPR。第二、六条[15] J. Kim和K.格劳曼局部观察,全局推断:用于检测具有递增更新的异常活动的时空MRF。2009年,CVPR。2[16] Idan Kligvasser , Tamar Rott Shaham , and TomerMichaeli. xunit:学习空间激活函数以实现有效的图像恢复。在CVPR,2018年。3[17] 格雷戈里·科赫理查德·泽梅尔和鲁斯兰·萨拉胡迪诺夫。用于单次图像识别的连体神经网络。ICML深度学习研讨会,2015年。3[18] Brenden M Lake,Ruslan Salakhutdinov,and Joshua BTenenbaum.通过概率程序归纳的人类水平概念学习。Science,2015. 3[19] Weixin Li,Vijay Mahadevan,and Nuno Vasconcelos.拥挤场景中的异常检测与定位TPAMI,2013年。二,五,六[20] Xiang Li,Wenhai Wang,Xiaolin Hu,and Jian Yang.选择性内核网络。在CVPR,2019年。二、三[21] Zhengguo Li,Fengwei Zhou,Fei Chen,and Hang Li.Meta- sgd:学习快速学习,进行少量学习。ArXiv,2017年。5[22] 刘文,罗维新,连东泽,高胜华异常检测的未来帧预测-在CVPR,2018年。一二三五六[23] 卢策武,石建平,贾佳雅。matlab中150 fps下的异常事件检测。InICCV,2013. 二,五,六[24] 作者简介:王晓,王晓.使用卷积vrnn进行未来帧预测的异常检测。在AVSS,2019年。1[25] Yiwei Lu,Frank Yu,Mahesh Kumar Krishna Reddy,and Yang Wang. 少 镜 头 场 景 自 适 应 异 常 检 测 。 在ECCV,2020年。二、三、六、七[26] 罗维新,刘文,高胜华。使用卷积lstm记忆历史以进行异常检测。在ICME,2017年。一、二、六[27] 罗维新,刘文,高胜华堆叠式rnn架构中以稀疏编码为基础之异常侦测研究在ICCV,2017年。二,五,六[28] Hui Lv,Chuanwei Zhou,Chunyan Xu,Zhen Cui,andJian Yang. 从弱标记的视频中定位异常。ArXiv,2020年。一、二[29] 杜格尔·麦克劳林,大卫·杜弗诺,瑞安·亚当斯。通过可逆学习的基于一致性的超参数优化。InICML,2015. 5[30] Vijay Mahadevan,Weixin Li,Viral Bhalodia,and NunoVas-concelos.拥挤场景中的异常检测。在CVPR,2010年。第二、六条[31] JonathanMasci,UeliMeier,DanCiresEughan,andJü
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功