没有合适的资源?快使用搜索试试~ 我知道了~
引文:邵文浩,普拉博达,魏燕燕,李敦,诺埃尔,罗志刚. COVAD:使用基于自我注意力的深度学习模型进行面向内容的视频异常检测虚拟现实智能硬件,2023,5(1):24虚拟现实智能硬件• 文章·2023年2月第5卷第1期:2410.1016/j.vrih.2022.06.001COVAD:使用基于自我注意的深度学习模型进行邵文浩1,2 *,普拉博达RAJAPAKSHA2,魏燕燕3,李敦2,诺埃尔CRESPI2,罗志刚11. 国防科技大学计算机学院湖南长沙410073;2. 巴黎南部电信,IMT,巴黎理工学院,Palaiseau91764,法国;3. 郑州财经学院河南郑州450000接收日期:2022年5月7日;修订日期:2022年5月23日;接受日期:2022年6月9日翻译后摘要:背景视频异常检测一直是一个热门话题,并引起了越来越多的关注。许多现有的视频异常检测方法依赖于处理整个视频,而不是只考虑重要的上下文。方法本文提出了一种新的视频异常检测方法COVAD,它主要关注视频中的感兴趣区域而不是整个视频。我们提出的COVAD方法基于自动编码卷积神经网络和协调注意机制,可以有效地捕获视频中有意义的对象以及不同对象之间的依赖关系依靠现有的记忆引导的视频帧预测网络,我们的算法可以显着预测未来的运动和视频中的对象的外观更有效。结果该算法在多数据集上获得了较好的实验结果,并优于我们分析中考虑的基线模型。同样,我们提供了一种改进的视觉测试,可以提供像素级的异常解释。关键词:视频监控;视频异常检测;机器学习;深度学习;神经网络;协调注意1 介绍视频异常检测是计算机视觉领域的一个研究热点,吸引了众多研究者[1随着硬件处理性能的提高和人力资源成本的增加使用人工24小时不间断视频监控是不可持续的。Vincent的SmartCatch智能视频监控系统在旧金山国际机场、赫尔辛基机场和其他几个机场运行,能够实时检测物理安全漏洞。在分析这些系统的统计数据后,机场官员发现每天有数百起威胁安全的事件,这些事件在不可持续的人类监控系统之前没有被发现因此,当务之急是提出*通讯作者 ,shaowenhao007@gmail.com2096-5796/©版权所有2023北京中科学报出版有限公司有限公司、出版社:Elsevier B.V.我代表科爱通信有限公司公司 这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。25Wenhao SHAO,et al.COVAD:使用基于自我注意的深度学习模型进行面向内容的视频异常检测一种有效的智能视频异常检测技术,可以检测真实场景中的视频异常。视频异常检测技术的核心是从一系列连续的视频中识别出异常事件。然而,在现实世界中,异常事件无法准确定义,也没有边界[5]。因此,不可能标记所有异常事件来生成用于训练监督模型的数据集。此外,很难收集足够数量的异常数据类型和数量现有的算法大多是无监督或半监督的[6]。许多视频异常检测算法使用卷积神经网络(CNN)来学习视频特征,包括时间和空间特征。然后使用逆编码来重建视频或将其与光流技术相结合以预测下一帧。根据训练损失的定义,现有的无监督和半监督视频异常检测算法分为两大类:基于重构的异常检测算法[7-基于重构的异常检测算法将重构损失定义为训练损失。基于重建的方法假设检测模型是使用大量正常数据训练的,可以准确地描述正常事件,并以较小的重建误差提取和恢复视频特征到视频帧。如果没有数据对象参与训练-特别是对于异常事件-那么模型在重建异常视频时将经历大的损失。在检测阶段,设置错误阈值以检测异常事件。对于未来帧预测,基于预测的视频异常检测算法的训练误差即为预测误差,其基本结构是提取前一帧的视频特征并预测未来帧的特征。在训练阶段,更新网络参数。本文提出了一种用于未来帧预测的视频异常检测算法,该算法假设在正常数据集上训练的模型在预测正常事件的未来帧时具有较小的误差,而异常事件由于其不确定性而具有较高的预测误差[13]。在深度学习技术出现后,使用CNN提取视频特征,而不是原来的手工特征,大大降低了时间和成本,并在特定场景下训练模型后达到更高的准确率。现有的视频异常检测算法基本结构都是相同的。它主要分为以下几个步骤:将视频帧输入编码器,使用对抗CNN的训练方法提取特征,并使用解码器恢复特征。然后,计算误差,并调整网络参数,使提取的特征更接近视频帧。神经网络具有很强的表示能力,但为了防止无界表达,需要通过调整网络结构的池化部分来限制神经网络的表示能力此外,很难通过单一的网络结构参数训练获得准确的模型来判别异常因此,有必要记录提取的视频帧特征(所有训练集都来自正常事件)。最典型的解决方案之一是在2020年采用[14]中提出的内存引导视频异常检测算法。该方法采用了最新的U-Net对称网络,具有很强的表示能力。在U-Net网络中,解码器中的反向采样技术可以补偿池化过程中空间信息的丢失,内存存储模块保留特征并将其反馈给解码器以保留空间信息。视频异常检测不同于传统的视频分析。通常,异常事件只发生在一小部分视频像素中,因此,没有必要关注所有的视频像素,因为它们中的大多数因此,在视频特征提取过程中,应将注意力集中在少数可检测的部分对象上。对象检测非常复杂,并且在视频处理期间消耗大量时间因此,在训练阶段使用对象检测来将注意力集中在异常部分是不可取的提出了一种基于内容的视频异常检测算法(COVAD),并对其网络进行了仿真26虚拟现实智能硬件二月(2023)卷。5号1在原有的基于内存的视频异常检测算法的基础上,对结构进行了改进。训练网络中优化的主要目标是关注视频帧中的对象。我们使用基于内容的注意力机制来优化编码网络的结构,并删除U-Net网络的最后一批归一化层前者用于关注视频中的目标或内容,后者用于限制神经网络的强大偏差,因为在强大的表示中模糊正常和异常数据之间的边界很重要。与目标检测算法相比,注意力机制是轻量级的,不消耗大量时间,可以有效地处理视频。存储器存储模块存储比整个视频帧像素更重要的内容信息。我们的实验部署在USCD[15]和Avenue数据集[16]上,实验结果表明,该算法比基准模型具有更好的结果本文的主要贡献在于:1)结合基于内容的注意机制,提出了一种新的视频异常检测方法COVAD,用于未来帧预测,该方法能够抵抗噪声的干扰,专注于提取视频中对象的特征;2)重新定义了用于分类和存储视频流中各种正常行为模式的存储模块; 3)进一步提高了针对正常和异常事件的视频异常检测模型的性能。实验结果表明,所提出的COVAD算法的性能显着高于本文所考虑的基线模型2 相关工作在深度神经网络出现之前,视频异常检测技术通常采用手工制作的视频外观和运动特征、统计、回归、散列和分类。Saligrama等人提出的见解是,如果异常行为是局部的,那么即使是正常事件也会表现出依赖性,正常行为的最佳规则也应该是局部的[17]。他们的研究提出了一个概率框架来检测视频中的异常事件,并通过本地经验和本地统计来计算每个视频片段的综合得分,以检测异常事件。2015年,Cheng等人提出了一种分层框架,将检测异常的过程视为3D模式匹配问题,并通过分层和高斯回归检测异常事件[18]。2016年,Zhang等人提出使用位置敏感的哈希过滤器来检测异常事件[19]。该方法通过局部敏感的哈希函数对桶中的正常数据集进行哈希2016年,Hasan et al.结合手工制作的功能和自动编码技术,提出了一个端到端的学习框架,该框架使用完全卷积前馈自动编码器来学习从多个混合数据模型中训练的特征和分类器[20]。然而,这些方法通常需要手动提取视频特征,这消耗大量的时间和劳动力,并且在实时检测中识别要困难得多在深度神经网络出现与人工特征提取相比,深度神经网络可以提取更接近视频的特征[20]。 一个类似的经典算法介绍了罗等。[21]2017年CVPR(CVPR,IEEE/CVF计算机视觉和模式识别会议,顶级计算机视觉会议之一)。他们表示,深度神经网络提取的特征比传统的手工特征更准确,并提出了一种结合LSTM和自动编码技术来提取视频外观和运动特征的方法。与文献[20]相比,该方法提取的特征更加准确、高效,实验结果也更好。在以前的异常检测算法的研究中,重建误差被减少作为主流解决方案的目标函数(标记为异常事件)。然而,这其中有一个问题27Wenhao SHAO,et al.COVAD:使用基于自我注意的深度学习模型进行面向内容的视频异常检测方法,其中整个训练过程仅减少正常事件的重构误差,并不能保证异常检测具有相当大的误差,并且异常事件仍然可能被重构。因此,在2018年,Liu等人提出了一种用于未来帧预测的视频异常检测框架[10]。在他们的模型的训练阶段,视频帧序列的前n1帧被用作输入,第n帧被视为预测。在他们的方法中,损失函数被定义为预测的第n帧和实际的第n帧之间的误差实验结果表明,该目标函数并没有降低重建误差该方法的理论基础和假设是异常事件大多是突然发生的。当属于正常事件的帧被用作输入时,未来帧的运动轨迹或外观特征将改变并且已经被限制在一定范围内。一旦预测的未来帧与真实的未来帧之间的误差超过给定的范围,则视频帧序列很可能是异常的。未来帧预测方案成功地克服了以前的基于重建的方法的问题。此外,还有其他改善措施。例如,2019年,Gong等人提出了一种针对内存存储聚合的深度自动编码异常检测算法[22],该算法提出由于神经网络的优秀表示能力,异常事件的重构误差并不总是大于阈值。因此,他们提出增加记忆存储模块,以提高模型与正常事件的拟合能力,并扩大异常事件之间的差距他们提出的模型提高了异常事件的检测能力。2020年,Park et al. [14]在[22]的基础上进行优化,结合U-Net网络,进一步限制神经网络的表达能力,提出了一种基于未来帧预测该方法节省了时间和成本,进一步提高了异常事件检测的准确性。虽然与其他一些最先进的模型相比,仍然有一些技术上的改进,但就理论和实验结果而言,它们显然不是合理的改进。2021年CVPR会议[23]上发表的一篇文章提出了使用多任务学习和伪标签生成来解决正常事件分布不均匀的问题在2021年发表在CVPR[24]上的另一项研究中,提出了一种新型的面向内容的轻量级注意力机制网络,该网络专注于对视频帧内容进行网络训练。这两项研究可以被认为是视频异常检测方法的新改进。此外,还有一些棘手的新架构,将在本文的结论部分进行描述3 方法本文结合记忆模块引导和基于内容的注意机制,提出了一种新的视频异常检测算法,主要是基于未来帧预测。本研究提出的COVAD方法首先学习视频的时间和空间特征,将其特征映射到记忆存储模块,并更新记忆存储模块的记录。最后,解码器网络用于恢复视频特征,计算预测和真实视频帧之间的差异,并评估错误。然而,与以前的方法不同,本研究修改了编码器和解码器网络,并提出了一个面向内容的自我注意力机制,通过集成一个编码器/解码器网络,主要是分析视频内容使用的功能从神经网络学习。图1描述了COVAD系统体系结构,有关该系统的更多细节将在以下部分中提供。视频中发生异常事件的区域只占整个视频帧的一小部分,因此,视频帧中的大部分场景对于异常事件的检测是无用的,在本研究中我们称之为背景。在视频异常检测中,通常认为视频中立体的、相互依赖的内容或对象更值得关注。然而,今天的大多数算法都不是28虚拟现实智能硬件二月(2023)卷。5号1存储器CYH×WX输入查询M损失H×W2C图1算法框架:通过编码器提取视频特征; 2.输入协同注意机制重新分配权重; 3.读取内存模块并更新,4.将聚合的查询特征和存储器模块特征恢复到视频帧,以及5.计算损失、反向传播和更新参数。设计时考虑到了这一点。因此,受此启发,我们提出了一种新的视频异常检测算法,该算法采用了最先进的面向内容的自关注机制来训练视频帧的重要内容,而不是对背景给予太多关注本文提出的算法主要分为三个部分:编码器、内存存储模块和解码器。● 编码器用于提取视频的时间和空间特征● 记忆储存模组记录正常事件的行为模式● 编码器将提取的特征恢复为视频帧。编码器和解码器:目前,用于视频处理的最流行的编码器和解码器是U-Net对称网络。该网络的结构是对称分布的,可以有效地表示视频帧的特征提取和恢复过程,如图1所示。此外,由于U-Net网络的特殊聚合模式(在恢复特征时附加有意义的数据)和上采样过程,可以最大程度地保留视频的运动和外观信息解码聚集更新C池+转换关注编码29Wenhao SHAO,et al.COVAD:使用基于自我注意的深度学习模型进行面向内容的视频异常检测n1第基本的U-Net输入ConvCat Conv输出池上采样ConvCat Conv编码器池上采样解码ConvCat Conv合并液向上转化示例关注记忆存储模块:该模块是一个稀疏的二进制矩阵,在训练过程中不断更新,不断拟合正常事件的行为模式,实现记忆正常行为模式的功能。基本原理是在每次迭代中使用稀疏二进制矩阵来记录视频特征。随着迭代次数的增加,记忆模块的稀疏矩阵在训练期间符合正常行为模式。在 我们 提出 方法, 的 模型 输入 是 的 连续 视频 帧 序列Seq={I1,I 2,I3,In},In长度为NRW,H,被分成两部分:{1,(n1)}帧作为输入;以及标签。 前n 1帧在训练过程中用作输入以提取特征集;RW,H,C;C是通道的数量;那么,存储器Mem RM,C以获得相似性指数矩阵VRM,W*H.此后,通过V、聚合特征fl和Mem来更新存储器模块,以获得AggfR2 C,W*H。随后,模型恢复特征AggR2 C,W*H 得到预测的I帧。最后,在从模型中检索预测值之后,计算预测的第1个帧与真实的第1个在训练阶段还应用了一些其他额外的损失函数在下面的部分中,我们将解释图1中显示的COVAD框架中使用的每个模块。3.1 编码器和解码器U-Net最初被设计为用于图像分割的CNN,并在许多国际比赛中取得了优异的成绩[25,26]。其独特的结构和设计理念启发了计算机视觉领域的研究人员,例如对称思想,上采样和跳过连接。用于视频异常检测的CNN的功能是提取视频特征帧,并通过编码/解码过程将特征恢复为视频帧。U-Net具有其他网络结构所不具备的天然优势,即网络的对称结构,如图2所示。它包括卷积的重复应用,然后在提取特征阶段进行池化,并在恢复阶段进行上采样对于上采样,maxpooling是不可避免的;因此,可以添加记录maxpooling信息的开关变量,例如最大值的位置。在解码器中,上采样使用这些开关将当前层重建到下一层的适当位置,保留刺激的结构[27]。图2基本U-Net:U-Net网络由卷积、池化、上采样和跳过连接组成,其中卷积和池化用于提取输入特征,上采样用于恢复池化和缩放特征,跳过连接用于保留视频帧信息。F30虚拟现实智能硬件二月(2023)卷。5号1目前,U-Net被广泛用于视频帧重建和未来帧预测任务。此外,由于U-Net网络的跳过连接,通过在解码过程中提取更多的视频信息,然而,在U-Net网络结构中,跳过连接并不总是有用的,特别是对于重建任务。这主要是由于先前特征集中的噪声数据,并且不利于恢复最真实的特征。因此,在这种情况下,跳过连接对于应用程序来说是不现实的本研究中基于预测的视频异常检测任务主要关注包含训练过程中丢失的部分信息的先前特征,将先前特征与当前特征相连接可以提高预测准确度[28]。图2显示了视频功能与内存模块之间的交互CNN强大的表示能力的另一个问题是它们无法定义正常事件和异常事件之间的确切边界[14]。从正常数据获得的训练阶段的编码中提取的最终特征在测试阶段,从异常数据中提取的特征可能被视为正常特征,导致误分类。因此,识别和限制神经网络模型的表示能力我们从编码器中删除了最后一批归一化[29]和ReLU层[30],从而限制了不同的特征表示。相反,我们添加了一个L2归一化层,以确保特征具有共同的尺度。3.2 存储器模块该模块由随机生成的稀疏矩阵M×C组成。矩阵的长度和宽度为M,取决于实际应用场景,通常表示训练集中正常行为的数量,训练集中视频的数量以及不同摄像头位置的数量。CNN提取的特征长度为C,与内存宽度相同。本研究中读取和更新记忆模块的操作遵循[14,22]中的过程:读:读操作计算查询点与内存模块中所有条目的相似度,查找距离查询点最近的条目和第二个前者用于拟合值得查询的行为模式,后者用于扩展类间距,其中损失函数有两个分量。其次,在更新操作中,使用L2范数将查询点的加权平均值累积到最近的条目在读取内存模块的过程中,我们首先计算查询特征值与内存模块中所有条目的相似度,即余弦相似度,其计算公式为:wk,m=(一)其中,Pm表示存储器中的条目,Qk表示查询点,该查询点是输入视频的编码特征因此,我们计算查询点qk与内存模块pm的相似度w k,m作为内存模块的权重t,并根据权重twk,m读取内存模块。pk=Mm=0wk,mpm(二)在这项研究中,所有的内存条目被读取,而不是最近的条目,以考虑正常模式的完整性,这有利于获得更准确的模型,因为异常检测本质上是一个二进制分类问题。在实际场景中,不同的正常模式可能同时共存,并且正常模式之间可能存在相互依赖性exp(pTqk)MMexp(pTqk)M31Wenhao SHAO,et al.COVAD:使用基于自我注意的深度学习模型进行面向内容的视频异常检测k,maxmk,mK U更新QKp2聚合pmPk(C,H×W)年q1Q2qk(C,H×W)QKW(K,M)更新读Fp1图3内存模块的算法流程,包括读取和更新内存的流程图更新:我们使用公式1中的概率来选择与每个内存对应的所有最近的查询点。U m定义为最近查询点对应的第m个内存条目的索引集,更新机制由下式完成:pm =(pm+KUm(k,mqt)(3)这里使用加权平均值而不是sum,这样更接近mth的查询点对mth的更新影响更大。计算k,m的方法类似于等式1,但是在水平方向上执行归一化因此,k、m可以如等式4中所示来表示。在获得k,m之后,应当根据等式5再次对其进行归一化。k,m=k,m=、(四)(五)由于初始内存模块是随机生成的,因此无法保证内存条目之间的距离因此,本研究中的分析对随机生成的内存模块R(公式6)的初始值进行了限制,以确保每个条目都足够独立,其中I是单位矩阵,并且。表示矩阵的Frobenius范数。R=CCTI(6)此功能用于限制最初生成的内存模块,以确保不同内存条目之间有足够的距离,以区分它们并防止混淆。本文提出了上述存储器模块机制的另一种解释方案。在多次迭代中,相似的查询点被连续加权并平均到最近的内存条目。因此,我们提出了一种新的内存模块的方法,我们假设内存条目对应于每个正常事件的聚类中心,其处理方法相当于k-means聚类。在探索过程中,我们的分析将聚类损失纳入CNN的迭代过程中,但没有取得很好的效果;因此,在未来,我们将探索如何减少这种损失。3.3 协调注意注意机制是对基于编码器-解码器的神经机器的改进exp((p)不KMKexp((p)不Kk= 1M32虚拟现实智能硬件二月(2023)卷。5号1协调注意力输入C×H×1X池Y池C×1×WConcatC×1×(宽+高)翻译系统由于视频处理应用对输入和输出序列的长度没有限制,并且需要分配更多的计算资源,因此传统的通道注意力允许神经网络通过允许网络迭代地关注其过滤器的注意力来学习在学习期间应该关注什么。这些通道关注通常通过2D全局池化将特征张量转换为单个特征向量。一般的基于注意力的算法通常使用注意力池来编码全局空间信息;然而,将空间信息压缩到一个通道解释器中会丢失许多空间信息。特征,并且难以保存空间信息。由于在长期交互过程中保持视觉特征非常重要,因此有必要提高视觉任务的准确性。此外,注意模块必须获得更精确的空间信息,这有助于捕获长期交互的目标。由于通道注意力机制忽略了有助于生成空间信息的位置信息,因此我们可以嵌入协调注意力机制来沿空间方向聚合特征[24]。协调注意机制包括协调信息嵌入和协调注意生成两个步骤.图4描绘了坐标注意力块,其在-与使用精确的位置信息的信道依赖性和长期依赖性的两步编码集成。图4坐标注意力C是通道数;H和W分别表示当前要素的长度和宽度坐标信息嵌入:通道注意力被建立为两个1D特征编码,沿着两个空间方向聚合这些特征因此,可以沿着一个空间方向捕获长期相关特征,并且可以与另一个空间方向一起保留精确的给定输入X,两个池化核(H,1)和(1,W)分别用于沿着水平和垂直方向对所有通道进行水平和垂直方向上的第c个信道信息可以分别如等式7和8所示来zh(h)=1x(h,i)(7)cW0iWczw(w)=1x(j,w)(8)C协调注意力生成:H0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功