MIST:多实例自训练视频异常检测框架

159 浏览量更新于2024-01-22 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14009我MIST：多实例自训练视频异常检测框架冯家昌1，3，4，洪发庭1，3，郑伟世1，2，31中山大学计算机科学与工程学院2Peng Cheng实验室，深圳，中国3机器智能与先进计算教育部重点实验室4琶洲实验室，广州，中国网址：fengjch8@mail2.sysu.edu.cn，hongft3@mail2.sysu.edu.cn，网址：www.example.com，wszheng@ieee.org摘要弱监督视频异常检测（WS-VAD）是一种基于区分表示的视频异常与正常事件的区分方法。现有的大多数作品都局限于视频表示不足。在这项工作中，我们开发了一个多实例自训练框架（MIST），以有效地完善特定于任务的歧视性表示，只有视频级的注释。特别地，MIST由1）多实例伪标签生成器和2）自引导注意力增强特征编码器组成，所述多实例伪标签生成器适应稀疏连续采样策略以产生更可靠的剪辑级伪标签，所述自引导注意力增强特征编码器旨在自动聚焦于帧剪辑级标记的正常视频流决策边界联系我们特征空间细化歧视性表征同时提取特定于任务的表示。此外，我们采用自训练方案来优化这两个组件，最终获得一个特定于任务的特征编码器。在两个公共数据集上进行的广泛实验表明，视频级标记的异常视频流伪剪辑级标记的异常视频流我们的方法的有效性，并且我们的方法与现有的监督和弱监督方法相当或甚至更好，特别是在ShanghaiTech上获得了94.83%的帧级1. 介绍视频异常检测（VAD）旨在在时间或空间上定位视频中的异常事件[33]。随着越来越多的监控摄像机被部署，VAD在智能监控系统中发挥着越来越重要的作用，以减少现场监控的人工工作尽管VAD已经研究了多年，但开发一种检测视频中异常的模型仍然是一项艰巨的任务，因为它需要模型了解正常事件和异常事件之间的固有差异，特别是罕见且变化很大的异常事件。以前的工作把VAD看作是一个无监督的学习任务*通讯作者图1：我们提出的MIST首先在伪标签生成器G的帮助下将剪辑级伪标签Ya={ya}分配给异常视频。然后，MIST利用信息，从所有的视频中提取信息，以改进自我引导的注意力提升特征编码器ESGA。[29，14，7，15，13，5，32]，其仅用正常训练样本对通常模式进行编码，然后将独特的编码模式检测为异常。在这里，我们的目标是解决弱监督视频异常检测（WS-VAD）问题[20，31，28，34，24]，因为获得视频级标签比无监督方法更现实，并且可以产生更可靠的结果更具体地说，WS-VAD中的现有方法可以分为两类，即编码器不可知的方法和基于编码器的方法。编码器不可知方法[20，28，24]利用从表示为E（例如C3D [21]或I3D [2]）的普通特征编码器提取的视频的任务不可知特征来估计异常分数。基于编码器的方法[34，31]输入/输出Input/Output of输入/输出异常i+2^i+1y^i14010同时训练特征编码器和分类器最先进的基于编码器的方法是Zhong等人。 [31]，其将WS-VAD公式化为标签噪声学习问题，并从标签噪声清洁器网络过滤的噪声标签中学习。然而，标签噪声是由于将视频级标签分配给每个剪辑而产生的。尽管更干净的网络在耗时的迭代优化中纠正了一些嘈杂的标签，但表示的细化进展缓慢，因为这些模型在开始时被严重嘈杂的伪标签所我们发现，现有的方法没有考虑有效地训练特定于任务的特征编码器，其为监视摄像机下的事件提供区分性表示为了克服WS-VAD的这个问题，我们开发了一个两阶段的自训练过程（图1），旨在训练一个仅具有视频级弱标签的任务特定特征编码器。特别地，我们提出了一个多实例自训练框架（MIST），它由一个多实例伪标签生成器和一个自引导的注意力提升特征编码器ESGA组成。1)MIL-伪标签生成器。MIL框架在弱监督学习中得到了很好的验证。基于MIL的方法可以比那些简单地将视频级标签分配给每个剪辑的方法更准确地生成伪标签[31]。此外，我们采用了稀疏连续采样策略，可以迫使网络更多地关注最异常部分周围的上下文。2)自我引导的注意力增强功能编码器。监控视频中的异常事件可能发生在任何地点和任何大小[11]，而在常用的动作识别视频中，动作通常以大动作出现[3，4]。因此，我们在我们提出的特征编码器中利用所提出的自我引导注意力模块来强调不具有任何外部注释的异常区域[11]，但是正常视频的剪辑级注释和异常视频的剪辑级伪标签对于我们的WS-VAD建模，我们引入了深度MIL排名损失来有效地训练多实例伪标签生成器。特别是，对于深度MIL排名损失，我们采用稀疏连续采样策略，以更多地关注异常实例周围的上下文。为了获得具有更小域间隙的特定于任务的特征编码器，我们引入了一个有效的两阶段自训练方案来优化所提出的框架。我们使用从原始特征编码器中提取的特征，通过生成器G为异常视频生成其对应的剪辑级伪标签。然后，我们采用这些伪标签及其相应的异常视频以及正常视频来改进我们的改进特征编码器ESGA（如图1所示）。因此，我们可以获得一个特定于任务的特征编码器，为监控视频提供基于两种不同的特征编码器进行了广泛的实验，即。C3 D [21]和I3 D [2]表明我们的框架-WorkMIST能够产生任务特定的特征编码器。我们还比较了建议的框架与其他编码器无关的方法在两个大的数据集，即。，UCF-Crime [20]和ShanghaiTech[15]。此外，我们运行消融研究来评估我们提出的稀疏连续采样策略和自我引导注意模块。我们还展示了一些可视化的结果，以提供更直观的我们的实验证明了MIST的有效性和效率。2. 相关作品弱监督视频异常检测。 VAD旨在检测给定视频中的异常事件，并已研究多年[9，29，14，7，15，13，12，32，31，5，24]。无监督学习方法[9，29，7，30，15，13，32，5]仅使用正常训练样本对通常模式进行编码，然后将独特的编码模式检测为异常。具有视频级标签的弱监督学习方法[20，31，28，34，24]更适用于区分异常事件和正常事件。现有的弱监督VAD方法可以分为两类，即编码器不可知的方法和基于编码器的方法。1）编码器不可知的方法只训练分类器。Sultani等人。[20]提出了一个深度MIL排名框架来检测异常; Zhang等人。 [28]进一步介绍了内袋评分差距正规化; Wan等人。 [24]介绍了动态MIL损失和中心引导正则化。2)基于编码器的方法训练特征编码器和分类器两者。Zhu等人。 [34]提出了一种基于注意力的MIL模型，结合基于光流的自动编码器来编码运动感知特征。 Zhong等人 [31]将弱监督VAD作为标签噪声学习任务，并提出GCN来过滤标签噪声以进行迭代模型训练，但迭代优化效率低下且进展缓慢。一些工作专注于以离线方式[23，25]或粗粒度方式[20，28，34，23，25]检测异常，这不符合现实世界应用的实时监控要求。在这里，我们的工作也是基于编码器的方法，并且以在线细粒度的方式工作，但是我们使用学习的伪标签来优化我们的特征编码器ESGA，而不是直接使用视频级标签作为伪标签。此外，我们设计了一个两阶段的自训练方案来有效地优化我们的特征编码器和伪标签生成器，而不是迭代优化[31]。多实例学习。MIL是弱监督学习的一种流行方法。在视频相关的任务中，MIL将视频作为一个包，并将视频中的剪辑作为实例[20，17，8]。通过特定的特征/分数聚合函数，视频级标签可以用于间接监督实例级学习。聚合函数不同，例如最大池[20，28，34]和注意力池[17，8]。在14011n（Yn =0）0.30.10.00.1卢恩滑动平均最小-最大范数细化0.10.0^0.70.80.91.00.6 0.6Ya（Ya =1）拉瓜第一阶段伪标签生成0.00.00.00.0a N一我i=1i=1我i=1一n一 N我i=1我i=1我i=1i i=1i i =1第二阶段。特征编码器微调E图2：我们提出的MIST框架的说明。MIST包括多实例伪标签生成器G和自引导注意力提升特征编码器ESGA，随后是加权分类头Hc。我们首先训练一个G，然后生成用于ESGA微调的伪标签。本文采用稀疏连续采样策略算法1多实例自训练框架在我们的多实例伪标签生成器中，网络要更注重身边最多的语境输入：剪辑级标记的正常视频Vn={vn}N和相应的剪辑级标记Yn，视频级标记的异常异常部分视频Va={va}N预训练的vanilla特征编码器E.自我训练。自我训练在半监督学习中得到了广泛的研究[1，10，6，27，22，35]。自训练方法通过在未标记数据上生成伪标记来增加标记数据，以利用标记数据和未标记数据两者上的信息。最近的深度自训练涉及特征编码器和分类器细化的表示学习，主要用于半监督学习[10]和域自适应[36，35]。在无监督VAD中，Pang et al. [18]介绍了一种直接部署在测试视频上的自训练框架，假设给定视频中存在异常。在这里，我们提出了一个多实例自训练框架，通过多实例伪标签生成器为异常视频中的所有剪辑分配剪辑级伪标签。然后，我们利用所有视频中的信息来精细-输出：自引导注意力提升特征编码器ESGA，多实例伪标签生成器G，剪辑级伪标签YaforVa第一阶段伪标签生成。1：从E中提取V和V的特征当{f i}i=1且{f n}N.2：根据等式2，用{f}和{fn}N及其对应的视频级标签训练G。7 .第一次会议。3：预测V的每个剪辑的剪辑级伪标签通过训练G为Y。第二阶段。特征编码器微调。4：将E与自我引导注意模块结合为ESGA，然后用YnYa的监督来微调E S GA。并将视频中的剪辑V1作为实例。具体来说，一个负-调整自我引导注意力提升特征编码器。标记为Bn={vn}N的输液袋（即Y=0）没有i i=1异常实例，而阳性袋（即Y = 1）de-3. 方法记为Ba={va}N至少有一个。i i=1VAD依赖于清楚地表示场景中事件的区别性表示，而动作识别则依赖于动作识别。在这项工作中，给定一对袋（即，正袋Ba和负袋Bn），我们首先预提取特征（即： {f a}N和{f n}N分别对应于Ba和B n）点火数据集预训练的特征编码器并不完美i i=1i i=1N监控录像因为有一个对于视频中的每个剪辑，使用预训练香草特征编码器，C3 D或I3 D，形成fea-主要差距[11，3，4]。为了解决这个问题，我们引入一图尔斯湾和Bn. 然后，我们将伪标签类-自我训练策略，以完善拟议的改进有限元分析，真编码器ESGA。下面详细介绍图2对于所提取的特征，以估计片段的异常分数（即，{sa}N，{s n}N）。然后，我们产生伪标签Ya={ya}N，用于执行的异常视频-i i=13.1. 概述给定视频V={vi}N对于N个剪辑，对估计的分数进行平滑和归一化，以监督所提出的自我引导注意的学习视频级标签Y∈ {1，0}指示是否存在异常-lous事件存在于这个视频。我们把一个视频V作为一个袋子增强的特征编码器，形成两阶段自训练方案[10，36，35]。ℒ1E+自我引导注意力模块ℒ2^14012i=1l=1，t=1l=1，t=1我J我我我i i=1我们的特征编码器ESGA。L图3：我们的多实例伪标签生成器的工作流程。每袋含L个子袋，每个子袋由T个连续的夹子组成。如图2所示，我们提出的特征编码器尽管最近基于MIL的方法[20，28]已经取得了相当大的进展，但是以粗粒度方式将视频分割成固定片段而不管其持续时间的过程易于将异常模式作为通常构成大多数的正常帧而隐藏，即使在异常视频中也是如此[24]。然而，通过以细粒度的方式在较小的时间尺度上进行采样，网络可能会过分强调异常最强烈的部分，但忽略了其周围的背景。由于异常持续时间最短的假设，MIL网络被迫更多地关注最异常部分周围的上下文。此外，为了适应未修剪视频的持续时间变化和类别数量的不平衡，我们引入了一种稀疏连续采样策略：给定每个片段的特征，由香草特征编码器ESGA，改编自普通特征编码器E（例如，I3DE来自视频{fi}N，我们对L个子集进行均匀采样或C3 D）通过添加我们提出的来自这些视频剪辑的自我引导注意力mod-，并且每个子集包含Tcon-，ULE，可以用估计的伪标签进行优化，固定夹，形成L个子袋B={fl，t}L，T作为消除领域差距，并产生特定任务的代表性，情感实际上，我们提出的方法可以被视为两阶段方法（参见算法1）：1）我们首先经由伪标签生成器为仅具有视频级标签的异常视频生成剪辑级伪标签，同时通过以下步骤更新伪标签生成器的参数：图3所示值得注意的是，T，一个超参数，如前一段所讨论的，也可以作为异常的最小持续时间的假设。在这里，我们将MIL模型与我们的连续采样策略相结合，如图3所示。我们将提取的特征馈送到我们的伪标签生成器中，以生成对应的深度MIL排名损失的手段。2)在获得异常分数{sl，t}L，T. 接下来，我们执行平均值异常视频的剪辑级伪标签，我们的功能编码器ESGA可以在正常和异常视频数据上训练。因此，我们形成了一个自训练方案来优化特征编码器ESGA和伪标签每个实例的预测实例级得分sl，t的池化子袋评分如下Sl，其可用于等式7 .第一次会议。1吨发电机G。图2所示的图示提供了我们提出的方法的概述。Sl=Tt=1sl，t.（一）为了更好地区分异常片段和正常片段，我们在特征编码器中引入了一个自我引导的注意力模块，即ESGA，以捕获视频中的异常区域，从而帮助特征编码器产生更多的区分表示（参见第3.3节）。另外，我们在-训练后，训练好的多实例伪la-bel生成器预测标记为Sa={sa}N的所有异常视频的剪辑级分数。通过利用移动平均滤波器执行时间平滑以减轻具有k核大小的异常分数的抖动，在伪标签生成器中引入稀疏连续采样策略，以强制网络更多地关注最异常部分周围的上下文（参见sa=1i+k2kj=i−ksa，（2）第3.2节）。最后，我们介绍了深度MIL排名和最小-最大归一化，损失来优化伪标签生成器的学习，并且我们使用交叉熵损失来训练我们提出的由异常的伪标签监督的特征编码器ESGA。y=.Σsa−minSa/（maxSa−minSa）），i∈[1，N]，（三）视频和普通视频的剪辑级注释。我们将anomal y分数细化为={ya}N. 具体-i i=13.2. 基于多实例学习的伪标签生成与[ 31 ]相比，[31]只是简单地为每个剪辑分配视频级标签，然后在一开始就训练香草特征编码器，我们引入了一个基于MLP的结构作为在MIL范式下训练的伪标签生成器，以生成伪标签，这些标签用于调用y，y=a在[0，1]中，并充当软伪标签。然后，将伪标记数据{Va，Y_ a}与裁剪水平标记数据{V_n，Y_n}组合为{V，Y}以微调所提出的特征编码器E SGA。3.3. 特征编码器中的自引导注意与仅为下游任务提供任务不可知表示的普通特征编码器E��¯n子袋（T连续剪辑）卢恩卢恩0.00.10.10.30.50.40.00.30.2拉瓜��a0.20.3MIL网络0.30.70.2……14013b−4b−4b−4L分别通过L1和L2也就是说，我们用伪标签优化了ESGA（见3.2节）。因此，特征编码器ESGA可以在视频异常数据集，并从预训练参数中消除域间隙。3.4. 优化过程- 深度MIL排名损失：考虑到阳性袋包含至少一个异常剪辑，我们假设来自具有最高异常分数的阳性袋的剪辑最有可能是异常[8]。为了适应3.2中的稀疏连续采样，我们将子袋作为实例，并获得最有可能的异常子袋和最有可能的正常子袋之间的可靠相对比较：图4：自引导注意力增强特征编码器ESGA的结构。GAP是指全球平均池化maxSnmaxSa<1≤l≤Ll1≤l≤Ll（六）操作，而Avg表示K通道平均池-在引导分类头Hg中产生引导异常分数。A是注意力地图。F1、F2、F3是由卷积层构造的三个编码单元。具体来说，为了避免太多的假阳性的情况下，积极袋，我们引入了一个稀疏约束积极袋，实例化方程。6作为稀疏正则化的深度MIL排名损失：我们提出了一个自引导的注意力增强特征编码器ESGA，它通过伪标签监督来优化注意力地图的生成，以增强对特定任务表示的学习。LMIL=.Σ−maxSa+ maxSn1≤l≤Ll1≤l≤Ll+λL+ Ll=1S a.（七）如图4所示，自我引导注意力模块其中（·）+表示max（0，·），并且等式中的第一项7en-确保max1≤l≤LSa大于max1≤l≤LSn，其中a(SGA)将特征映射Mb−4和Mb−5作为输入，分别由香草特征编码器E的第4和第5块产生SGA包括三个编码单元，即F1、F2和F3，它们都是用卷积构造的功能层。Mb−4编码为M并且然后应用到注意力地图A代，表示为A= F1（F2（Mb−4））.（四）最后，我们通过下面的注意力机制获得MAMA=Mb−5+A <$Mb−5，（5）其中，M是逐元素乘法，并且M_A被应用于经由加权分类头H_c（全连接层）的最终异常分数预测。为了帮助学习的注意力地图，我们介绍了一个引导分类头Hg，使用伪标签作为监督。在Hg中，F3将M变换为M.具体来说，M和M具有2K个通道作为K每个类别的多个检测器，即正常和异常，[26]以人为本，以人为本，以人为本。然后，我们在M和Softmax激活上部署时空平均池化、K通道平均池化，以获得每个类别的引导异常分数。值得注意的是，在ESGA中有两个分类头，即加权分类头Hc和引导分类头Hg，它们都由伪标签监督边缘在这个例子中，k是一个超参数，等于1。工作最后一项在Eq。λ是稀疏正则化，指示只有少数子包可能包含异常，而λ是用于平衡具有稀疏正则化的排序损失的另一个超参数- 分类损失：在获得等式（1）中的异常视频3、得到训练对{Va，Ya}，其进一步与{Vn，Yn}组合以训练我们的功能编码器ESGA。为此，我们应用交叉熵损失函数到ESGA中的两个分类头（Hc和Hg），即图4中的L1和L2。最后，我们用L1和L2的组合训练了一个特定于任务的特征编码器ESGA。在推理阶段，我们使用ESGA通过加权分类头Hc来预测视频的剪辑级分数。4. 实验4.1. 数据集和数据库我们在两个大型数据集上进行实验，即UCF-Crime[20]和ShanghaiTech [15]，使用两个特征编码器，即C3D [21]或I3 D [2]。UCF-Crime是一个大规模的真实世界监控视频数据集，包括13种异常事件和1900个未修剪的长视频，其中1610个视频是训练视频，其余是测试视频。 Liu等人[第十一届]softma xB1B-5ℳGAP抗肿瘤B-4注意机制^ℱ12ℱ22HHGAPAvℳ∗gB-4ℳWWsoftma x自我引导注意力模块ℱ314014密耳iter 1iter 2iter 3九十93.1389.1586.6176.1676.44七十三959085807570Zhong等人（C3 D-RGB）我们的（C3 D-RGB）我们的（I3 D-RGB）监督方法颗粒编码器AUC（%）FAR（%）图5：与最先进的基于编码器的方法的比较Zhong等人。 [31]在上海科技。对于每个异常视频，每16帧在一个图像中手动注释异常区域的边界框，并且我们仅使用他们对测试视频的注释来评估我们的模型ShanghaiTech是一个包含437个校园监控视频的数据集。它在13个场景中有130个异常事件，但所有异常视频都在测试集中，因为数据集是为无监督学习而提出的。为了适应弱超-viewedsetting，Zhong et al. [31]将这些视频重新组织为238个培训视频和199个测试视频。评价根据以前的工作[13，11，20，24]，我们计算帧级接收器工作特性（ROC）的曲线下面积（AUC）作为主要度量，其中较大的AUC意味着较高的距离。伪装能力。我们还遵循[20，24]，通过异常视频的虚警率（FAR）评估鲁棒性。4.2. 实现细节多实例伪标签生成器是一个3层MLP，其中单元的数量分别为512、32和1，通过每层之间概率为0.6的dropout进行正则化。ReLU和Sigmoid函数分别在第一层和最后一层这里，我们采用超参数L= 32，T=3，λ= 0。01，并用Adagrad优化器训练生成器，学习率为0。01号。在微调的同时，我们采用亚当优化器，学习率为1e-4，权重衰减为0.0005，并训练300个epoch。更多关于Imple-在补充材料中报告。4.3. 与相关方法的比较在表1中，我们给出了AUC，FAR，以在准确性和鲁棒性方面将我们的MIST与相关的最先进的在线方法进行比较。我们可以发现，MIST在表1的所有评估指标方面优于或表现类似于所有其他方法，这证实了MIST的有效性。具体来说，Zhong等人的结果。[31]，标记为“重新测试”，从官方发布的没有部署10-crop2的模型1用于公平比较，1https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-检测。210-crop是将图像裁剪到中心、四个角及其镜像对应物的测试时间增强表1：在不同监督级别下与现有在线方法对UCF犯罪的预测精度和精度。（·）中的结果是用10种作物进行测试的，而那些标有“*”的结果是在没有作物的情况下进行测试的方法特征编码器粒度AUC（%）FAR（%）Sultani等人 [20个]C3 DRGBC3DRGBC3DRGBC3DRGBI3DRGBI3DRGB+Flow粗86.30 0.15Zhang等人 [28]第二十八届粗82.50 0.1Zhong等人 [三十一]罚款76.44-[24]第二十四话罚款85. 0110. 57∗[24]第二十四话罚款85.38 0.27[24]第二十四话罚款91.24 0.10雾雾C3 DRGBI 3DRGB罚款罚款93.1394.831.710.05表2：与上海科技大学现有方法的定量比较。重新实施了使用ESTA而括号中的结果是[31]中使用10种作物增加的结果。然而，10作物的增加可能会提高性能，但需要10倍的计算。值得注意的是，我们的MIST的结果仍然略微超过了Zhong等人的结果。[31]使用10作物增加（ 81. 08% 对 81. 40% 的 AUC 和 2 。 2% vs.2.19%）。此外，我们的方法优于Liu等人的监督方法。[11]，该方法使用外部时间注释训练C3DRGB，使用外部时空注释训练NLNRGB。这些结果验证了我们提出的MIST比以前的作品更有效。对于表 2 中的ShanghaiTech 数据集结果，我们的MIST远远优于其他基于RGB的方法[20，28，31，24]，这验证了MIST的能力值得注意的是，MIST还超越了AR-Net的多模型方法[24]（I3D RGB+F低）对AUC的影响超过4%，达到94。百分之八十三并获得低得多的FAR0。05%我们在图中详细介绍了与上海科技最先进的基于编码器的方法[31]5. 多实例伪标签生成器的性能比Zhong等人好得多。[31]，这表明将视频级标签用作剪辑级标签的缺点。尽管Zhong et al. [31]优化了三次迭代，它远远落后于我们的MIST，C3D上的AUC为16.69%，这充分验证了MIST的效率和功效。此外，我们的MIST在推理阶段要快得多，因为Zhong等人 [31]应用了10-crop增强。AUC（%）Hasan等人[七]《中国日报》Lu等人[14个]联合国联合国粗粗AERGB字典50.6 27.265.51SVM弱粗C3DRGBC3DRGBC3DRGBAE流程C3DRGB50-Sultani等人[20个]弱粗75.41.9Zhang等人[28]第二十八届弱粗78.7-Zhu等人[34个]弱粗79.0-Zhong等人[三十一]弱罚款八十。67公斤（81.08）3 .第三章。3分（2.2）Liu等人[第十一届]Liu等人[第十一届]满（T）完整（S+T）罚款罚款70.1-82.0-14015编码器不可知方法AUC（%）UCF-犯罪预训练微调上海科技预训练微调Sultani等人 [20个]78.4381.4286.9292.63Zhang等人 [28]第二十八届78.1181.5888.8792.50[24]第二十四话78.9682.6285.3892.27数据集特征AUC（%）AAUC（%）均匀稀疏连续UCF-犯罪C3DRGB74.2975.51+1.22I 3DRGB78.7279.37+0.65上海科技C3DRGB83.6886.61+2.93I 3DRGB83.1089.15+6.05表3：通过采用编码器不可知的方法，在UCF-Crime和ShanghaiTech数据集预训练MIST图6：UCF-Crime测试视频中预训练的vanilla特征编码器I3 D和通过t-SNE [16]微调的MIST编码器的特征空间可视化。红点表示异常区域，蓝点表示正常区域.4.4. 任务特定特征编码器为了验证我们的特征编码器可以产生促进其他编码器不可知方法的任务特定表示，我们还使用I3D进行相关实验，如表3所示。值得注意的是，在使用我们的MIST微调功能，显示了域间隙的减少。例如，AR-Net [24]在 UCF-Crime数据集上从 85.38%增加到92.27%，在ShanghaiTech数据集上实现了6.89%的改进。因此，我们的MIST可以产生一个更强大的特定于任务的特征编码器，可以在其他approaches利用。我们通过图6中的t-SNE[16]可视化了预训练的I3 D vanilla特征编码器和MIST-fine-tuned编码器的特征空间，这也表明了特征表示的细化。4.5. 消融研究首先，我们引入了另一个评价指标，即得分差距，这是异常剪辑和正常剪辑的平均得分之间的差距。分数差距表4：稀疏连续采样和均匀采样用于MIL生成器训练的性能比较。表明网络更有能力区分异常事件和正常事件[13]。我们对UCF-Crime进行消融研究，以分析表5中所提出的特征编码器ESGA的SGA中生成的伪标签（PL）、自导注意力模块（SGA）和分类器头Hg的影响。与基线和MISTw/oPL相比，当利用生成的伪标签时，我们的MIST得到了显着的特别是，我们观察到AUC提高了8.17%，得分差距约为17%，这表明我们的多实例伪标签生成器采用稀疏连续采样策略的有效性。伪标签也起着重要的作用。与MIST相比，无PL的MIST绩效下降严重，甚至低于基线，因为低质量的监管影响了注意力map SGA的一代此外，SGA增强了特征编码器，突出了信息区域，区分异常事件和正常事件。与MISTw/oSGA相比，MIST的AUC增加2%，评分差距增加5%。具体地，SGA中的引导分类分支在引导注意图生成中起着重要作用，并且如果去除这样的分支，则存在超过2%的下降。在 C3DRGB 和 I3DRGB 特征下，对 UCF-Crime 和ShanghaiTech进行了稀疏连续采样策略的消融研究。如表4所示，当对一个袋子的相同数量的剪辑进行采样并选择相同数量的顶部剪辑来表示袋子时，我们的稀疏连续采样策略对上下文更加关注，并且比均匀采样更好。特别是在上海理工大学，稀疏连续采样在两种特征上分别获得了2.93%和6.05%的增益.4.6. 视觉结果为了进一步评估模型的性能，我们可视化了模型的时间预测。如图7所示，我们的模型准确定位了异常事件，并预测正常视频上的异常评分非常接近于零，显示了我们模型的有效性和我们在图7的右行中收集了一些失败的样本。此外，我们的模型预测了最高分出现在Arrest001的结尾，一个男人走过场景，手臂指向前方，好像挥舞着一个战斗003护士13714016射击008破坏主义028中国人877逮捕001中国人079图7：UCF-Crime测试结果的可视化（以彩色显示效果图中的红色方块是异常事件的时间基本事实。橙色圆圈显示错误标记的地面实况，蓝色圆圈表示错误预测的剪辑，红色圆圈表示正确预测的剪辑。表5：方法AUC（%）比分差距（%）基线MIST（不含PL）74.1373.330.3750.443不含汞的喷雾MIST，不带SGA81.9780.2815.3712.74雾82.3017.71用I3DRGB对UCF-犯罪的消融研究.与不带引导分类头Hg的MIST和不带SGA模块的MIST相比，MIST的结果集中在异常区域，表明了我们的自引导注意模块的合理性和有效性。4.7. 讨论基线是使用视频级标签训练的原始I3D[31]。MIST是我们的整个模型。MISTw/oPL是在没有伪标签但有视频级标签的情况下训练的。MISTw/oHg是没有Hg训练的MIST。MISTw/oSGA在没有自我引导注意力模块的情况下训练）。原始帧我们的MIST的关键是设计一个两阶段的自我-训练策略，以训练用于视频异常检测的任务特定的特征编码器。我们的框架的每个组件都可以被任何其他高级模块替换，例如，用I3D替换C3D，或者用更强的伪标签生成器来代替多实例伪标签生成器。此外，我们的框架的计划可以适应其他任务，如弱监督视频动作定位和视频精彩检测。雾不含SGA雾不含酒精雾破坏主义015攻击0105. 结论在这项工作中，我们提出了一个多实例自训练框架（MIST），有效地微调特定于任务的特征编码器。在多实例伪标签生成器中，采用稀疏连续采样策略，生成更可靠的伪标签。利用估计的伪标签，我们提出的特征编码器学习聚焦于帧fa中最可能的异常区域图8：异常激活标测图的可视化结果（彩色显示效果更好）。枪由于UCF-Crime中的视频分辨率较低，因此在没有任何其他上下文信息的情况下很难判断这种令人困惑的行为。此外，图7的右下部分显示了另一个失败的案例;即，我们的模型错误地定位了异常盗窃事件的主要部分我们还通过Grad-CAM可视化空间激活图，MA[19]空间解释。如图8所示，我们的模型能够敏感地关注信息区域帮助判断现场是否异常这验证了我们的自我引导注意力模块可以提升特征编码器以专注于异常区域。附加-由所提出的自我引导注意力模块所引导。最后，经过两个阶段的自我训练过程，我们训练了一个任务特征编码器与歧视性表示，也可以提高其他现有的方法。值得注意的是，我们的MIST在两个公共数据集上做出了重大改进。确认这项工作得到了中国国家重点研究发展计划（ 2018YFB1004903 ）的部分支持，科学基金（U1911401， U1811461），广东省科技创新领军人才（2016TX03X157），广东省国家自然科学基金项目（编号：2020B1515120085，2018B030312002），广州研究项目（201902010037）、浙江实验室研究项目（编号2019KD0AB03），广州市重点领域研究发展计划（202007030004）。14017引用[1] Massih-Reza Amini和Patrick Gallinari。半监督logistic回归在ECAI，2002年。[2] Joao Carreira和Andrew Zisserman你说的是行动识别吗新模型和动力学数据集。在IEEE Conf.目视模式识别，2017年。[3] Jinwoo Choi，Chen Gao，Joseph CE Messou，and Jia-Bin Huang.为什么我不能在商场里跳舞？学习在动作识别中对场景偏差进行调整。在高级神经信息。过程系统，2019年。[4] Jinwoo Choi，Gaurav Sharma，Manmohan Chandraker，and Jia-Bin Huang.无人机动作识别的无监督和半监督域自适应。2020年。[5] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh ，andAnton van den Hengel.验证正常性以检测异常：用于无监督异常检测的内存增强深度自动编码器。在国际会议计算中。目视，2019年。[6] Yves Grandvalet和Yooney Bengio基于熵最小化的半监督学习。在高级神经信息。过程系统，2005年。[7] Mahmudul Hasan，Jonghyun Choi，Jan Neumann，AmitK Roy-Chowdhury，and Larry S Davis.学习视频序列中的时间在IEEE Conf.目视帕特-特恩·博格。，2016年。[8] 洪发庭，黄轩腾，李伟宏，郑伟世。Mini-net：用于视频亮点检测的多实例排名网络。arXiv预印本arXiv：2007.09833，2020。[9] Timothy Hospedales，Shaogang Gong，and Tao Xiang.一种用于视频行为挖掘的马尔可夫聚类主题模型。在国际会议计算中。目视，2009年。[10] 李东贤伪标签：用于深度神经网络的简单有效的半监督学习方法。在表征学习挑战研讨会上，ICML，第3卷，2013年。[11] 刘昆和马华东。探讨监控影片中异常侦测的背景偏差。在ACM Int. Conf.多媒体，2019。[12] 刘文，罗伟新，李正新，赵培林，高盛华，等。基于边缘学习的嵌入式预测在视频异常检测中的应用。在IJCAI，2019年。[13] 刘文，罗维新，连东泽，高胜华异常检测的未来帧预测-在IEEE Conf.目视模式识别，2018年。[14] 卢策武，石建平，贾佳雅。matlab中150 fps下的异常事件在国际会议计算中。目视，2013年。[15] 罗维新，刘文，高胜华堆叠式rnn架构中以在国际会议计算中。目视，2017年。[16] 劳伦斯·范德马滕和杰弗里·辛顿。使用t-sne可视化数据。Journal of Machine Learning Research，9（Nov）：2579[17] Nguyen，Ting Liu，Gautam Prasad，and Bohyung Han.基于稀疏时间池网络的弱监督动作定位。在IEEE Conf.Comput. 目视模式识别，2018年。[18] 庞冠松、程岩、沈春华、安东·范登亨格尔、小白。用于端到端视频异常检测的自训练深度有序回归。在IEEE/CVF计算机视觉和模式识别会议论文集，第12173-12182页[19] 兰普拉萨思R塞尔瓦拉朱，迈克尔科格斯韦尔，阿披谢达斯，罗摩克里希纳韦丹塔姆，德维帕里克，和德鲁夫巴特拉。Grad-cam：通过基于梯度的定位，从深层网络进行可视化解释。在IEEE Conf. Comput. 目视帕特-特恩·博格。，2017年。[20] Waqas Sultani，Chen Chen，and Mubarak Shah.监控视频中的真实世界异常检测。在IEEE Conf.目视模式识别，2018年。[21] Du Tran ， Lubomir Bourdev ， Rob Fergus ， LorenzoTorresani，and Manohar Paluri.用3d卷积网络学习时空特征。 In Int. Conf. Comput. 目视，2015年。[22] Isaac Triguero，Salvador Garc'ıa，and Francisco Herrera.半监督学习的自标记技术：分类学、软件和实证研究。知识与信息系统，42（2）：245[23] Waseem Ullah 、 Amin Ullah 、 Ijaz Ul Haq 、 KhanMuhammad、Muhammad Sajjad和Sung Wook Baik。Cnn特征与双向lstm用于监控网络中的实时异常检测。多媒体工具和应用程序，第1-17页[24] 万伯阳，方玉明，夏雪，梅佳洁。基于中心引导判别学习的弱监督视频异常检测。 In Int. Conf. 多媒体和博览会，2020年。[25] Peng Wu ， Jing Liu ， Yujia Shi ， Yujia Sun ，

下载后可阅读完整内容，剩余1页未读，立即下载