没有合适的资源?快使用搜索试试~ 我知道了~
无监督生成协作学习用于视频异常检测
............147440生成协作学习用于无监督视频异常检测0M. Zaigham Zaheer 1, 2, 3, 5, Arif Mahmood 4, M. Haris Khan 5, Mattia Segu 3, Fisher Yu 3, Seung-Ik Lee 1, 2*电子与通信研究所1,科学与技术大学2,ETH Zurich3,旁遮普信息技术大学4,穆罕默德∙本∙扎耶德人工智能大学50摘要0弱监督和一类分类(OCC)设置下的视频异常检测已经得到了很好的研究。然而,无监督视频异常检测方法相对较少,可能是因为异常事件的发生频率较低且通常不明确,再加上缺乏真实监督,可能会对学习算法的性能产生不利影响。这个问题具有挑战性,但也具有回报,因为它可以完全消除获取繁琐注释的成本,并使这些系统能够在没有人为干预的情况下部署。为此,我们提出了一种新颖的无监督生成协作学习(GCL)方法,用于视频异常检测,该方法利用了异常的低频率,以在生成器和判别器之间建立交叉监督。本质上,两个网络以合作方式进行训练,从而实现无监督学习。我们在两个大规模视频异常检测数据集UCFcrime和ShanghaiTech上进行了大量实验。与现有的无监督和OCC方法相比,我们的方法在性能上得到了一致的改进,证实了其有效性。01. 引言0在现实世界中,基于学习的异常检测任务非常具有挑战性,主要是因为此类事件的罕见发生。由于这些事件的无约束性质,这个挑战进一步加剧。因此,获取足够的异常示例非常困难,而且可以安全地假设永远不会收集到用于训练完全监督模型所需的详尽集合。为了使学习变得可行,异常通常被认为是与正常数据明显偏离的重要偏差。因此,一种流行的异常检测方法是训练一个仅使用正常训练样本学习主导数据表示的一类分类器[14, 17, 25, 28, 41, 42, 45, 47, 60, 64,66, 72]0*通讯作者。** Zaigham在ETHZurich担任访问研究员和MBZUAI实习生期间完成了部分工作。0(b) 一类分类 (c) 弱监督 (d) 无监督 (a) 完全监督0异常帧 正常帧 A 异常视频0A0未标记的视频0图1. 视频异常检测的不同训练模式:(a)完全监督模式需要训练数据中的帧级正常/异常注释。(b)一类分类(OCC)只需要正常训练数据。(c)弱监督模式需要视频级别的正常/异常注释。(d)无监督模式不需要训练数据注释。0(图1)一类分类(OCC)方法的一个明显缺点是正常训练数据的有限可用性,无法捕捉所有正常变化[9]。此外,OCC方法通常不适用于视频监控中存在的具有多个类别和广泛动态情况的复杂问题。在这种情况下,未见过的正常活动可能与学习到的正常表示显著偏离,被预测为异常,导致误报[14,67]。最近,弱监督异常检测方法变得越来越受欢迎[24, 26,34, 46, 56, 63],通过使用视频级别标签[50, 65, 67, 69,74]来减少获取手动细粒度注释的成本。具体而言,如果视频的某些内容是异常的,则将其标记为异常,如果所有内容都是正常的,则将其标记为正常,需要对整个视频进行手动检查。尽管这种注释相对具有成本效益,但在许多实际应用中仍然不切实际。有大量的视频数据,特别是原始镜头,可以用于异常检测训练,而不需要注释成本。不幸的是,据我们所知,几乎没有任何值得注意的尝试利用未标记的训练数据进行视频异常检测。在这项工作中,我们探索了用于视频异常检测的无监督模式,这显然比完全、弱或一类监督更具挑战性(图1)。然而,由于假设最少,因此更有回报,将鼓励开发新颖且更实用的算法。请注意,文献中的“无监督”一词通常指的是假设所有正常训练数据的OCC方法[11, 37, 64,66]。然而,它也表示不需要训练数据注释。147450将整体学习问题部分监督[19]。在处理视频的无监督异常检测时,我们利用了视频相对于静态图像更丰富的信息和异常事件相对于正常事件更少的事实[8, 29, 51,67],并试图以结构化的方式利用这种领域知识。为此,我们提出了一种生成协作学习(GCL)方法,它以无标签视频作为输入,并学习预测帧级异常分数预测作为输出。所提出的GCL包括两个关键组件,一个生成器和一个判别器,它们以相互合作的方式进行训练,以提高异常检测性能。生成器不仅重构丰富可用的正常表示,还通过使用一种新颖的负学习(NL)方法扭曲可能的高置信度异常表示。相反,判别器估计实例为异常的概率。对于无监督异常检测,我们从生成器创建伪标签,并使用这些标签来训练判别器。在下一步中,我们从经过训练的判别器的版本创建伪标签,然后使用这些标签来改进生成器。整个系统以交替的方式进行训练,在每次迭代中,生成器和判别器都通过相互合作得到改进。贡献。我们提出了一种能够在复杂的监控场景中定位异常事件而不需要标记的训练数据的异常检测方法。据我们所知,我们的方法是第一个在完全无监督模式下解决监控视频异常检测的严格尝试。提出了一种新颖的生成协作学习(GCL)框架,包括生成器、判别器和交叉监督。通过使用一种新颖的负学习方法,强制生成器网络不重构异常。在两个大规模复杂异常事件检测数据集UCF-Crime和ShanghaiTech上进行了大量实验,结果显示我们的方法在基线和现有的无监督方法以及OCC方法上都取得了可见的增益。02. 相关工作0异常检测是图像[7, 16, 39]和视频[49, 50, 64, 67,69]领域中广泛研究的问题。我们回顾了视频异常检测的不同监督模式和相互学习策略。一类分类异常检测(OCC)。OCC方法已经在包括医学诊断[58]、网络安全[11]、监控安全系统[20, 29, 32,64]和工业检测[5]等各种异常检测问题中得到应用。其中一些方法使用手工设计的特征[3, 31, 38, 55,71],而其他方法使用使用预训练模型提取的深度特征[42,47]。随着生成模型的出现,许多方法0提出了多种方法来学习正常数据表示[12, 35, 36, 43-45, 61,62,64]。OCC方法在避免对异常测试输入进行良好重构方面具有挑战性。这个问题归因于OCC方法在训练时只使用正常类数据,可能会得到一个有效的分类器边界,该边界在包含正常数据的同时排除异常数据[64]。为了解决这个限制,一些研究人员最近提出了伪监督方法,其中使用正常训练数据生成伪异常实例[1,64]。弱监督异常检测。使用视频级二进制注释来训练能够预测帧级异常分数的弱监督分类器[40, 50, 52, 65, 67, 69,74]。视频级标签以这样的方式提供,即正常标记的视频完全正常,而异常标记的视频包含正常和异常内容,没有关于时间位置的任何信息(图1)。无监督异常检测。使用无标签训练数据的异常检测方法在文献中非常稀少。根据图1所示的命名方式,文献中的大多数无监督方法实际上属于OCC类别。例如,MVTecAD[5]基准确保训练数据只是正常的,因此其评估协议是OCC,继承这个假设的方法本质上也是一类分类器[6,12]。与这些算法相反,我们提出的GCL方法能够从无标签训练数据中学习,而不假设任何正常性。以视频形式的训练数据符合关于异常检测的几个重要属性,例如,异常事件比正常事件更少,事件通常在时间上保持一致。我们从这些线索中得到启发,以完全无监督的方式进行训练。教师学生网络。我们提出的GCL与知识蒸馏的教师学生(TS)框架有一些相似之处[18]。GCL与TS框架的不同之处主要在于其目标不是知识蒸馏。此外,我们的生成器生成带有噪声的标签,而我们的判别器对噪声相对鲁棒,清除这些标签,而在TS框架中不是这种情况。相互学习(ML)。GCL框架与ML算法[73]也有一些相似之处。然而,GCL的两个组成部分学习不同类型的信息,并通过交叉监督进行训练,而ML算法使用的是监督学习。此外,在GCL中,每个网络的输出通过阈值处理产生伪标签。在ML中,队伍学习使每个成员的分布相匹配,而在GCL中,每个成员试图从其他成员生成的伪标签中学习。使用无标签训练数据的无监督模式下的队伍相互学习尚未被探索。...…147460特征提取器0判别器(D)0生成器(G)0输入批次0无标签视频0生成器的伪标签0判别器的伪标签0G损失0D损失0训练数据组织0V 10V 20V n0生成协作学习框架0图2.提出的生成协作学习(GCL)算法引入了交叉监督,用于训练生成器G和判别器D。由G生成的伪标签用于计算D损失,同样地,由D生成的伪标签用于计算G的损失。G和D都是从无标签训练数据中迭代训练以进行异常事件检测。0双向学习。这也是一种相关方法,其中两个语言翻译模型相互教授[15]。然而,外部监督是使用预训练的无条件语言专家模型提供的,这些模型检查翻译的质量。这样,不同的模型有不同的学习任务,而在我们提出的GCL方法中,学习任务是相同的。合作学习的另一个变体[4]曾经被提出,用于在不同领域中联合学习相同任务的多个模型。例如,通过在RGB图像上训练一个模型和在深度图像上训练另一个模型来形成对象识别,然后这两个模型之间进行通信以获得域不变的对象属性。而在我们的GCL方法中,两个模型都在相同的领域中解决相同的任务。03. 方法0我们提出的用于异常检测的生成协作学习方法(GCL)包括特征提取器、生成器网络、判别器网络和两个伪标签生成器。图2显示了整体架构。接下来将讨论每个组件。03.1. 训练数据组织0为了减少GCL的计算复杂度并减少训练时间,类似于现有的SOTA [50, 52, 65, 67, 69,74],我们利用深度特征提取器将视频数据转换为紧凑特征。所有输入视频都被排列为片段,然后提取这些片段的特征。此外,这些特征被随机排列为批次。在每次迭代中,随机选择一个批次用于训练GCL模型(图2)。形式上,给定一个包含n个视频的训练数据集,每个视频被划分为不重叠的p帧的片段S(i,j),其中i∈[1,n]是视频索引,j∈[1,mi]是片段索引0索引。段大小p在数据集的所有训练和测试视频中保持不变。对于每个S(i,j),使用特征提取器E(∙)计算特征向量f(i,j)∈Rd,其中f(i,j)=E(S(i,j))。在现有的弱监督异常检测方法中,每个训练迭代都在一个或多个完整的视频上进行[50,74]。最近,CLAWS Net[67]提出了提取多个时间一致性特征批次,然后随机输入到网络中。这样的配置可以最小化连续批次之间的相关性。在这些现有方法中,保持批次或视频级别的时间顺序很重要。然而,在提出的GCL方法中,我们随机排列输入特征的顺序,从而消除了批次内部和批次间的相关性。03.2. 生成协作学习0我们提出的用于异常检测的生成协作学习(GCL)方法包括一个生成器G,它是一个自编码器(AE),和一个判别器D,它是一个全连接(FC)分类器。这两个模型以协作的方式进行训练,而不使用任何数据注释。具体而言,我们既不使用正常类别的注释,如单类分类(OCC)方法[12, 37,54],也不使用弱监督异常检测系统[50, 67, 69,74]中使用的二进制注释。如第1节所讨论的,使用自编码器的直觉是这样的模型可以在一定程度上捕捉到整体主导的数据趋势[12]。另一方面,作为判别器使用的FC分类网络在提供有监督的、虽然有噪声的训练时被认为是高效的[67]。为了进行训练,首先使用G创建的伪注释来训练D。然后,使用D创建的伪注释来训练G。147470用于改进G。因此,这两个模型都是通过使用另一个模型创建的注释进行交替训练的。训练配置旨在随着训练迭代的进行改进伪标注,从而提高整体异常检测性能。下面讨论具体的架构细节和几个设计选择。03.2.1 生成器网络0G以特征作为输入,并生成这些特征的重构作为输出。通常,G通过最小化重构损失Lr来训练:0Lr = 10b0q =1 LqG , LqG = || fq i,j − � fq i,j || 2, (1)0其中fqi,j是输入到G的特征向量,�fqi,j是相应的重构向量,b是批次大小。03.2.2 生成器的伪标签0在我们提出的协作学习中,创建G的伪标签来训练D。这些标签是通过考虑批次中每个实例q的重构损失LqG的分布来创建的。主要思想是将导致较大损失值的特征向量视为异常,将生成较小损失值的特征向量视为正常。为了实现这个直觉,可以考虑使用阈值LthG:0lqG =0如果LqG≥LthG,则为1,否则为0。(2)0我们采用了一种简单的方法来选择LthG,即考虑具有最大重构误差的样本的固定百分比作为异常。在LqG的直方图中,我们经验性地观察到一个向最小误差的峰值和一个向最大误差的较小峰值。由于类边界通常位于低密度区域,误差直方图也是选择适当的LthG的有效工具。有关LthG选择的不同替代方案的分析见补充材料。03.2.3 鉴别器网络0使用G生成的伪标签通过最小化二元交叉熵损失在批次b上训练作为鉴别器D的二元分类网络:0LD = − 10b0q =1 l q G ln � l q i,j + (1 − l q G ) ln (1− � l q i,j ) , (3)0其中lqG∈{0,1}是G生成的伪标签,�lqi,j是当输入特征向量fqi,j时D的输出。0重构目标0异常的伪标签 正常的伪标签0伪重构目标0输入批次0来自鉴别器D的伪标签0G0图3.GCL中的负学习:G被限制不使用伪重构目标(PRT)学习异常的重构。根据D产生的伪标签,对异常输入生成PRT,对正常输入使用正常目标来指导G的训练。03.2.4 鉴别器的伪标签0使用D的伪标签来提高G的重构判别能力。D的输出�pqi,j是特征向量fqi,j是异常的概率。因此,通过对D的输出�pqi,j使用阈值机制,将概率较高的特征视为异常。然后,使用D生成的注释来微调下一次迭代中的G。0lqD =0如果pqi,j≥LthD,则为1,否则为0。(4)0其中阈值LthD的计算方式与阈值LthG的计算方式相同。03.2.5 生成器网络的负学习0通过使用D的伪标签来训练G,采用负学习(NL)。为了增加正常和异常输入的重构之间的区分度,鼓励G对具有异常伪标签的样本进行较差的重构,而对具有正常伪标签的样本进行最小误差的重构。文献中已经探索了一些负学习的变体。例如,Munawar等人[33]和Astrid等人[1]对已知的异常输入的整个批次进行负损失。然而,这种配置需要对整个数据集及其标签有先验知识。在提出的GCL方法中,伪标签是随着训练的进行而迭代生成的,因此可能在同一批次中遇到正常和异常样本。此外,我们不是使损失变为负值,而是通过使用伪重构目标来强制异常样本进行较差的重构。因此,如图3所示,对于每个被D伪标记为异常的特征向量,其重构目标被替换为一个LG = 1bb�q=1||tqi,j − f qi,j||2,(5)tqi,j =�f qi,j,if lqD = 01 ∈ Rd,if lqD = 1,(6)147480不同的特征向量。为了广泛探索这个概念,我们提出了以下不同类型的伪目标:1)全1目标:原始重构目标被一个相似维度的全1向量替换。2)随机正常目标:原始重构目标被任意选择的正常标记特征向量替换。3)随机高斯噪声目标:原始重构目标通过添加高斯噪声扰动。4)无负学习:不对G应用负学习。而是只使用伪标记为正常的特征向量来训练G。在图5中展示了对不同伪目标的广泛分析。我们经验性地观察到,将“1”作为伪目标可以产生更具区分性的重构能力,从而更好地区分正常和异常输入。公式(1)给出的损失函数被修改为包括负学习:0其中伪目标t q定义为:03.3. 自监督预训练0使用无标签视频训练提出的GCL,利用G和D的协作。由于异常检测是一个模糊的问题,缺乏约束可能会影响收敛性,系统可能会陷入局部最小值。为了改善收敛性,我们尝试通过预训练G和D来“启动”训练过程。我们经验性地观察到,使用预训练的G(基于公式(1))有助于整个学习系统的稳定性,也提高了系统的收敛性和性能(第4节)。自编码器已知能够捕捉训练数据的主要表示[12,64]。尽管异常是稀疏的,而正常特征在训练数据中很丰富,但我们实验观察到,仅利用所有训练数据来预训练G可能无法提供有效的“启动”。利用视频中事件按时间顺序发生且异常帧通常比正常帧更具事件性的事实,我们利用连续特征向量之间的时间差作为初始清理训练数据集的估计器,用于预训练G。即,只有当|| f t +1 i,j − f t i,j || 2 ≤ Dth时,特征向量f t +1i,j才会用于预训练,其中上标t和t+1表示视频中特征的时间顺序,Dth是阈值。这种方法不能完全去除异常事件,但可以为G的有效初始化提供数据清理,以启动训练。一旦G被预训练,它就被用于0生成伪标签,然后用于预训练鉴别器。在这一步中,G的作用类似于一个糟糕的老师,因为生成的伪标签非常嘈杂,而D的作用类似于一个高效的学生,因为它学会了更好地区分正常和异常特征,即使有噪声标签。在接下来的步骤中,预训练的G和D都被插入到我们的协作学习循环中。03.4. 异常评分0为了在测试时计算最终的异常分数,有几种配置可供选择,即使用G的重构误差或D的预测分数。我们在实验中观察到,G相对较差,而D在连续的训练迭代中保持高效。因此,为了简单起见,除非另有说明,本文中报告的所有结果都是使用D的预测计算的。04. 实验0在本节中,我们首先提供实验细节,然后与现有的SOTA方法进行比较,并最后研究我们的GCL方法的不同组成部分。数据集。UCF-Crime(UCFC)数据集包含13个不同类别的真实世界异常事件,这些事件由CCTV监控摄像头在128小时内捕获[50]。由于背景不受限制,该数据集非常复杂。训练集包含810个异常视频和800个正常视频,而测试集包含140个异常视频和150个正常视频。在训练集中,提供了视频级标签,而在测试集中提供了帧级二进制标签。在我们的无监督设置中,我们舍弃了训练集标签,并使用无标签的训练视频训练所提出的GCL。ShanghaiTech包含在大学校园中拍摄的13个不同位置的安排异常事件的视频,总共437个视频。该数据集最初是为OCC提供的,只提供了正常视频进行训练。后来,钟等人[74]重新组织了该数据集,以便训练弱监督算法。正常和异常视频在训练集和测试集中混合。新的训练集包含63个异常视频和175个正常视频,而新的测试集包含44个异常视频和155个正常视频。为了训练我们提出的GCL,我们在训练和测试中都遵循后一种划分,而不使用训练集视频标签。评估指标。根据现有方法[14,27,50,74],我们使用ROC曲线下的面积(AUC)进行评估和比较。AUC是基于两个数据集中测试视频的帧级注释计算的。实施细节。为了真正展示合作学习的概念,我们选择了相当简单的架构,没有任何花哨的东西,作为我们的G和D网络。G和D的架构设置为FC[2048,1024,512,256,512,1024,2048]和FC[2048,512,32,1]。我们使用RMSprop优化器以学习率0.00002、动量0.60在训练数据上进行15个时期的训练,批量大小为8192。伪标签生成的阈值是数据驱动的。对于G,伪标签LthG = μR +σR,其中μR和σR是由每个批次的Eq.(1)给出的重构误差的均值和标准差。对于D,LthD = μP +0.1σP,其中μP和σP是D为每个批次生成的概率�pqij的均值和标准差。在无监督预训练中使用Dth=0.70的值。作为特征提取器,我们使用了Hara等人[13]提出的流行框架ResNext3d的默认模式。特征提取的段大小p设置为16个不重叠的帧。所有实验都在NVIDIA RTX 2070上进行,使用IntelCore i7,第8代和16GB RAM。0.10.40.710.10.40.714603001500(a) AEAllData(b) G from GCLB(c) D from GCLB0.10.40.71STechAUC%AEAllDataResNext56.3262.73147490正常 异常0正常 异常0正常 异常0图4. 通过(a) 在所有训练数据上训练的AE,(b) 在GCLB中训练的G,以及(c) 在GCLB中训练的D,预测UCF-Crime数据集测试集上的分数分布。尽管G和D是合作训练的,但D对噪声更加鲁棒,表现出更好的正常和异常示例的区分能力。0512, 32,1]。我们使用RMSprop优化器以学习率0.00002、动量0.60在训练数据上进行15个时期的训练,批量大小为8192。伪标签生成的阈值是数据驱动的。对于G,伪标签LthG = μR+σR,其中μR和σR是由每个批次的Eq.(1)给出的重构误差的均值和标准差。对于D,LthD = μP +0.1σP,其中μP和σP是D为每个批次生成的概率�pqij的均值和标准差。在无监督预训练中使用Dth=0.70的值。作为特征提取器,我们使用了Hara等人[13]提出的流行框架ResNext3d的默认模式。特征提取的段大小p设置为16个不重叠的帧。所有实验都在NVIDIA RTX 2070上进行,使用IntelCore i7,第8代和16GB RAM。04.1. 与最先进(SOTA)的比较0提出的GCL方法以无监督的方式进行训练,不使用任何形式的注释。没有预训练的GCLB被视为基准。此外,还对UCFC和ShanghaiTech数据集上进行了GCL与基于OCC的预训练自编码器相结合的预训练GCL OCC和弱监督GCLWS的训练和评估。如表1所示,在UCFC数据集上,提出的GCLB的总体AUC为68.17%,比以无监督方式训练的包括正常和异常训练样本的完整训练数据的自编码器(AEAllData)高出11.85%。图4(a)中重建的直方图也提供了AEAllData无法学习判别性重建的见解。此外,在GCL中,D(图4(c))的判别能力比G(图4(b))大大增强。对kim等人[21]的实验是在重新实现的未标记训练数据的方法上进行的。GCLPT是以无监督方式预训练的提出的GCL的版本。在这个实验中,获得了71.04%的AUC性能,比基准GCLB好2.87%。两种方法还在图10中进行了比较,使用多个随机种子初始化,GCLPT展示了一致的性能提升。表1还显示了pro-0表1.在UCF-Crime(UCFC)和ShanghaiTech(STech)数据集上与现有最先进方法的性能比较。我们根据训练中使用的监督类型将方法分为三类。最佳结果以粗体显示。0监督类型 方法 特征 UCFC AUC%0单类别分类0SVM [50] - 50.00 -0Hasan等人 [14] - 50.60 60.850Sohrab等人 [48] - 58.50 -0Lu等人 [27] - 65.51 68.000BODS [54] I3D 68.26 -0OGNet** [64] ResNext 69.47 69.900GODS [54] I3D 70.46 -0TSC [28] - - 67.940Frame Prediction [25] - - 73.400MemAE [11] - - 71.200MNAD [37] - - 70.500STEAL Net [2] - - 73.700Cho等人 [10] - - 74.700LNTRA [1] - - 75.970RUVAD [57] - - 76.670BMAN [22] - - 76.200提出的GCL OCC ResNext 74.20 79.62 �0弱监督0Sultani等人 [50] C3D 75.41 -0Zhang等人 [70] C3D 78.66 82.500Zhu等人 [75] C3D 79.00 -0Noise Cleaner [65] C3D 78.27 84.160SRF [69] C3D 79.54 84.160DUAD*** [23] C3D 72.90 -0GCN [74] C3D 81.08 76.440GCN [74] TSN RGB 82.12 84.440Wu等人 [59] I3D 82.44 -0DAM [30] I3D 82.67 88.220CLAWS [67] C3D 83.03 89.670CLAWS [67]** ResNext 82.61 -0CLAWS Net+ [68] C3D 83.37 90.120CLAWS Net+ [68] ResNext 84.16 91.460Yu等人 [52] C3D 83.28 91.510Yu等人 [52] I3D 84.30 97.270Purwantu等人 [40] TRN 85.00 96.850提出的GCL WS ResNext 79.84 86.210无监督0kim等人** [21] ResNext 52.00 56.470提出的GCL B ResNext 68.17 72.410提出的GCL PT C3D 70.74 -0�我们遵循Zhong等人的评估协议。��我们实现了模型并计算了这些分数。*** [ 23 ]通过对视频进行平均计算得到分数。0提出的GCL PT优于所有现有的基于单类分类的异常检测方法。尽管在训练GCL PT时没有使用标记的监督,但是与我们的无监督训练的GCL相比,OCC方法使用干净的正常类进行训练,这提供了额外的信息。在另一个实验中,自动编码器仅在训练数据的正常类上进行预训练,这使得设置与单类分类器相当。这种额外信息以正常类标签的形式提供,称为GCLOCC,在UCFC上获得了74.20%的改进性能,这显著优于所有现有的最先进的OCC方法。������������������������������������������������������������������������������������ ����������������� �������������������������������� �(a) Training of G in GCLB������������������������������������������������������������������������������������ ����������������� �������������������������������� �(b) Training of D in GCLB(a) AEAllData(b) AE in GCLw/oNL(c) AE in GCLBAEAllData---56.32AEOCC---65.76AET D---63.84GCLw/oNL---64.23GCLB--68.17GCLP T-71.04GCLOCC-74.20147500图5.GCL中G和D的收敛性与负学习(NL)的对比。我们测试了NL中不同的伪重构目标。最佳性能是‘ones’ NL目标。0有趣的是,GCLOCC的性能与Sultani等人提出的方法相当,后者利用视频级标签进行训练。尽管GCL旨在进行无监督的合作学习,但我们还将其扩展到包含弱监督。这个版本的结果被报告为GCL W S。尽管使用了没有任何花哨的G和D网络,但GCL WS的结果与几种现有的弱监督学习方法相当。我们还在ShanghaiTech数据集上评估了我们的方法,并将结果与现有的SOTA方法进行了比较。在这个数据集上,我们提出的GCLB获得了72.41%的AUC,比AEAllData高出10%以上,显示了基线方法的有效性。GCL PT获得了78.93%的AUC,比GCLB高出6.5%,证明了无监督预训练的重要性。尽管无监督,GCL P T优于所有现有的OCC方法。04.2. 消融研究和分析0对不同组件、设计选择、定性结果和监督的分析将在下面进行讨论。组件逐个消融研究。在UCFC上报告了GCL具有各种设计选择的详细消融分析,见表2。可以看出,使用所有训练数据集进行训练的自动编码器AEAllData在没有任何监督的情况下获得了56.32%的性能,相比之下,在OCC设置中使用干净的正常数据训练的AEOCC获得了65.76%的性能。使用我们提出的基于帧时差的无监督预处理训练的自动编码器AE T D将性能提升到了AEOCC的水平。0图6. tSNE [ 53 ]对重构的可视化。使用GCLB,大多数异常样本(红色)与正常样本(绿色)分开聚类,这是提供伪重构目标的基本要求。0表2. GCL方法的消融分析:不同组件在不同监督水平下的性能。0无监督预训练 AUC% OCC 无监督0与AEOCC相比,这证明了我们的预处理方法的有效性。使用负学习提高了GCL B相对于没有负学习的对应训练(GCLw/oNL)的整体性能3.94%。我们完整的无监督系统GCL PT利用负学习和无监督预训练将整体性能提高到71.04%。此外,在GCLOCC中添加单类监督进一步提高了性能,达到74.20%的AUC。这也验证了我们对OCC相对于完全无监督设置的整体益处的主张,使其与无监督方法不同。负学习(NL)方法的评估。在UCFC上对比了带有和不带有NL的GCL框架的实验。对于GCLB中的NL情况,比较了三种不同的伪目标,‘ones’表示全部为1,‘replace’表示随机正常,‘Gaussian’表示μ =0和σ ={1.5,6.0}(第3.2.5节)。我们观察到‘ones’伪目标比其他方法效果更好。σ =1.5的高斯扰动与没有任何NL的模型(GCLw/oNL)几乎相同。σ =6时,性能有所提高,但仍低于‘ones’。这可能归因于固定的伪目标,有助于一致学习GCL框架,从而实现更好的区分。为了进一步探索NL的重要性,我们在图6中提供了AEAllData、GCL w/oNL和GCLB产生的重构的tSNE可视化。无论是带有NL还是不带有NL的AE都表现出优于AE AllData的区分能力。此外,GCLB(图6(c))中的异常特征形成了一个独特的聚类,表明使用NL比不使用NL更有效。定性分析。我们在图7中可视化了我们GCL方法的逐步演化过程。随着训练的进行,GCLB以完全无监督的方式学习预测视频中的真实异常部分。图8显示了我们的GCL PT在从UCFC中选取的四个不同视频上预测的最终异常分数。在图8(d)中,一些正常部分也被预测为异常。检查该视频发现,开头和结尾的帧包含浮动文本,这在训练数据中是不寻常的。关于收敛性。我们通过多个随机种子初始验证了GCL B和GCL P T的收敛性。096019202880096019202880096019202880096019202880096019202880057611520240048007200016003200016003200480063.9868.0269.8972.1768.1774.816.479.8454606278840003947556371047556371GCLBGCLPT147510异常分数010Epoch 0 Epoch 4 Epoch 8 Epoch 12 Epoch 150图7. 在训练过程中,GCLB框架中帧级异常分数的演变。请注意,我们的无监督方法成功地在异常部分产生了显著较高的分数,而在正常部分产生了较低的分数。异常的真实情况显示为红色框,视频来自UCFC的Explosion013。有趣的是,即使异常的真实情况结束后,异常分数仍然较高,这主要是由于网络认为爆炸的余波是异常的。0异常分数0 10(a) Normal915 (b) Assault006 (c) Burglary024 (d) Stealing0580图8. GCL P T生成的异常分数在四个不同的UCFC视频中在正常区域较低,在异常区域较高。0在添加弱监督时,GCL B和GCL PT的平均AUC分别为67.09±0.65和70.13±0.52。GCL PT不仅提高了整体性能,还减少了不同种子之间的变异性,表现出更好的收敛性。在添加弱监督时,通过使用UCFC进行一系列实验,将弱视频级标签注入到GCL中,弱标签的视频比例从33%到100%。图9显示,G和D都从增加的监督中受益。值得注意的是,仅提供33%的带有弱标签的视频就会导致AUC%显著增加,这表明即使是最小的监督对于所提出的GCL也是非常有益的。在使用自己的伪标签训练G时,我们观察到在使用ResNext3d特征的UCFC上的AUC为62.28%。虽然比AEAllData的56.32%要好,但仍然低于我们的GCL PT的71.04%。这表明使用D进行伪标签是关键的,因为它在噪声标签下具有鲁棒的学习能力[67, 69]。0AUC%0弱监督百分比0生成器 判别器0图9. 在弱监督GCL WS中,通过逐渐增加监督级别从0%到100%来评估G和D的性能。0AUC%0迭代次数3900 175 迭代次数0图10. 使用多个随机种子初始化训练,观察GCL B和GCL PT的收敛性。0在使用软标签时,我们探索了跳过阈值化(eq.(2))为D训练使用软标签的方法。在使用ResNext3d特征的UCFC上,结果为63.58%的AUC,几乎与表2中的AE TD相同。这是因为没有阈值,D只是开始复制G的输出,从而展示了相同的性能。局限性。我们的无监督设置使得异常检测系统能够仅基于观察到的数据开始检测异常,而无需任何人工干预。如果到目前为止没有异常事件,系统可能会将罕见的正常事件视为异常。然而,如果一个系统运行了相当长的时间,没有异常事件的概率将非常小。05. 结论0我们提出了一种使用无标签训练视频的无监督异常检测方法(GCL),可以在不提供任何手动注释的情况下部署。GCL在包括无监督、单类和弱监督在内的不同监督级别的两个公共基准数据集上表现出色。最后,我们讨论了无监督设置的局限性,即在训练数据集中存在异常的假设。然而,与OCC方法相比,这更符合现实,因为在现实世界的场景中很自然地会出现异常。致谢:本工作得到ETRI资助(No.21YS2700,用于数据高效深度学习的学习模型和数据生成/增强技术的开发,50%),同时也得到由乌山市资助的ETRI资助(22AS1600,制造业创新的主要行业智能化技术和人-移动-空间自主协作智能技术开发,50%)。我们还感谢Max Plank ETH Learning Systems的慷慨协助。147520参考文献0[1] Marcella Astrid, Muhammad Zaigham Zaheer, Jae-YeongLee和Seung-Ik Lee. 学习不重构异常.arXiv预印本arXiv:2110.09742,2021年。 2,4,60[2] Marcella Astrid, Muhammad Zaigham Zaheer和Seung-IkLee. 基于合成时序异常的端到端视频异常检测.在《计算机视觉国际会议》中,页码207-214,2021年。 60[3] Arslan Basharat, Alexei Gritai和Mubarak Shah.学习物体运动模式以实现异常检测和改进的物体检测.在《2008年IEEE计算机视觉与模式识别会议》中,页码1-8,IEEE,2008年。 20[4] Tanmay Batra和Devi Parikh. 基于视觉属性的合作学习.arXiv预印本arXiv:1705.05512,2017年。 30[5] Paul Bergmann, Michael Fauser, DavidSattlegger和Carsten Steger. Mvtecad-一种用于无监督异常检测的综合现实世界数据集.在《计算机视觉与模式识别》(CVPR)会议论文集中,页码9592-9600,2019年。 20[6] Paul Bergmann, Michael Fauser, DavidSattlegger和Carsten Steger.无知的学生:具有判别潜在嵌入的学生-教师异常检测.在《计算机视觉与模式识别》(CVPR)会议论文集中,2020年6月。 20[7] Raghavendra Chalapathy和Sanjay Chawla.异常检测的深度学习:一项调查.arXiv预印本arXiv:1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功