没有合适的资源?快使用搜索试试~ 我知道了~
In spite of the growing interest in video anomaly detec-tion [11, 12, 17–19, 22–24, 27, 32, 34, 39–41, 43, 46, 52, 54,60, 61, 64, 66], which generated significant advances lead-ing to impressive performance levels [17, 18, 21, 27, 32, 56,59, 60, 64, 66, 67], the task remains very challenging. Thedifficulty of the task stems from two interdependent aspects:(i) the reliance on context of anomalies, and (ii) the lack ofabnormal training data. The former issue can be explainedthrough a simple comparative example considering a truck201430UBnormal:监督开放集视频异常检测的新基准0Andra Acsintoae 1, �,Andrei Florescu 1, �,Mariana-Iuliana Georgescu 1, 2, 3, �,Tudor Mare 3, �,Paul Sumedrea 1, �,RaduTudor Ionescu 1, 3, �,Fahad Shahbaz Khan 2, 4,Mubarak Shah 501.布加勒斯特大学,罗马尼亚;2.迈布扎特人工智能大学,阿联酋;3.塞库里法伊,罗马尼亚;4.林雪平大学,瑞典;5.中佛罗里达大学,美国0摘要0在视频中检测异常事件通常被视为一种单类分类任务,其中训练视频只包含正常事件,而测试视频包含正常和异常事件。在这种情况下,异常检测是一个开放集问题。然而,一些研究将异常检测与动作识别相提并论。这是一个封闭集场景,无法测试系统检测新异常类型的能力。为此,我们提出了UBnormal,一个新的监督开放集视频异常检测基准,由多个虚拟场景组成。与现有数据集不同,我们首次在训练时引入了以像素级别注释的异常事件,从而使得可以使用完全监督的学习方法进行异常事件检测。为了保持典型的开放集公式,我们确保在我们的训练和测试视频集合中包含不相交的异常类型集合。据我们所知,UBnormal是第一个允许在一个类开放集模型和监督封闭集模型之间进行公平对比的视频异常检测基准,如我们的实验证明。此外,我们提供了实证证据表明UBnormal可以提高一个先进的异常检测框架在两个重要数据集Avenue和ShanghaiTech上的性能。我们的基准在https://github.com/lilygeorgescu/UBnormal上免费提供。01.引言0� 相等贡献 � 通讯作者0在街上行驶是正常的,而在行人区行驶的卡车是异常的。对上下文的依赖性本质上产生了一组可能的无界异常类型。再加上对某些异常类型收集足够数据的困难(为了获取视频示例而打斗或伤害他人是不道德的),对上下文的依赖性使得几乎不可能收集到异常的训练数据。在最近的文献中,我们确定了两种不同的公式来处理视频异常检测任务的困难。一方面,我们有主流公式,采用了[2, 9-11, 14, 20, 23, 25,27, 29, 30, 33, 35, 37, 38, 41, 43, 44, 47, 48, 50, 51, 56,61, 62,68-70]等作品中采用的异常检测作为单类分类(或离群值检测)任务。在这种公式中,训练视频只包含正常事件,而测试视频包含正常和异常事件。在这种情况下,方法从熟悉的事件中学习正常性模型,在推理时将不熟悉的事件标记为异常。尽管将异常检测作为离群值检测任务可以保持异常类型的开放特性,但在这种公式下提出的模型通常获得较低的性能,因为它们缺乏异常示例的知识。另一方面,我们有备选公式,如[15, 42, 57, 67,71]等作品中考虑的,将异常检测视为弱监督动作识别任务,其中训练视频包含正常和异常事件,但注释是在视频级别提供的。这种公式对应于一个封闭集评估场景,其中训练和测试异常属于相同的动作类别,无法测试系统检测未见异常类型的能力。为此,我们提出了一种新的公式,将视频异常检测作为一种监督开放集分类问题。在我们的公式中,正常和异常事件在训练时都可用,但推理时发生的异常属于一组不同的异常类型(类别)。将异常检测作为监督开放集问题的主要优点是:(i)由于训练时异常可用,使得可以使用完全监督的模型;(ii)使得可以评估模型在检测未见异常类型时的能力。201440图1.我们数据集中各个场景的正常和异常示例。通过红色轮廓强调执行各种异常动作(例如:打架、爬行、跳舞、睡觉、奔跑)的对象。请注意,测试集中包含的异常动作属于与用于训练和验证的异常动作不同的类别,导致了一种监督开放集设置。更多示例请参见补充材料。最佳观看效果为彩色。0由于在训练和测试时使用了不同的异常类别集合,模型的评估面临着意外异常类型的问题,并且使得一类开放集方法和弱监督闭集方法之间的公平比较成为可能。至于一类问题的制定,监督开放集制定的一个问题在于从现实世界收集异常数据的困难。为了缓解这个问题,我们提出了一个新的基准UBnormal,它包括多个虚拟场景用于视频异常检测。我们的场景是在Cinema4D中使用虚拟动画角色和物体生成的,并放置在现实世界的背景中,如图1所示。据我们所知,这是第一个用于监督开放集视频异常检测的数据集。尽管UBnormal在理想条件下(具有完全监督)可以开发和训练模型,并在逆境条件下(对未知异常类型)评估模型,但其模拟场景属于与自然场景不同的数据分布。因此,完全监督模型在真实场景中的行为可能不清楚。为此,我们提出使用CycleGAN[72]来弥合分布差距,将UBnormal的模拟对象转化为Avenue [33]和ShanghaiTech[35]等真实世界基准。然后,我们使用最先进的多任务学习框架[17]进行异常检测,引入了一个新的代理任务,用于区分来自我们数据集的正常和异常样本。我们的结果表明,UBnormal可以提高最先进模型在真实世界中的性能。0可以提高最先进的多任务学习框架在两个数据集上的性能。有趣的是,我们提供了实证证据表明,即使不尝试通过CycleGAN来关闭分布差距,也可以实现性能提升。这表明UBnormal可以直接改善最先进模型在真实世界中的性能。总之,我们的贡献有三个方面:0•我们将视频异常检测作为一种监督的开放集任务,引入了一个新的数据集UBnormal,该数据集包含29个虚拟场景和236,902个视频帧。0•我们表明,对于各种最先进的模型[6,18,53],异常训练视频对异常事件检测是有帮助的。0•我们进行了一个以数据为中心的研究,表明UBnor-mal数据可以提高最新的一种最先进的方法[17]在两个自然场景数据集Avenue和ShanghaiTech上的性能。02.相关工作02.1.视频异常检测方法0最近的大量研究工作[2-4,7,9-11,14,17,18,20,021,23,25,27,27-30,32,33,35-38,41,43-45,47,48,50,51,55,56,59-70]将视频中的异常检测视为一类分类(异常检测)任务,训练模型时无需访问异常样本。这些工作可以分为三类,对应算法应用的级别:帧、补丁或对象。例如,Yu等人提出了一种帧级框架,该框架利用过去和未来事件的对抗学习来检测异常,而不需要在训练过程中要求光流或明确的异常样本等补充信息。Ramachandra等人提出了一种补丁级框架,通过使用Siamese网络从视频补丁对中学习度量来定位视频中的异常。所学度量用于衡量测试视频的视频补丁与正常训练视频的视频补丁之间的感知距离。Georgescu等人在对象级别上采用自监督多任务学习来检测视频中的异常。该框架使用了四个代理任务,其中三个基于自监督,一个基于知识蒸馏。对于每个帧中检测到的每个对象,通过对每个代理任务预测的异常分数进行平均,计算最终的异常分数。另一类工作将异常检测视为弱监督的动作识别任务。在这一系列工作中,算法在正常和异常视频上进行训练,但异常视频在视频级别上进行了注释。测试时发生的异常属于与训练异常相同的动作类别,从而导致了一个更容易的闭集问题。201450# 帧数0数据集 总数 训练 验证 测试 正常 异常 # 异常 # 场景 # 异常开放0类型集0CUHK Avenue [ 33 ] 30,652 15,328 - 15,324 26,832 3,820 77 ‡ 1 5 �0ShanghaiTech [ 35 ] 317,398 274,515 - 42,883 300,308 17,090 158 † 13 11 �0Street Scene [ 43 ] 203,257 56,847 - 146,410 159,341 43,916 205 1 17 �0Subway Entrance [ 1 ] 144,250 76,453 - 67,797 132,138 † 12,112 † 51 † 1 5 �0Subway Exit [ 1 ] 64,901 22,500 - 42,401 60,410 † 4,491 † 14 † 1 3 �0UCF-Crime [ 53 ] 13,741,393 12,631,211 - 1,110,182 NA NA NA NA 13 �0UCSD Ped1 [ 37 ] 14,000 6,800 - 7,200 9,995 4,005 61 ‡ 1 5 �0UCSD Ped2 [ 37 ] 4,560 2,550 - 2,010 2,924 1,636 21 ‡ 1 5 �0UMN [ 38 ] 7,741 NA - NA 6,165 1,576 11 3 1 �0UBnormal(我们的)236,902 116,087 28,175 92,640 147,887 89,015 660 29 22 �0表1.我们的新基准与现有异常检测数据集的统计数据对比。与其他开放集基准相比,我们拥有更多来自更广泛的动作类别(异常类型)的异常事件,发生在更多的场景中。每列中的最高数字以粗体显示。图例:† - 基于[ 18 ]的轨迹计算;‡ - 基于[ 43 ]的轨迹计算。0tani et al. [ 53]提出了一种基于多实例学习的算法,构建了一个深度异常排序模型,用于预测异常视频片段的高异常分数。为了提高异常检测性能,Feng et al. [ 15]提出了一个多实例自训练框架,包括一个多实例伪标签生成器和一个自引导注意力编码器,以便专注于每帧中的异常区域。我们注意到,弱监督异常检测框架[ 15 , 42 , 57 , 67 ,71 ]通常在ShanghaiTech或UCSDPed数据集上进行评估,但这些数据集上没有官方划分用于弱监督训练。由于缺乏官方划分,研究人员倾向于使用自己的数据划分,导致方法之间的不公平比较。因此,我们强调弱监督和异常检测(单类)框架之间的比较是不公平的。这是因为前者方法从不可用于后者方法的异常训练数据中获得知识。如果训练和测试中的异常类型是不相交的,比较可能会更加公平。现有的视频异常检测方法要么仅使用正常训练数据[ 2 – 4 , 7 , 9 – 11 , 14 , 17 , 18 , 20 , 21 , 23 , 25 , 27, 27 – 30 , 32 , 33 , 35 – 38 , 41 , 43 – 45 , 47 , 48 , 50 ,51 , 55 , 56 , 59 – 70],要么使用带有视频级注释的异常训练数据[ 15 , 42 , 42 , 57 , 67 , 71]。据我们所知,目前没有现成的方法可以应用于UBnormal并充分利用其监督开放集的优势。因此,我们对考虑的基线方法进行了最小的改动,以利用异常训练数据的可用性。02.2. 视频异常检测数据集0迄今为止,有相当多的视频异常检测数据集可供使用。我们在表1中报告了关于最常用数据集的一些统计数据。虽然有几个数据集保留了异常检测的开放集特征[ 1 , 33 , 35 , 37, 38 , 43 ],但是到目前为止,最好的0据我们所知,目前只有一个用于闭集异常检测的数据集,即UCF-Crime [ 53 ]。0开放集基准可以根据场景数量分为两类。CUHK Avenue [33 ]、Street Scene [ 43 ]、Subway Entrance [ 1]、Subway Exit [ 1 ]和UCSD Ped [ 37]数据集属于单场景基准的类别[ 46],可以成功使用学习非常具体的正常模型(适应特定场景)。相比之下,ShanghaiTech [ 35 ]和UMN [ 38]属于多场景基准的类别,测试方法构建更通用的正常模型的能力,能够在多个场景上表现良好。Street Scene [ 43]是最大的单场景数据集,包含203,257帧。尽管它是单场景场景的最大数据集,但它并不代表预期在多个场景中运行的真实世界模型(只要正常行为在各个场景中相似)。对于开放集异常检测来说,最大的多场景数据集是ShanghaiTech [35],包含317,398帧。尽管它在该场景中是最大的数据集,但只有11种异常类型的158个异常。0大多数现有数据集中包含与人类互动[1, 33, 37,38]或行人区域中的车辆相关的异常,但这些异常通常是被安排好的,缺乏多样性。例如,在UCSD Ped2[37]中,每个异常事件都与人行区域中的自行车、滑板或汽车有关。类似地,Subway[1]只包含与人相关的异常,例如人们走错方向或人们跳过闸机。Subway的大小相当大,入口视频有144,250帧,出口视频有64,901帧,但异常类型的数量非常小,入口有5种异常类型,出口有3种异常类型。0由Sultani等人引入的封闭式UCF-Crime基准包含来自视频的13M帧201460通过使用文本查询从YouTube和LiveLeak中检索,数据集包含13个异常类别,这些类别在训练和测试视频中都可以找到。UCF-Crime不遵循视频异常检测的开放式范例,训练集中的动作与测试集中的动作不同。此外,该数据集不包含像素级别的异常注释。据我们所知,我们是第一个提出用于监督式开放式异常检测的基准的。我们考虑了几个因素,这些因素证明了需要一个新的异常检测基准的必要性。首先,与现有数据集不同,我们的基准在训练集中包含具有像素级别注释的异常。训练集中的异常类型与测试集中的异常类型不同,符合开放式约束。其次,现有数据集中没有验证集,这是许多依赖于超参数调优的机器学习算法的强制要求。这留下了两个选择,要么在测试数据上调整模型,从而使模型过度拟合测试集,要么不进行超参数调优,可能导致次优结果。与现有基准相比,我们是第一个提供验证集的。它包含属于与测试时可用的动作类别不同的一组动作类别的异常。这确保了在不过度拟合测试集的情况下进行模型调优的可能性。第三,一些现有数据集,例如UCSD Ped [37]和UMN[38],已经饱和(以帧级AUC为标准的性能超过99%),而其他基准,例如Avenue [33]和Subway[1],以帧级AUC为标准的性能超过90%。例如,[18]中对Avenue(微观AUC为92.3%)和UCSDPed2(微观AUC为98.7%)的结果与相同方法在UBnormal数据集上得到的结果(微观AUC为59.3%)相比显著更高。总的来说,我们的实验表明UBnormal更具挑战性,可能是由于异常类型和场景的更高变化。考虑到所有这些方面,我们相信UBnormal可能有助于未来异常检测模型的发展。02.3. 开放式动作识别0根据Geng等人对开放式视频识别的定义[16],在我们的设置中,正常类别是已知的已知类别(KKC),测试时使用的异常类别是未知的未知类别(UUC)。我们将训练时使用的异常动作视为已知的未知类别(KUC)。然而,KUC样本在测试时不会出现。因此,我们的设置可以被视为监督式开放式,这与经典的开放式设置不同。此外,我们强调异常检测任务与动作识别不同,即需要检测和定位异常动作。0长视频中可能同时发生多个正常和异常事件。因此,纯动作识别方法不太可能提供最佳的异常检测结果。因此,我们认为开放式动作识别的研究[5, 8]与此关系非常遥远。03. UBnormal基准0场景。UBnormal基准是使用Cinema4D软件生成的,该软件允许我们使用2D背景图像和3D动画创建场景。我们选择了总共29张自然图像,代表街景、火车站、办公室等场景。在选定的背景图像中,我们确保消除了应属于前景的人、汽车或其他物体。从每个自然图像中,我们创建一个虚拟的3D场景,并生成(平均)每个场景19个视频。对于每个场景,我们生成正常和异常视频。整个UBnormal数据集中正常与异常视频的比例接近1:1。动作类别。对于我们所有的视频场景,我们将以下事件视为正常:走路、打电话、边走边发短信、站立、坐着、大声喊叫和与他人交谈。此外,我们引入了总共22种异常事件类型,如奔跑、摔倒、打架、睡觉、爬行、发作、躺下、跳舞、偷东西、旋转360度、洗牌、受伤行走、醉酒行走、蹒跚行走、人车事故、车祸、受伤奔跑、火灾、烟雾、乱穿马路、越线驾驶和跳跃。我们组织异常事件类型,使得测试集中的异常事件与训练集和验证集中的异常事件不同。因此,测试集包括以下异常事件:奔跑、发作、躺下、洗牌、醉酒行走、人车事故、车祸、跳跃、火灾、烟雾、乱穿马路和越线驾驶。下列异常事件包括在训练集中:摔倒、跳舞、受伤行走、受伤奔跑、爬行和蹒跚行走。其余的异常事件添加到验证集中。多样性。为了增加数据集的多样性,我们包括多个对象类别,如人、汽车、滑板车、自行车和摩托车。与其他数据集(CUHK Avenue[33],ShanghaiTech [35],UCSD Ped[37])不同,这些对象可以执行正常和异常动作,因此在正常和异常视频中都存在。因此,仅仅将一个对象标记为异常,因为它属于一个未见过的类别,已经不再可能。为了进一步增加数据集的多样性,我们包括了有雾的场景、夜晚的场景以及火灾和烟雾作为异常事件。在现有的数据集中,大多数异常动作由单个人或小团体执行。我们可以以CUHKAvenue[33]中奔跑或扔背包或文件的穿蓝裤子的人为例,或者以一群人奔跑和打斗为例。LT5�X(T5), Y (T5)�= −201470在UBnormal数据集中,与其他数据集不同,UBnormal数据集中的异常事件由各种角色执行。我们使用19个不同的角色来为视频添加动画。我们还改变了他们的衣服颜色或头发颜色,增加了我们基准中包含的动画角色的多样性。我们在补充材料中提供了几个图例,展示了UBnormal的场景、角色和动作的多样性。数据生成和注释。UBnormal数据集中的异常事件在像素级别进行注释。对于数据集中的每个合成对象(正常或异常),我们提供分割掩模和对象标签(人、汽车、自行车、摩托车或滑板车)。在模拟事件和生成基准的过程中,我们组织了一个由六个人组成的团队,为期三个月。我们以每秒30帧的速度生成所有视频,帧的最小高度设置为720像素。使用Cinema4D软件渲染一帧大约需要15秒的时间,总共需要987小时(41.1天)来渲染整个数据集。在生成视频后,我们的四名团队成员检查了每个生成的视频,以确保没有错误的遮挡、与重力相关的问题或其他视觉不一致性,确保生成的数据集的高质量。04. 方法0一类开放集模型。作为UB-normal数据集的第一个基准,我们采用了[18]中引入的最先进的无关背景框架。这是一种将异常检测视为一类分类任务的对象级方法。该框架由三个自动编码器和三个分类器组成。为了提高异常检测方法的性能,Georgescu等人[18]提出了一种对抗学习方案用于自动编码器。为了克服训练过程中缺乏异常样本的问题,他们创建了一组与场景无关的伪异常样本。伪异常样本在对抗训练过程中被用作对抗性示例,并在二进制分类器的训练中被用作异常样本。在我们的第一个实验中,我们将[18]的框架作为基准线,没有进行任何修改。然后,我们将训练数据集中的异常样本添加到伪异常样本池中。监督封闭集模型。作为另一个基准线,我们考虑了Sultani等人提出的监督封闭集模型[53]。在这个框架[53]中,正常和异常视频被表示为包,视频片段是多实例学习中的实例。Sultani等人[53]使用预训练的C3D[58]模型提取的特征来表示每个视频。使用视频特征表示,他们训练了一个前馈神经网络,使得异常包中实例的最大得分高于正常包中实例的最大得分。他们还在损失函数中加入了稀疏性和平滑性约束,以进一步提高框架的性能。动作识别框架。我们基准的第三个基准是一个动作识别模型,我们选择了Bertasius等人提出的最先进模型[6]。TimeSformer[6]架构通过学习帧序列的时空特征来调整标准的Transformer架构以适应视频领域。TimeSformer[6]使用分割注意力,即学习空间和时间注意力图。我们训练TimeSformer模型来区分正常和异常动作。该模型预测一系列帧的异常概率。自监督多任务模型。我们采用了Georgescu等人[17]的最先进的多任务学习框架,以展示UBnormal可以用于提高两个著名异常检测数据集(CUHKAvenue[33]和ShanghaiTech[35])的性能。我们在此声明,使用Georgescu等人[17]的最先进方法进行实验的主要目标是确定UBnormal数据集中的数据是否可以帮助提高两个真实数据集上的性能,而不管我们的数据如何集成到各自真实基准的训练集中。虽然我们预计在进行CycleGAN的领域自适应后会获得更高的性能增益(如下所述),但我们强调,如果没有来自我们数据集的示例,这些增益是不可能的。Georgescu等人[17]的对象级方法基于在四个代理任务上学习单个3D卷积神经网络(CNN),即时间箭头、运动不规则性、中间框预测和模型蒸馏。此外,我们将第五个代理任务(T5)整合到其中,以区分UBnormal数据集中的正常和异常对象。在这里,我们考虑两个选项:(i)直接在UBnormal示例上训练模型,(ii)在训练第五个代理任务之前,将仅在训练时看到的对象通过CycleGAN[72]进行处理。在推理过程中,我们期望将测试集中的正常样本分类为正常,将异常样本分类为异常。对于每个对象,我们通过从帧中裁剪对象边界框来创建一个以对象为中心的时间序列{i−t,...,i−1,i,i+1,...,i+t},参考[17]。正常的对象中心序列标记为类别1,而异常序列标记为类别2。设f为共享的3DCNN,hT5为我们的异常性头。设X(T5)为大小为(2∙t+1)×64×64×3的正常或异常对象中心序列。我们使用交叉熵损失来训练异常性头:0从正常包中的实例中的最大得分。他们还在损失函数中加入了稀疏性和平滑性约束,以进一步提高框架的性能。动作识别框架。我们基准的第三个基准是一个动作识别模型,我们选择了Bertasius等人提出的最先进模型[6]。TimeSformer[6]架构通过学习帧序列的时空特征来调整标准的Transformer架构以适应视频领域。TimeSformer[6]使用分割注意力,即学习空间和时间注意力图。我们训练TimeSformer模型来区分正常和异常动作。该模型预测一系列帧的异常概率。自监督多任务模型。我们采用了Georgescu等人[17]的最先进的多任务学习框架,以展示UBnormal可以用于提高两个著名异常检测数据集(CUHKAvenue[33]和ShanghaiTech[35])的性能。我们在此声明,使用Georgescu等人[17]的最先进方法进行实验的主要目标是确定UBnormal数据集中的数据是否可以帮助提高两个真实数据集上的性能,而不管我们的数据如何集成到各自真实基准的训练集中。虽然我们预计在进行CycleGAN的领域自适应后会获得更高的性能增益(如下所述),但我们强调,如果没有来自我们数据集的示例,这些增益是不可能的。Georgescu等人[17]的对象级方法基于在四个代理任务上学习单个3D卷积神经网络(CNN),即时间箭头、运动不规则性、中间框预测和模型蒸馏。此外,我们将第五个代理任务(T5)整合到其中,以区分UBnormal数据集中的正常和异常对象。在这里,我们考虑两个选项:(i)直接在UBnormal示例上训练模型,(ii)在训练第五个代理任务之前,将仅在训练时看到的对象通过CycleGAN[72]进行处理。在推理过程中,我们期望将测试集中的正常样本分类为正常,将异常样本分类为异常。对于每个对象,我们通过从帧中裁剪对象边界框来创建一个以对象为中心的时间序列{i−t,...,i−1,i,i+1,...,i+t},参考[17]。正常的对象中心序列标记为类别1,而异常序列标记为类别2。设f为共享的3DCNN,hT5为我们的异常性头。设X(T5)为大小为(2∙t+1)×64×64×3的正常或异常对象中心序列。我们使用交叉熵损失来训练异常性头:0k =1 Y ( T 5 ) k log � ˆ Y ( T 5) k � , (1)201480其中 ˆ Y ( T 5 ) = softmax � h T 5 � f ( X ( T 5 ) ��,Y ( T 5)是X ( T 5)的地面真值标签的独热编码。在整合第五个代理任务后,共享的3D CNN使用以下联合损失进行训练:0L total = L T 1 + L T 2 + L T 3 + λ ∙ L T 4 + L T 5 .0关于L T 1 ,L T 2 ,L T 3和L T 4的更多细节请参见[17]。在推理时,计算每个对象的异常分数使用以下方0score ( X )= 10� ˆ Y ( T 1 ) 2 + ˆ Y ( T 2 ) 2 + avg ���� Y (0+ avg ���� Y ( T 4 ) YOLO − ˆ Y ( T 4 ) YOLO ��� � ˆ Y ( T 5 ) 2 � . (3)0符号ˆ Y ( T 1 ) 2 ,ˆ Y ( T 2 ) 2 ,Y ( T 3 ) ,ˆ Y ( T 3 ) ,Y( T 4 ) YOLO和 ˆ Y ( T 4 ) YOLO在[17]中定义。05. 实验05.1. 设置和实现细节0数据集。除了在UBnormal上报告结果外,我们还评估了UBnormal数据对其他现实世界异常检测基准的帮助程度。为此,我们考虑了流行的CHUKAvenue[33]和ShanghaiTech[35]数据集。我们在表1中提供了有关这些基准的更多细节。评估指标。作为评估指标,我们考虑广泛使用的曲线下面积(AUC),根据地面真值帧级注释计算,以及Ramachandra等人[43]引入的基于区域的检测标准(RBDC)和基于轨迹的检测标准(TBDC)。对于帧级AUC,我们考虑了微观和宏观版本,遵循[18]的方法。学习和参数调整。为了在UBnormal上训练单类开放集模型和监督式闭集框架,我们分别使用Georgescu等人[18]和Sultani等人[53]提供的官方代码。我们按照作者给出的指示训练模型,不改变任何超参数。为了在UBnormal上训练TimeSformer模型,我们依赖于Bertasius等人[6]发布的官方实现。我们使用默认版本的TimeSformer,处理8帧,每帧的空间分辨率为224×224像素。为了将TimeSformer模型适应于异常事件检测,我们将最后一个全连接层更改为区分两个类别,正常和异常。我们从预训练的TimeSformer开始,在UBnormal基准上微调20个epochs,学习率设置为5∙10−4。我们使用默认的视频采样率(1/32),以及两个额外的采样率(1/8和1/4),至少从我们的角度来看,它们似乎更适合UBnormal。对于Avenue和ShanghaiTech的实验,我们使用官方代码和0UBnormal → ShanghaiTech0正常0UBnormal → Avenue0异常0图2.UBnormal的正常和异常对象(上方)及其对应的CycleGAN翻译到ShanghaiTech和Avenue(下方)。最佳观看效果为彩色。0Georgescu等人[17]使用自监督多任务模型进行训练。为了将UBnormal示例适应于Avenue和ShanghaiTech,我们使用默认超参数使用官方代码训练CycleGAN[72]。我们在对象级别应用CycleGAN。为了从UBnormal训练集中提取对象边界框,我们依赖于地面真值分割掩模。为了检测Avenue和ShanghaiTech中的对象,我们使用预训练的YOLOv3[49]对象检测器,遵循[17]的方法。我们仅在UBnormal和Avenue或ShanghaiTech的训练数据上训练CycleGAN模型。我们在这两个数据集对上分别优化CycleGAN模型10个epochs。在图2中,我们展示了应用CycleGAN前后的一些翻译对象的样本。05.2. 异常检测结果0UBnormal. 在表2中,我们报告了基线方法[6, 18,53]在验证集和测试集上的结果。Georgescu等人的方法[18]在验证集上的帧级平均AUC为58.5%,在测试集上为59.3%。当我们将训练数据集中的异常样本添加到伪异常样本池中时,所有四个指标都有所提升。Georgescu等人的框架[18]是唯一一个能进行异常定位的基线方法,因此其RBDC和TBDC得分明显高于其他两种方法。尽管如此,为了完整起见,我们报告了所有三种基线方法的RBDC和TBDC得分,但我们承认其中两种方法[6,53]只适用于异常检测。因此,在图3中,我们展示了Georgescu等人的框架为UBnormal的一段测试视频提供的帧级异常得分和一组异常定位示例。所示的异常代表人们在奔跑。更多定性结果请参见上传到https://github.com/lilygeorgescu/UBnormal的带注释视频。201490验证 测试0方法 AUC RBDC TBDC AUC RBDC TBDC0微观 宏观 微观 宏观0Georgescu等人[18] 58.5 94.4 18.580 48.213 59.3 84.9 21.907 53.4380Georgescu等人[18]+UBnormal异常 68.2 95.3 28.654 58.097 61.3 85.6 25.430 56.2720Sultani等人[53](预训练)61.1 89.4 0.001 0.012 49.5 77.4 0.001 0.0010Sultani等人[53](微调)51.8 88.0 0.001 0.001 50.3 76.8 0.002 0.0010Bertasius等人[6](1/32采样率,微调)86.1 89.2 0.008 0.021 68.5 80.3 0.041 0.0530Bertasius等人[6](1/8采样率,微调)83.4 90.6 0.009 0.023 64.1 75.4 0.040 0.0500Bertasius等人[6](1/4采样率,微调)78.5 89.2 0.006 0.018 61.9 75.4 0.040 0.0570表2. 基于UBnormal数据集的提出基线方法[6, 18,53]的微观帧级AUC、宏观帧级AUC、RBDC和TBDC得分(以%表示)。尽管只有一种方法[18]能够进行异常定位,但为了完整起见,我们报告了所有基线方法的RBDC和TBDC得分。最佳结果以粗体显示。0图3.UBnormal数据集中一段测试视频的帧级得分和异常定位示例。最好以彩色查看。0当使用Sultani等人[53]的预训练网络时,我们在测试集上获得了49.5%的微观帧级AUC。在UBnormal数据集上进一步微调网络,将微观帧级AUC提高到50.3%。TimeSformer模型[6]在验证集和测试集上都获得了最高的微观帧级AUC。使用默认的视频采样率1/32,在测试集上获得了68.5%的微观帧级AUC。由于我们认为1/32的视频采样率对于异常检测来说过高,我们还尝试了更小的采样率(1/8、1/4),但没有取得成功。实证结果表明,1/32的视频采样率对于TimeSformer来说是最佳的。0总之,我们发现TimeSformer模型[6]是在UBnormal上进行异常检测的首选方法,而Georgescu等人的框架[18]在异常定位方面仍然是最佳选择。0Avenue. 我们在CUHK Avenue[33]数据集上报告了在表3和表4中获得的结果。我们将基于UBnormal样本的方法与以下最先进的方法进行了比较[3, 4, 7, 11-13, 18,19, 21, 23, 24, 26-28, 30-32, 34, 36, 39, 41, 43, 44, 53-56,59-61, 63,65]。尽管没有通过CycleGAN来消除UBnormal和CUHK Avenue[33]之间的分布差异,我们仍然成功在微观平均AUC和宏观平均AUC方面相比Georgescu等人[17]在对象级别上的结果提高了0.4%和0.5%。通过将对象通过CycleGAN进行处理,我们获得了93.0%和93.2%的最先进结果,以0图4.Avenue数据集测试视频03的帧级分数和异常定位示例。最佳以彩色显示。0图5. ShanghaiTech测试视频060153的帧级分数和异常定位示例。最佳以彩色显示。0微平均和宏平均帧级AUC,对于所有四个指标,至少比原始方法[17]提高了1.3%。在图4中,我们展示了来自Avenue数据集的测试视频03的帧级异常分数和一些异常定位示例。我们观察到,基于五个任务的方法可以精确地定位和检测两个异常。ShanghaiTech。在表3和表4中,我们还报告了在ShanghaiTech[35]数据集上获得的结果,将基于UBnormal样本的方法与其他最先进的方法[3, 4, 7, 11-13, 18, 19, 21, 27, 28, 30, 32, 34, 36, 41, 43,44,2018201920202021[17]91.591.982.489.3[17]57.0058.3042.8083.90201500年0方法0Avenue ShanghaiTech0AUC AUC0微 平均 宏 平均0李等人[26] 87.2 - - -0刘等人[30] 85.1 81.7 � 72.8 80.6 �0刘等人[31] 84.4 - - -0Sultani等人[53] - - - 76.50龚等人[19] 83.3 - 71.2 -0Ionescu等人[21] 87.4 � 90.4 78.7 � 84.90Ionescu等人[23] 88.9 - - -0李等人[27] 90.0 - 76.2 -0Nguyen等人[39] 86.9 - - -0Vu等人[59] 71.5 - - -0吴等人[61] 86.6 - - -0董等人[11] 84.9 - 73.7 -0Doshi等人[12, 13] 86.4 - 71.6 -0季等人[24] 78.3 - - -0卢等人[34] 85.8 - 77.9 -0Park等人[41] 88.5 - 70.5 -0Ramachandra等人[43] 72.0 - - -0Ramachandra等人[44] 87.2 - - -0孙等人[54] 89.6 - 74.7 -0Tang等人[56] 85.1 - 73.0 -0王等人[60] 87.0 - 79.3 -0于等人[64] 89.6 - 74.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功