没有合适的资源?快使用搜索试试~ 我知道了~
零镜头跨域视频异常检测的未来帧预测模型
2579无目标域自适应的跨域视频异常检测Abhishek AichPeng,Kuan-Chuan Peng<$,Amit K.罗伊-乔杜里美国加州大学河滨分校,美国三菱电机研究实验室{aaich001@,amitrc@ece. }ucr.edu,kpeng@merl.com摘要大多数跨域无监督视频异常检测(VAD)工作假设至少少数与任务相关的目标域训练数据可用于从源域到目标域的自适应。然而,这需要最终用户进行费力的模型调优,而最终用户可能更喜欢拥有一个开箱即用的系统。” 为此,我们提出了一个新的“零镜头跨域视频异常检测(zxVAD)”框架,其中包括一个未来帧预测生成模型设置。与现有的未来帧预测模型不同,该模型使用了一种新的正常分类器模块,通过学习正常事件视频的特征与伪异常示例中的特征之间的相对差异来学习正常事件视频的特征一种新的基于未训练卷积神经网络的异常合成模块通过在正常视频帧中添加异物来制作这些伪异常示例,而无需额外的训练成本。 通过我们新颖的相对正常特征学习策略,zxVAD在新的目标域中泛化并学习区分正常和异常帧,而无需在推断期间进行自适应。 通过对常见数据集的评估,我们表明zxVAD优于最新技术水平(SOTA),无论任务相关性(即,VAD)源训练数据是否可用。最后,zxVAD还在推理时间效率指标方面击败了SOTA方法,包括模型大小,总参数,GPU能耗和GMAC。1. 介绍无监督视频异常检测(VAD)方法[3±33]已广泛用于安全和监控应用[34±36],而不是有监督或弱监督的VAD方法[37±45]。这主要是因为无监督VAD方法不需要包含异常事件的训练视频,这些异常事件很少并且注释起来很费力[35,36]。因此,在训练视频中只有正常事件的情况下,无监督VAD方法将训练模型无法解释的活动标记为测试期间的异常。最近,无监督的VAD工作图1:问题概述。当前的无监督跨域VAD工作(xVAD)需要适应目标域,假设可以访问至少几个训练示例[1,2]。我们放松了对来自目标域的训练数据的这种访问的限制,并使用我们提出的零拍摄xVAD或zxVAD框架来处理更严格但更实用的情况。在跨域设置中已经引入了[1,2,46,47]。给定仅包含来自源域的正常事件的视频数据,目标是在不同的目标域中执行VAD。然而,这些跨域VAD(xVAD)工作[1,2,46,47]是需要访问源和目标域VAD训练数据[1,2]或 来 自 预 先 训 练 的 对 象 检 测 器 ( 例 如 , [47] 中 的YOLOv3 [48]在目标域中收集这些数据并调整或调整模型对于最终用户来说可能是不可行的,因为他们可能想要一个开箱即用的系统”[49,50]。此外,由于知识产权和安全问题,授予对此类视频数据的访问对于第三方公司来说可能是耗时的[51,52]。这使得当前xVAD工作无效,因为它们假设访问至少一些目标域训练数据。问题陈述。基于上述问题,我们正式确定了以下新的无监督xVAD问题,即在严格不访问目标域训练数据并且没有其异常类型的先验知识的情况下检测目标域中的异常。更具体地说,我们的目标是在目标域的测试集中检测异常图1将此问题设置与以前的xVAD问题定义进行了对比。拟议框架。我们使用一种新的xVAD框架来解决这个新问题,即2580视频异常检测术语零拍摄意味着没有可从目标域获得的训练视频用于适配以执行异常检测。zxVAD在未来帧预测设置[3]中具有类似于xVAD方法[1,2]的生成器[53]。然而,与这些方法不同的是,zxVAD先前的无监督xVAD作品仅从具有正常事件的视频学习特征。这导致对源域分布的过拟合和目标域VAD的较差泛化能力相比之下,zxVAD的生成器使用NC和O模块来学习输入视频中正常活动的特征,通过关注这些特征与异常帧的特征的相对不同。这种“相对根据定义,常态总是依赖于上下文[42,54](例如,在游乐场和高速公路上跑步因此,为了在我们没有关于异常类型的先验知识的新目标域(没有其训练数据)上进行推广,我们提出学习考虑正常”和异常”模式之间的上下文或相对差异的正常事件特征 更具体地说,不是只学习常态特征(即, 正常视频帧的特征),我们的模型学习相对正常特征(即, 正常和异常视频帧的特征之间的差异)。这些伪异常帧是通过我们提出的O模块创建的,该O模块能够从任务相关或VAD数据和任务无关(TI)或非VAD数据(即,与VAD任务无关的数据0模块通过定位输入TI或VAD视频帧中的对象并将它们(具有随机位置和大小)粘贴在正常VAD视频帧上来制作伪异常帧。此外,将TI数据引入我们的问题设置的一个主要优点是,它们可以被视为用于学习正常活动模式的视频分布,并且还有助于创建各种异常。因此,与学习相对正常性差异的策略一起,zxVAD旨在通过学习相对于具有不同种类的外来对象的异常帧(来自VAD或TI帧)的相对正常性来减轻泛化问题。这使得zxVAD可以避免局限于源域中的特定异常类型,从而使其与监督特定异常学习有根本不同我们的NC模块被设计为通过新的损失函数来区分伪异常和预测的正常未来帧。这些函数的突出属性是通过我们的NC的logit预测和导出的注意力地图来考虑正常和异常帧我们的O模块能够使用VAD或TI数据与未经训练的随机初始化CNN来创建异常,而无需额外的训练成本。总而言之,我们做出了以下主要贡献:表1:特征比较。 比以前的无监督VAD作品更好(例如,C0:[54±60],C1:[3±25],C2:[46,47,61],C3(我们的基线):[1,2]),zxVAD不需要先验知识(例如,对象从VAD视频中提取),可以在没有VAD训练数据的情况下执行跨域VAD,并使用未经训练的CNN来创建异常。无监督VAD方法条件无监督VAD类别C 0C 1C 2C3zxVAD(我们的)不需要事先了解✗✓✗✓✓在跨域VAD中显示有效性?✗✗✓ ✓✓没有源域VAD训练数据?✗✗ ✗ ✗✓用一个未经训练的网络创造出伪异常✗✗ ✗ ✗✓1. 我们在xVAD中正式引入了一个新的问题设置,其中模型在源域上进行训练,以检测不同目标域中的异常(在测试时),而无需通过目标域训练数据进行任何调整或使用来自预训练模型的任何监督(例如,YOLOv3)。2. 提出了一种新的xVAD方法,即zxVAD,其中模型学习源域中正常帧和异常之间的相对差异,并将VAD推广到目标,而不需要目标域训练数据或来自预训练模型的任何外部支持3. 这种“相对4. 值得注意的是,在VAD文献中首次(据我们所知),我们还表明,在四个常见的基准测试中,当仅使用TI数据进行训练时,zxVAD在所提出的问题设置中的表现优于5. zxVAD在大多数基准的AUC和推理时间效率度量( 例 如 , 模 型 大 小 、 模 型 参 数 、 GPU 能 耗 和GMAC)。2. 相关作品无人监管的VAD工作。早期的无监督VAD工作使用手工特征来表征正常事件或规则模式分布[4± 12]来制定异常检测。然而,这些方法优于CNN方法[3,13 ±25](两者均归类为表1中的C1)。①的人。 其中一些基于CNN的无监督VAD作品使用生成器[53]对正常帧分布进行建模[3,18,20 ± 22,58],并进一步引入记忆建模网络来记录视频中的各种正常事件模式[1,2,18,21,58]。另一类作品(表中的C1)[54±60]提出了计算量大的方法,使用强先验,如VAD的对象提取(使用预先训练的对象检测器[54,57]),以便仅关注特定对象以检测异常。与上述C0和C1中的VAD工作相比,zxVAD(a)被设计用于解决无监督的跨域VAD问题,(b)是未来帧预测方法,存储器模块,以及(c)不需要来自对象提取的强先验知识最后,一些作品[47,54,60,62±64]2581^.Σ^^^^^vuNi=1−w^ilogw^i^^^Σ。Σ已经示出了使用伪异常的不同VAD策略例如,[54,64]使用生成器来创建假异常数据。[62,63]提出了两种不同的时间伪异常合成器来从正常视频制作异常不需要上述额外的训练工作,zxVAD使用一种新的策略,使用未经训练的初始化CNN来创建异常(详见第二节)。(3)不需要额外的培训费用。跨域设置。非监督VAD中的跨域场景已在[1,2,46,61,65]中介绍 这些作品在少数镜头目标域场景适应的制度下操作。例如,[1,2](Tab.1)使用元学习方法[66],并适应目标域与几个场景用于异常检测。相比之下,zxVAD是专门为跨域VAD设计的,没有任何目标域适配。[46,47,61](表2中的C21)提供基于先验知识的方法,其中视频经受对象提取z∈RQ来自G(·)的编码r,输出sz=wM∈RQ用于Wardedto G(·)的解码r。这里,w∈R1×K是一个软寻址向量[18]。计算w的每个元素wi对z和m之间的余弦相似性使用softmax运算[18,71]。 我们提出的异常综合模块is表示dasO,包含saCNN表示dasR(·),权值为θR。此外,我们提出的正常分类器模块包含s个CNN分类器r,表示为dasN(·),权重为sθN。我们用E[·],E·φp和E·φp分别表示期望算子,lp-范数算子和元素乘. 主干描述。给定N个源域训练视频(只有正常事件),我们的目标是学习未来-帧预测生成器,其接收T个输入帧并预测T +1 个 未 来 帧,即,,G[v1,v2, ···,vT]=vT +1. G(·)是在最小二乘GAN[53,72]中的任意训练的D(·),其中D(·)的目标是在使用预先训练的对象检测器[48,67]。然而,zxVADVT+1和地面真值框架vT+1. 与[2,18]相似,我们不需要像使用预先训练的检测器的对象提取那样的强先验 zxVAD还能够单独使用TI数据,并在建议的跨域VAD设置中优于SOTA。最后,zxVAD使用一个简单的训练策略(详细信息请参见3)而不是使用元学习方法来避免引入一个存储器和模块M。 在zxVAD中,G(·)使用N(·)进一步正则化,提出了四个不同的对象类型(在第2节中解释)。3.2)使用伪异常的例子使用未经训练的基于CNN的策略生成在前期工作[1,73]的基础上,我们对G(·)进行了优化,使其具有平均平方误差v v<$2,结构相似性损失L=不平凡的计算和内存负担,以及我是LMSE。=^T+1−T+12SSM消失梯度问题[46,68]。3. 建议的zxVAD框架方法概述。 我们提供了源域VAD正常视频,以学习应该理想地跨不同目标域转移的特征,而不需要目标域适应。以实现这种无适配为基础的跨域1−SSIMvT+1,vT+1,其中SSIM表示vT+1和vT+1之间的结构相似性指数度量[74],以及梯度损失LGD[3,73]。为了优化M并鼓励使用稀疏但最相关的内存插槽对正常视频进行建模,我们遵循[18]并使用连续ReLU激活函数对M的内存广告向量w i应用硬收缩收缩系数λ设定为0.0005。接下来,我们将每个我是1i,得到z = wM。我们还应用了VAD属性,我们介绍了一种新的zxVAD框架(如图所示)2)基于未来帧预测设置可以进行端到端训练它由一个未经训练的elementw←/w^稀疏规则化ron,通过最小化它的entropyasLMEM=[18]第10段。我们将这些损失合并为基于CNN的伪异常合成模块(第二节)3.1)其中未经训练的随机初始化CNN有助于在没有任何额外训练负担的情况下创建伪异常。这些伪异常帧连同预测的未来帧一起被用于我们的新颖的正常分类器模块(Sec.3.2)正则化主干生成器以学习相对正常特征。这种学习策略使得zxVAD能够比现有的xVAD方法在不同的目标域中具有更通用的VAD性能符号。 我们将来自VAD数据集的样本视频表示为[v1,v2,···,vL]∈RLv×C×H×W,并且将TI数据集表示为[u1,u2,···,uL]∈RLu×C×H×W,其中每个视频包含sLv和Lu个帧,并且每个帧具有高度H,宽度W和C通道。我们的未来帧预测框架zxVAD包含具有 权 重 sθG 和 记 忆 模 块 M 的 记 忆 增 强 生 成 器 [18]G(·),以及判别器,以sθD为权因子,得到rD(·)。在[18,69,70]中显示,模M∈RK×Q是一个矩阵x,其中mi∈RQ,mi∈[K]向量s(或记忆项)在训练过程中学习注册原型正常特征。 M取输出向量LBB=LREC+αMEMLMEM,(1)其中重构损耗为L_REC= L_MSE+L_SSM+L_GD。我们设置损失重量αMEM=0。0025.第0025章【18】总的来说,权重θG,θD和θN在训练期间更新,而θR在训练之前随机初始化并保持固定。优于以前的作品,不考虑正常和异常事件之间的相对差异,zxVAD引入了一种新的策略,通过学习正常功能相对于伪异常功能,规范这个骨干发电机。由于我们的正常分类器模块利用伪异常来学习相对正常特征,我们首先提出了我们的伪异常创建策略。3.1. 通过未经训练的CNN进行先前的工作[54]集中于使用预先训练的对象检测器(即,YOLOv3 [48] in [54]),导致额外培训开销等问题与这些方法不同的是,我们提出了一种无需训练的策略来从视频帧中提取对象。这些物体可以通过2582^^^^^^不12图2:框架概述。我们的zxVAD框架包含由我们的正常分类器模块(右)指导的未来帧预测主干(左上)。 为了强制预测骨干从源域正常视频中学习可概括的特征并避免过拟合,我们鼓励生成模型使用四个新的损失函数来学习相对于伪异常帧的正常特征。 这些异常帧是使用未经训练的随机初始化CNN通过我们的新颖异常合成模块O(左下)创建的。在VAD和TI视频帧上(即,vt和ut)。为了简洁起见,我们将输入帧称为x。给定输入帧x∈RC×H×W,我们把CNNR(·)(在分类层之前)的输出表示为张量G ∈ Rd×h×w. 例如,如果R(·)是ResNet152[75],则G是具有如果输入大小为3×256×256,则大小为2048×8×8。我们采用SCDA [76]对G执行通道求和,以获得注意力图A∈Rh×w。然后我们得到一个二进制掩码M从A如下。如果A> 0,则设M=1,或0图3:伪异常示例。我们发现假异常使用我们的伪异常合成策略创建的帧(标记为(b))未经训练的随机初始化CNN是ResNet50 [75],它定位TI帧中的对象(标记为(a))。我们还表明(i,j)(i,j)地面真实掩模M的示例用于损失LRAA(标记为(c))。否则,请执行以下操作。这里,(i,j)表示h×w位置中的位置我们根据经验设置了=0。1.一、M(i,j)=1表示前景对象。最后,M从h×w调整为H×W。正如在[77]中所指出的,这个令人惊讶的属性背后的想法是随机的,更多示例见补充材料。正常帧与异常帧不同(反之亦然)。为了清楚起见,我们去掉预测帧的下标初始化的CNN可以定位对象的原因是:因为背景VT+1并将其标记为V^。这是一个不正常的分布,在输入帧x中,与场景中的前景对象相比,这些背景区域具有更高的机会被非线性去激活。类似于ReLU的激活函数[78]。最后,该物体被定位为Mx=Mx。创建伪异常帧伪异常框架分别表示为ρ和κ。常态损失LN。给定预测的未来帧v和伪异常帧v,LN使用以下损失函数优化sN(·)以增加v为“正常”(标记为1)和v为“异常”(标记为0)的概率因此,我们将Mx和输入帧s的e组合到G(·),即,、EΣ2ΣΣ。Σ2Σv∈{v,v,···,v}通过粘贴M对v在随机位置LN=1/2v^pN(v^)−1+1/2EvκN(v)(二)rz,大小随机rx×ry。我们讨论了方法的选择补充材料中的位置rz和尺寸rx×ry请注意,用于创建伪视频帧的大多数视频帧都是异常恰好包含至少一个前景对象,供未经训练的CNN提取。即使没有这样的对象,我们未经训练的CNN仍然会关注一些补丁(在输入帧上),并将它们视为正常事件VAD帧上的异常3.2. 学习常态w.r.t.异常相对正常度损失LRN。异常事件可以被视为相对于正常事件的偏差我们认为(2)的关键缺失属性是正态数据的概率正常(N(v))应该随着异常数据正常(N(v))的概率减小而增加,反之亦然。R是使P[visnormal]最大化的函数,我们设kN (·)为最大化P[visnormalthanv](P[·]表示概率算子).我们将这种新的相对正常度损失定义如下:我们的正规分类器模块是一个分类器N(·),它是最优的,LRN =1/2Ev^ρ。N(^)v−Evκ [N(v)]−1<$2<$+由以下四个损失函数组成这些损失函数相互补充如下:正常性损失和注意肯定损失关注的是正常框架和异常框架之间的差异,而相对正常性损失和相对注意肯定损失则关注的是如何相对不X不2583Σ。(三)1/2EvκN(v)−Ev^ρ[N(v^)]+1洛杉矶有一个小镇。N(·)在正常框架和异常框架中的判定应基于ΣΣ2258412^^^^^^^^考虑外来对象(由我们的模块O引入,Ev^pD(v^)−1 ++j=0,j=根据以下信息:(1)N(·)应将整个场景视为“正常”和N(·)学习损失LN如下:Σ。ΣΣ把它归类为“不正常”。’3.第三章。1所有这些都用于在虚拟机中获取外部对象的外部位置。因此,我们认为,αNEv^ρ0.05。N(v^)−1<$2<$,(六)我们利用这些知识,LD=Ev^ρ0.05。D(v^)2+Ev^0.05。D(v)−1<$2<$,v.我们首先初始化一个张量M零。接下来,我们更新L=αL+αL+αL+αL将M粘贴到rx后×ry 在位置rz处Nn nrn RNaa AARAARAA(从OinSec.第3.1节)。我们展示了M的示例图我们设αD=0。05后[3]。其余损失权重αN=3. 我们从最后一个卷积层中提取特征图N (·)和应用SCDA[76]来获得对于正常和异常帧的注意力映射A(v)和A(v_i)。 A(·)表示从N(·)中提取一个概率映射的运算。我们通过注意力肯定损失L_AA来强制执行该约束,因为(1是与A(v_A)相同大小的张量):0的情况。5,αn=1,αrn=0. 01、αaa=1和αraa=1是根据经验设置的。光 盘 使 用 时 , 没 有 任 何 zxVAD 工 作 。zxVA_D_train_sG(·)在预测输入正常视频的未来帧v中,通过考虑计算相对于伪异常帧的差异(通过我们的正常分类器模块)。在以前的作品中没有考虑到,这一点特别有助于G(·)学习非限制性关系LAA=1/2。1−A(v^)<$2+1/2。M−A(v)2,(4)正常帧和异常帧之间的差异,以减轻过拟合到源域正常视频特征。过-相对注意力肯定损失LRAA。类似于LRN的概念,我们认为LAA没有考虑注意图与正常框架的相对差异,注意力地图的异常帧。因此,我们提出了一个相对注意力肯定损失LRAA,旨在学习这种差异。 我们创建了两个注 意 力 映 射 对 : ( Pair-1 ) A ( v ) 和 dA ( g(v)),以及d(Pair-2)A(v)和dA(v)。函数(·)表示使用软件包应用于v的变换s(ColorJitter、RandommAffine和Random Perspective)的序列Kornia[79](相关参数见补充材料)。对“增强正常”框架的注意力相对于“正常”框架的相对差异应小于对“伪异常”框架的注意力相对我们用保证金m来加强这种差异,同时增强了正常和增广正态框架以及正态框架和伪异常框架之间我们使用ArcFace损失[80]设计LRAA,如下所示强制执行此保证金当从我们的伪异常模块创建的异常示例包含VAD正常框架中的“外国实体”的各种对象时,拟合问题得到进一步缓解这所有的WSG(·)从极其不同种类的伪异常中学习相对的正态差分在没有任何先验知识的情况下,在多个目标域为了使进一步的讨论简洁,我们在表中显示了VAD和TI数据集的统计数据和首字母缩略词二、3.3. 任务无关(TI)数据集简介在本节中,我们将讨论任务无关或非VAD视频在无监督VAD中的实用程序。VAD研究社区提供的任务相关或VAD数据集已知在规模上有限,如表1所示2和[1,42,88]。(例如Ave [9],Ped1,Ped2 [10]数据集有100个训练视频)。此外,很难以如此有限的规模收集不同种类的正常活动情景。因此,我们建议引入.N−1s(cos(ωΣ+m))任务无关(TI)数据集的VAD任务的实用性−1ΣLRAA=Ni=0时日志eyies(cos(ωyi+m))Σ1scos(ωj)yi、(五)我们将数据集定义为视频分类、动作识别等)。其中,对于正常帧v,标签yi被设置为1,frameg(v),以及对于伪异常framev的D 0。 我们对A ( x ) 进 行 变 换 , 其 中 ωyi=<$Wyi<$vec ( A(x))<$cos(ωyi)(其中ωyi∈[0,π]是Wyi与vec(A(x))之间的一个夹角). 这里,vec(·)是一个向量化操作。 ωyi和d∈v ec(A(x))不归一化为1,这导致ωyi=cos(ωyi). 在失去弧面的情况下 , Wyi 表 现 为 每个类别的 中 心 ( 即 , normal 和abnormal)[80],这产生了m的距离余量惩罚。我们设定缩放因子s= 64,裕度m= 28.6度,遵循[81]。LRAA可以实现为任何三元组度量学习损失[81]。然而,我们选择了ArcFace损失,因为它在最近的非VAD工作中表现良好[82±84]。最终学习目标。 总之,zxVAD是端到端训练的,G(·)学习lossLG,D(·)学习lossLD,∼ρLG =LBB +αDe2585这样的数据集的例子是UCF101 [86]和HMDB[85](参见Tab。2)的情况。这些数据集最初是为非VAD工作引入的,专门为基于深度学习的大规模任务而策划例如,Jester最初被引入用于25个手势类的视频分类为了展示在zxVAD任务中使用不同类型数据集的性能,我们选择Jester、UCF101和HMDB作为TI数据集。请参见补充材料中的数据集示例。接下来,我们将讨论如何测量这些数据集与VAD任务的任务相关性,然后在提出的问题场景中使用这些数据集的两个简单策略注意,zxVAD不需要来自TI-VAD相关性测量的任何东西来操作。目的是仅验证TI数据2586ΣΣ.Σ。QQ表2:数据集统计。我们强调了VAD和TI数据集之间训练数据量的差异。:列车/测试分离摄像机(dc)分离由[1]提供如[1]中所述,UCFC数据集不包含地面实况帧级标签,因此不考虑进行评估。Task-Relevant/VADDatasetsTask-Irrelevant/non-VAD DatasetsProperty\DatasetShanghai-Tech [16] Shanghai-Tech搜索 [1] UCF-Crime [37] Ped1 [10] Ped2 [10] CUHK-Avenue [9] HMDB51 [85] UCF101 [86] 20BN-JESTER[87]缩写SHTSHTdcUCFCPed1PED2AveHMDBUCF101杰斯特培训/测试视频数量330 /107一百四十七/三十三950 /-34 /36十六/十二十六/二十一六千七百六十六/-一万三千三百二十元50,420/-异常情况数量4733±401221N/AN/AN/ASHTPed1/Ped2UCFCAve关联矩阵HMDB UCF 101Jester←−TI数据集 −→10的情况。80的情况。60的情况。40的情况。20后来在SEC。4,仅用TI数据集训练zxVAD达到了3个不同目标域数据集的SOTA结果。我们假设TI数据集代表了正常活动的记录,就因此,从这样的TI数据中学习有助于对类似于正常视频的特征进行其次,我们建议使用TI框架来创建包含不同类型对象的异常(见图1)。(3)第三章。使用我们提出的方法,使用TI数据创建伪异常帧(详见第3.1),我们的(0:图4:VAD和TI标签之间的相关性测量。利用TI和VAD标签之间的相关性得分矩阵,我们发现TI数据集与VAD数据集具有较低的语义相似性。最大值出现在HMDB和Ave之间。测量非VAD数据集的相关性。 在[89,90]之后,我们使用word2vec [91](在Google News数据集[91]上预先训练)来衡量我们引入的TI数据集的任务相关性:Jester,UCF101和HMDB。我们首先计算输入标签的嵌入向量(如果标签包含多个单词,我们对嵌入进行平均接下来我们计算TI之间所有可能的标签对的嵌入的平均绝对余弦相似性S ∈[0,1],VAD数据集和异常类别。这表示为generator从相对于abnor的正常帧中学习特征,错误帧。这种伪异常包含从TI视频帧中提取的各种外来实体,允许我们的生成器以广泛的方式学习相对正常差异4. 实验和结果实作详细数据。我们在Py T orc h中实现了我们的框架[92]。 生成器G(·)是从[3]改编的U-Net[93],其瓶颈处具有类似于[ 20 ]的存储器模块。判别器D(·)和正态分类器N(·)是Patch-GAN判别器[94]。我们提供更多细节我们在补充材料中的实施。评估详情。我们在三种训练下评估zxVAD当S=1/P/Q时CUPp=1q=1。cos-simπp,πq. ,其中,关于可用源数据类型的情景:(1)是TI和VAD数据集中的标签的总数,πp和πq是TI和VAD数据集的第p个和第q个标签的word2vec表示。cos-sim(·)表示s对输入向量进行余弦相似性操作S的值更接近到0表示更高程度的无关性(或更低程度相关性)。图4,我们示出了所有TI的平均余弦相似性S( 即,HMDB ,UCF 101,Jester)和 VAD( 即,SHT,Ped 1/Ped 2,UCFC,Ave)数据集。返回参考值:S(“object“,“scene“)= 0。829,S(“b ag“,“d i m e“)= 0。209,并且dS(“f o x“,“pa p e r“)= 0。109,我们发现最大语义相似度S =0。207发生在Ave和HMDB之间,表明所有TI数据集都是与VAD问题的任务无关使用TI数据集的方法。 我们提供了两种使用TI数据集的方法。首先,无监督VAD方法在训练过程中从正常事件中学习特征。这些事件的特别特点是连续活动,没有任何外来物体的突然干扰 这类视频在其他视频下游任务中很容易获得,例如动作识别,其中样本视频仅包含来自连续活动的帧。在源域中没有可用的VAD训练数据的情况下(最坏情况),我们显示VAD和TI数据是可用的:G(·)获取VAD视频,并且O将TI帧作为输入。(2)仅VAD或TI数据中的一个是可用的:BothG(·)和O获取VAD或TI视频作为输入。当G(·)将VAD和TI视频作为输入时,我们没有观察到任何性能增益,因此在这种情况下,因为它增加了计算负担。我们使用ROC曲线下面积(AUC)比较zxVAD与[1,2],模型存储、总参数、GPU能耗、推理时间FPS和GMAC。基线。 由于“没有目标域训练数据自适应的跨域VAD”的问题是由我们确定的,我们找不到其他方法,这是专为这样的设置。我们发现的最新和最接近的基线是rGAN [1]和MPN [2],它们是为xVAD任务设计的,不需要VAD帧对象提取的强先验。 由于这两种方法都报告了它们在建议的问题设置下的性能,因此我们将它们用作基线。即使我们优于基于强先验的xVAD方法[46,47,54],在我们的问题设置下没有任何这样的计算昂贵的操作,我们也不认为它们是我们与[1,2]进行公平比较在选项卡中。0的情况。1770. 1580. 1570的情况。1380. 1590. 1170的情况。1080.1010096参考值S(“h u s b a n d“,“w i fe“)= 0。829`高环隙比X`S(“f o x“,“p a p er“)= 0。102lowrelevanc yX'eexampl e w. 好吧不客气。maxscorexS(“b a g“,“d i me“)= 0。209←−VAD数据集−→2587表3:效率和相同数据集测试的比较。我们在大多数相同数据集的测试中击败了我们的基线,并在列出的效率指标中超越了它们GPU能耗是通过在Ped2上测试来†:rGAN [1]没有提供其用于推理时间度量评估的官方测试代码效率-相同数据集测试1384.52 ±zxVAD8.7343.106.8134.92208.570.8596.95 七 十 一 点六在图3和图4中,paper表示报告的结果,code表示使用官方代码计算的结果(如果可用)。消融研究。我们在图5(a)中显示了我们在SHTdc数据集上提出的zxVAD损失函数的消融研究。图图5(a)显示了我们提出的每个损失函数都对AUC有贡献,并且与它们联合训练都实现了最佳AUC。图在图5(b)中,我们分析了自动编码器和生成对抗网络的不同组合,其中(AE-M,GAN-M)和没有我们的记忆模块(AE,GAN)作为我们的zxVAD骨干。图5(c),我们分析了不同混合策略(MixUp [96],CutMix [97]在我们的模块O的影响[63] 提出了一种伪异常法图5(d)中,我们分析了在zxVAD中改变R(·)对(ResNet50,ResNet152[75],DenseNet161 [98],AlexNet [99],MnasNet [100])的影响。图5表明,无论主链选择如何,伪反常策略和R(·)结构,zxVAD在大多数设置中仍然优于SOTA基线其支持zxVAD相对于.这些因素。相同数据集实验。我们 将zxVAD与SHTdc、SHT和Ped2数据集上的[1,2]进行比较。选项卡.图3显示在该实验中zxVAD在AUC方面优于两个基线。例如,zxVAD在不同的相机角度上显示出比SHT dc数据集中的基线更好的泛化能力,具有最低的效率指标,如模型参数和GMAC。我们还发现,与基线相比,使用额外的TI数据(HMDB和UCF 101)可以进一步改善AUC(补充材料中的跨数据集实验。 我们在跨数据集设置下将zxVAD与[1,2]进行比较。在Tab的顶部两个部分4,我们使用SHT或UCFC数据集以及可选的TI数据来训练zxVAD,并在Ped1,Ped2和Ave数据集上进行测试。选项卡. 4显示,在大多数设置下,zxVAD在AUC方面优于两个基线,无论是否使用额外的TI数据,这支持zxVAD在不同数据集(在不同场景下具有不同类型的异常)之间具有比基线更好的泛化能力。例如,当我们的模型在SHT数据集上训练时[16],它在检测SHT测试集中的异常(如“追逐这表明我们的方法并不特定于源域中的异常,而是具有很好的推广在推理过程中不进行自适应以确定目标域场景选项卡.5表明,即使根本不使用任何源域VAD训练数据,zxVAD在大多数设置中仍然优于[1,2],仅使用TI数据进行训练,这支持我们提出的在提出的问题设置下使用TI数据的机制。这些令人鼓舞的结果表明,利用TI数据是一个有前途的研究方向zxVAD的问题。有趣的是,当G或O或两者都使用TI数据时,与G和O都使用VAD相关数据相比,更相关的源数据导致更少的源-目标域间隙,从而更好的AUC 这通过平均AUC证实(表1)。4和5)当源仅为VAD时:84.26%,VAD w/ TI:83.46%,以及仅TI:82.30%。我们还分析了仅使用TI数据进行训练时所需视频数量的影响,HMDB和UCF101在zxVAD设置中的性能,发现即使只有1.25%的UCF101或1.8%的HMDB也足以超过SOTA(详见补充材料)。在[1]之后,我们没有使用Ped 1/Ped 2作为源进行跨域评估,因为训练数据集太小,无法得出合理的结论。图6,我们表明zxVAD优于现有的基于强先验的无监督xVAD方法[46,47,54],当源域数据为SHT时,该方法报告了跨域VAD测试性能。这意味着zxVAD提供了一种计算效率高且减少监督的方法,在提出的问题设置下,无需在源域和目标域中从视频中提取对象(使用 [47 , 54] 中 的 YOLOv3 [48] 和 [46] 中 的 CenterNet[101][47]第47话:6)和[63](在图5(c)中),我们基于未训练CNN的异常示例生成策略为所提出的问题设置提供了更好的VAD。我们的“相对正常选项卡中的结果5(当zxVAD仅使用TI数据时)验证了这一说法,因为zxVAD通过从TI视频中学习这种差异化特征,在目标VAD上仍然优于SOTA。[102]是一种少量VAD方法,将三个现 成 的 预 训 练 模 型 ( YOLOv4 [103] , AlphaPose[104],Flownet2 [105])放在一起以执行xVAD。即使有这样昂贵的存储,高训练开销和来自不同分布的强先验 , zxVAD 也 很 容 易 击 败 [102] 11.76% ( Ave ) ,13.85%(Ped2),源为SHT,10.12%(Ave),29.12%(Ped2),源为UCFC,参数非常少,没有初始先验。最后,我们在跨域设置下提供了定性评估,其中有两个测试视频Ped1和Ped2在使用图中的SHT训练时的异常曲线。7,其中zxVAD提供比MPN更好的跨域检测能力[2]。 我们还在图中可视化差异图。8(地面实况和预测帧之间的绝对误差),其指示在使用以下训练之后在跨域设置下在三个数据集中通过zxVAD存在异常方法参数(↓)(百万)GMAC(↓)能量(↓)(焦耳)存储(↓)(兆字节)FPS(↑)SHTdcPED2SHTrGAN[1]19.0†79.8570.1196.9077.90MPN [2]12.755.09 10.6553.14166.8 67.4796.2073.8025881 .一、01 .一、0损失函数AUC(%)LBBLNLRNLAALRAA关于SHTDC✓68.32✓68.99美元✓✓69.33 美元✓✓中国69.61✓✓中国70.85九十五00九十00八十五00八十0075.00PED2AvePed1一百块00九十00八十00七十00六十岁。0050块00四十00PED2AvePed184.0082岁00八十0078岁00七十六。0074岁00HMDBUCF101杰斯特(a) 损失烧蚀(b) 主干的影响(c) 混合方法(d) R的影响()图5:zxVAD的成分分析。图图5(a)示出了使用SHTdc的损耗烧蚀;图5(b)示出了使用SHT dc的损耗烧蚀。图5(b)在三个数据集上比较了具有不同未来帧预测骨干的zxVAD的跨域性能(来源:SHT); 5(c)比较了模块O中不同混合策略与SOTA方法[63]的影响,SOTA方法还提出了三个数据集上的伪异常方法(来源:SHT);图。图5(d)比较了模块O中的网络R(·)对三个TI数据集(源:SHT,目标:Ave)的影响图中的虚线图5(b)、图5(c)(三个数据集)和图5(d)(一个数据集)显示了当源为SHT时,各跨域VAD中的SOTA(MPN [2],Ped1:74.45%,Ped2:90.17%,Ave:74.06%)表4:交叉数据集检验。与xVAD的比较不需要背景减法。标记最佳和次佳AUC‡78岁00七十六。0074岁00SHT→ Ped174岁4七十六。1484. 0082岁00八十00一百块00九十八00九十六。00分别以粗体和下划线表示。 :对于MPN [2],七十二00七十一678岁00七十六。0094 0092. 00代码[95]给出的AUC低于他们论文中报告的AUC七十00N/P74岁00九十00VAD培训数据辅助数据VAD测试数据[46个][五十四][47个]zxVAD[46个][五十四][47个]zxVAD[46个][五十四][47个]zxVAD(输入G(·))(输入至O)方法Ped1Ped2 AveSHT N/ArGAN [1](paper)73.1081.95 71.43SHTN/AMPN [2](paper)74.4590.1774.06SHT N/AMPN [2](代码)66.0584.7374.06图6:跨数据集测
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功