没有合适的资源?快使用搜索试试~ 我知道了~
2253特征聚集事件检索无监督监督特征对准推理网络事件识别特征提取Er3事件讲述ER3:事件检索、识别和叙述Zhanning Gao1,Gang Hua2,Dongqing Zhang2,Nebojsa Jojic2,LeWang1,Jianru Xue1,Nanning Zheng11西安交通大学人工智能与机器人研究所2微软研究院摘要我们为复杂事件的检索、识别和叙述开发了一个统一的框架。该框架是基于一个紧凑的视频表示,利用图像特征的时间相关性。我们的特征对齐过程识别并去除跨帧的特征冗余,并输出一个中间张量表示,我们称之为视频印记。然后,视频印记被馈送到推理网络中,其注意力机制与语言建模中使用的记忆网络相当。推理网络同时识别事件类别并定位事件叙述的关键证据。在事件检索任务中,我们表明,从视频印记聚合的紧凑的视频表示我们还在事件识别任务中设置了新的最先进的结果,并提供了额外的好处:我们的推理网络中的潜在结构突出了视频印记的区域,可以直接用于事件叙述。由于视频印记映射回视频帧中的位置,因此网络不仅允许识别关键帧,还允许识别每个帧内对决策过程最有影响的1. 介绍事件视频的分析是一项非常具有挑战性的任务。与通常基于几秒钟长的视频剪辑的动作识别相反[4,32],事件分类是在通常持续几分钟甚至几小时的视频上执行的。这些视频通常捕获多个人类动作,并且可能包含跨各种场景的各种不同对象。例如,生日蛋糕,并且可以包括跨越多个帧的各种活动,例如唱生日歌或吹蜡烛。图1.事件检索、识别和叙述的ER3框架的说明基于特征聚合的紧凑视频表示通过监督训练,ER3还可以识别输入视频的事件类别。事件叙述直接从模型的潜在结构中脱离出来,以统计数据的形式显示为每帧的热图,指示与事件相关的关键区域。在过去的十年中,视频中复杂事件的分析在计算机视觉界引起了极大的关注[10,11,17,24,29,35]。以前的研究是在无监督和监督的情况下进行的。无监督模型通常用于事件检索[9,29],其目标是在某种意义上检索数据库中的所有相关视频,类似于用户提供的查询视频。另一方面,监督学习已经以与动作识别[4,32]和一般视频分类[18,46,49]类似的方式用于事件识别[3,5]或检测[24,47]。在后一种情况下,从带注释的训练视频中学习分类器,以检测和识别测试视频的事件类别,例如,TRECVID的多媒体事件检测任务[26]。在实际应用中,通过提供对事件类别预测的解释来限定事件类别预测通常是重要的。多米尼克·斯特劳斯-卡恩被捕2254特别是,系统需要定位导致识别决策的关键证据。这有时被称为事件叙述。事件视频分析的关键问题之一是构建合适的视频表示。对于事件检索和事件识别,表示应该是有区别的,但紧凑,以便它可以有效地消除歧义的各种事件的视频。通常,基于每个事件视频的帧级外观特征构建全局特征向量[9,10,29,46,47]。 在识别任务中,该全局视频表示然后被馈送到线性分类器[47]或神经网络[18,46]中以识别事件类别。然而,这种表示使得事件叙述困难,因为将决策追溯到单独的图像位置是棘手的。因此,大多数现有系统在识别之后执行事件重新叙述作为后处理步骤[10,22,40]。在本文中,我们提出了一个统一的框架,命名为ER3,事件检索,识别和叙述。图1说明了框架和输入/输出的ER 3系统。在ER 3中,(i)我们引入了一个特征对齐步骤,可以显着抑制冗余信息,并生成一个更全面和紧凑的视频表示称为视频印记。此外,视频印记还保留了视频帧之间的局部空间布局。(ii)基于视频印记,我们进一步采用推理网络,神经记忆网络的修改版本[34],它可以同时识别事件类别并定位事件类别的关键证据事实上,叙述是如此自然地集成在框架中,实验表明,叙述步骤可以帮助识别任务,提高识别精度。(iii)在重新叙述任务中,我们不仅像之前所做的那样预测与事件相关的重要帧[22,40],而且我们还联合预测每个帧内的重要区域,因为视频印记中保留了本文的结构如下。第二节讨论了事件视频分析的相关工作。然后,我们将在第3节中介绍ER3的技术细节。实验结果见第4节。最后,在第五章中对本文进行了总结。2. 相关工作在无监督事件检索中,目标是检索数据库中与查询视频相关联的所有相关视频。关键问题是构造紧凑的视频表示。以前的方法[9,29]通常在帧级别开始构建视频表示。首先,从每个帧中提取局部特征(如SIFT[23])并聚合在一起,以基于编码方法(如FisherVector [30,28]或VLAD [16,9])形成帧级特征描述。然后,为了形成视频,水平代表。帧级描述符简单地在视频上平均。这种求和聚合忽略了连续帧之间的强时间相关性这可能会不期望地对视频中的某些长镜头或重复镜头中的信息进行过度加权。我们在第3节中讨论了这个问题,并表明帧间的冗余信息可以通过特征对齐步骤有效地抑制。事件识别或检测在过去十年中引起了广泛的关注。一般来说,事件视频识别系统可以分为三个阶段:特征提取、特征聚合/池化、训练/识别。与事件检索一样,前两个阶段的目标是构建可区分的视频表示。 以前的工作主要集中在为分类器设计更好的视频特征或表示,例如手工制作的视觉特征[8,23],运动特征[41,42],音频特征[2]和中级概念/属性特征[7,39]。最近,深度卷积神经网络的发展[20,33]在事件识别任务中产生了有希望的结果[18,47,50]。视频表示通常通过直接聚合帧级CNN特征来构造。由于训练数据有限,这些特征向量通常用于传统的分类器,例如支持向量机(SVM)[6]此外,一些工作[18,50,46,51]还探索了多特征融合策略,以进一步提高识别性能。事件叙述是指支持识别决策的关键证据的本地化,这是一项艰巨的任务,因为只提供视频级别的注释事件叙述通常是一个后处理步骤,在识别之后执行[22,40]。Sun等人。[36]介绍了通过最大余量框架学习的事件定位模型,Chang等人。[7]采用了具有中级语义概念表示的联合优化框架,用于事件识别和重新叙述。Lai等人。[21]应用多实例学习(MIL),它可以推断时间实例标签以及视频级别标签,因为视频被视为镜头或实例的集合。这些重新计算的程序只是通过时间来推理,而且通常是在一个粗略的水平上. Gan等人[10]训练了一个用于事件识别的深度事件网络。此外,它还可以通过向后传递分类分数来预测与事件相关的关键帧和帧内的重要区域。这仍然是一种后处理方法,它不帮助识别,而是试图解释它。与这些方法相比,我们系统的核心是一个生成模型,其中潜在结构直接用作指向图像位置的一组指针该模型通过联合对齐不同帧的区域并估计相应区域中特征的分布来所得到的表示是帧所映射到的特征上2255视频帧CNN模型...每帧的特征图TCG计数网格图2.插图的框架有关绿色框中的帧表示与事件相关的积极帧。红框表示无关帧。在某种程度上,图像帧被映射到像素空间中的位图(参见图1中的玩具示例)。这个网格,以及指向原始帧中位置的指针,形成了一个视频印记,使我们能够以灵活的方式考虑图像证据。例如,可以执行聚合以强调仅仅存在而不是某些对象或场景部分的重复频率我们的实验表明,视频印记聚合产生更好的性能,无论是在监督和无监督的情况下,与以前发表的工作相比。视频印记还允许我们对跨帧发现的特征的局部空间布局进行推理。为了预测事件类别,我们的推理网络分析了存在于压缩视频印记的不同空间位置的证据,就像记忆网络[34]中的注意力机制对文本中的句子进行推理一样。最近的工作[48]也在视频人脸识别中探索了类似的想法。在这个过程中,推理网络突出显示了印记的区域,这些区域又映射回视频帧及其相应的空间位置。通过这种方式,重新计算是决策的一个组成部分,而不仅仅是一个后处理步骤。3. ER3的细节在本节中,我们将详细介绍图1所示的每个模块,并演示此框架如何执行事件检索、识别和重新叙述任务。3.1. 特征提取最近,基于深度卷积神经网络(CNN)内激活的图像描述符已经成为视觉识别的最新通用描述符[13,31,50]。与以前的事件视频分析方法[18,50]不同,这些方法通常提取全连接层作为帧级描述符,我们选择最后一个卷积层的激活作为帧级表示。由于卷积层包含输入帧的空间信息,因此我们可以在帧级别之外执行更准确的重新计数结果。图3.棋盘格计数网格(TCG)的图示右边的张量块表示计数网格,E= 24×24,W= 8×8,S= 4×4。类似的帧通常在相同或附近的窗口中表示,例如,,就是我们经常在视频中看到的主播。3.2. 特征对准通常,视频表示直接从帧描述符聚合[9,18,47,50]。然而,这可能不期望地对视频中的某些长镜头或重复镜头中的信息进行过度加权,这可能主导最终表示。例如,如图2所示,主播的镜头在与事件“Dominique Strauss-Kahn arrested”相关的事件视频中占主导地位。由于这些帧共享相似的内容,简单地平均帧描述符可能导致这些描述符的过度强调,并降低视频表示的辨别能力为了缓解这个问题,我们使用特征对齐来平衡特征提取后帧特征的影响特征对齐的想法来自全景拼接[37,38],它可以将图像拼接成全视图全景,消除输入图像之间的重叠。如果我们可以从事件的视频帧生成等效的全景表示,则跨帧的冗余将被去除,并且视频表示对重复频率的敏感性将降低不太明显的特征。显然,动态和复杂的事件视频不是帧拼接的方便目标。像素级的对齐是困难的,并且帧无论如何都不能映射到为了处理视频帧中对象或整个场景的几何变化,我们首先使用从每个帧中提取的最后一个卷积层的激活来对图像进行然后,我们采用tes-sellated计数网格(TCG)模型[27]在广义上训练由此产生的特征分布网格包含多个位图,来自不同镜头的帧被自动映射到这些位图。因此,该模型捕获相关帧中卷积层特征的空间相互依赖性,并且还用作不同镜头的聚类基础。以下是TCG的简要介绍,详细描述请参见[27]镶嵌计数网格(TCG)[27]旨在捕获图像特征之间的空间相互依赖性。给定一组图像或视频序列,它假设视频帧Ex位置k4EYZ=4x2256××--∈−--CK----CKzi,zKπKi,z|{}每个图像/帧由一组插入到棋盘格S=SxSy1中的11个归一化的非负特征向量来表示。 形式上,计数网格πi,z是由z索引的归一化特征的集合(im年龄特征)在2D离散网格i=(ix,iy)上的位置E=Ex其中i是网格上的位置。作为一个生成模型,图像特征cs网格的位置k是s∈S 从窗口Wkin the loca-免费WiFiYYp({cs}s∈S|l=k)=µmπi,z、 (1)z s i∈Ws其中μ是归一化常数。因此,在由t索引的图像特征的集合cs,ts∈S,t∈T及其对应的潜在窗口位置lt上的联合在网格中,可以推导为图4. 用于事件识别和事件叙述的推理网络的说明。与它们的位置一致第一步是为视频印记生成一个活动地图,以过滤掉噪声YYP({cs,t},{lt})πi,ztz.(二)对与很少或没有帧对准的位置相关联的网格描述符进行计数。从形式上说,映射,A={ai|i ∈E},ai∈{0,1},计算为公司简介i∈Ws。Σ通过使用EM算法最大化联合分布的对数似然来估计计数网格π1ai=0i∈W k|k: ΣNt=1q(lt=k)>τ、(四)Σ ΣE步骤:q(lt=k)expcs,tlogΣπi,z,我不知道你在说什么其中τ是活动图的阈值。Σ ΣM步长:πi,z<$πoldS Z Σs和tzi∈Wsq(lt=k)哈罗德,S生成活动地图后,第二步非常简单:我们对整个激活的计数网格描述符应用求和聚合,以生成最终的视频表示。TSK|i∈Wsi∈Wki,z(三)sentation.形式上,聚合步骤可以写成其中q(lt= k)表示后验概率p(lt=k cs,ts∈S),πold是前一次迭代的计数网格。φFA(π,A)=Σi∈Eaiπi.(五)TCG的迭代过程将联合估计计数网格π并将所有训练帧特征与其对齐。因此,π总结了整个视频,用作视频图像:其位置中的每一个对应于各种帧中的等效区域,其中该对应关系在上面的q分布中被捕获。参见图3和图2。3.3. 特征聚合在本节中,我们将演示如何将视频印记聚合成一个紧凑的视频表示,用于无监督事件检索。我们将视频印记上的每个πi称为计数网格描述符。如图3所示,一些计数描述符没有意义,因为没有帧1通过l1-归一化和适当的下采样,CNN模型卷积层的特征映射(ReLU之后)自然满足了这一假设。2我们不能直接可视化帧特征的计数网格。为了便于说明,我们在具有最大后验概率q(lt=k)的位置上累积帧,并绘制平均图像。加权和输出向量嵌入B决策神经网络视频印记权重图P平均池化+Softmax嵌入M记忆矢量权重图P内积P叙述结果C2257然后对所得到的φFA(π,A)进行l2-归一化,并计算余弦相似度用于事件检索.3.4. 对印记的推理一旦为视频计算了印记,而不是在单个帧特征上进行推理,我们现在可以在这种紧凑的表示中进行推理,其中每个位置对应于重复出现的场景/对象部分,这些位置的空间布局反映了它们被看到的帧中的部分的空间布局我们以类似的方式处理印记中的位置,句子在一个语义网络中被处理[43,34]。我们的推理网络分阶段做出关于事件类别的决定,将注意力从一组印记位置转移到下一组印记位置(图4)。在该过程中,重要的印记位置被突出显示,并且我们可以使用q分布和2258×WiWi我印记中附近位置的空间布局与原始帧中的布局相匹配。我们的推理网络在两个方面不同于记忆网络。首先,由于不存在用于事件识别的查询问题,我们用等式5初始化输入向量u1,即:、视频印记的和-聚合。其次,由于印记中的空间组织是有意义的,我们在原始内存网络架构中的softmax层之后添加了一个平均空间池化层。实验表明,加入平均池层后,可以得到更平滑、更合理的重报结果。模型细节如下。推理网络中的记忆层。如图4所示,视频印记(在整个过程中未激活的位置被忽略)通过mul处理。三个存储器层(跳)。在每一层中,首先将来自视频印记的计数网格描述符πi分别嵌入到具有嵌入矩阵B和M的输出向量空间和记忆向量空间中bi=Bπi,mi=Mπi,(6)其中bi表示输出矢量,m表示预测矢量。存储器向量mi用于计算权重映射P={pi|i ∈E},内部状态为u。4. 实验4.1. 数据集和评价方案在事件检索方面,我们在大规模基准EVVE数据集上评估了我们的方法[29]。它包含2995个视频(620个视频被设置为查询),涉及13个特定的事件类。给定事件的单个视频,任务是从数据集中检索与同一事件相关的视频。根据每个事件计算的平均AP(mAP)对方法进行评估。通过对13个事件上的mAP求平均来评估整体性能。此外,还提供了一个大型干扰项数据集(100,000vedios)来评估大规模数据上的检索性能为了评估事件识别和叙述,我们使用了三个数据集:EVVE,哥伦比亚消费者视频(CCV)[19]和TRECVID MEDTest 14(MED14)[26]。除了在事件检索评估中使用它之外,我们还将EVVE配置为小型识别数据集。因此,它包含13个事件。 对于每个事件,我们将查询视频设置为测试数据(620个视频),并将数据集中的地面实况作为训练数据。我们报告的前1分类精度来评估识别性能。pi=平均池化.softmax. uTm.(七)CCV数据集包含9,317个YouTube视频属于20个班级。 我们遵循平均池化是用3个3窗口,步幅1. 然后通过对输出向量bi进行加权求和来计算输出向量o。Σo=pibi.(八)我对于内部状态向量u,用等式5计算的初始u1和k+1层中的uk+1被计算为:uk+1=uk+ ok。(九)最后的输出向量然后被馈送到决策网络中以预测事件类别。它可以是一个简单的软最大层或有多个完全连接层。再-生成图4中所示的每个帧的计数图[19] 使 用 4659 个 训 练 集 和 4658 个 测 试 集 的 视 频 。TRECVID MEDTest 14[26]是包含20个复杂事件的事件识别最具挑战性的数据集之一。在培训部分,每个活动有100个正面范例,所有活动共享负面范例,约有5,000个视频。测试数据大约有23000个视频。对于这两个数据集,mAP用于评估每个-根据NIST标准[26]进行事件识别。由于叙述任务中没有地面真实信息,我们只对事件叙述结果进行定性分析4.2. 实现细节帧级描述符。给定输入视频,我们sam-通过所有权重图的总和,Psum=Pk,而K以每秒5帧(5fps)的速度提取CNN fea-后验概率q(lt= i)(当我们通过层跟踪推理引擎时,还可以通过基于各个存储器层示出条件热图来进行更复杂的重新计数推断)。我们使用Psum表示在窗口Wi中从Psum裁剪的权重图。则帧t的重新叙述图Rt为ΣRt=q(lt= i)Psum.(十)i∈E每一帧的重要性得分是通过重叙述图的总和来获得的。2259××真的。我们展示了各种预训练的CNN模型,即,AlexNet[20], VGG[33]和ResNet-50[14]来评估我们的方法。我们采用这些模型的最后一个卷积层(ReLU之后)的输出作为帧描述符。CNN特征图通过线性插值被下采样到4 4以拟合TCG(为了计算效率,我们在TCG中设置S=4 4此外,我们还对视频中的所有帧描述符进行平均(总和聚合),作为评估我们框架的基线。后期处理。对于基线视频表示,我们应用与[1,2260××52 52505048484646444244404238 400 0.5 2 4 8(a) 活动图阈值代表尺寸地图总亚历克斯256 38.3总计1024 46.6总和-(alex+res)1280 47.3CGA-alex 256 42.6图5. (a)活动地图阈值τ的影响。(b)具有不同计数网格尺寸的计数网格聚合E.12],即首先对视频的表示向量进行l2归一化,然后使用PCA[15]进行白化,并再次进行l2对于视频印记上的计数网格描述符,功率归一化(α=0. (2)在实验中得到了比l ~2-归一化更好的结果。因此,在特征对齐之后,首先对计数网格描述子进行幂归一化,然后进行PCA白化和l2归一化.事件检索的重新排序方法。对于EVVE数据集上的事件检索任务,我们还采用了Douze等人提出的查询扩展方法的两种变体。[9]:平均查询扩展(AQE)和邻域差异(DoN)。在我们的实验中,我们设置N1= 10对于AQE,对于DoN,N1=10,N2=2000推理网络的训练细节。用随机梯度下降法(SGD)初始学习率为β=0。025,然后每5个周期退火β/2,直到完成20个周期。所有权重从具有零均值和σ = 0的高斯分布随机初始化。05.权重在不同的神经网络层之间共享。批量大小为128,并且在训练步骤期间将具有大于20的l2计算复杂性。最耗时的步骤是为输入视频构建视频印记。如[27]所述,通过有效使用累积和,使用EM算法学习CG的计算复杂度最多与计数网格大小和视频长度的乘积线性增长。在我们的实验中,在GPU平台(K40与MATLAB并行计算工具箱)上实现的EVVE(每个视频约1200帧)的TCG(具有ResNet功能)的平均运行时间约为15秒。4.3. 事件检索评价结果4.3.1参数分析活动贴图的阈值。图5(a)示出了在用于活动地图构造的不同阈值的情况下的检索性能。 我们可以观察到,增加τ有助于过滤掉一些非常短的镜头(只有七个),表1.与EVVE数据集上的求和聚合比较。Sum-和CGA-分别表示求和聚集和计数网格聚集。alex和res表示两个CNNmod。Els、AlexNet和ResNet-50。对于基于ResNet的表示,使用PCA白化将向量维数降低到1024。(alex+res)表示级联向量。通常没有那么有意义。 我们设定在随后的实验中,τ=8计数网格大小。为了评估计数网格大小的影响,我们首先固定计数网格的窗口大小(W=8 8)和镶嵌大小(S=4 4)。然后我们选择了7个不同的计数网格大小来执行功能对齐每种尺寸的性能见图5(b)。 当E>24时,不能获得进一步的改善。因此,对于以下实验,计数网格的大小固定为24。4.3.2与sum aggregation的比较我们将ER3上的无监督流程(结合特征对齐和聚合步骤)称为计数网格聚合(CGA)。表4.3.2显示了与基线相比的回收性能。我们在两个不同的CNN模型AlexNet [20]和ResNet-50 [14]上评估了CGA。我们的聚合方法获得了更好的检索性能,mAP = 52。3.特征对齐步骤的优点在于可以抑制帧间的冗余。此外,对于不同的CNN模型,可以观察到一致的改进,即,,11。2%的增长与AlexNet和9。9%,使用ResNet-50。4.3.3与最新技术水平的比较在表4.3.3中,我们可以看到与以前的工作相比,CNN特征的总和聚合已经取得了更好的结果[29,9]。在与100 K分布器合并后,CGA-(alex+res)的mAP达到42 。 9 , 这 也 优 于 基 线 ( mAP = 38 。 7 ) 和 Hyper-pooling [9](mAP = 26. (五)。此外,查询扩展可以进一步提高性能。我们达到36。6%和8. 与之前的结果相比改善9%(mAP = 44. 0)和基线(mAP = 55. 2)在EVVE上,分别。在大型数据集(EVVE+100K)上的查询扩展也观察到一致的改进CGA−resCGA−alex地图1610121620242832(b)计数网格尺寸ECGA-res102451.2CGA-(alex+res)128052.32261MMV[29] 512 33.4热膨胀系数[29]MMV+CTE 44.0 26.5 30.1总和-(alex+res)1280 47.3 53.1 55.2 38.7 45.847.1CGA-(alex+res)128052.3 58.5 60.1 42.9 50.4 52.7表2.检索性能与其他方法相比。AQE和DoN表示两种重新排序方法。CGA-75.7 76.6 79.1净入学率-76.7 78.579.9合计-26.0 30.4 32.8CGA-30.5 32.2 33.7净入学率-32.8 34.236.9表3.与和聚合和CGA的比较。Sum-和CGA-表示总和聚合和计数网格聚合,re-mix。RNet-表示推理网络。vgg和res de-注意两个CNN模型,VGG和ResNet-50。(vgg+res)表示后面的融合结果。2.01.51.00.50训练损失Sum−resCGA−resHops = 1跳数= 3跳数= 5跳数= 71 5 10 15200.4训练误差0.20.101 5 10 15 20为了公平比较,我们使用相同的决策网络作为基线和RNet输出的分类器。我们比较了两种表示,视频表示与总和聚集和计数网格聚集(CGA)。事实上,如果我们将权重映射的值固定为等于活动映射,则RNet将减少到CGA,0.40.30.20.10验证错误1 5 10 1520时代0.200.150.100.050.... 测试误差CGA 1 3 5 7啤酒花即图1中的无监督流。 我们可以看到,CGA提供了比总和聚合更好的性能,RNet可以进一步细化视频表示,并导致比两个基线更好的识别准确性。此外,增益也随着更多的跳数而增加。在CCV和MED14数据集上均观察到一致的增益。在以下实验中,我们针对CCV和MED14数据集。图6. 增加跳数的RNet对EVVE数据集的影响(最佳彩色视图)。4.4. 事件识别评价结果4.4.1参数分析推理网络的结构。 对于EVVE数据集,我们将softmax层设置为决策网络。视频印记基于ResNet-50[14]模型生成,其计数网格描述符首先通过PCA白化降低到256对于CCV和MED14数据集,我们在softmax层之前添加了一个全连接层作为决策网络,以获得更好的性能。除了ResNet-50模型之外,我们还使用VGG(16层)[33]模型评估了这两个数据集的框架对于ResNet-50和VGG,计数网格描述符的维度分别设置为1024和512。对于所有数据集,内部向量bi和mi具有与输入计数网格描述符相同的维度。内存层数。图6说明了在EVVE数据集上具有增加的跳数的RNet的影响。4.4.2CCV和MED14上的性能表4.4.2显示了RNet和基线方法的识别性能(mAP)。由于重新加权视频印记的好处,RNet在CCV上实现了更好的结果(mAP = 79。9)和MED14(mAP = 36.9)数据集与和-聚集和CGA的比较。此外,在CCV数据集上,我们还采用与[45]相同的策略将运动和音频特征与基于外观的表示相结合。如表4.5所示,融合结果(MA+RNet-(vgg+res))可以进一步提高识别性能(mAP = 87. (1)超越以往的工作。 在MED14数据集上,我们获得了相当的结果(mAP = 36。9)与最近的CNN模型为基础的方法。我们的优势是可以同时提供事件分析的重新计算结果。4.5. 事件叙述评价结果平均池的影响。与原始的记忆网络[34]相比,我们在记忆层中添加了一个平均池化层,它利用了视频印记中信息的空间组织图7演示了添加平均池MED14CCVEVVEEVVE+100K方法VGGres(vgg+res)方法Dim.AQE DoNAQE DoN合计-74.375.378.12262MA+RNet-(vgg+res)87.1毫秒×[45]第45话IDT[42,26] 27.6×Zha[50]×方法mAP重新计数Lai等人[21]43.6分Jiang等人[19]59.5×Wu等人[44]70.6×Nagel等[25]71.7×等人RNet-(vgg+res)79.9毫秒Gan等人[10]33.3分Xu等人[47]36.8×等人338.7RNet-(vgg+res)36.9千表4.与其他方法的比较。MA+RNet-(vgg+res)表示使用自适应融合方法与音频和运动信息融合的结果[45]。图8. 事件重新计数结果的示例。我们使用热图来表示重新计算图。每一帧中与事件相关的关键区域都被涂上了红色。重要性分数是由重新计算地图的总和计算的,在视频帧流上用颜色条(红色表示重要帧)5.结论和今后的工作图7.RNet中平均池化层的影响中间的一列显示了RNet的重新计算图。右列显示了去除了平均池化层的重新计数图。层.我们可以看到,重新计票的地图更加平滑和合理。叙述地图。图8示出了重新计数结果的一些示例。热图用于可视化重新叙述地图(地图重新缩放为相同尺寸与框架)。由于没有地面实况重新计算,我们只能提供一些示例,如图8所示。我们可以看到,我们的重新叙述过程不仅可以提供每个帧的重要性得分,还可以指示每个帧中最相关的区域。然而,由于输入特征图(S=4 4)的分辨率较低,空间级重新计算的结果也很粗糙。然而,重新叙述热图可以被视为其他后处理方法的良好先验,例如,对象分割。3 Zha等人通过融合运动特征(IDT)与其基于CNN的结果(mAP= 34. 第9段)。在本文中,我们提出了一个统一的框架,复杂的事件检索,识别和叙述。与以前的工作相比,我们引入了一个特征对齐步骤来生成基于帧级特征的视频印记。特征对齐步骤可以自动识别和抑制跨不同帧的冗余。实验结果表明,无论是在有监督的情况下还是在无监督的情况下,由视频印记生成的视频表示都优于以前的工作。此外,利用视频印记,我们可以进一步使用推理网络定位关键事件。作为后续研究,我们计划探索替代对齐方法,可以有效地处理多个特征,并进一步增强视频表示。此外,除了基于内容的视频分析问题之外,将所提出的框架扩展到一些跨领域的任务(如视频字幕)也是一个非常有前途的方向。确认本 研 究 得 到 了 国 家 重 点 研 究 发 展 计 划2016YFB1001004和国家自然科学基金资助61629301、61503296和61231018的支持王乐还获得了基础研究基金2015M572563和中央大学基础研究基金XJJ 2015066的支持。多米尼克·斯特劳斯-卡恩被捕……威廉王子和凯特·米德尔顿的婚礼……CCVMED142263引用[1] A. Babenko和V. Lempitsky聚合局部深度特征用于图像检索。在ICCV,第1269-1277页[2] M. Baillie和J. M.荷西。基于音频的体育视频事件检测。图像和视频检索国际会议,第300-309页,2003年[3] S. 巴塔查里亚 M. M. 卡拉耶, R. 苏肯卡尔 和M. Shah. 复杂事件的识别:利用基本概念之间的时间动态。在CVPR中,第2235[4] F. Caba Heilbron,V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet:人类活动理解的大规模视频基准。在CVPR中,第961[5] L. Cao,Y. Mu,A. Natsev,S. F. Chang、G. Hua和J. R.史密斯用于复杂视频识别的场景对齐池在ECCV中,第688-701页。2012年。[6] C.- C. Chang和C J. Lin Libsvm:支持向量机库。ACMTIST,2(3):27,2011.[7] X. 张,Y.-L. Yu,Y.Yang和A.G. 豪普特曼有说服力的搜索:在有限的监督下联合进行事件检测和证据在ACM MM,第581-590页[8] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR,第886-893页[9] M. Douze,J. R ev aud,C. Schmid和H. 我去。 用于事件检测的稳定在ICCV,第1825-1832页[10] C.甘N. Wang,Y.杨,D Y. Yeung,和A. G.豪普特-曼。Devnet:用于多媒体事件检测和证据叙述的深度事件网络。在CVPR,第2568- 2577页[11] C. Gan,T. Yao,K. Yang,Y. Yang和T.美.您引领,我们超越:通过共同开发网络视频和图像来进行免费视频概念学习。在CVPR中,第923-932页[12] Z.作者:Gao,J. Xue,W. Zhou,S. Pang和Q.田图像检索中的民主扩散聚合TMM,18(8):1661[13] Y.贡湖,澳-地王河,巴西-地Guo和S. Lazebnik深度卷积激活特征的多尺度无序池化。在ECCV,第392-407页[14] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年6月。[15] H. J e'gou和O. 好朋友图像检索中的证据和共现:PCA和白化的好处见ECCV,第774-787页。2012年。[16] H. 我也是M. 杜兹角Schmid,和P. 佩雷斯。将局部描述符聚集成紧凑的图像表示。在CVPR,第3304-3311页[17] Y.-- G. Jiang,S. Bhattacharya,S.- F. Chang和M. Shah.无约束视频中的高级事件识别。IJMIR,2(2):73[18] Y.-- G.姜,Z. Wu,J. Wang,X. Xue和S.- F.昌开发视频分类中的特征和类关系[19] Y.-- G. Jiang,G.是的S F.张氏D. Ellis和A. C.路易消费者视频理解:一个基准数据库和对人类和机器性能的评估。InICMR,page 29,2011.[20] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS,第1097-1105页[21] K.- T.莱,X。Y. Felix,M.- S. Chen和S.- F.昌通过推断时间实例标签的视频事件检测。在CVPR,第2251-2258页[22] K.- T. Lai,D.刘,M.- S. Chen和S.- F.昌通过学习关键静态-动态证据来识别视频中的复杂事件在ECCV中,第675-688页[23] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV,60(2):91[24] Z.马,Y。杨,Z. Xu,S. Yan,N. Sebe和A. G.豪普特-曼。通过多源视频属性的复杂事件检测。在CVPR,第2627-2633页[25] M. Nagel , T. 门 辛 克 角 G. Snoek 等 人 Event fishervectors:视觉流的视觉多样性的鲁棒编码。2015.[26] P. Over,J. Fiscus,G. Sanders、D.乔伊,M. Michel,G.阿瓦德A. Smeaton ,W. Kraaij和G. 怎 么 了。TRECVID2014在TRECVID的会议记录中,第52页,2014年。[27] A. Perina和N.乔伊奇捕捉图像特征中的空间相互依赖性:计数网格,特征袋的缩影表示TPAMI,37(12):2374[28] F. Perronnin和D.拉勒斯Fisher向量满足神经网络:混合分类架构。在CVPR,第3743[29] J. R ev aud,M. 杜兹角Schmid和H. 我去。利用循环时间编码在大型视频集合中进行事件重在CVPR,第2459-2466页[30] J. 是桑切斯,弗。佩罗宁,T. Mensink ,J。 维尔贝克 。 Fisher 向 量 图 像 分 类 : 理 论 与 实 践 .IJCV , 105(3):222[31] A. Sharif Razavian,H.阿兹普尔J. Sullivan和S.卡尔-儿子。CNN特色现成:一个令人震惊的认可基线在CVPR研讨会,第806-813页[32] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在NIPS,第568[33] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。[34] S. Sukhbaatar,J.韦斯顿河Fergus等人端到端的数据库网络。在NIPS,第2440-2448页[35] C. Sun和R.奈瓦提亚ACTIVE:视频事件分类中的活动概念转换。在ICCV,第913-920页[36] C. Sun和R.奈瓦提亚DISCOVER:发现视频事件分类和叙述的重要片段。在CVPR,第2569-2576页[37] R. 塞利斯基图像对齐和拼接:教程。方-正则化深度神经网络。arXiv预印本arXiv:1502.07209,2015。dationsandTrends2(1):1在计算机图形学和视觉,2264[38] R. Szeliski和H. Y.沈创建全景图像马赛克和环境地图。在Proceedings of the 24th annual conference on Computergraphics and interactive techniques,pages 251[39] L. Torresani,M. Szummer和A.菲茨吉本使用类素的有效对象类别识别。见ECCV,第776[40] C.- Y.蔡,M。L.亚历山大,N. Okwara和J. R.肯德高效的多媒体事件叙述从用户的语义偏好。在ICMR,第419页,2014年。[41] H. Wang、黄毛菊A. Kl aéser,C. Schmid和C.- L. 刘某密集轨迹的动作识别在CVPR,第3169-3176页[42] H. Wang和C.施密特具有改进轨迹的动作识别。在ICCV,第3551-3558页[43] J. Weston , A. Bordes , S. Chopra , A. M. 拉 什 湾 vanMerri eünboer, A. Joulin 和T. 我爱你Towardsai-complete question answering:一组先决条件玩具任务。arXiv预印本arXiv:1502.05698,2015年。[44] Z.吴玉- G.作者简介:王建,王建. Pu和X.雪利用深度神经网络探索视频分类的特征间和类间关系。在ACMMM,第167- 176页[4
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功