没有合适的资源?快使用搜索试试~ 我知道了~
4006预测运动和外观统计王江流1 <$焦建波2 <$<$鲍林超3<$何胜峰4刘云辉1刘伟3 <$1香港中文大学2牛津大学3腾讯人工智能实验室4华南理工摘要我们解决了没有人类注释标签的视频表示学习问题虽然以前的努力通过使用视频数据设计新颖的自我监督任务来解决这个问题,但学习到的特征仅仅是一个(5,)(2,蓝色)(4,绿色)逐帧的基础上,这是不适用于许多时空特征占优势的视频分析任务在本文中,我们提出了一种新的自我监督的方法来学习时空特征的视频表示。受双流方法在视频分类中的成功的启发,我们提出通过沿着空间和时间维度回归运动和外观统计来学习视觉特征,仅给出输入视频数据。具体来说,我们提取统计概念(快速运动区域和相应的主导方向,时空颜色多样性,主导颜色等)。从空间和时间域中的简单模式中获得。不像以前的难题,甚至很难为人类解决,提出的方法是符合人类固有的视觉习惯,因此很容易回答。我们进行了广泛的实验与C3D验证我们所提出的方法的有效性。实验结果表明,该方法可以显着提高C3D的性能时,应用于视频分类任务。代码可在https://github.com/laura-wang/video repres mas.1. 介绍学习强大的时空表示是许多视频理解任务(如动作识别)的最基本的深度学习问题[4,17,26],动作建议和定位[5,33,34]、视频字幕[40,42]等。通过使用大量人类注释的视频数据训练表达网络已经取得了巨大的进展[37,38]。然而,注释视频数据是非常费力和昂贵的,这使得从非线性学习†在腾讯人工智能实验室实习期间完成的工作*通讯作者。图1.提出的方法的主要思想。给定一个视频序列,我们设计了一个新的任务来预测来自运动和外观统计的时空表示学习的几个数字标签,在一个自我监督的方式。每个视频帧首先使用不同的分区模式(如上面所示的网格)划分为几个空间区域。然后,导出的统计标签,如具有最大运动及其方向的区域(红色斑块),外观上最发散的(黄色斑块),以及外观上最稳定的区域及其主色(蓝色斑块),在学习期间用作监督。标记为重要和有趣的视频数据。最近,已经出现了几种方法[27,11,24,12]来学习具有未标记视频数据的视频识别任务的可转移表示。在这些方法中,CNN首先使用新颖的自监督任务在未标记的视频数据上进行预训练,其中监督信号可以很容易地从输入数据中导出,而无需人工劳动,例如用扰动的视频帧顺序解决难题[27,11,24]或预测用其他计算方法获得的流场或视差图[12]。然后,学习到的表示可以直接应用于其他视频任务作为特征,或者在后续的监督学习期间用作初始化。不幸的是,尽管这些工作证明了使用未标记视频进行自监督表示学习的有效性在大多数视频理解任务中,可以捕获外观和运动信息的时空特征在最近的许多研究中被证明是至关重要的[2,35,37,4,38]。为了提取时空特征,一个网络,147258369出现运动出现4007需要能够接受多个帧作为输入并沿空间和时间维度执行操作的体系结构例如,流行的C3D网络[37]接受16帧作为输入,并沿空间和时间维度采用3D卷积来提取特征,对于许多视频任务[33,34,22,25,42]来说越来越流行Vondrick等人[39]提出通过基于C3D的网络来解决表示学习,而运动和外观没有明确地结合,因此当将学习的特征转移到其他视频任务时,性能不令人满意。在本文中,我们提出了一种新的自监督学习方法,通过预测未标记视频中的运动和外观统计来学习时空视频这个想法受到Giese和Poggio关于人类视觉系统的工作的启发这些模式被形式通路中的神经元编码为身体形状的快照序列,并被运动通路中的复杂光流模式序列编码。在我们的工作中,这两条途径分别是外观分支和运动分支。此外,抽象统计概念也受到生物层次感知机制的启发.我们方法的主要思想如图1所示。我们设计了几种空间分割模式来编码每个空间位置及其在多帧上的运动和外观统计,并使用编码的向量作为监督信号来训练时空表示网络。新颖的对象易于学习并且对于视频中的运动和外观分布是信息丰富的,最主要运动的空间位置及其方向、在某个时间立方体上最一致和最多样的颜色等。我们使用C3D网络进行了大量的实验,以验证所提出的方法的有效性。我们表明,与从头开始训练相比,使用我们提出的方法预训练没有标签的C3D大大提高了动作识别任务的性能(例如, 四十五4%v.s. 61岁2%,UCF 101)。通过将学习到的表征转移到其他视频任务在较小的数据集上,我们证明了在各种任务上的显著性能增益,如动态场景识别、动作相似性标记等。2. 相关工作自监督表示学习被提出来利用大量的未标记数据来学习各种问题的有用表示,例如,图像分类,对象检测,视频识别等。已经证明,许多深度学习方法可以从大型标记数据集上的预训练模型中受益,例如,ImageNet [7]用于图像任务,Kinetics [19]或Sports-1 M[18]用于视频任务。自我背后的基本动机监督表示学习是用“自由”的未标记数据代替昂贵的标记数据实现自监督学习的一种常见方法是在没有人类注释的情况下获得易于获得的监督信号,以鼓励学习用于常规任务的有用特征。提出了各种新颖的任务来从未标记的图像数据中学习图像表示,对扰动的图像块重新排序[9,29]、对灰度图像着色[45]、修补缺失区域[32]、对虚拟基元计数[30]、对图像旋转分类[13]、预测使用聚类算法获得的图像标签[3]等。还有一些研究试图从未标记的视频数据中学习图像表示。Wang和Gupta [43]提出使用传统的跟踪算法从未标记的视频Pathak等人[31]而是使用传统的运动分割算法从视频中获得标签。最近的研究利用视频数据试图学习视频任务的trans-ferable表示。Misra等人[27]设计了一个二进制分类任务,并要求CNN预测视频输入的顺序是否正确。Fer-nando等。[11] Leeet al. [24]还根据视频帧顺序设计任务。 Gan等人[12]建议一种几何引导的网络,迫使CNN预测两个输入帧之间的流场或视差图尽管这些工作证明了使用未标记视频进行自监督表示学习的有效性,并且在将学习到的特征转移到视频识别任务时表现出令人印象深刻的性能,但它们的方法仅适用于接受一个或两个帧作为输入的CNN,与我们最相关的工作 是 Vondrick 等 人 。 [39] Kimet al. [20 ] 第 20 段 。Vondrick等人[39]提出了一种具有时空3D卷积架构的视频GAN模型,该模型可用作视频表示学习的自监督方法。Kim等人[20]提出通过解决时空立方体难题来学习具有未标记视频数据的时空表示,这是2D难题的直接扩展[29]。3. 我们的方法我们设计了一个新的任务,通过预测视频序列中的运动和外观统计信息进行自监督视频表示学习。该任务是生物启发的,符合人类视觉习惯[14],以捕捉视频的高级概念。在本节中,我们首先说明统计概念和设计任务的动机(第二节)。第3.1节)。接下来,我们正式定义了所提出的统计标签(Sec. 3.2和3.3)。最后,我们提出了将自监督任务应用于C3D网络时的整个学习框架[37](第二节)。第3.4段)。40081伊XyXy3.1. 统计概念给定一个视频剪辑,人类通常首先注意到视野的移动比例[14]。通过观察前景运动和背景外观,我们可以很容易地告诉运动类的先验知识的基础上。受人类视觉系统的启发,我们将理解视频的过程分解为几个问题,并鼓励CNN相应地回答它们:(1)视频中最大的运动在哪里?(2)最大运动的主导方向是什么?(3)哪里的颜色多样性最大,它的主色是什么? (4)哪里的颜色多样性最小,一个场景的潜在背景,它的主色是什么?将这些问题量化为无注释训练标签的方法将在以下章节中详细描述。在这里,我们介绍了运动和外观的统计概念。图2示出了具有两个移动对象(蓝色圆圈和黄色三角形)的三帧视频剪辑的示例。一个典型的视频剪辑通常包括更多的帧。在这里,我们使用三帧剪辑来更好地理解关键思想。为了准确地表示位置并量化蓝色圆圈从第四块移动到第七块,黄色三角形从第十二块移动到第十一块。比较移动距离,我们可以很容易地看出,蓝色圆圈的运动大于黄色三角形的运动。最大的运动位于块7中,因为它包含帧1和帧2之间的移入运动和帧2和帧3之间的移出运动。至于“最大运动的主导方向是什么?”, it can be easily observedfrom Figure 为了量化方向,全角度360度角是八个角,每个角覆盖一个◦v图2.一个简单的说明统计概念在一个三帧的视频剪辑。参见第二节中的解释。3.1更多详情和外观统计,这样通过正确预测它们,可以粗略地导出以下查询:视频中的最大运动位置和主要运动方向、帧及其空间位置上最一致的颜色、以及帧及其空间位置上最多样的颜色。3.2. 运动统计我们使用通过经典的粗到精算法计算的光流[1]来导出要在我们的任务中预测的运动统计标签。光流是一种运动表示特征,常用于许多视频识别方法中。例如,经典的双流网络[35]和最近的I3D网络[4],两者都使用光流堆栈作为动作识别任务的输入。然而,基于光流的方法对相机运动敏感,因为它们表示绝对运动[4,41]。为了抑制摄像机运动的影响,我们转而寻求一个更鲁棒的特征,运动边界[6],以捕获视频运动信息。运动边界将光流水平分量和垂直分量分别表示为u和v。通过计算u和v的x和y导数来计算运动边界,即,ux=u,uy=u,vx=v,45 运动方向范围。 和地点类似的是-每个角件都被分配到一个编号,按逆时针方向升序排列。“左下角”对应的角片数对于外观统计,最大的时空颜色多样性区域也是块7,因为它从背景颜色变为圆形颜色。主色与移动圆的颜色相同,即,蓝色的.对于最小颜色多样性位置,大多数块保持不变,背景颜色为白色。∂x ∂y ∂xvy=10v。由于运动边界捕捉流场中的变化,恒定或平滑变化的运动(诸如由相机视图变化引起的运动)将被抵消。仅保留运动边界信息,如图3. 具体地,对于N帧视频剪辑,(N-1)N =2计算运动边界。多样化的视频运动通过如下对每个分量的所有这些(N-1)个稀疏运动边界求和,可以将信息编码为两个概括的运动边界:牢记上述概念和动机,我们接下来提出了新的自监督方法。我们假设通过训练时空CNN来预测上述运动和外观统计,Mu=(NΣ−1i=1ui,NΣ−1i=1i),Mv=(NΣ−1i=1vi,NΣ−1i=1(1)可以学习到更好的时空表示,从而有利于视频理解任务。具体来说,我们设计了一个新的回归任务来预测一组与运动相关的数字其中Mu表示水平光流u上的运动边界,Mv表示垂直光流v上的运动边界。图3示出了两个合计运动边界图像的可视化。1 2 3 42 3 478u3 27 81 2 3 41112415611 127 815 165815 166 79 10111213 14 15 164009123456789101112131415 16运动边界运动边界图3.运动边界计算。对于给定的输入视频剪辑,我们首先提取每个帧上的光流。对于每个光流,通过分别计算光流的水平分量和垂直分量上的梯度来获得两个运动边界通过分别聚合每帧的u流和v流上的运动边界来获得最终的求和运动边界空间感知运动统计标签。在本节中,我们描述如何设计要由我们的自监督任务预测的空间感知运动统计标签:1)最大运动在哪里;2)基于运动边界,最大运动的主导方向是什么给定一个视频片段,我们首先使用简单的模式将其划分为几个块虽然模式设计是一个有待研究的内部问题,但在这里,我们介绍三个简单而有效的模式,如图4所示。对于每个视频块,我们为其分配一个数字以表示其位置。然后,我们如上所述计算Mu和Mv每个像素的运动幅度和方向可以通过将运动边界Mu和Mv从笛卡尔坐标投射到极坐标来获得。对于最大运动统计量,我们计算每个块的平均幅度,并使用具有最大平均幅度的块的数量作为最大运动位置。注意,从Mu和Mv计算的最大块号可以不同。因此,我们使用两个标签来分别表示Mu和Mv的最大运动位置而对于主导方向统计,基于最大运动块计算方向直方图,类似于计算运动边界直方图(MBH)[6]。请注意,我们没有归一化步骤,因为我们没有计算描述符。相反,我们将360°分成8个bin,每个bin包含45°角范围,并再次为每个bin分配一个数字来表示其方向。对于最大运动块中的每个像素,我们首先使用其方向角来确定它属于哪个角度仓,然后将相应的幅度数添加到角度仓中。主导方向是432123145867图4.三种不同的分区模式(从左到右:1到3),用于将视频帧划分为不同类型的空间区域。 模式1将每个帧划分为4×4块。 模式2将每个帧分为4个不同的非重叠区域,每个块之间的间隙相同。模式3通过两条中心线和两条对角线划分每帧。标签的索引策略显示在底部行中。具有最大幅度和的角度仓的编号。全局运动统计标签。我们还提出了一套以提供对上述局部运动统计的补充信息。CNN被要求预测最大的运动帧,而不是专注于视频剪辑的局部补丁即给定N帧视频剪辑,鼓励CNN从全局角度理解视频演变,并找出哪两帧之间包含最大运动。最大的运动分别由Mu和Mv量化,并使用两个标签来表示全局运动统计。在u流RGB视频剪辑光流关于v_flowv_flow上的求和u_flow上的求和关于v_flow光流在u流………时间4010运动边界图5.所提出方法的网络架构。给定16帧视频,我们回归运动分支的14个输出和外观分支的13个输出。对于每个运动模式,通过聚合运动边界Mu和Mv来生成4个标签:– Mu的最大星等位置。(2)uo(3)vl-(4)vo– vl的相应取向。 对于每个外观模式,预测4个标签:(1)p-d-最大颜色多样性的位置。(2)cd(3)ps(4)cs3.3. 外观统计时空颜色多样性标签。给定N帧视频剪辑,与运动统计相同,我们通过上述模式将其对于N帧视频块,我们首先计算每个帧i的3D颜色空间中的3D分布Vi。然后,我们使用沿时间轴的交越联合(IoU)来量化时空颜色多样性,如下所示:V1V2. 你... 1995年3.4. 使用时空CNN学习我们采用流行的C3D网络[37]作为视频时空表示学习的骨干。 相反C3D提出用三维卷积核k×k×k来学习空间和时间信息。与...进行公平的比较其他自监督学习方法,我们使用较小版本的C3D,如[37]所述。它包含5个卷积层,5个最大池层,2个全连接层,IoU评分=iN.(二)ers和一个软最大损失层在最后预测的行动V1V2. 我的朋友 N最大颜色多样性位置是具有最小IoU分数的块,而最小颜色多样性位置是具有最大IoU 分 数的块。在实践中,我们分别计算R、G、B通道上的IoU分数,并通过对它们进行平均来计算最终的IoU分数主色标签。在我们计算出最大和最小的颜色多样性位置之后,相应的主色由另外两个标签表示。在3-DRGB颜色空间中,我们将其均匀地划分为8个bin。对于两个代表性的视频块,我们通过其RGB值为每个像素分配相应的bin编号,并且具有最大像素数量的bin是主颜色。全局外观统计标签。我们还设计了一个全局外观统计表来提供补充信息。特别地,我们使用整个视频的主颜色作为全局统计。计算方法与上述相同。类,类似于CaffeNet [16]。我们遵循与C3D相同的视频预处理过程。输入视频样本首先被分割成非重叠的16帧视频剪辑。对于每个输入视频剪辑,它首先被重新整形为128× 171,然后随机裁剪为112× 112,用于空间抖动。因此,C3D的输入大小为16× 112×112 ×3。时间抖动也采用随机水平翻转整个视频片段我们将自我监督任务建模为回归问题。我们提出的方法的整个框架如图5所示。当使用上一节中介绍的自监督标签预训练C3D网络时,在最终卷积层之后,我们使用两个分支分别回归运动统计标签和外观统计标签对于每个分支,使用两个完全我们用一个完全连接的层替换最终的soft-max loss层,其中运动分支有14个输出,外观分支有13个输出均方....运动分支光流模式2(ul,uo,vl,vo)....骨干网外观分支全球(C)模式3(pd,cd,ps,cs)模式2(pd,cd,ps,cs)模式1(pd,cd,ps,cs)全局(ui,vi)模式3(ul,uo,vl,vo)模式1(ul,uo,vl,vo)4011误差用于计算目标统计标签和预测标签之间的差异。4. 实验在本节中,我们评估我们提出的方法的有效性。我们首先进行几个消融研究的局部和全球,运动和外观统计设计。具体来说,我们使用运动统计作为我们的辅助任务,外观统计以类似的方式起作用不同视频样本的基于激活的注意力图是可视化的,以验证我们提出的方法。其次,我们将我们的方法与基于两个流行数据集UCF 101 [36]和HMDB 51 [23]的动作识别问题的其他自监督学习辅助任务进行了比较。我们的方法达到了国家的最先进的结果。最后,我们进行了两个关于动作相似性[21]和动态场景识别[8]的实验,以验证我们的自监督时空特征的可转移性。4.1. 数据集和评价在我们的实验中,我们合并了五个数据集:[19]除非特别说明,否则我们使用UCF101数据集进行模型预训练。UCF101数据集[36]由13,320个视频样本组成,分为101个动作类。其中的动作都是自然执行的,因为它们是从YouTube上收集的。由于人体姿势和外观、物体尺度、光线条件、相机视角等变化很大,其中的视频相当具有挑战性。它包含三个训练/测试分割,在我们的实验中,我们使用第一个训练分割来预训练C3D。Kinetics-400数据集是一个非常大的人类行为数据集[19]最近提出的。它包括400个人类动作类,每个类有400个或更多的视频剪辑。每个样本都是从YouTube上收集的,并被剪辑成一个10秒的视频剪辑。该数据集非常具有挑战性,因为它包含相当大的相机运动/抖动、照明变化、阴影等。我们使用训练分割进行预训练,其中包含大约24万个视频。HMDB51数据集[23]是一个较小的数据集,包含6766个视频和51个动作类。它还包括三个训练/测试部分。在我们的实验中,为了与其他人进行公平的通信,我们使用HMDB51训练分割1来微调预训练的C3D网络,并在HMDB51测试分割1上测试动作当在UCF 101训练分割1视频数据上进行预训练时,我们将批量大小设置为30,并使用学习率为0.001的SGD优化器。我们将每5个时期的学习率除以10。训练过程在20个时期停止。在Kinetics-400训练拆分上进行预训练时,批量大小为30,我们使用学习率为0.0005的SGD优化器。 学习率除以10,7个epoch,模型也训练了20个epoch。当表1.在UCF 101上比较不同模式的动作统计对动作识别的性能初始化准确度(%)随机45.4运动模式153.8运动模式253.2Moiton模式354.2通过微调C3D,我们保留了来自预训练网络的conv层权重整个网络在0.001的学习率上使用SGD进行微调。学习时间表与预培训程序相同。测试时,对所有视频计算动作分类的平均准确度,以获得视频级准确度。4.2. 消融分析在本节中,我们分析了我们的局部和全局统计,运动和外观统计的广泛实验的性能。特别地,我们首先在UCF 101火车分裂1上使用不同的统计设计来预训练对于局部和全局统计消融研究,我们对带有人类注释标签的UCF 101训练分割1数据进行预训练模型微调。对于高级外观和运动统计研究,我们还使用HMDB51train split 1对C3D进行了微调,以更好地了解设计。格局本节的目的是研究不同图案设计的性能。具体来说,我们使用的运动统计和外观统计遵循相同的趋势。如表1所示,所有三种模式都优于随机初始化,即,从头开始训练设置,大约8%,这有力地证明了我们的运动统计是一项非常有用的任务。三种模式的性能相当相似,说明我们进行了均衡的模式设计。本地VS Global. 在本节中,我们比较了局部统计的性能,最大的运动视频块在哪里?,全局统计,最大的运动帧在哪里?以及它们的组合。从表2中可以看出,只有全局统计作为动作识别问题的有用辅助任务,提高了3%。当三种运动模式组合在一起时,我们可以进一步获得1.5%左右的改善,与单一模式相比。最后,所有运动统计标签都可以达到57.8%的准确率,这与从头开始训练相比是一个显著的改进。运动、RGB和联合统计。 最后,我们比较了UCF 101和HMDB 51数据集上的所有运动统计、所有RGB统计及其组合,如表所示3 .第三章。从表中,我们可以发现,外观和运动统计数据都是UCF 101和HMDB 51数据集的有用的自监督信号。运动统计是4012表2.UCF 101数据集上动作识别的局部和全局运动统计比较表4.与UCF 101和HMDB 51上最先进的自监督视频表示学习方法的初始化准确度(%)方法UCF 101 acc.(%)HMDB51 acc.(%)随机45.4DrLim [15]38.413.4运动全局48.3[28]第二十八话45.415.9运动模式全部55.4[43]第四十三话42.715.6运动模式全部+全局57.8表3. UCF 101和HMDB 51数据集上不同监督信号的比较。域名UCF101 acc.(%)HMDB51 acc. (%)序列版本[27日]50.919.8VGAN [39]52.1-OPN [24]56.322.1几何学[12]55.123.3我们的(UCF101)58.832.6[20]第20届中国国际汽车工业展览会因为时间信息对于视频理解更重要。值得注意的是,虽然UCF 101在结合运动和外观时仅提高了1%,但HMDB 51数据集从组合中受益匪浅,提高了3%。4.3. 动作识别在本节中,我们将我们的方法与其他自监督学习方法在动作识别问题上进行比较。特别地,我们将结果与RGB视频输入进行比较,并直接引用[12]中的数字。如表4所示,与现有技术相比,我们的方法可以在UCF 101和HMDB 51上实现显著改善。与在UCF101数据集上预训练的方法相比,我们在HMDB51上的准确率比[12]提高了9.3%,在UCF101上的准确率比[24]提高了2.5%。与最近提出的使用3D CNN模型在Kinetics数据集上进行预训练的方法相比,我们还可以在UCF101上实现0.6%的改进,在HMDB 51上实现5.1%的改进请注意,[20]在预训练期间使用了各种正则化技术,例如通道复制,分类旋转和时空抖动,而我们没有使用这些技术。结果强烈支持我们提出的预测运动和外观统计任务可以真正驱动CNN学习强大的时空特征。该方法可以生成多帧时空特征,并可用于其他视频任务。可视化。为了进一步验证我们提出的方法确实有助于C3D学习视频相关特征,我们在几个视频帧上可视化注意力图[44],如图6所示。值得注意的是,对于类似的行动:涂抹眼妆和涂抹唇膏,C3D仅对由运动边界量化的最大运动位置敏感,如右图所示。对于不同的尺度运动,例如,球-图6.注意力可视化。 从左到右:来自视频剪辑的帧,通过使用[ 44 ]的帧上的conv5层的基于激活的注意力图,整个视频剪辑的运动边界Mu,以及整个视频剪辑的运动边界Mv。在电子束动作的情况下,预先训练的C3D也能够聚焦于有区别的位置。4.4. 动作相似性标注我们在ASLAN数据集上验证了我们学习的时空特征[21]。该数据集包含432个类别的3,631个视频样本。任务是预测给定的两个视频是否属于同一类。我们使用C3D作为特征提取器,然后使用线性SVM进行分类。每个视频样本被分成几个16帧的视频片段,其中8帧重叠,然后通过C3D上的前馈传递来提取最后一个卷积层的特征视频级的时空特征是通过平均的剪辑功能,其次是l2归一化。当在ASLAN数据集上进行测试时,我们遵循相同的10折交叉验证,每个折中都有留一评估协议。给定一对视频,我们首先从每个视频中提取C3D特征,然后计算[21]中描述的12个不同距离。12个(不)相似性最终被连接在一起以获得一个从头45.419.7动力学(Kinetics)61.233.4外观48.620.3运动57.829.95联合58.832.64013表5.比较不同的手工制作的功能和我们提出的四个场景在ASLAN数据集上的性能。特征准确度(%)HOF [21]56.68HOG [21]59.78科技革新政策[21]60.9C3D,随机初始化51.7C3D,带标签58.3C3D,自我监督训练59.4C3D,微调自我监督62.3视频对描述符,然后将其馈送到线性SVM分类器。由于每个距离的尺度不同,我们将距离分别归一化为零均值和单位方差,如[37]所述。由于没有以前的自监督学习方法在这个数据集上做过实验,为了验证我们的自监督任务可以驱动C3D学习强大的时空特征,我们设计了4个场景来从ASLAN数据集中提取特征:(1)采用随机初始化C3D作为特征提取器。(2)使用在UCF 101上预训练的C3D,使用标签作为特征提取器。(3)使用在UCF 101上预训练的C3D,并使用我们的自监督任务作为特征提取器。(4)在我们的自监督模型上使用UCF 101上的C3D微调表5显示了不同特征提取器的性能。随机初始化模型可以达到51.4%的准确率,因为问题是一个二元分类问题。令我们惊讶的是,尽管我们的自监督预训练C3D之前从未见过ASLAN数据集,但它仍然可以在这个问题上表现出色,并且比使用人类注释标签训练的C3D高出1.1%。这些结果有力地支持了我们提出的自监督任务能够学习强大的和可转移的时空特征。这可以用动作相似性标注问题的内在特征来解释。与以往的动作识别问题不同,ASLAN数据集的目标是预测视频相似性,而不是预测实际的标签。为了实现良好的性能,C3D必须理解视频上下文,这正是我们试图用我们的自我监督方法驱动C3D做的事情。当使用UCF101上的标签微调我们的自监督预训练模型时,我们可以进一步获得约3%的改进。它优于手工制作的功能STIP[21],这是三个流行功能的组合:HOG、HOF和HNF(HOG和HOF的组合物)。4.5. 动态场景识别在UCF101、HMDB51和ASLAN数据集上的性能表明,我们提出的自监督学习任务可以驱动C3D学习强大的时空特征用于动作识别问题。人们可能会想,与动作相关的特征是否可以推广到其他表6.与手工特征和其他自监督表示学习方法在YUPENN数据集上的动态场景识别问题的比较。方法[10][八]《中国日报》[四十三][27日][12]我们的准确度(%)86.080.770.4776.6786.9九十二有什么问题吗我们通过将学习的特征转移到基于YUPENN数据集的动态场景识别问题来研究这个问题[8],该数据集包含14个动态场景的420个视频样本。对于数据集中的每个视频,首先将其分割为16帧剪辑,其中8帧重叠。然后基于我们的自监督C3D预训练模型从最后一个conv层提取时空特征通过平均每个视频剪辑特征,然后进行l2归一化来获得视频标签表示最后使用线性支持向量机对每个视频场景进行分类。我们遵循与[8]中所述相同的留一法我们将我们的方法与手工制作的功能和其他自我监督学习任务进行了比较,如表6所示。我们的自监督C3 D优于trans-mapping功能和自监督学习方法。它表明,尽管我们的自监督C3D是在动作数据集上训练的,但学习的权重具有令人印象深刻的转移到其他视频相关任务的能力。5. 结论在本文中,我们提出了一种新的方法,用于自监督时空视频表示学习,通过预测一组来自运动和外观统计的统计标签我们的方法是生物启发的,与人类视觉系统一致我们证明,通过使用我们的方法对未标记的视频进行预训练,C3D网络的性能在动作识别问题上比随机初始化有显着提高。与其他自监督表示学习方法相比,我们的方法在UCF101和HMDB51数据集上取得了最先进的这有力地支持了我们的方法可以驱动C3D网络捕获更多关键的时空信息。我们还表明,我们预先训练的C3D网络可以用作其他任务的强大特征提取器,例如动作相似性标记和动态场景识别,我们还在公共数据集上实现了最先进的性能。鸣谢:这项工作得到了中国自然科学基金U1613218和61702194基金的支持,香港创新科技署ITS/448/16 FP基金的支持,以及香港中文大学T Stone机器人研究所的VC基金4930745的支持。Jianbo Jiao得到了EPSRC项目资助的支持。4014引用[1] ThomasBrox , Andre 'sBruhn , NilsPapenberg ,andJoachimWeickert.基于翘曲理论的高精度光流估计。见ECCV,2004年。3[2] Liujuan Cao,Rongrong Ji,Yue Gao,Wei Liu,and QiTian.面向鲁棒动作检索的时空视频模式挖掘。神经计算,105:61-69,2013。1[3] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV,2018。2[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。第1、3条[5] Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR,2018年。1[6] Navneet Dalal、Bill Triggs和Cordelia Schmid。使用流量和外观的定向直方图进行人体检测。在ECCV,2006年。三、四[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。2[8] Konstantinos G Derpanis , Matthieu Lecce , KostasDaniildans,and Richard P Wildes.动态场景理解:空间和时间方向特征在场景分类中的作用。CVPR,2012。六、八[9] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,2015年。2[10] Christoph Feichtenhofer , Axel Pinz , and Richard PWildes. 时 空 森 林 与 动 态 场 景 识 别 的 互 补 功 能 。InBMVC,2013. 8[11] Basura Fernando,Hakan Bilen,Efstratios Gavves,andStephen Gould.自监督视频表示学习与奇一网络。在CVPR,2017年。一、二[12] Chuang Gan , Boqing Gong ,Kun Liu , Hao Su, andLeonidas J Guibas.用于自监督视频表示学习的几何引导卷积神经网络。在CVPR,2018年。一、二、七、八[13] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR,2018年。2[14] Martin A Giese和Tomaso Poggio。认知神经科学:生物运动识别的神经机制Nature Reviews Neuroscience,4(3):179-192,2003. 二、三[15] R Hadsell,S Chopra和Y LeCun。通过学习不变映射来降低维数。CVPR,2006。7[16] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe:用于快速特征嵌入的卷积架构ACM Multimedia,2014年。5[17] Yu-Gang Jiang,Qi Dai,Wei Liu,Xiangyang Xue,andChong-Wah Ngo.基于显式运动建模的非约束视频中的人体动作识别。IEEE TIP,24(11):3781-3795,2015年。1[18] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模CVPR,2014。2[19] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。二、六[20] Dahun Kim,Donghyeon Cho,and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI,2019年。二、七[21] 奥利特·克利珀-格罗斯、塔尔·哈斯纳和利奥尔·沃尔夫。动作相似性标签挑战。IEEE TPAMI,34(3):615-621,2012年。六七八[22] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles 。 视 频 中 的 密 集 字 幕 事 件 。InICCV,2017. 2[23] Hildegard Kuehne,Hueihan Jhuang,Est´ıbaliz Garrote,Tomaso Poggio,and Thomas Serre. Hmdb:用于人体运动识别的大型视频数据库。见ICCV,2011年。6[24] 李欣颖,黄嘉斌,Maneesh Singh,杨铭轩。通过排序序列的无监督表示学习。InICCV,2017. 一、二、七[25] Yehao Li,Ting Yao,Yingwei Pan,Hongyang Chao,and Tao Mei.联合定位和描述密集视频字幕的事件在CVPR,2018年。2[26] Jingjing Liu , Chao Chen , Yan Zhu , Wei Liu , andDimitris N Metaxas.基于弱监督序列建模的视频分类.CVIU,152:79-87,2016. 1[27] Ishan Misra , C Lawrence Zitnick , and Martial Hebert.Shuf- fle 和学习:使 用时序验证的无监 督学习。在ECCV,2016年。一、二、七、八[28] Hossein Mobahi,Ronan Collobert,and Jason Weston. 从视频中的时间相干性进行深度学习。InICML,2009. 7[29] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在ECCV,2016年。2[30] Mehdi Noroozi,Hamed Pirsiavash和Paolo Favaro。通过学习数数来学习表象. InICCV,2017. 2[31] DeepakPathak ,RossBGirshick,PiotrDolla'r,TrevorDar-rell和Bharath Hariharan。通过观察物体移动来学习特征。在CVPR,2017年。2[32] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器:通过图像修复进行特征学习。在CVPR,2016年。2[33] Zheng Shou,Jonathan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功