没有合适的资源?快使用搜索试试~ 我知道了~
1什么是行动识别?一种新的模型及其动力学数据集乔·卡雷尔joaoluis@google.com安德鲁·齐瑟曼,zisserman@google.com†DeepMind牛津大学工程科学系摘要当前动作分类数据集(UCF-101和HMDB-51)中视频的缺乏使得难以识别良好的视频架构,因为大多数方法在现有的小规模基准上获得类似的性能。本文根据新的Kinetics Human Action Video数据集重新评估了最先进的架构。Kinetics拥有两个数量级的数据,有400个人类动作类和每个类超过400个剪辑,并从现实的,具有挑战性的YouTube视频中收集。我们分析了当前架构如何在这个数据集上执行动作分类的任务,以及在Kinetics上进行预训练后,在较小的基准数据集上的性能提高了我 们 还 介 绍 了 一 个 新 的 双 流 膨 胀 3D ConvNet(I3D),它基于2D ConvNet膨胀:非常深的图像分类ConvNets的过滤器和池化内核扩展到3D,使得可以从视频中学习无缝的时空特征提取器,同时利用成功的ImageNet架构设计甚至它们的参数。我们发现,在Kinetics上进行预训练后,I3 D模型在动作分类方面的最新技 术水平有了 很大提高, 在HMDB-51 上达到80.2%,在UCF-101上达到97.9%。1. 介绍ImageNet挑战的一个意想不到的好处是发现在1000个类别的1000个图像上训练的深度架构可以用于其他任 务 和 其 他 领 域 。 其 中 一 个 早 期 的 例 子 是 使 用ImageNet上训练的网络的fc7特征进行PASCAL VOC分类和检测挑战[10]。此外,从AlexNet到VGG-16的深层架构的改进,立即反馈到PASCAL VOC性能的相应改进[23]。从那时起,已经出现了许多ImageNet训练架构热启动或完全满足其他任务的例子分段图1. 《Quo Vadis》(1951)这是怎么回事这些演员是要亲吻对方,还是刚刚亲吻?更重要的是,行动识别将何去何从?动作在单个帧中可能是模糊的,但现有动作识别数据集的局限性意味着性能最好的视频架构不会明显偏离单图像分析,它们依赖于在ImageNet上训练的强大图像分类器。在本文中,我们证明了视频模型是最好的预训练视频和报告显着的改进,通过使用时空分类器预训练的动力学,一个新收集的,大的,具有挑战性的人类动作视频数据集。心理状态、深度预测、姿态估计、动作分类。在视频领域,在足够大的数据集上训练动作分类网络是否会在应用于不同的时间任务或数据集时提供类似的性能提升,这是一个悬而未决的问题构建视频数据集的挑战意味着大多数流行的动作识别基准都很小,大约有10k个视频。在本文中,我们的目标是使用新的动力学人类动作视频数据集[16]来回答这个问题,该数据集比以前的数据集HMDB-51 [18]和UCF-101 [27]大两个数量级。动力学的62996300400个人类动作类,每个类有400多个例子,每个例子都来自一个独特的YouTube视频。我们的实验策略是从文献中重新实现一些结果表明,通过预训练总是能提高成绩,但提高的程度因结构类型而异。基于这些发现,我们引入了一个新的模型,该模型能够利用Kinetics的预训练,并且可以实现高性能。被称为“双流膨胀3D ConvNets”(I3D)的模型建立在最先进的基于Inception- v1 [13]的I3 D模型在Kinetics上进行预训练后,获得了远远超过最先进水平的性能。在我们的模型比较中,我们没有考虑更经典的方法,如视觉词袋表示[6,19,21,30]。但是,Kinetics数据集是公开可用的,因此其他人可以使用它进行此类比较。下一节概述了已实现的动作分类模型集。第3节概述了动力学数据集。第4节报告了模型在以前的基准测试和Kinetics上的性能,第5节研究了在Kinetics上学习到的功能如何转移到不同的数据集。本文最后对结果进行了讨论2. 动作分类体系结构虽然近年来图像表示架构的发展当前视频架构中的一些主要差异在于卷积和层运算符是使用2D(基于图像)还是3D(基于视频)内核;网络的输入是否只是RGB视频,或者它还包括预先计算的光流;以及在2DConvNets的情况下,信息如何跨帧传播,这可以使用诸如LSTM的时间递归层或随时间的特征聚合来完成。在本文中,我们比较和研究的模型,跨越这个空间的大部分子集。在2D ConvNet方法中,我们考虑在顶部具有LSTM的ConvNet [5,34],以及具有两种不同类型的流融合的双流网络[8,25]。我们还考虑了3DConvNet [14,28]:C3D[29]第10段。作为主要的技术贡献,我们介绍了双流膨胀三维对流网络(I3D)。由于其参数化的高维性和缺乏标记的视频数据,以前的3D ConvNets已经相对于非常浅(最多8层)。在这里,我们观察到非常深的图像分类网络,如Inception [13],VGG-16 [26]和ResNet[12],可以简单地膨胀为时空特征提取器,并且它们的预训练权重提供了有价值的初始化。我们还发现,双流配置仍然是有用的。我们评估的五种架构的图形概述如图2所示,它们的临时接口的规范如表1所示。这些模型中的许多(除了C3D之外)都有Imagenet预训练模型作为子组件。 我们的实验策略假设一个常见的ImageNet预训练图像分类架构作为骨干,为此我们选择了Inception-v1与批量归一化[13],并以不同的方式对其进行我们期望的是,有了这个共同点,我们将能够梳理出那些最有利于行动分类的变化。2.1. 旧I:ConvNet+LSTM图像分类网络的高性能使得尝试以尽可能小的改变重用它们成为吸引力。这可以通过使用它们独立地从每个帧中提取特征,然后在整个视频中汇集它们的预测来实现[15]。这是在词袋图像建模方法的精神[19,21,30];但在实践中方便的同时,它具有完全忽略时间结构的问题(例如,模型不能潜在地区分开和关一扇门)。从理论上讲,一种更令人满意的方法是向模型添加一个递归层[5,34],例如LSTM,它可以编码状态,并捕获时间排序和长范围依赖性。我们在Inception-V1的最后一个平均池化层之后放置了一个具有批量归一化的LSTM层(如Cooijmans等人提出的那样。 [4]),其中有512个隐藏单元。在分类器的顶部添加全连接层。该模型使用在所有时间步长的输出上的交叉熵损失来训练。在测试过程中,我们只考虑最后一帧的输出。输入视频帧通过从原始的每秒25帧的流中保持每5个中的一个来所有模型的完整时间足迹见表1。2.2. 旧II:3D ConvNets3D ConvNets似乎是视频建模的自然方法,就像标准的卷积网络一样,但具有时空滤波器。他们已经探索了几次,以前[14,28,29]。它们有一个非常重要的特征:它们直接创建时空数据的分层表示。这些模型的一个问题是,由于额外的内核维度,它们具有比2D ConvNets更多的参数,并且6301图2.本文考虑的视频架构K代表视频中的帧的总数,而N代表视频的相邻帧的子集这 使 得 他 们 更 难 训 练 。 此 外 , 它 们 似 乎 排 除 了ImageNet预训练的好处,因此以前的工作定义了相对较浅的自定义架构,并从头开始训练它们[14,15,28,29]。基准测试的结果显示出了希望,但与最先进的相比还没有竞争力,这使得这种类型的模型成为我们更大数据集上评估的良好候选者。在本文中,我们实现了C3D的一个小变体[29],它有8个卷积层,5个池化层和顶部的2个全连接层。模型的输入是16帧的短片段,与原始实现中的112×112像素裁剪一样。[29]我曾用在所有卷积层和完全连接层之后进行批量归一化。与原始模型的另一个不同之处在于,在第一个池化层中,我们使用时间步长2而不是1,这减少了内存占用并允许更大的批次-这对于批次正常化非常重要(特别是在完全连接的层之后,其中没有权重绑定)。使用这个步幅,我们能够使用标准K40 GPU每批每个GPU训练15个视频。2.3. 旧三:两个流网络来自ConvNets最后一层的特征的LSTM可以对高级变化进行建模,但可能无法捕获精细的低级运动,这在许多情况下至关重要。训练也是昂贵的,因为它需要通过多个帧展开网络以进行时间反向传播。由Si-monyan和Zisserman [25]介绍的一种不同的、非常实用的方法,通过对来自单个RGB帧和10个外部计算的光学堆栈的预测进行平均来对视频的短时快照进行建模。流帧,在将它们通过ImageNet预训练ConvNet的两个副本后。流流具有自适应输入卷积层,其具有流帧的两倍多的输入通道(因为流具有两个通道,水平和垂直),并且在测试时间,从视频中采样多个快照,并且平均动作预测。这被证明在现有的基准测试中获得了非常高的性能,同时在训练和测试中非常有效最近的扩展[8]在最后一个网络卷积层之后融合了空间流和流,显示了对HMDB的一些改进,同时需要更少的测试时间增加(快照采样)。我们的实现遵循本文近似使用Inception-V1。网络的输入是5个连续的RGB帧,间隔10帧采样,以及相应的光流片段。空间和运动的特点之前,Inception-V1的最后一个平均池化层(5× 7× 7特征网格,对应于时间、x和y维度)通过具有512个输出通道的3× 3× 3 3D卷积层,然后是3×3× 3 3D最大池化层,并通过最终的全连接层。权重这些新层的初始化与高斯噪声。两个模型,原始的双流和3D融合版本,都是端到端训练的(包括原始模型中的双流平均过程)。2.4. 新技术:双流充气3D ConvNets通 过这 种架 构 ,我 们 展示 了 3D ConvNet 如 何从ImageNet 2D ConvNet设计中受益,以及如何从它们的学习参数中受益。我们在这里也采用了双流配置6302虽然3D ConvNets可以直接从RGB流中学习时间模式,但通过包含光流流,它们的性能仍然可以将2D ConvNets膨胀为3D。许多非常成功的图像分类架构已经开发了多年,部分是通过艰苦的试验和错误。我们建议简单地将成功的图像(2D)分类模型转换为3D ConvNets,而不是重复时空模型的过程这可以通过从2D架构开始,并膨胀所有过滤器和池化内核滤波器通常是方形的,使它们的立方从2D滤镜引导3D滤镜。除了架构之外,还可能需要从预训练的ImageNet模型中引导参数为了做到这一点,我们观察到,通过将图像重复复制到视频序列中,可以 将 其 转 换 为 ( 无 聊 的 ) 视 频 。 3D 模 型 可 以 在ImageNet上进行隐式预训练,通过满足我们所说的boring-video固定点:无聊视频上的合并激活应该与原始单图像输入上的相同。由于线性,这可以通过沿着时间维度将2D滤波器的权重重复N次并通过除以N来重新缩放它们来实现。这确保卷积滤波器响应相同。由于无聊视频的卷积层的输出在时间上是恒定的,逐点非线性层以及平均和最大池化层的输出与2D情况相同,因此整体网络响应遵守无聊视频固定点。感受野在空间、时间和网络深度上同步增长. 无聊的视频固定点在如何沿着时间维度膨胀池化算子以及如何设置卷积/池化节奏步幅方面几乎所有的图像模型都平等地对待两个空间维度(水平和垂直- 池化内核和步幅是相同的。这是很自然的,意味着网络中更深处的特征同样受到两个维度上越来越远的图像位置的影响。然而,当考虑时间时,对称的感受野不一定是如果它相对于空间在时间上增长得太快,它可能会合并来自不同对象的边缘,从而破坏早期的特征检测,而如果它增长得太慢,它可能无法很好地捕捉场景动态。在Inception-v1中,第一个卷积层的步长为2,然后有四个步长为2的最大池化层和最后一个线性分类层之前的7×7平均池化层,此外还有并行的最大池化层初始分支。在我们的实验中,输入视频以每秒25帧的速度处理;我们发现在前两个最大池化层中不执行时间池化是有帮助的(通过使用1 × 3 × 3内核和步幅1 在时间上),而在所有的时间上都具有对称的内核和步幅,其他最大池化层。最终的平均池化层使用2× 7× 7内核。总体架构如图3所示。我们使用64帧片段训练模型,并使用整个视频进行测试,在时间上平均预测。两个3D流。虽然3D ConvNet应该能够直接从RGB输入中学习运动特征,但它仍然执行纯前馈计算,而光流算法在某种意义上是递归的(例如,它们对流场执行迭代优化也许是因为这种缺乏重复性,实验上我们仍然发现它的价值-能够有一个双流配置二、e)-一个I3 D网络在RGB输入上训练,另一个在携带优化的平滑流信息的流输入上训练。我们分别训练了两个网络,并在测试时对它们的预测进行平均。2.5. 实现细节除了类C3 D的3D ConvNet之外,所有模型都使用ImageNet-预训练的Inception-V1 [13]作为基础网络。对于所有的架构,我们在每个卷积层之后都有一个批量归一化[13]层和一个ReLU激活函数,除了最后一个卷积层,它为每个网络产生类得分。视频训练使用标准SGD,在所有情况下动量设置为0.9,所有模型都在32个GPU上同步并行,除了3DConvNets,它接收大量输入帧,因此需要更多的GPU来形成大批量-我们使用64个我们在miniKinetics上训练了多达35k步的模型,在Kinetics上训练了110k步,当验 证 损 失 饱 和 时 , 学 习 率 降 低 了 10 倍 。 我 们 在miniKinetics的验证集上调整了学习率超参数。模型在UCF-101和HMDB-51上进行了高达5 k步的训练,使用了与Kinetics相似的学习率自适应过程,但只使用了16个GPU。所有模型都在TensorFlow中实现[1]。众所周知,数据增强对于深度架构的性能至关重要。在训练过程中,我们使用了随机裁剪224× 224补丁-帧数。对于较短的视频,我们根据需要循环视频多次,以满足每个模型的输入界面。我们还在训练期间为每个视频应用随机左右翻转控制。在测试期间,模型将在整个视频上进行卷积应用6303图3.Inflated Inception-V1架构(左)及其详细的inception子模块(右)。卷积和池化操作符的步长为1,未指定,并且未显示批处理规范化层,ReLu网络中几层的感受野大小的理论大小以“时间,x,y”的格式提供-单位是帧和像素。预测是在时间上卷积获得的,并进行平均。方法#参数培训测试#输入帧时间足迹#输入帧时间足迹ConvNet+LSTM9M25rgb5s50 rgb10s3D-ConvNet79M16rgb0.64s240 RGB9.6s双流12M1 rgb,10流量0.4s25rgb,250流量10s三维融合39M5 rgb,50流量2s25rgb,250流量10s双流I3D25M64 rgb,64flow2.56s250 rgb,250流量10s表1.模型的参数数量和时间输入大小取224× 224个中心作物,并将预测值平均。我们在256× 256视频上简单地尝试了空间卷积测试,但没有观察到改进。还可以通过考虑以下因素来获得更好的性能在测试时左右翻转视频,并且在训练期间通过添加诸如光度测定的附加增强。我们把这个留给未来的工作。我们使用TV-L1算法计算光流[35]。3. Kinetics人体动作视频数据集Kinetics数据集专注于人类行为(而不是活动或事件)。行动类列表包括:人的动作(单数),例如画画、喝酒、大笑、挥拳;人与人之间的动作,例如拥抱、亲吻、握手;以及人-物动作,例如打开礼物、修剪草坪、洗盘子。一些动作是细粒度的,并且需要时间推理来区分,例如不同类型的游泳。其他行动需要更多地强调要区分的对象,例如演奏不同类型的管乐器。该数据集有400个人类动作类,每个类有400个或更多的片段,每个片段来自一个独特的视频。剪辑持续约10秒,没有未经修剪的视频。测试集由每个类的100个剪辑组成。[16]中给出了数据集的完整描述以及它是如何构建的对于本文中的大多数实验,我们使用比完整Kinetics更小的数据集,称为miniKinetics。这是数据集的早期版本,只有213个类,总共有120 k个片段,分为三个部分,一个用于训练,每个类有150-MiniKinetics使实验速度更快,在完整的Kinetics数据集之前可用。4. 架构的实验比较在本节中,我们比较了第2节中描述的五种架构的性能,同时改变了用于训练和测试的数据集。6304架构UCF-101HMDB-51微型动力学RGB流RGB +流RGB流RGB +流RGB流RGB +流(a)LSTM81.0––36.0––69.9––(b)3D-ConvNet51.6––24.3––60.0––(c)双流83.685.691.243.256.358.370.158.472.9(d)三维融合83.285.889.349.255.556.871.461.074.0(e)双流I3D84.590.693.449.861.966.474.169.678.7表2. 体系结构比较:(左)UCF-101第1部分的培训和测试;(中)HMDB-51第1部分的训练和测试;(右)在miniKinetics上进行培训和测试。所有模型都基于Imagenet预训练的Inception-v1,除了3D-ConvNet,这是一个类似C3 D的模型,具有自定义架构,并在这里从头开始训练。请注意,单个RGB和Flow流上的双流架构数字可以被解释为一个简单的基线,它独立地对25个均匀采样的帧应用ConvNet,然后对预测进行平均。表2显示了在UCF-101、HMDB-51或miniKinetics上训练和测试我们在UCF-101和HMDB-51的拆分1测试集和miniKinetics的保持测试集上进行测试。有几个值得注意的观察结果。首先,我们的新I3D模型在所有数据集中表现最好,无论是RGB、Flow还是RGB+Flow模式。这很有趣,因为它的参数数量非常大,而UCF-101和HMDB-51非常小,这表明ImageNet预训练的好处可以扩展到3DConvNets。其次,所有模型在miniKinetics上的性能远低于UCF-101,这表明两个数据集的难度不同。但高于HMDB-51;这可能部分是由于HMDB-51中缺乏训练数据,但也因为该数据集被故意构建为困难的:许多剪辑在完全相同的场景中具有不同的动作(例如,“拔剑”的例子取自与“剑”和“剑练习”相同的视频)。第三,不同架构的排名基本一致。第四,LSTM和3D-ConvNet模型在miniKinetics上比在较小的数据集上更具竞争力;这些模型看起来非常需要数据。此外,双流架构在所有数据集上都表现出卓越的性能,但RGB和流量的相对值在miniKinetics和其他数据集之间存在显着差异在UCF-101上,单独来自流量的贡 献 略 高 于 RGB , 在 HMDB-51 上 高 得 多 , 在miniKinetics上显著较低对数据集的视觉检查表明,Kinetics具有更多的相机运动,这可能使运动流的工作变得更加然而,I3D模型似乎能够比其他模型从流动流中获得更多,这可能可以通过其更长的时间接收场(64帧对训练期间的10帧)和更集成的时间特征提取机制来解释。虽然RGB流具有更多的判别信息似乎是合理的RGB很少有这种情况-5. 特性的实验评估在本节中,我们将研究在Kinetics上训练的网络的泛化能力。我们考虑两种措施:首先,我们冻结网络权重,并使用网络为UCF-101/HMDB-51数据集的(未看到 的 ) 视 频 生 成 特 征 。然 后 , 我 们 为 UCF-101/HMDB-51的类训练多路软最大分类器(使用它们的训练数据),并在它们的测试集上进行评估;其次,我 们 为 UCF-101/HMDB-51 类 微 调 每 个 网 络 ( 使 用UCF- 101/HMDB-51 训 练 数 据 ) , 并 再 次 在 UCF-101/HMDB-51测试集上进行评估。结果在表3中给出。明确的结果是,所有架构都受益于miniKinetics广告视频数据的预训练,但有些架构的受益明显超过其他架构-特别是I3 D-ConvNet和3D-ConvNet ( 尽 管 后 者 的 起 点 要 低 得 多 ) 。 在miniKinetics(Fixed)中进行预训练后只训练模型的最后一层,也比直接在UCF-101和HMDB-51上训练I3 D模型带来更好的性能。I3D模型的特征的显著更好的可转移性的一个解释是其高时间分辨率- 它们以每秒25帧的速度在64帧视频片段上进行训练,并在测试时处理所有视频帧,这使得它们能够捕获动作的细粒度节奏结构。换句话说,具有稀疏视频输入的方法可能从这个大型视频数据集上的训练中受益较少,因为从他们的角度来看,视频与ImageNet中的图像没有太大的不同。与C3D类模型的差异可以通过我们的I3D模型更深,而具有更少的参数,通过利用ImageNet热启动,通过在4倍长的视频上训练,并通过在2倍长的视频上操作,6305图4. 在Kinetics上训练后,每个充气3D ConvNet的所有64个conv1过滤器(过滤器维度为7×7×7,7个时间维度在图中从左到右显示)。顶部的序列显示了流网络过滤器,中间的序列显示了RGB I3 D网络的过滤器,底部的行显示了原始的Inception-v1过滤器。注意,I3D滤波器具有丰富的时间结构奇怪的是,流网络的过滤器更接近原始的Inception-v1过滤器,而RGB I3 D网络中的过滤器最好在电脑上看到,在彩色和放大。更高空间分辨率的视频。5.1. 与最新技术我们在表4中显示了I3 D模型和先前最先进方法在UCF-101 和 HMDB-51 上 的 性 能 比 较 。 我 们 包 括 在miniKinetics和完整Kinetics数据集上进行预训练时的结果。训练模型的conv1滤波器如图所示4.第一章许多方法得到了类似的结果,但目前在这些数据集上执行最好的方法是Fe- ichtenhofer及其同事[7]的方法,该方法在RGB和光流流上使用ResNet-50模型,并得到94。6%的UCF-101和70。与密集轨迹模型相结合时,HMDB-51上的3%[30]。我们使用三个标准训练/测试分割的平均准确度对我们的方法进行基准测试。我们 的 RGB-I3 D 或 RGB-Flow 模 型 单 独 使 用 时 , 在Kinetics上进行预训练时,其性能优于任何模型或模型组合的所有我们结合两个流架构扩大了优势,大大超过以前的模式,使荷兰荷兰的整体性能达到97。9人在UCF-101和80上。HMDB-51上的2,与最佳分类模型相比,分别对应于57%和33%的错误分类减少[7]。Kinetics预训练的I3 D模型和之前的3D ConvNets(C3 D)之间的差异甚至更大,尽管C3 D是在更多的视频上训练的,来自Sports-1 M的1 M示例加上内部数据集,甚至当与IDT集成和组合时。这可能是因为Kinetics的质量更好,但也因为I3D只是一个更好的架构。另一个值得注意的效果是从miniKinet-ics到Kinetics预训练时HMDB-51上的I3 D RGB流的改进在Kinetics预训练之后,两个流获得相似的性能,但仍然是互补的:平均他们的预测结果为74。6%至80。百分之二。6. 讨论我们回到引言中提出的问题,“从视频中迁移学习有好处吗?“.很明显,在(大型视频数据集)Kinetics上进行预训练有相当大的好处,就像在ImageNet上对ConvNets进行预训练有很多好处一样。这演示了从一个 数 据 集 ( Kinetics ) 到 另 一 个 数 据 集 ( UCF-101/HMDB-51)的6306架构UCF-101HMDB-51原始固定Full-FT∆原始固定Full-FT∆(a)LSTM81.081.682.1-6%36.046.646.4-10.6%(b)3D-ConvNet49.276.079.9-60.5%24.347.549.4-25.1%(c)双流91.290.391.5-3.4%58.364.058.7-5.7%(d)三维融合89.388.590.1-7.5%56.859.061.4-4.6%(e)双流I3D93.495.796.5-47.0%66.474.375.9-9.5%表3. 在miniKinetics上预训练的架构在UCF-101和HMDB-51测试集(两者的第1部分)上的性能。除了3D-ConvNet之外,所有这些都基于Inception-v1,并在ImageNet上进行预训练。UCF-101 / HMDB-51上的列车; Fixed:来自miniKinetics的功能,最后一层在UCF-101/HMDB-51上训练; Full-FT:miniKinetics预训练,在UCF-101/HMDB-51上进行端到端微调; Full-FT和Fixed显示原始与最佳Full-FT和Fixed之间的错误分类百分比差异。模型UCF-101HMDB-51[25]第二十五话88.059.4IDT [30]86.461.7动态图像网络+ IDT [2]89.165.2TDD + IDT [31]91.565.9双流融合+ IDT [8]93.569.2时间段网络[32]94.269.4ST-ResNet + IDT [7]94.670.3Deep Networks [15],Sports 1M pre-training65.2-C3D一网[29],Sports 1M预训练82.3-C3D合奏[29],Sports 1M预训练85.2-C3D集成+ IDT [29],运动1M预训练90.1-RGB-I3 D,miniKinetics预培训91.866.4RGB-I3 D,动力学预训练95.474.5Flow-I3 D,miniKinetics预培训94.772.4Flow-I3 D,动力学预培训95.474.6双流I3D,miniKinetics预训练96.976.3双流I3D,动力学预训练97.980.2表4. 与UCF-101和HMDB-51数据集上的最新技术水平进行比较,平均分为三个部分。第一组行包含在没有标记的外部数据的情况下训练的模型的结果。对于类似的任务(尽管对于不同的操作类)。然而,对于其他视频任务(如语义视频分割、视频对象检测或光流计算),使用Kinetics预训练是否有好处还有待观察。我们计划公开提供在官方Kinetics数据集上训练的I3D模型,当然,我们没有对架构进行全面的探索-最近的工作已经提出了富有想象力的方法,用于通过在时间上结合链接的对象检测来确定双流架构内的演员的空间和时间范围(检测)[22,24]。空间和时间的关系是一个神秘的关系。最近有几篇非常有创意的论文试图打破常规,捕捉这种关系,例如,通过学习动作类的帧排名函数并将其用作表示[9],通过在动作和变换之间进行类比[33],或者通过创建帧序列的2D视觉快照[2]将这些模型也包括在我们的比较中将具有很大的价值,但由于缺乏时间和空间,我们不能作为未来的工作,我们计划使用Kinetics而不是miniKinetics重复所有实验,有和没有Ima-geNet预训练,并探索膨胀其他国家的-art 2D ConvNets.鸣谢:我们要感谢Kinetics项目的每一个人,特别是BrianZhang和Tim Green,他们帮助我们建立了实验数据,Karen Simonyan提供了意见,有用的澄清和共享代码。6307引用[1] M. Abadi、A.Agarwal,P.Barham,E.Brevdo,Z.陈先生,C.西特罗湾S. Corrado,A. Davis,J. Dean,M. Devin等人Tensorflow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467,2016。4[2] H. 比伦湾Fernando,E.Gavves,A.Vedaldi和S.古尔德。用 于 动 作 识 别 的 动 态 图 像 网 络 。 IEEEInternationalConference on Computer Vision and Pattern RecognitionCVPR,2016。8[3] A. F. Bobick和J.W. 戴维斯承认人的使 用 时 间 模 板 移 动 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,23(3):257 8[4] T. Cooijmans,N. 巴拉斯角 Laurent和A. 考维尔复发性 批 正常化arXiv 预 印 本arXiv:1603.09025,2016. 2[5] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议论文集,第2625-2634页,2015年。2[6] A. Fathi和G.森通过学习中期动作识别水平运动特征。计算机视觉和模式识别,2008年。CVPR 2008。IEEE会议,第1-8页。IEEE,2008年。2[7] C. Feichtenhofer、A.Pinz和R.P. 王尔德时空节奏用于视频动作识别的Ral残差网络。arXiv预印本arXiv:1611.02155,2016。七、八[8] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别CVPR国际会议上,2016年。二、三、八[9] B. Fernando,E. Gavves,J. M.奥拉马斯A. Ghodrati,以及T. Tuytelaars为动作识别建模视频演变。在IEEE计算机视觉和模式识别会议论文集,第5378-5387页,2015年。8[10] R.格希克,J。多纳休,T. Darrell和J.马利克 丰富的fea-真正的层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集,第580-587页1[11] G. Gkioxari和J.马利克找活动管。进行中-IEEE计算机视觉和模式识别会议,第759-768页,2015年。8[12] K. 他,X。Zhang,S.Ren和J.太阳深度残差学习-用于图像识别。计算机视觉和模式识别(CVPR),2016年IEEE会议,2016年。2[13] S. Ioffe和C.赛格迪 批量标准化:加速通过减少内部协变量移位来进行深度网络训练arXiv预印本arXiv:1502.03167,2015。二、四[14] S.吉,W. Xu,M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE transactions on pattern analysis andmachine intelligence,35(1):221 二、三[15] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地苏肯卡尔和L.飞飞用卷积神经网络进行大规模视频分类。在IEEE会议录中计算机视觉和模式识别,第1725-1732页,2014年。二、三、八[16]W. Kay,J.卡雷拉湾西蒙尼扬湾Zhang C.,中国古猿科希利尔S. Vijayanarasimhan,F.Viola,T.格林,T.后退,P。纳采夫,M. Suleyman和A.齐瑟曼。人体动作视频数据集。arXiv预印本,2017年。一、五[17] A. Kl aiser,M.马萨莱克角Schmid和A.是的。呼在视频中以人为中心的动作定位。在国际研讨会上的标志,手势,活动,ECCV 2010年,2010年。8[18] H. Kuehne,H.Jhuang、E.Garrote,T.Poggio和T.Serre.HMDB:一个用于人体运动识别的大型视频数据库。在2011年国际计算机视觉会议(ICCV)的会议记录中。1[19] I. Laptev,M. 马萨莱克角 Schmid,和B. 罗森菲尔德从电影中学习真实的人类动作。计算机视觉和模式识别 , 2008 年 。 CVPR 2008 。 IEEE 会 议 , 第 1-8 页 。IEEE,2008年。2[20] Z. Li,E. Gavves,M. Jain和C. G.斯诺克VideoLSTM卷积、 参与和流动以 进行动作识 别。arXiv预印本arXiv:1607.01794,2016。8[21] J. C.尼布尔斯Wang和L.飞飞无监督学习使用时空词的人类行为类别的划分国际计算机视觉杂志,79(3):299 2[22] X. Peng和C. 施密特 多区域双流R-CNN用于动作检测。欧洲计算机视觉会议,第744-759页。施普林格,2016年。8[23] S. Ren,K.赫利河Girshick和J.太阳更快的r-cnn:走向区域建议网络的实时对象检测。在神经信息处理系统的进展,第91-99页,2015年。1[24] S. Saha,G.辛格,M。萨皮恩扎山口H. Torr和F.库佐林深度学习用于检测视频中的多个时空动作2016年英国机器视觉会议(BMVC)。8[25] K. Simonyan和A.齐瑟曼。 双流卷积用于视频中的动作识别的网络。In Advances神经信息处理系统,第568-576页,2014年。二、三、八[26] K. Simonyan和A.齐瑟曼。非常深的卷积大规模图像识别的网络。2015年,国际会议。2[27] K. Soomro、A. R. Zamir和M. Shah. UCF101:数据集101个人类动作类的视频。arXiv预印本arXiv:1212.0402,2012。1[28] G. W. 泰勒河Fergus,Y.LeCun和C.布莱格勒卷积时空特征的学习在欧洲计算机视觉会议上,第140-153页施普林格,2010年。二、三[29] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用三维卷积网络学习时空特征。2015年IEEE国际计算机视觉会议(ICCV),第4489-4497页IEEE,2015年。二三六八[30] H. Wang和C.施密特 具有改进的轨迹在2013年国际计算机视觉会议上。二七八[31] L. Wang,Y.乔和X.唐 动作识别深度卷积描述符的冗余池。在IEEE计算机视觉和6308模式识别,第4305-4314页,2015年。8[32] L. Wang,Y.Xiong,Z.Wang,Y.Qiao,中国粘蝇D.Lin,X.唐和L.范古尔时间段网络:为深度行动识别提供良好实践。欧洲计算机视觉会议,2016年。8[33] X. Wang,中国山核桃A. Farhadi和A.古普塔。 行动-选项。arXiv预印本arXiv:1512.00795,2015年。8[34] J. 月喜 吴先生, M. 豪斯克内希特, S. Vijayanarasimhan,O.维尼亚尔斯河Monga和G.托德里奇除了简短的片段:用于视频分类的深度网络。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第4694-4702页,2015年。2[35] C. Zach,T. Pock和H.比肖夫基于对偶的方法用于实时TV-L1光流。Pattern Recognition,第214-223页5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功