没有合适的资源?快使用搜索试试~ 我知道了~
重新思考时空特征学习:视频分类中的速度-精度权衡谢赛宁1、2、孙晨1、黄强1、涂卓文1、2、凯文·墨菲11谷歌研究2加州大学圣地亚哥分校抽象。尽管采用卷积神经网络(CNN)导致视频分析取得了稳步进展,但相对改善并不像2D静态图像分类那样剧烈。存在三个主要挑战,包括空间(图像)特征表示,时间信息表示,和模型/计算复杂性。Carreira和Zisserman最近表明,从2D网络膨胀并在ImageNet上预训练的3D CNN可能是空间和时间表示学习的一种有前途的方法。然而,就模型/计算复杂度而言,3D CNN比2D CNN昂贵得多,并且容易过拟合。我们通过系统地探索关键的网络设计选择,建立一个有效和高效的视频分类系统,寻求速度和准确性之间的平衡特别是,我们表明,它是可能的,以取代许多的3D卷积低成本的2D卷积。相当令人惊讶的是,当替换网络底部的3D卷积时,实现了最佳结果(在速度和准确性两者上),这表明对高级“语义”特征的时间表示学习我们的结论推广到具有非常不同属性的数据集当与其他几个具有成本效益的设计,包括可分离的空间/时间卷积和功能门控相结合时,我们的系统会产生一个有效的视频分类系统,该系统在几个动作分类基准(Kinetics,Something-something,UCF 101和HMDB)以及两个动作检测(本地化)基准(JHMDB和UCF 101 -24)上产生非常有竞争力的结果1介绍卷积神经网络(CNN)的复兴导致了使用端到端分层特征学习架构的图像分类的一波前所未有的进步[1然而,视频分类的任务并没有像图像分类那样享受到在过去,一个限制是缺乏大规模标记的视频数据集。然而,最近创建的Sports-1M [5],Kinetics [6],Something-something [7],ActivityNet [8],Charades [9]等。部分消除了这个障碍。现在我们面临着更根本的挑战。特别是,我们有三个主要障碍需要克服:(1)如何最好地表示空间信息(即,识别对象的外观);(2)如何最好地表示时间信息(即,通过时间识别上下文、相关性和因果关系);以及(3)如何在训练和测试时最好地权衡模型复杂性与速度。2Saining Xie等图1.一、 我们的目标是将视频分为不同的类别,如顶行所示。 我们专注于两种性质不同的数据集:有些东西需要识别低层次的物理相互作用,而动力学则需要识别高层次的活动。我们寻求回答的主要问题是使用什么样的网络架构 我们考虑4个主要变体:I2 D,这是一个2D CNN,在多个帧上操作; I3 D,这是一个3D CNN,在空间和时间上卷积;底部重I3 D,其在较低层中使用3D,并且在较高层中使用2D;和Top-Heavy I3 D,它在较低(较大)层中使用2D,在较高层中使用3D。在本文中,我们通过考虑各种3D CNN来研究这三个问题。我们的出发点是最先进的方法,由于Carreira和Zis-serman [10],被称为“I3 D”(因为它将“Inception”网络[2]的2D卷积滤波器“膨胀”为3D)。尽管给出了良好的性能,该模型是非常昂贵的计算。这就提出了几个问题,我们在本文中试图解决这些问题:– 我们需要3D卷积吗如果是这样的话,我们应该做什么层3D,什么层可以是2D的?这是否取决于数据集和任务的性质?– 我们在时间和空间上联合卷积是重要的,还是在这些维度上独立卷积就足够了?– 我们如何使用上述问题的答案来改善现有方法的准确性,速度和内存占用?为了回答第一个问题,我们应用在一个变体家族中,我们称之为Bottom-Heavy-I3 D,我们在网络的最低层(最接近像素的层)保留3D时间卷积,并在更高层使用2D卷积在另一个变体家族中,我们称之为Top-Heavy-I3 D,我们做相反的事情,并在顶层保留3D时间然后,我们研究如何通过改变以这种方式“放气”(转换为2D)的层数来在精度和速度之间进行权衡。我们发现Top-Heavy-I3 D模型更快,这并不奇怪,因为它们仅将3D应用于抽象特征图。时空特征学习的3由于空间汇集,其小于低级特征图。然而,我们还发现,Top-Heavy-I3 D模型通常更准确,这是令人惊讶的,因为它们忽略了低级别的运动线索。为了回答第二个问题(关于分离空间和时间),我们考虑用空间和时间可分离的3D卷积来替换3D卷积,即,我们将kt×k×k形式的滤波器替换为1×k×k,然后是kt×1×1,其中kt是滤波器在时间上的宽度,k是滤波器在空间上的高度/宽度我们称之为结果模型S3D,其代表“可分离的3D CNN”。S3D显然比使用标准3D卷积的模型具有更少的参数,并且它在计算上更令人惊讶的是,我们还表明,它也有更好的准确性比原来的I3D模型。最后,为了回答第三个问题(关于将事情放在一起以实现高效和准确的视频分类系统),我们将我们在回答上述两个问题时学到的知识我们表明,该模型在各种具有挑战性的视频分类数据集(如Kinetics,Something-something,UCF-101和HMDB)上的准确性优于基线方法,并且在其他视频识别任务(如JHMDB上的动作本地化)上也优于许多其他方法2相关工作2D CNN已经实现了图像分类的最新结果,因此,毫不奇怪,最近有许多尝试将这些成功扩展到视频分类。由Carreira和Zisserman提出的Inception 3D(I3D)架构[10]它的成功有三个关键因素:首先,他们将Inception V1架构[2]使用的所有2D卷积滤波器“膨胀”为3D卷积,并仔细选择早期层中的时间内核大小。其次,他们通过复制在时间维度上对ImageNet分类进行预训练的权重来初始化膨胀的模型权重最后,他们在大规模Kinetics数据集上训练网络[6]。不幸的是,3D CNN在计算上是昂贵的,因此最近人们对更有效的变体产生了兴趣。在并发工作中,[11]最近提出了基于ResNet架构的各种模型[4]。特别是,他们考虑在底层或顶层使用3D卷积,在其余层使用2D的模型;他们称这些为这类似于我们的顶部重和底部重模型。他们得出结论,底部重网络更准确,这与我们的发现相矛盾。然而,他们发现顶部重和底部重之间的差异通过研究(Inception变体的)整个速度-精度权衡曲线,我们表明对于给定的计算预算,使用头重脚轻的设计有明显的好处(见4.2节)。节省计算的另一种方式是用可分离卷积代替3D卷积我们将生成的模型称为S3D。这种因式分解在精神上类似于深度-4Saining Xie等明智的可分离卷积在[12-14]中使用,除了我们将这个想法应用于时间维度而不是特征维度。这个想法已经在最近的各种论文中使用,包括[11](他们称之为“R(2+1)D”),[15](他们称之为“伪3D网络”),[16](他们称之为“因子化时空卷积网络”)等。我们使用相同的方法,但将其与顶部重和底部重的设计相结合,这是导致非常有效的视频分类系统的组合。我们证明了可分离卷积的增益与头重脚轻设计的增益是互补的(见4.4节)。提高精度的有效方法是使用特征选通,其利用简单但有效的乘法变换来捕获特征通道之间的依赖性这可以被视为对二阶池的有效近似,如[17]所示。特征门控已用于许多任务,例如机器翻译[18],VQA [19],强化学习[20],图像分类[21,22]和动作识别[23]。我们考虑上述技术的一个变体,其中我们将特征门控模块放置在S3D网络中的每个时间卷积之后,并表明这会导致准确性的大幅提高(见第4.6节)。另一种提高精度的方法(成本略高)是使用预计算的光流特征。这个想法在[24]中得到了成功的应用,他提出了一种双流体系结构,其中一个CNN流处理原始RGB输入,另一个处理预先计算的光流。从那时起,许多视频分类方法遵循相同的多流2D CNN设计,并且在新的表示[25,26]、不同的骨干架构[27我们将在5.1节中研究使用光流的好处。3实验装置3.1数据集在本文中,我们考虑两个大型视频动作分类数据集。第一个是Kinetics [6],这是一个从YouTube收集的大型数据集,包含400个动作类和240K训练示例。每个示例在时间上被修剪为大约10秒。由于完整的Kinetics数据集非常大,我们创建了一个较小的数据集,称为Mini-Kinetics-200。3 Mini-Kinetics-200由200个类别组成,其中包含最多的训练示例;对于每个类别,我们从训练集中随机抽取400个示例,从验证集中随机抽取25个示例,总共产生80 K个训练示例和5 K个验证示例。这些分割是公开发布的,以便将来进行比较。我们还报告了原始Kinetics数据集的一些结果,为了清楚起见,我们将其称为Kinetics-Full。第二个主要数据集是Something-something [7]。它由174个不同的低级动作的110k视频组成,每个动作持续2到6秒。相比之下对于Kinetics,此数据集需要进行细粒度的低级别区分,例如“从左向右推某物”和“从右向右推某物”之间的区分3[6]中使用的原始“Mini-Kinetics”数据集包含不再可用的视频。我们与原作者合作创建了新的Mini-Kinetics-200数据集时空特征学习的5左”。因此,这是一个有趣的问题,同样的原则是否会成立,同样的架构是否会在两个数据集上工作得很好。我们还考虑了两个较小的动作分类数据集来测试我们的模型的可转移性,我们将在5.2节中讨论,以及两个动作检测数据集,我们将在5.3节中讨论。3.2模型训练我们的训练程序主要遵循[10]。在训练过程中,我们从视频中密集采样64帧,将输入帧大小调整为256×256,然后随机裁剪大小为224×224。在评估过程中,我们使用所有帧,并从调整大小的帧中截取224×224个中心我们的模型使用TensorFlow实现并优化对于动量为0.9的普通同步SGD算法和56个GPU,批大小设置为每GPU 6个。对于Mini-Kinetics-200,我们以0.1的初始学习率我们将步骤60k处的学习速率衰减到0.01,并且将步骤70k处的学习速率衰减到0.001。由于Something-something是一个较小的数据集,我们将GPU的数量减少到16个,并以0.1的学习率进行10 k步的训练。3.3测量速度和精度我们报告top-1和top-5准确度。为了测量我们的模型的计算效率,我们报告了基于64帧的单个输入视频序列和空间大小224×224的理论FLOPS。在评估时,我们将Mini- Kinetics的总帧数填充为2504网络手术在本节中,我们报告了各种“网络手术”实验的结果4.1将所有3D卷积替换为2D在本节中,我们试图确定3D卷积带来了多少价值,这是由2D CNN方法在视频分类方面的惊人成功所激发的(例如,[36])。我们通过将I3D模型中的每个3D滤镜替换为2D滤镜来实现。这产生了我们将称为I2D模型的东西。4理论上,I2D网络对于输入帧的时间反转应该是不变的,因为它不能够合并全局信号。为了验证这一点,我们在Kinetics-Full和Something-something数据集上训练I2 D和原始I3 D模型4为了减少内存和时间需求,并保持训练协议与I3D相同(就我们在每个批次中用于训练的剪辑数量而言,等等),我们在Inception模块之间保留了两因此,严格地说,I2D不是一个纯2D模型。然而,它与单帧2D分类模型非常相似。6Saining Xie等下一层Concat2D公司Conv1x1x1Conv1x3x3Conv1x3x3Conv1x1x1Conv1x1x1Conv1x1x11x3x3最大池先前层下一层Concat3D公司Conv1x1x1Conv3x3x3Conv3x3x3Conv1x1x1Conv1x1x1Conv1x1x13x3x3最大池先前层下一层ConcatSep-Inc.Conv3x1x1Conv3x1x1Conv1x1x1Conv1x3x3Conv1x3x3Conv1x1x1Conv1x1x1Conv1x1x13x3x3最大池先前层视频(64帧)7,7,7ConvStride21x3x3Max-PoolStride1,2,21x1x1转换3x3x3转换1x3x3Max-PoolStride1,2,23DInc.视频1,7,7ConvStride21x3x3Max-PoolStride1,2,21x1x1转换1x3x3转换1x3x3Max-PoolStride1,2,22DInc.3DInc.3DInc.3DInc.3DInc.3x3x3Max-PoolStride 23DInc.2DInc.2DInc.2DInc.2DInc.3x3x3Max-PoolStride2,2,22DInc.3DInc.2x2x2Max-PoolStride 23DInc.3DInc.2x7x7平均池1x1x1转换预测(400D)2DInc.2x2x2Max-PoolStride2,2,22DInc.2DInc.1x7x7平均池1x1x1转换预测(a) i3DK=0 K=1K=2(b) I2dK=0 K=1K=2视频7,7,7ConvStride21x3x3Max-PoolStride1,2,21x1x1转换3x3x3转换1x3x3Max-PoolStride1,2,23DInc.视频1,7,7ConvStride21x3x3Max-PoolStride1,2,21x1x1转换1x3x3转换1x3x3Max-PoolStride1,2,22DInc.K=72DInc.K=62DInc.K=53DInc.K=43DInc.3x3x3Max-PoolStride2,2,2K=33DInc.K=73DInc.K=63DInc.K=52DInc.K=42DInc.3x3x3Max-PoolStride2,2,2K=32DInc.1x1x1预测3D预测(c) 下重I3D(d)上重I3D图二. (a)I3D、(b)I2D、(c)底部重和(d)顶部重变体的网络架构细节。K对时空卷积层进行索引 和块是指图3中定义的2D和3D起始块。(一)(b)第(1)款(c)第(1)款图3.第三章。(a)2D初始块;(b)3D初始块;(c)S3 D网络中使用的3D时间可分离初始块。K=82x2x2K=9K=10K=82x2x2K=9K=102DMax-Pool2D2D2x7x7Max-Pool3D3D2x7x71x1x1Inc.步幅Inc.Inc.平均池ConvInc.步幅Inc.Inc.平均池Conv2,2,22,2,2时空特征学习的7以正常帧顺序,并将训练模型应用于验证数据,其中帧处于正常顺序和反转的时间顺序。实验结果示于表1中。我们看到,I2D具有相同的性能,在两个版本的过程中,荷兰国际集团的测试,是可以预期的。然而,我们注意到Kinetics数据集和Something-something数据集之间有一个有趣的差异。在前一种情况下,I3D的性能与“时间箭头”无关我们认为这是因为Something-something数据集需要在视觉上相似的动作类别之间进行细粒度的区分。动力学-完整什么什么模型正常(%) 逆转(%)正常(%) 逆转(%)i3DI2d71.167.071.167.245.834.415.235.2表1. Kinetics-Full和Something-something数据集上的前1准确度。我们以正常顺序对帧进行训练毫不奇怪,2D CNN不关心帧的顺序对于Kinetics-Full上的3D CNN,结果在正常顺序和相反顺序上是然而,在某物上,确切的顺序确实很重要。4.2用2D替换一些3D卷积虽然我们已经看到,与2D卷积相比,3D卷积可以提高精度,但它在计算上非常昂贵。在本节中,我们研究仅用2D替换一些3D卷积的结果。具体来说,从I2 D模型开始,我们逐渐将2D卷积膨胀到3D,从网络中的低级层到高级层,以创建我们所谓的Bottom-Heavy-I3 D模型。我们还考虑了相反的过程,其中我们将模型的顶层膨胀为3D,但保持较低的层为2D;我们称这样的模型为Top-Heavy-I3 D模型。我们在Mini-Kinetics-200和Something-something上训练和评估Bottom-Heavy-I3 D和Top-Heavy-I3 D模型,并在图4中显示结果我们看到,在相同的FLOPS下,蓝色实线(顶部重的I3D)比蓝色虚线(底部重的I3D)好得多,这表明顶部重的模型更快,更准确。速度的提高是意料之中的,因为在头重脚轻的模型中,特征图在3D卷积之前使用空间池来减小尺寸。对于固定的计算预算,Top-Heavy-I3 D通常比Bottom-Heavy-I3 D更准确这表明3D卷积对于在语义丰富的高级特征中建模时间模式更有能力和有用4.3学习滤波器的为了验证上述直觉,我们检查了在Kinetics-Full上训练的I3 D模型的权重。图5显示了这些权重在我们模型的4层中的分布,从低级到高级。特别地,每个箱线图显示8Saining Xie等(a)(b)第(1)款见图4。精度与在64个RGB帧上执行推断所需的FLOPS数量。左:Mini-Kinetics-200数据集。右:Something-something数据集。实线表示顶部重的模型,虚线表示底部重的模型。橙色表示空间和时间可分离的3D卷积,蓝色表示完整的3D卷积。图五. 在Kinetics-Full上训练的I3 D模型的卷积滤波器权重的统计。每个箱形图示出了针对时间偏移t的Wl(t,:)的分布,其中t=0在中间。不同层1的结果在不同的图中示出,最低层在左侧。具有不同时间偏移的所有滤波器以相同权重集合初始化。低级过滤器基本上忽略时间维度,不像高级过滤器,其中权重很好地分布在不同的时间偏移上。对于时间偏移t和层l,Wl(t,:)的分布。我们使用t=0来指示没有时间偏移,即,时间内核的中心。在初始化时,所有过滤器都以相同的(2D卷积)权重集(来自Imagenet上预先训练的Inception模型)开始,每个值t ∈ {−1,0,1}。 经过训练,我们看到时间偏移滤波器(即,对于t=0)具有仍然接近在较低层中以零为中心(参见左侧面板),而差异的方差为零在更高的层中,温度升高(见右图)。这再次表明,更高级别的时间模式对于动力学动作分类任务更有用4.4将时间卷积与空间卷积在本节中,我们研究了用因子化版本替换标准3D卷积的效果,该因子化版本将该操作分解为时间部分和空间部分。更详细地,我们的方法是用两个连续的卷积层来替换每个3D卷积:一个2D卷积层用于学习空间特征,然后是纯粹在时间轴上的1D卷积层。这可以通过运行两个3D卷积来实现,其中第一(空间)卷积具有滤波器形状[1,k,k ],并且第二(空间)卷积具有滤波器形状[1,k,k]。时空特征学习的9视频9月-ConvMax-Pool1x1x1Conv7x7x7Stride1,2,2Conv3x3x3Stride21x3x3Max-PoolStride 1,Sep-Inc.九月-九月Inc.Inc.Inc.Max-PoolInc.跨步222Sep-2x2x2Sep-2x7x71x1x1Inc.Max-PoolInc.Inc.平均池转换跨步222预测Sep-Conv9 月 -Conv3x 3x=Conv3x1x1Conv1x3x3第二(时间)卷积具有滤波器形状[k,1,1]。通过将这种因式分解应用于I3D,我们获得了我们称为S3D的模型。有关架构的详细说明,请参见图6。5见图6。S3D模型的插图。暗红色框是时间可分离卷积(sep-conv),粉红色框是时间可分离的起始块,如图3(c)所示。表2比较了S3 D和I3 D在Kinetics-Full上的结果。表3显示S3 D在Something-something数据集上的表现也优于I3 D。结果表明,尽管模型大小大幅压缩(I3D的12.06M参数减少到S3D的8.77M ),并且速度大幅提高(107. 9GFLOPS的I3D减少到66岁。38GFLOPS(S3 D),可分离模型甚至更精确(top-1 accu.动力学完整版的活泼性从71.1%提高到72.2%,动力学完整版从45.8%提高到47.3%。something)。我们认为准确性的提高是因为时空因子分解减少了过拟合,在某种程度上不会牺牲表示的表现力,因为我们发现简单地减少网络的参数并不能提高性能。请注意,我们可以将这种可分离变换应用于使用3D卷积的任何地方;因此,这种想法与我们在第4.1节中讨论的哪些层应该包含3D卷积的问题是正交的我们用Bottom-Heavy-S3 D表示Bottom-Heavy-I3 D模型的可分离版本,用Top-Heavy-S3 D表示Top-Heavy-I3 D模型的可分离版本,从而给出4个模型族我们在图4中绘制了这些模型的速度与准确度。我们看到,可分离的头重脚轻的模型提供了最好的速度-精度权衡。特别是,我们将顶部2层保持为可分离的3D卷积,并使其余的2D卷积的模型似乎是一种我们称这种模型为5Inception块中有4个分支,但其中只有两个有3x3卷积(另外两个是逐点1x1卷积),如图3所示因此,当I3D将卷积膨胀到3D时,只有一些特征包含时间信息。然而,通过使用可分离的时间卷积,我们可以将时间信息添加到所有4个分支。这提高了78的性能。4%至78。Mini-Kinetics-200的9%。在以下部分中,每当我们提到S3D模型时,我们指的是具有这种配置的S3D。10Saining Xie等Max3a Max4b Max4d Max5a Max5cS3dMax5a见图7。从某物-某物数据集中的图像导出的激活图的tSNE投影。颜色和数字代表[7]中定义的10个行动组。顶行显示随着我们移动到S3D的更高层,语义分离增加。底行示出了4个不同模型在水平Max5a处的我们看到Top-Heavy-S3 D比Bottom-Heavy-S3 D具有更好的语义分离,特别是对于红色框内的视觉相似类别4.5特征的tSNE分析在这里,我们使用tSNE投影工具探索了S3 D模型在Something-something数据集上的不同级别学习的时空表示[38]。I3D模型的行为非常相似。我们没有使用所有174个类别的样本,而是使用更小的词汇表,即[7]中定义的6我们从验证集中抽取了2,200个数据点。在图7中,顶行显示了S3D模型学习的表示,级别从Max3a到Max5c。在更高的层次上,阶级分离变得越来越明显。底行显示了在某个特征级别(Max 5a)学习的表示,但是跨不同的模型,包括I2 D、Bottom-Heavy-S3 D和Top-Heavy-S3 D(两者都在Max 4 b层具有2D-3D过渡点),以及完整的S3 D模型。对比下重和上重的模式,对于“3:采摘”、“4:放“和”5:戳一下“什么”,用顶部重的模型学习的表示比底部重的模型更具区分力,从而导致tSNE投影更好的分类分离(用红框突出显示)。头重脚轻的模型可以学习与使用完整3D模型学习的特征一样好的特征,并且明显优于来自2D模型的特征,而不会在处理速度方面牺牲太多这一观察结果进一步支持了我们的假设,即时间信息建模是最有效的动作分类任务的特征层次结构中的顶层6标签如下。0:丢东西,1:从右到左移动[某物],2:从左到右移动[某物],3:拾取[某物],4:放置[某物],5:I2d底部重型S3D头重脚轻S3DS3d时空特征学习的11模型前1名(%)前5名(%)参数(M)FLOPS(G)i3D71.189.312个。06一百零七89S3d72.290.68. 7766岁。38S3D-G74.793.411个国家。56七十一38表2. 可分离卷积和特征门控对使用RGB特征的动力学全验证集的影响。模型骨干顶部确认-1(%)Val Top-5(%)供试品顶部-1(%)3D前CNN +平均值[7]多尺度TRN [39]VGG-16成立-34.4-63.211.533.6I2d成立34.469.0-i3D成立45.876.5-S3d成立47.378.1-S3D-G成立48.278.742.0表3. 可分离卷积和特征门控对使用RGB特征的某物-某物验证和测试集的影响。4.6时空特征选通在本节中,我们通过使用特征门控来进一步提高模型的准确性。我们首先考虑在[23]中首次用于视频分类的上下文特征选通机制它们考虑非结构化输入特征向量x∈Rn(通常在接近logit输出的最终嵌入层学习),并产生输出特征向量y∈Rn,如下所示:y=σ(Wx+b)⊙x其中⊙表示逐元素乘法,W∈Rn×n是权矩阵,b∈Rn是偏置项.如果上下文模型σ(Wx + b)预测x的某些维度是重要的,则该机制允许模型对它们进行加权,并且对不相关的维度进行加权;这可以被认为是“自我注意”机制。我们现在将其扩展到具有时空结构的特征张量。设X∈RT×W×H ×D为输入张量,Y为输出张量。我们将矩阵乘积Wx替换为Wpool(X),其中池化操作将X在空间和时间上的维度平均化(我们发现这比仅仅在空间上平均或仅在时间上平均。)然后我们计算Y=σ(W池(X)+b)⊙X,其中⊙表示跨特征(通道)维度的乘法,(即,我们在空间和时间上复制注意力图σ(W池(X)+b)我们可以把这个门控模块插入网络的任何一层我们尝试了几种选项,并通过在S3D网络中的每个[k,1,1]时间卷积之后直接应用它来获得最佳结果我们称最终模型(S3D,带门控)戳,6:撕,7:倒,8:拿,9:显示[某物]。12Saining Xie等S3D-G 我们从表2中看到,与Kinetics-Full数据集上的S3 D相比,这导致了准确性的健康增长(72.2% top-1到74.7%),成本增加非常适度表3示出了S3 D-G在某物-某物上也优于S3 D和I3 D。我们还显著优于当前最先进的方法,即[39]的多尺度TRN,将前1准确度从33.6%提高到42.0%。5推广到其他模式、数据和任务在本节中,我们通过对不同的输入方式、视频数据集和任务进行迁移学习实验,评估了所提出的S3 D-G架构的通用性和鲁棒性5.1使用光流特征我们首先验证S3 D-G是否也适用于光流输入。对于这些实验,我们遵循[10]中描述的标准设置,并使用TV-L1方法[40]提取光流特征我们在[-20,20]处截断流量大小,并将其存储为编码的JPEG文件。其他实验设置与RGB实验相同从表4中可以看出,S3 D-G相对于I3 D的改进与我们在RGB输入下看到的增益一致,使性能从63。91%到68百分之一百通过整合RGB和Flow两个流,我们获得了77.22%的性能,这比在相同数据上训练的I3D网络提高了3% 我们注意到,尽管我们专注于动作分类网络设计中的速度-准确性权衡,但与最近的动力学挑战赛获胜者和并发作品相比,性能具有竞争力;值得注意的是[41]和[42]使用更重的骨干架构(例如,ResNet 101的FLOPS比我们的S3 D-G架构多8.5倍)模型输入骨干预训练前1名(%)前5名(%)荷兰I3D [42]RGBResNet-101ImNet77.793.3SAN [41]RGB+流+音频inception-ResNet-v2ImNet77.793.2TSN [36]RGB+流成立ImNet73.991.1ARTNet [43]RGB+流ResNet-18ImNet72.490.4R(2+1)D[11]RGB+流ResNet-34Sports-1M75.491.9i3D流成立ImNet63.985.0i3DRGB成立ImNet71.189.3i3DRGB+流成立ImNet74.191.6S3D-G流成立ImNet68.087.6S3D-GRGB成立ImNet74.793.4S3D-GRGB+流成立ImNet77.293.0表4. 使用光流的好处。我们报告了动力学-完整验证集的结果。我们基于我们的实现报告了I3D性能,因为[10]仅报告了保留测试集的结果(使用RGB+flow和ImNet预训练,它们获得了74.2%的前1准确率时空特征学习的13模型输入预训练UCF-101 HMDB-51P3D [46]RGBSports-1M88.6-C3D [47]RGBSports-1M82.351.6Res3D [48]RGBSports-1M85.854.9ARTNet w/ TSN [43]RGB动力学94.370.9I3D [10]RGBImNet+动力学95.674.8R(2+1)D [11]RGB动力学96.874.5S3D-GRGBImNet+动力学96.875.9表5. 各种方法对UCF-101和HMDB-51数据集进行动作分类的结果。所有数字均计算为三次拆分的平均准确度。5.2对其他视频分类数据集进行微调接下来,我们从Kinetics到其他视频分类数据集(即HMDB-51 [44]和UCF-101[45])进行迁移学习实验。HMDB-51包含跨越51个类别的约7,000个视频,而UCF-101包含跨越101个类别的13,320个视频。这两个数据集都由经过时间修剪的短视频剪辑组成,并且包含3个训练和验证片段。我们遵循以前工作中使用的标准设置,并报告所有拆分的平均准确度。对于我们的迁移学习实验,我们使用与Kinetics上的训练相同的设置,但将GPU的数量更改为8,并将6K步的学习率降低到0.01,另外2K步的学习率降低到0.001为了简单起见,我们只使用RGB(没有光流)。表5示出了该实验的结果。在UCF-101上,我们提出的仅使用Kinetics进行预训练的S3 D-G架构优于I3 D,并与R(2+1)D相匹配,这两种架构都使用大规模数据集(Kinetics和Sports-1 M)进行预训练。在HMDB-51上,我们优于迄今为止发表的所有以前的方法。5.3视频中的时空动作检测最后,我们证明了S3 D-G的动作检测任务的有效性,其中输入是视频帧,输出是与帧上的动作标签相关联的边界框。与[49]中提出的框架类似,我们使用Faster- RCNN [50]对象检测算法来联合执行人员定位和动作识别。我们使用与[51]中描述的相同的方法来通过3D网络合并时间上下文信息更具体地说,该模型使用2D ResNet- 50 [4]网络,该网络将注释的关键帧(带有框注释的帧)作为输入,并提取关键帧上的区域建议生成的特征。然后,我们使用3D网络(如I3D或S3 D-G),将关键帧周围的帧作为输入,并提取特征图,然后将其合并用于边界框分类。2D区域建议网络(RPN)和3D动作分类网络是端到端联合训练请注意,我们扩展了ROIPooling操作,通过简单地在所有时间步长上在相同的空间位置进行池化来处理3D我们报告了两个广泛采用的视频动作检测数据集的性能:JHDMB [52]和UCF-101-24 [45]。JHMDB数据集是HMDB-51的一个子集,它包含21个动作类别的928个视频,每个视频剪辑包含15到40帧。14Saining Xie等UCF-101-24是UCF-101的子集,有24个标签和3207个视频;我们使用[53]中的清理边界框注释我们使用[54]中定义的标准帧- AP度量报告性能,该度量计算为所有单个帧上的动作检测的平均精度,交集(IoU)阈值为0.5。正如以前的工作中常用的,我们报告了JHMDB的三个分割和UCF-101-24的第一个分割的平均性能。我们的实现基于TensorFlow对象检测API [55]。我们在11个GPU上用异步SGD训练Faster-RCNN,进行600 K次迭代。我们将输入分辨率固定为320×400像素。对于训练和验证,我们将时间上下文的大小固定为20帧。所有其他模型参数均根据[55]中的推荐值进行ResNet-50网络初始化为ImageNet预训练模型,I3 D和S3 D-Gare从Kinetics预训练。我们从“混合4e”层中提取3D特征图表6示出了I3 D、S3 D-G和其他现有技术方法之间的比较我们可以看到,这两种3D网络的性能都大大优于以前的架构,而S3 D-G始终优于I3 D。模型输入JHMDB UCF-101Gkioxari和Malik [54]RGB+流36.2-Weinzaepfel等[56个]RGB+流45.835.8彭和施密德[49]RGB+流58.565.7Kalogeiton等[五十七]RGB+流65.769.5更快的RCNN + I3D[51]RGB+流73.276.3更快的RCNN + S3 D-GRGB+流75.278.8表6. JHMDB和UCF101中各种动作检测方法的结果。我们在JHMDB(所有分割)和UCF-101-24(分割1)数据集上报告了IoU阈值为0.5的帧-mAP。6结论我们表明,我们可以通过结合3个关键思想,在效率方面显着提高以前的最先进的3D CNN视频分类模型(称为I3D):头重脚轻的模型设计,时间可分离的卷积和时空特征门控。我们的修改是简单的,可以应用到其他架构。我们希望这将提高各种视频理解任务的性能。确认我们要感谢[6]的作者在Kinetics数据集上的帮助,以及在基线实验中,特别是Joao Carreira进行了许多建设性的讨论。我们还要感谢Abhinav Shrivastava、Jitendra Malik和Rahul Sukthankar提供的宝贵反馈。S.X.公司由Google支持z.T. 由NSF IIS-1618477和NSF IIS-1717431支持时空特征学习的15引用1. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:Imagenet分类与深度卷积神经网络。NIPS(2012)2. 塞格迪角刘伟,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,Erhan,D.,Vanhoucke,V.,Rabinovich,A.:更深的回旋。CVPR(2015)3. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络ICLR(2015年)4. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。CVPR(2016)5. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲:使用卷积神经网络进行大规模视频分类。CVPR(2014)6. 凯,W.,卡雷拉,J.,西蒙尼扬,K.,张,B.,希利尔角Vijayanarasimhan,S.,Viola,F.,Green,T.,退后TNatsev ,P.,等:人体动作视频数据集。CVPR(2017)7. 戈亚尔河Kahou,S.E.,Michalski,V.,Materzynska,J.,Westphal,S.,Kim,H.Haenel,V.,弗伦德岛Yianilos,P.,Mueller-Freitag,M.等:学习和评估视觉常识的视频ICCV(2017)8. Caba Heilbron,F.,Escorcia,V.加尼姆湾尼布尔斯,J.C.:ActivityNet:用于人类活动理解的大规模CVPR(2015)9. Sigurdsson,GA,Varol,G.,王,X.,Farhadi,A.,拉普捷夫岛Gupta,A.:好莱坞之家:众包数据收集,用于活动理解。ECCV(2016)10. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。CVPR(2017)11. Tran,D.,王,H.,托雷萨尼湖Ray,J.,LeCun,Y.,Paluri,M.:近距离观察用于动作识别的时空卷积。CVPR(2018)12. Chollet,F.:Xception:使用深度可分离卷积的深度学习。CVPR(2017)13. Howard,A.G.,Zhu,M.,陈伯,Kalenichenko,D.王伟,Weyand,T.,Andreetto,M.,Adam,H.:MobileNets:用于移动视觉应用的高效卷积神经网络。1704.04861(2017)14. Xie,S.,格尔希克河 Doll a'r,P., Tu,Z.,He,K.:用于深
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功