没有合适的资源?快使用搜索试试~ 我知道了~
1复杂动作识别中的时间感受Noureldien Hussein,Efstratios Gavves,Arnold W.M.阿姆斯特丹大学Smeulders QUVA实验室{nhussein,egavves,a.w.m.smeulders}@ uva.nl摘要本文重点介绍了时间方面的人类活动在视频中,一个重要的视觉线索,长期以来一直被低估。 我们重新审视活动的传统定义,并将其限制为“复杂行动”:一组具有弱时间模式的单一动作,用于特定目的。相关的工作使用时空3D卷积与固定的内核大小,太刚性,以捕捉复杂的动作的时间范围的变化,和太短的长范围的时间建模。相比之下,我们使用多尺度时间卷积,并且我们降低了3D卷积的复杂性。结果是时间感受卷积层,其原因是分钟长的时间模式,比最佳相关作品长8因此,Timeception在识别Charades,BreakfastAction和MultiTHUMOS的人类活动此外,我们证明了时间感受学习长距离的时间依赖性和容忍复杂的动作的时间范围。1. 介绍在日常生活中,日常生活活动频繁出现。我们的对话中包含“做饭”或“打扫房子”这样的动作后者,我们称之为一个动作,表现出一种视觉模式,可能是重复的。它们通常在时间上较短,在运动上相似,在形式上连贯。相比之下,做饭或打扫房子是非常不同的行动。我们称之为复杂行动,其特征在于:I. 它们通常由几个单一动作组成,见图1。二. 这些包含在复杂行为中的单一行为在其时间持续时间和时间顺序上表现出很大的变化。三. 作为合成的结果,一个复杂的动作需要更长的时间来展开。而且,由于组成的不均匀性,复杂的动作需要全面采样,不要错过关键部分。在最近的文献中,主要关注的是对HMDB、UCF和Kinet- ics中的短程动作的识别[1,2,3]。很少有人注意到承认-123图1:复合动作“烹饪一顿饭”的属性:组成:由几个单一动作组成(烹饪,...),order:单动作的弱时间顺序(Get Wash),范围:一个动作的时间范围不同。长期和复杂的行动,如我们在这里学习的Charades和EventNet [4,5]第一个挑战是分钟长的时间建模,同时保持对秒长的细节的关注。如[6,7]中所应用的统计时间池化(statistical temporal pooling)达不到学习时间顺序。神经时间建模[8,9]和各种类型的时空卷积[10,11,12]成功地学习了时间8 [13]或128时间步长的顺序[14]。但计算成本远远超出了复杂动作所需的1000个时间步长。第二个挑战是容忍一个动作的时间范围和时间顺序的变化。相关方法[11,15]使用固定大小的内核学习时空卷积,这对于复杂的动作来说过于严格。为了解决这些挑战,我们提出了Timeception,这是一种专门用于时间建模的新型卷积层它通过关注短距离细节来学习长距离时间依赖性。此外,它还能容忍包含复合行为的单一行为在时间范围上的差异。因此,我们成功地识别了长时间和复杂的动作,并在Charades [4],Breakfast Actions[16]和MultiTHUMOS [17]中实现了最先进的结果本文的创新之处在于:1. 我们引入了一个卷积时间层,有效地学习了1024个时间步的分钟长的动作范围,比最佳相关工作长8倍。二.我们引入多尺度的时间内核占动作组件的持续时间的大的变化。三.我们使用时间卷积254255的 情 况 下 , 这 是 更 好 地 适 合 复 杂 的 行 动 比spatiotemporal同行。2. 相关工作时间建模。视频和图像分类之间的明显区别是时间维度,这需要时间建模。一种广泛使用的方法是统计汇集:最大和平均池化[18,19],注意力池化[6],秩池化[20],动态图像[21]和上下文门控[7],仅举几例。除了统计汇集之外,还使用向量聚合。[22]使用FisherVector [23]随时间聚合时空特征,而[9,24,25]扩展VLAD [26]以使用从视频帧中提取的局部卷积特征。统计池和向量聚合的缺点是完全忽略了时间模式其他工作链使用神经方法进行时间建模。LSTM用于 对 动 作 视 频 中 的 序 列 进 行 建 模 [8] 。 而 TA-DenseNet[27]扩展DenseNet [28]以利用时间维度。据我们所知,最近没有报告有实质性的改善。短距离动作识别。很少有作品[29]通过使用2D CNN对动作进行帧级分类来学习深层外观特征。其他补充深出现-具有浅运动特征的角特征,如IDT [30]。此外,辅助图像表示与RGB信号融合:[31]使用OpticalFlow通道,而[32]使用动态图像。3D CNN是其2D对应物的自然演变。C3D [11,10]提出了3D CNN来捕获序列中8帧的时空模式。同样,I3D [13]膨胀了ImageNet预训练的2DCNN的内核,以启动3DCNN的训练。虽然3D卷积在几秒的短距离视频序列中是有效的,但对于我们关注的几分钟长的视频来说,3D卷积的计算成本太远程动作识别。为了学习长期的时间模式,[33]在CNN特征图之上使用CRF来模拟人类活动。为了学习视频范围的表示,TRN [34]学习几个视频之间的关系片段。TSN [35,36]在长视频中学习时间结构。LTC[37]认为不同的时间分辨率可以替代更大的时间窗口。受自我注意[38]的启发,非局部网络[14]提出了一种具有128个时间步的长时间足迹的3D所有上述方法都成功地模拟了最大128个时间步(124-5秒)的时间足迹。在这项工作中,我们解决了复杂的行动与远程temporal依赖性高达1024时间步,共同。卷积分解CNN在学习空间[39,29]和时空[11,10,40,37,41]动作概念方面取得了成功,但现有的卷积在计算中变得繁重,特别是在通道数量可以增长多达2k的高层[42]。为了控制通信-由于计算复杂性,一些工作提出了2D和3D卷积的分解。Xception [43]认为可分离的2D卷积与典型的2D卷积一样有效。类似地,S3D [15,12]考虑了可分离的2+1D卷积,以降低典型3D卷积的复杂性。 ResNet [42]减少了通道尺寸,在应用昂贵的3×32D空间卷积之前,使用1×12D卷积来进行选择。ShuffleNet [44]通过通道重排而不是1×12D卷积来模拟交叉通道相关性ResNeXt [45]提出了分组卷积,而Inception [46,47]将固定大小的2D空间内核替换为不同大小的多尺度2D空间内核在这项工作中,我们提出了将空间时间卷积分解为深度可分离的时间卷积,我们证明了它比2+1D卷积更适合于此外,为了说明时间范围的差异,我们提出具有多尺度内核的时间卷积。3. 方法3.1. 动机现代3D CNN在视频信息的三个正交子空间上学习时空内核:时间(T)、空间(S)和语义通道子空间(C)。 一个时空核w∈RT×L×L×C学习一个潜在的概念,同时卷积这三个子空间[11,13],其中T是时间步长的数量,C是通道的数量,L是空间窗口的大小。但是,没有根本原因说明为什么这些子空间必须同时卷积。反而随着如[15]所示,可以通过将w分解为空间的ws∈R1×L×L×C和时间的wt∈RT×1×1×C核来分别对这些子空间ws×wt严格地说,虽然用级联w=w s× w t替换w通常被称为“分解”,但这种操作不是张量分解-没有严格的要求,在最佳情况下,我们必须有一个w = w s × w t。相反,由于级联w根据定义在计算上比完整内核w更有效,因此唯一的实际要求是所得到的级联w对于手头的任务产生同样好或更好的精度鉴于这一认识,虽然前面提到的沿着空间和时间轴的分解是直观的,并且在经验上是成功的[15],但它不是唯一的可能性。因此 , 任 何 其 它 的 分 解 都 是 允 许 的 , 即 :wα×wβ×wγ×… , 只要在最后阶段保持一些基本原则,级联W 对最近的分解架构[12,43]进行概括,我们从文献中确定了时空CNN的三i. 子空间模块化。在深度网络级联的上下文中,分解应该是模块化的,使得在子空间之间,它保留相应子空间的性质。256不T × L × L × C(a) 时间感受层(b)时间转换模块图2:我们的方法的核心组件是Timeception层,左。简单地说,它将特征X作为输入;对应于从网络中的前一层开始的T个时间步。然后,它将它们分成N组,并使用时间卷积模块对每组进行时间卷积。它是一种新颖的构建块,包括多尺度时间卷积,以容忍复杂动作中的各种时间范围。时间感受利用分组卷积和信道重排来学习跨信道相关性,比1×1空间卷积更有效。在随后的层之间的空间也就是说,在空间卷积和时间卷积的级联之后,另一个级联(空间卷积和时间卷积)必须是可能的和有意义的。ii. 子空间平衡。分解应该确保在不同层中的子空间和它们的参数化之间保持平衡。即,增加用于对特定子空间建模的参数的数量应当以减少另一子空间的一个典型的例子是传统的2D CNN,其中空间子空间(S)被减少而语义通道子空间(C)被扩展。iii. 子空间效率。在为特定任务设计分解时,我们应该确保可用参数预算的大部分专用于子空间与当前任务直接相关的信息。例如,对于长距离时间建模,逻辑选择是增加时间子空间(T)的卷积参数基于上述设计原则,我们提出了一个新的时间卷积层,用于编码复杂动作中的长距离模式,名为Timeception,见图2。首先,我们讨论时间感受层。然后,我们描述如何在现有的2D或3DCNN之上堆叠时间感受层。3.2. 时间感受层对于长视频中的复杂动作建模,我们的时间建模层面临两个目标。首先,我们想了解整个视频中的单个动作之间可能的长距离时间依赖关系,以及高达1000个时间步的帧序列第二,我们希望在整个视频中容忍一个动作的时间范围的变化接下来,我们介绍了时间感受层,它的设计考虑了这两个目标Timeception是一个层,位于之前的Timeception层或CNN之上CNN可以是纯空间的;独立处理帧,如ResNet [42]或短程时空;处理附近的帧突发,如I3 D [13]。长距离时间重叠存在两个设计结果,用于对整个视频中的一个动作之间的长范围时间依赖性进行建模。第一个结果是,我们的时间网络必须由更深的时间层堆栈组成。此后,通过连续的层,可以出现复杂和抽象的时空模式,即使它们驻留在视频中时间上考虑到我们需要更深的时态堆栈,并且我们对完整模型有特定的参数预算,第二个结果是时态层必须尽可能具有成本效益。重新审视时空模型的成本效益,现有架构要么依赖于参数复杂度为O(T·L2·C)的联合时空内核[13],要么依赖于参数复杂度为O((L2+T)·C)的分解时空内核[15,12]。为了制作时间概念根据第三个定义,层时间上具有成本效益,基于子空间重要性的符号原则,我们选择以空间和语义的复杂性换取更长的时间的胜利。具体地说,我们提出了一种深度可分的时域卷积,其核为w TC∈RT×1×1×1. 在下文中,我们将此卷积称为仅时间卷积。而且与[13,15,12]不同的是,我们建议只关注时间建模,同时放弃空间核ws∈R1×L×L×C。因此,时间感受层完全依赖于前面的CNN来检测任何空间模式。简化的时间内核有一些有趣的性质。每个内核只作用于一个通道。由于内核不扩展到通道子空间,因此鼓励它们学习通用和抽象的时间组合,而不是语义特定的时间组合。例如,内核学习检测一个潜在的时间模式,组T × L × L × C/N温度转换N组温度转换· ··T × L × L × C/NConcat+洗牌T × L × L × C最大1Dk=2,s=2T/2 × L × L × CT × L × L × C/NT × L × L × C/N最大1D Conv1D Conv1D Conv1Dk=2,s=1 k=3,s=1 k=5,s=1 k=7,s=1T × L × L × C/N二维转换二维转换k=1x1,s=1 k=1x1,s=1 k=1x1,s=1 k= 1x1,s =1 k=1x1,s=1T × L × L × C/(M.N)ConcatT × L × L × 5C/(M.N)257一个频道的概念。最后,由于单个时间感受层的参数复杂度约为O(T+logL),因此训练深度模型以编码高达1024个时间步的时间模式在计算上是可行的。这相当于大约40秒的视频序列。不幸的是,通过一个接一个地堆叠时间卷积,我们违反了子空间模块化的第一个设计原则。这是因为长距离时空模式中的语义子空间被忽略了。为此,我们建议在仅时间卷积之前使用通道分组操作[45],并在仅时间卷积之后使用通道重排操作[44信道分组的目的是通过为每个组单独建模来降低交叉信道相关性的显然,由于每个组包含信道的随机子集,因此并非所有可能的相关性都被考虑在内。这通过信道混洗和信道连接来缓解,这确保信道被一起分组,尽管是以不同的顺序。因此,下一个时间感知层将对信道的不同子集进行分组。总的来说,信道分组和信道洗牌是比信道分组和信道洗牌更经济有效的学习跨信道相关性的操作。1×12D卷积[43]。容忍不同的时间范围。时间感受层的第二个目标是容忍复杂动作的时间范围的差异。虽然在详细描述中,我们假设仅时间内核的长度是固定的,但复杂视频中的一个动作的长度可以变化。为此,我们建议用多尺度时间内核代替固定大小的时间内核。有两种可能的方法来实现多尺度内核,见图3。第一种方法,灵感来自图像的Inception [46],是采用K个内核,每个内核具有不同的大小k。第二种方法,受[48]的启发,是使用扩张卷积。时 间 卷 积 模 块 , 见 图 2b , 将 一 个 组 Xn∈RT×L×L×[C/N]的特征作为输入。然后它总共应用五个时间操作。 前三个操作是具有内核大小k ={3,5,7}的时间卷积,每个操作将通道的数量维持在C/N。 第四个操作是时间最大池化,步长s=1,内核大小k=2。它的目的是最大化局部时间窗口(k=2)上的激活,而不是卷积它们.第五个操作是简单地使用1×1空间卷积对输入特征Xn进行降维。为了维持一个可控的数量-对于输出,前四个操作的输入使用1×1空间卷积收缩M在通道缩减之后,所有五个输出在通道维度上连接,从而产生输出Yn∈RT×L×L×(5C/MN).Timeception的总结时间感受层,见图2a,期望来自网络中前一层的输入特征X∈RT×L×L×C特征X12=7, =1=5, =1=3, =1 =1, =1=3, =3=3, =2=3, =1 =1, =1图3:为了容忍时间范围,我们使用多尺度时间内核,有两个选项:i.不同的核大小k∈ {1,3,5,7}和固定的膨胀率d=1,ii.不同膨胀率d∈{1,2,3}和固定的核大小k=3。然后将信道维度上的信道划分为N个信道组。将每个群Xn∈RT×L××L×[C/N]与时间卷积模进行卷积,得到Yn∈ RT×L××L×[5C/MN].该模块扩展了每个组的通道数 , BER 由 5/M 的因子。 之 后 , 所 有 群 Y ={Yn|n∈[1,…,N]}跨信道轴级联,然后随机地洗牌最后,为了坚持子空间平衡的第二个设计原则,时间感受层以内核大小k=2和步幅s=2的时间最大池化结束。原因在于,虽然信道子空间在每个时间感受层之后以5/M的因子扩展,但是时间子空间以2的因子收缩。3.3. 最终模型最终模型由四个时间感受层组成,堆叠在CNN的最后一个卷积层之上,用作骨干。我们探索两种主干选择:空间2D CNN和短程时空3D CNN。2D CNN。 第一个基线使用ResNet-152 [42]作为骨干。它将128个视频帧作为输入,并处理它们,直到最后一个空间卷积层res5c。因此,输入帧的相应输出是特征X∈R128×7×7×2048。然后,我们继续使用BatchNorm和ReLU进行时间感受的四个连续层。每个都具有5/M=5/4=1的信道扩展因子。25,M= 4,时间缩减因子为2。因此,得到的特征是Y∈R8×7×7×5000。为了进一步降低空间维度,我们遵循CNN的惯例利用空间平均池化,得到特征Y ′∈ R8×5000。 为了最终降低时间维度,我们使用深度可分离的时间卷积,核大小k ∈ R8×1×1×1,没有零填充。得到的特征Z ∈ R5000用两层MLP分类,具有BatchNorm和ReLU。3D CNN。第二个基线使用I3D [13]作为主干。它将128个视频片段(每个片段具有8个连续帧)作为输入,并且独立地处理这些片段,直到最后的时空卷积层mixed-5c。因此,输入段的相应输出是特征X∈R128×7×7×1024。这条基线的其余部分与前一条没有什么不同。使用I3D的好处是258时间感受层学习短距离时空模式的长距离时间实施. 在特定数据集上训练模型时,首先我们在该数据集上预训练骨干CNN我们对2D主干使用均匀采样的帧,对3D主干使用均匀采样的视频片段(每个片段有8个连续的帧)。在预训练之后,我们在主干的最后一个卷积层上插入Timeception和MLP层,并在同一数据集上微调模型。在这个阶段,只有Timeception层被训练,而主干CNN被冻结。该模型使用批量大小32训练100 epoch。它是用SGD优化的,0. 1,0。9和1e−5分别表示学习率、动量和权重衰减我们的公共实现[49]使用TensorFlow [50]和Keras [51]。4. 实验4.1. 数据集本文的范围是复杂的行动,他们的三个属性:组成、时间范围和时间顺序-见图1。因此,我们选择在Charades [4]、Breakfast Actions [16]和MultiTHUMOS[17]上进行实验。其他臭名昭著的动作识别数据集不符合复杂动作的属性。Charades是多标签、动作分类、视频数据集157个班级它包含8k,1.2k和2k视频,分别为训练、验证和测试分割(训练分割为67小时)。平均而言,每个复杂动作(即每个视频)是30秒,包含6个一个动作。因此,Cha- rades符合复杂行动的标准。我们使用平均精度(mAP)进行评估。由于测试集的标签已列出,我们报告了验证集的结果,类似于所有相关工作[33,9,33,14,52]。早餐行动是一个面向人类活动的无脚本烹饪数据集。它总共包含1712个视频,1357个用于培训,335个用于测试。视频的平均长度为2.3分钟。这是一个12类早餐活动的视频分类任务,其中每个视频只代表一个活动。此外,每个视频都有一个动作组成的活动的时间注释。总共有48类一次动作。在我们的实验中,我们只使用活动注释,而不使用单动作的时间注释MultiTHUMOS是未修剪视频中人类活动的数据集,主要关注时间局部化。它包含65个动作类和400个视频(30小时)。每个视频可以被认为是一个复杂的动作,平均包括11个一个动作。MultiTHUMOS扩展了原始THUMOS-14 [53],为验证和测试分割中的视频提供多标签注释。为视频帧提供多个密集的标签使时间模型能够从时间关系中受益在视频中的一个动作之间。与Charades类似,mAP用于评估。4.2. 容忍时间范围在这个实验中,我们评估了多尺度内核容忍动作时间范围差异的能力实验是在字谜游戏中进行的。43232图4:我们将128个时间步的视频分割成等长的片段(左,修改前),并通过扩展和收缩来改变它们的我们使用4种类型的改变:(a)非常粗糙,(b)粗糙,(c)精细和(d)非常精细。方框中的数字是时间步长。原始与 首先,我们训练两个基线,一个使用多尺度时间内核(如Timeception),另一个使用固定大小的内核。训练是在训练视频的原始时间范围上完成的。然后,仅在测试时,我们改变测试视频的时间范围。具体来说,我们将每个测试视频分成几个部分。然后,我们暂时扩展或收缩这些片段。扩展是通过重复帧完成的,而收缩是通过丢弃帧完成的。我们使用4种不同粒度的变更来测试不同场景下的模型:(a)非常粗,(b)粗,(c)细,和(d)非常精细,参见图4。mAP中变化程度百分比下降↓i3DResNet固定↓多个↓固定↓多个↓(a)极粗的2.091.751.521.08(b)粗2.922.443.262.15(c)罚款1.741.121.591.13(d)极细2.181.711.381.20表1:具有多尺度内核的时间感受比固定大小的内核更好地容忍改变的时间范围。我们报告了在原始与原始测试时mAP的百分比下降(越低越好)。修改了字谜游戏的视频I3D和ResNet是骨干CNN。该对照实验的结果示于表1中。我们观察到,时间感受比固定大小的内核更有效地处理意外的变化,时间范围。使用I3D或ResNet作为骨干架构证实了相同的观察结果。固定大小与多尺度时间核本实验指出了使用多尺度时间核的优点。259孔粒 为此,我们比较了固定大小的节奏- 针对多尺度仅时间卷积的卷积,具有不同的内核大小k或膨胀率D.我们训练了3个具有不同k,d:i配置的基线模型。固定核大小和固定膨胀率d=1,k=3。 这是3D CNN中使用的典型配置 [11,13,14,15]。二. 不同的籽粒大小k∈{1,3,5,7},固定膨胀率d=1。三. 固定核大小k=3和不同的膨胀率d∈{1,2,3}。该实验结果示于表2中。我们观察到,使用多尺度内核比固定大小的内核更适合于对复杂动作进行建模。同样的观察结果也适用于I3D和ResNet作为骨干。此外,当使用不同的膨胀率d而不是不同的内核大小k时,我们观察到性能几乎没有变化。内核内核膨胀mAP(%)类型大小(k)速率(d)ResNetI3D多尺度1,3,5,7130.82三十三点七十六分表2:使用多尺度内核(即,不同的核大小(k)或膨胀率(d)在Charades上优于I3 D/ResNet是骨干。4.3. 长程时间相关性在这个实验中,我们展示了多个时间感受层学习复杂动作的长期时间依赖性的能力。我们训练了几个配备时间感受层的基线模型。这些基线使用不同数量的输入时间步。我们在Charades上进行了实验,使用ResNet和I3D作为骨干。使用ResNet,输入不同的时间步长:T∈ {32,64,128},之后是时间感受层。ResNet一次处理一帧。因此,在一个饲料-向前传递时, Time-ception层消耗的时间步 数等于ResNet消耗的时间步数。考虑I3 D,具有不同数量的时间步作为输入:T∈{256,512,1024},随后是时间感受层。I3D每次将8帧处理为一个超帧因此,时间感受层对T′∈ {32,64,128}超帧进行建模。与8帧的片段相关,在总共T∈ {256,512,1024}帧中进行I3 D+时间感受处理。我们在表3中报告了结果,并进行了两次观察-选项。首先,当使用ResNet和I3D作为骨干时,堆叠Timeception层可以提高精度。由于这些模型之间唯一的变化是时间感知层的数量,我们推断时间感知层已经成功地学习了时间抽象,基线CNN步长TC步长参数mAP(%)+ 3个TC32323.8230.37ResNet + 3 TC64643.8231.25+ 4个TC1281285.5831.82+ 3个TC256321.9533.89I3D + 3 TC512641.9535.46+ 4个TC10241282.8337.19表3:时间感受层允许深度和有效的时间模型,能够学习学习复杂动作所需的时间抽象。列为:基线:骨干CNN+在其上有多少Timeception层(TC),CNN步数 : CNN 的 输 入 时 间 步 数 , TC 步 数 : 第 一 个Timeception层的输入时间步数,参数:Timeception层使用的参数数,以百万为单位。选项。第二,尽管堆叠越来越多的Timecep- tion层,但参数的数量是受控的。有趣的是,在I3D处理1024个时间步上使用4个时间感受层需要ResNet处理128个时间步所需的参数的一半。原因是ResNet的通道数量是I3D的两倍(2048 vs. 1024)。我们的结论是,时间感受层允许深度和有效的模型,能够学习长期的时间抽象,这是复杂的行动至关重要学习时间感受的权重。图5显示了我们的模型学习的权重。具体来说,三个时间片段层在I3D主干上训练。该图描述了具有不同核大小k∈ {3,5,7}的多尺度时间卷积的权重。为了简单起见,仅示出了来自每个内核大小的前30个内核。我们对这些学习的权重做两点说明。 首先,在层1,我们注意到长内核(k=7)捕获细粒度的时间依赖性,因为内核权重的快速转换。但在第3层,这些长内核往往专注于粗粒度的时间相关性,因为内核权重之间的平滑过渡。对于短(k=3)和中等(k=5)内核,相同的行为普遍存在。其次,在第3层,我们观察到长距离和短距离时间模式分别由短内核(k=3)和长内核(k=7)学习。结论是,对于复杂的动作,视频范围和本地时间推理,即使在顶层,是至关重要的识别。4.4. 时间概念的有效性为了证明Timeception的有效性,我们将其与相关的时间卷积层进行比较:I.可分离时间卷积[12],同时对T,C进行建模。二.分组可分离时间卷积到模型T,然后是1×12D卷积到模型C。31,2,330.3733.89固定大小3129.3031.87260图5:通过三个时间感受层的时间卷积学习的权重。每个都使用具有不同内核大小k∈ {3,5,7}的多尺度卷积。在底层(1)中,我们注意到长内核(k=7)捕获了细粒度的时间依赖性。但是在顶层(3),长内核倾向于关注粗粒度的时间相关性。同样的行为适用于射击(k=3)和中等(k=5)内核。三.将分组的可分离时间卷积转换为模型T,然后将信道重排转换为模型C。有趣的是在ResNet和I3D的绝对增益为8。8%和4.3 %。图6顶部,Timeception在维护随着网络的深入,参数的数量会合理增加此外,图6底部显示了Timeception如何改进Charades上的mAP,在保持整体模型大小的同时扩展骨干CNN的时间容量我们的方法形态最大平均接入点(%)[33] 双码流RGB + Flow 18.61005001031021011 2 3 4 5 6时域层R2dR2D +TC R3DR3D + TCR3D + NLR3D +GCN I3DI3D + TC20M30M40M25 30 35 40性能mAP %✓ResNet-152 + TC RGB 31.6[13] I3D RGB 32.9✓I3D + TC RGB 37.2[14]第十四话RGB35.5[14] 3D ResNet-101 + NLRGB37.5[52] 3D ResNet-50 + GCNRGB + RP37.5[52] 3D ResNet-101 + GCN RGB + RP39.7✓3D ResNet-101 + TCRGB41.1表4:Timeception(TC)优于使用相同主干CNN的相关作品它实现了8的绝对增益。8%和4. 分别比ResNet和I3D高3%。此外,使用Timeception的全部容量可以提高1。百分之四图6:顶部:与相关的时间层相比,添加新的时间感受层的成本是微不足道的。下图:Timeception提高了性能,在保持模型大小的同时扩大了骨干CNN的时间容量4.5. 基准实验Charades用于评估我们的模型,并与相关作品进行比较。在这个实验中,我们的基线网络使用4个时间感受层。卷积组的数量对于I3D是8个,对于ResNet是16个 , 无 论 是 2D 还 是 3D 。 表 4 中 的 结 果 表 明 ,Timeception单调地提高了骨干CNN的性能。最佳相关工作除了总体mAP,时间感受的好处有多大在什么情况下它确实有帮助?为了回答这个问题,我们做了两个比较,以评估时间感受的相对性能。我们实验两种情况:I.短距离(32个时间步)与 长距离(128个时间步长),二. 固定规模与 多尺度内核 结果如图7、图8所示,我们观察到两点。首先,当比较多尺度与固定大小的时间感受,见图7,我们观察到多尺度时间感受在具有动态时间模式的复杂动作中表现出色。例如,可分离分组可分分组可分+混洗时间概念时间步[33]第三十三话RGB +流17.8[9]第九章RGB + iDT21.0[33]第三十三话RGB +流22.4[34]时间关系RGB25.2[54]第五十四话RGB22.8参数(百万)261坐在桌子上,拿着纸,在纸上工作洗杯子,玻璃杯,瓶子,盘子打开冰箱,拿东西,关上冰箱,拿鞋,走过门口,拿衣服,整理衣服,放衣服,拿毯子,整理毯子,放毯子倒杯/玻璃杯/瓶抱枕,抱枕坐在椅子上,拿杯子/玻璃杯/瓶子开窗,关窗0.1 0.0 0.1地图差异图7:当复杂动作是动态的时,多尺度时间感受优于固定内核,绿色。但是,当复杂的行动与刚性的时间模式,固定大小的表现优于多尺度,在橙色。整理衣服+放衣服”,一个演员可能比其他演员整理衣服花的时间更长。相比之下,固定大小的时间感受在复杂动作在时间模式上更严格的情况下表现出色,例如,“打开窗口+关闭窗口”。其次,当比较方法活动(根据%)行动(mAP %)I3DI3D + TC 69.30 56.363D ResNet-50 66.73 53.273D ResNet-50 + TC 71.25 59.64表5:在识别早餐数据集的长期活动方面,时间感受优于基线。MultiTHUMOS被用作第三个数据集来实验我们的模型。这有助于研究不同数据集的一般性相关作品使用该数据集在复杂动作的每个视频中对一个动作进行时间定位因此,我们使用这个数据集来服务我们的目标:复杂动作的多标签分类,即整个视频。因此,使用的评价方法是mAP [55]。为了评估我们模型的性能,我们将I3D作为基线进行比较。如表6中的结果所示,配备有多尺度内核的时间概念优于具有固定大小内核的时间概念。短距离(32个时间步)与远程(1024时间步)Timeception,见图8,后者在复杂操作方面优于需要整个视频展开的操作,例如+关门然而,短距离的时间感知在一个动作中会方法核膨胀mAP(%)修理门,关门洗桌子,放在桌子上有人跑,有人站/坐打开橱柜,拿食物,关闭橱柜打开笔记本电脑,放笔记本电脑,看笔记本电脑整理扫帚,整理地板,托箱,取箱,开箱,关箱打开笔记本电脑,观看笔记本电脑打开灯,关闭灯0.10.0 0.1表6:具有多尺度时间内核的时间感受有助于基线模型捕获MultiTHUMOS视频中单个动作之间的长距离依赖性。5. 结论复杂的动作,如“做饭”或“打扫房子”,只有在完全处理时才能识别。这与一个动作相反地图差异图8:当复杂的动作需要整个视频展开时,长距离时间感知的效果优于短距离时间感知。然而,我们看到一个动作,短距离时间感知可以很容易地捕捉到,橙色。早餐行动被用作第二个数据集来实验我们的模型。这个数据集中视频的平均长度是2.3秒。在这个实验中,我们使用了3层时间片段。至于主干,我们使用I3 D和3D ResNet-50. 没有一个主干在这个数据集上进行微调,只有Timeception层被训练。为了使一个视频可以被我们的基线消耗,从每个视频中,我们统一采样64个视频片段,每个片段有8个连续的帧。这使得由基线建模的总时间步为512。最后,我们在表5中报告了结果。从一个小的突发帧。本文提出了一种用于复杂动作识别的时间卷积层由于使用了有效的仅时间卷积,Timeception可以扩展到分钟长的时间建模。此外,由于多尺度时间卷积,时间感受可以容忍复杂动作的时间范围的变化有趣的是,当可视化时间权重时,我们观察到较早的时间感受层学习快速的时间变化,而较晚的时间感受层则专注于更全局的时间转换。在流行的基准上进行评估,所提出的时间感知显著提高了现有技术水平。确认我们感谢Xiaolong Wang [14]分享代码。大小k速率di3D––72.43I3D +时间感受3172.83I3D +时间感受31,2,374.52I3D +时间感受1,3,5,7174.79262引用[1] Hildegard Kuehne,Hueihan Jhuang,Est´ıbaliz Garrote,Tomaso Poggio,and Thomas Serre. Hmdb:用于人体运动识别的大型视频数据库。见ICCV,2011年。1[2] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101:来自野外视频的101个人类动作类的数据集载于CRCV-TR,2012年。1[3] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan ,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal.人体动作视频数据集。在arXiv,2017年。1[4] GunnarASigurdsson,Gu'lVarol,XiaolongWang ,AliFarhadi , Ivan Laptev 和 Abhinav Gupta 。 好 莱 坞 之家:众包数据收集活动的理解.在ECCV,2016年。一、五[5] Guangnan Ye,Yitong Li,Hongliang Xu,Dong Liu,and Shih-Fu Chang. Eventnet:一个用于视频中复杂事件检测的大规模结构化概念库。在ACM MM,2015年。1[6] Rohit Girdhar和Deva Ramanan动作识别的注意力集中。在NIPS,2017年。一、二[7] Antoine Miech,Ivan Laptev,and Josef Sivic.用于视频分类的具有上下文门控的可学习池在arXiv,2017年。一、二[8] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR,2015。一、二[9] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad:学习动作分类的时空聚合。在CVPR,2017年。一、二、五、七[10] 水忘机、魏旭、明阳、开宇。用于人体动作识别的3D卷积神经网络。InTPAMI,2013. 一、二[11] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在ICCV,2015年。一、二、六[12] Du Tran,Heng Wang,Lorenzo Torresani,Jamie Ray,Yann LeCun,and Manohar Paluri.动作识别的时空卷积的详细研究在CVPR,2018年。一、二、三、六[13] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。一二三四六七[14] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在CVPR,2018年。一、二、五、六、七、八[15] Saining Xie , Chen Sun , Jonathan Huang , ZhuowenTu,and Kevin Murphy.重新思考时空特征学习的视频理解。在ECCV,2018。一、二、三、六[16] Hilde Kuehne,Ali Arslan,and Thomas Serre.行动的语言:恢复目标导向的人类活动的语法和语义。CVPR,2014。一、五[17] Serena Yeung,Olga Russakovsky,Ning Jin,MykhayloAndriluka,Greg Mori和Li Fei-Fei。每一刻都很重要:复杂视频中动作的密集详细标记 在IJCV,2018年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功