时间差分网络：一个用于有效动作识别的新的视频架构，通过设计有效的时间模块（TDM）来捕捉多尺度的时间信息，提供一个简单和原则性的时间建模框架，达到最新的技术水平

137 浏览量更新于2024-01-22 收藏 943KB PDF 举报

动作识别

时间模块

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1895TDN：用于有效动作识别的时间差分网络王利民、詹同斌、纪岗山、吴南京大学软件新技术国家重点实验室07wanglimin@gmail.com，tongzhan@smail.nju.edu.cn，binjinju@smail.nju.edu.cn，gswu@nju.edu.cn摘要56时间建模仍然是视频中动作识别的挑战。为了解决这个问题，本文提出了一种新的视频架构，称为时间差分网络（TDN），重点是捕捉多尺度的时间信息，有效的动作识别。我们的TDN的核心是设计一个有效的时间模块（TDM），明确利用时间差算子，并系统地评估其对短期和长期运动建模的影响。为了充分捕捉整个视频的时间信息，我们的TDN建立了一个两级差异建模范式。具体地，对于局部运动建模，在consec上的时间差5452504846440 50 100 150 200 250 300 350浮点数/视频（G）400使用有效帧来提供具有更精细运动模式的2D CNN，而对于全局运动建模，合并跨段的时间差异以捕获用于运动特征激励的长程结构TDN提供了一个简单的和原则性的时间建模框架，并可以实例化与现有的CNN在一个小的额外的计算成本。我们的TDN在Something-Something V1 V2数据集上呈现出最新的技术水平，并与Kinetics-400数据集上的最佳性能不相上下。此外，我们进行了深入的消融研究，并绘制了我们的TDN的可视化结果，希望提供有见地的分析时间差异建模。我们在https://github.com/MCG-NJU/TDN上重新租赁代码。1. 介绍深度神经网络在视频动作识别方面取得了巨大进展[14，29，38，31，6，26，37]。时域建模对于捕获视频中的运动信息以用于动作识别至关重要，并且这通常通过当前深度学习方法中的两种机制来一种常见的方法是使用双流网络[29]，其中一个流在RGB帧上提取外观信息，另一个是利用光流作为输入来捕获运动信息。该方法对提高动作识别精度是有效的，但需要较高的计算量。图1.视频分类性能比较Something-Something V1 [8]在Top1精度，计算成本和模型大小方面与以前的方法（如NL I3D[40]，ECO [46]，TSM [19]和TEINet [20]）相比，我们提出的TDN实现了准确性和效率之间的最佳权衡。光流计算假设另一种替代方法是使用3D卷积[12，31]或时间卷积[33，41，25]来隐式地从RGB帧中学习运动然而，3D卷积往往缺乏时间维度的具体考虑，也可能带来更高的计算成本。因此，设计一个有效的、高运动建模能力和低计算消耗的时域模型仍然是视频识别的一个挑战性问题。提出了一种新的时态建模机制，即基于时态差异的模块（TDM）。时间导数（差异）与光流高度相关[11]，并且通过使用RGB差异作为近似运动表示[38，43]在动作识别中显示出然而，这些方法只是将RGB差异视为另一种视频模态，并训练不同的网络与RGB网络融合相反，我们的目标是提出一个统一的框架，以捕捉外观和运动信息联合，通过推广的想法，时间差异到一个原则和有效的时间模块的端到端网络TDNEN30M100M150MTDN16F参数数量TDN8FTEINetENTEINet16FTSMENTEINet8FTSM16FECOEnLiteTSM8FNL13 D准确度（%）1896设计此外，我们认为，短期和长期的时间信息是至关重要的动作识别，在这个意义上说，他们能够捕捉到的独特和互补的属性的动作实例。因此，在我们提出的时间建模机制中，我们提出了一个独特的基于整体和稀疏采样策略的两级时间建模框架[38]，称为时间差分网络（TDN）。具体来说，在TDN中，我们考虑了两种有效形式的TDM在不同尺度上的运动对于局部运动建模，我们提出了一个轻量级和低分辨率的差分模块，通过横向连接为单个RGB提供运动模式，而对于长距离运动建模，我们提出了一个多尺度和双向差分模块，以捕获运动激励的跨段变化。这两种时域调制作为短期和长期时间结构提取的模块化构件被系统地研究。我们的TDN提供了一个简单而通用的视频级运动建模框架，并且可以以较小的额外计算成本使用现有CNN进行实例化。为了证明TDN的有效性，我们用ResNets实现了它，并在两个数据集上进行了实验：Kinet-ics和Something-Something。实验结果表明，在使用相似主干的情况下，TDN能够在运动相关的Something-Something数据集和场景相关的Kinetics数据集上产生新的性能.如图1所示，我们在Something-Something V1数据集上的最佳结果明显优于以前的方法。我们还进行了详细的消融研究，以证明时间差操作的重要性，并调查TDM的特定设计的效果概括起来，我们的主要贡献在于以下三个方面：• 我们推广了RGB差分的思想，设计了一个有效的时间差分模块（TDM），用于视频中的运动建模，并通过系统地介绍有效和详细的模块设计，提供了一种替代3D卷积的方法• 我们的TDN提出了一个视频级的运动建模框架与建议的时间差模块，重点是捕捉短期和长期的时间结构的视频识别。• 我们的TDN在使用相同主干的设置下，在Kinetics和Something-Something数据集上获得了新的最先进的我们还对TDM进行了深入的消融研究，为我们的时间差异建模提供了一些见解。2. 相关工作短期时间模型。动作识别在过去几年中吸引了大量的研究关注这些方法可以分为两种类型：（1）双流CNN [29]或其变体[7]：它使用RGB和光流的两个输入分别对后期融合的视频中的外观和运动信息进行建模;（2）3D-CNN[31，12]：它提出了3D卷积和池化，以直接从视频中学习时空特征。几种变体试图通过将其分解为2D卷积和1D时间卷积来降低3D卷积的计算成本，例如R（2+1）D [33]，S3 D [41]，P3 D [25]和CT-Net [16]。遵循这一研究路线，一些工作专注于设计更强大的时间模块并将其插入2D CNN中以进行有效的动作识别，例如TSM [19]，TIN [28]，TEINet [20]，TANet [21]和TEA [18]。此外，一些方法试图利用双流网络的思想来设计多分支架构，以捕获外观和运动或上下文信息，其中精心设计的时间模块或以不同FPS采样的两个RGB输入，包括Non-local Net [39]，ARTNet [36]，STM [13]，SlowFast [6]和CorrelationNet [35]。一些近期的研究[5]尝试了网络架构的视频识别搜索.这些作品是基于剪辑的架构，重点是通过从整个视频的一小部分（例如，64帧）。长期时间模型。基于短期剪辑的网络无法捕捉到长距离的时间结构。提出了几种方法来克服这种限制，通过使用RNN [24，3]或长时间卷积[34]堆叠更多帧，或者使用稀疏采样和聚集策略[38，44，42，9，18]。在这些方法中，时间段网络（TSN）[38]被证明是一种有效的远程建模框架，并在几个基准测试中获得了2DCNN的最新性能。然而，具有2D CNN的TSN仅在最后阶段执行时间融合，并且未能捕获更精细的时间结构。StNet [9]提出了一个局部和全局模块来对时态信息进行分层建模。V4D [42]通过提出一个原则性的4D卷积算子来扩展TSN框架，以聚合来自不同阶段的远程信息。时间差表示。时间差异操作出现在之前的几个运动提取工作中，例如RGB差异[38，43，23]和特征差异[20，13，18]。RGB差异被证明是光流作为运动表示的有效替代模态[38，43，23]。然而，他们只对RGB与另一种视频模式进行了不同的处理，并训练了一个单独的网络来与RGB流融合。TEINet [20]，TEA [18]和STM [13]的工作采用差分运算进行网络设计。然而，这两种方法只是简单地使用了一个简单的差分算子进行单级运动提取，并获得了较少的研究重点比3D卷积。1897FCFCFC第一阶段~第二阶段加............2D1x1L-T DM1D2D3x32D1x1+时间加............++............+2D1x12D3x31DL-T DM2D1x1二维CNN块时间2D1x12D3x31DL-T DM2D1x1二维CNN块二维CNN块第三阶段~第五阶段I_（t1）~I_（t1+n）...I_（t2）~I_（t2+n）...I_（t3）~I_（t3+n）S-T DMS-T DMS-T DM块块块块块块结果融合稀疏抽样短期长期图2. 时间差分网络我们提出了一个视频级的框架，用于从整个视频中学习动作模型，称为TDN。基于多个段的稀疏采样，我们的TDN旨在在我们的框架中对短期和长期运动信息进行建模。主要贡献是设计了一个有效的短期时间差分模块（S-TDM）和一个长期时间差分模块（L-TDM），分别为2D CNN提供局部运动信息和跨片段的远程建模。CNN在所有段上共享相同的参数。关于这两个模块的详细信息可以在图3中找到。与现有的方法不同，我们提出的时间差分网络（TDN）是一个视频级的架构，捕捉短期和长期的信息，用于端到端的动作识别。我们的主要贡献是引入了一个时间差分模块（TDM）来显式地计算运动信息，并有效地利用它到我们的两级运动建模范式。我们希望改进和推广这些基于时间差的建模替代方案，这些替代方案在两个具有较小FLOP的基准上通常优于3D卷积。3. 时间差分网络在本节中，我们将详细描述我们的时间差分网络（TDN）。首先，我们给出了一个概述的TDN框架，它是由一个短期和长期的时间差模块（TDM）。然后，我们给出了这两个模块的技术描述最后，我们提供了使用每一个视频都有。我们的主要贡献是利用时间差算子到网络设计，以解释捕获短期和长期的运动信息。在时域差分模块（TDM）的设计中，效率是我们的核心考虑因素，我们研究了两种特殊的形式，分别用于完成局部窗口中的运动补充和跨不同段的运动增强任务。这两个模块通过剩余连接并入主网络。具体地，每个视频V被划分为相等持续时间的T个片段而没有重叠。我们从每一段中随机抽取一帧，总共得到T个帧I =[I1，· · ·，IT]，其中I的形状为[T，C，H，W]。这些帧被单独馈送到2D CNN中以提取逐帧特征F =[F1，· · ·，F T]，其中F表示隐藏层中的特征表示，并且其维度为[T，C′，H′，W′]。短期TDM旨在向早期层的这些逐帧表示F提供局部TDM。运动信息，以提高其表示能力：ResNet主干。短期TDM：福伊 =Fi +H（Ii），（1）3.1. 概述如图2所示，我们提出的时间差异网络（TDN）是一个视频级框架，用于通过使用整个视频信息来学习动作模型。由于GPU内存的限制，在TSN帧之后-其中，F表示通过TDM的增强表示，H表示我们的短期TDM，并且它从Ii周围的相邻帧提取局部运动。TDM的长期目标在利用跨段时间结构来增强帧级特征表示方面：工作[38]，我们提出了一个稀疏和整体采样策略，长期TDM：Fi=Fi+FiG（Fi，Fi+1），（2）1898图3.短期TDM和长期TDM的说明。左：我们的S-TDM对堆叠的RGB差异进行操作，并通过残差连接与单个RGB CNN融合，以捕获短期运动。右：我们的L-TDM提出了一种双向和多尺度的注意力机制，以利用跨段信息来增强逐帧表示。更多的细节可以在文本中找到。其中G表示我们的长期TDM，在当前实现中，我们只考虑相邻段级在每个长期TDM中用于长期时间建模的信息通过堆叠多个长期TDM，我们能够在长尺度上捕获时间结构详细信息将在下一小节中描述。3.2. 短期TDM我们认为，相邻帧在局部时间窗口中非常相似，直接堆叠多个帧进行后续处理是低效的。另一方面，从每个窗口采样单个帧能够提取外观信息，但不能捕获局部运动信息。因此，我们的短期TDM选择提供具有时间差的单个RGB帧，以产生有效的视频表示，明确编码外观和运动信息。具体而言，我们的短期TDM在网络的早期层进行低级别特征提取，并使单帧RGB能够通过融合时间差信息来感知局部运动。如图3所示，对于每个采样帧Ii，我们在以Ii为中心的局部窗口中提取几个时间RGB差，然后沿着通道维度D（Ii）=[D−2，D−1，D1，D2]将它们堆叠。基于这种表示，我们提出了一种有效的TDM形式：H（Ii）=上采样（CNN（下采样（D（Ii），（3）其中D表示Ii周围的RGB差，以及CNN是不同阶段的特定网络。为了保持效率，我们设计了一个轻量级的CNN模块来操作堆叠的RGB差异D（Ii）。它通常遵循低分辨率处理策略：（1）使用平均池化将RGB差减半，（2）提取运动特征与2D CNN，（3）上采样运动特征以匹配RGB特征。这种设计来自于我们的观察，即RGB差异对于大多数区域表现出非常小的值，并且仅在运动显著区域中包含高响应。因此，对于这种稀疏信号使用低分辨率架构就足够了，而不会损失太多的精度。该方法将短时TDM信息与单个RGB帧融合，使原始帧级表示能够感知运动模式，并能更好地描述局部时间窗口。我们通过横向连接实现这种融合。我们为每个早期阶段（即，在我们的实验中的阶段1-2）。在实践中，我们还将剩余连接与其他融合进行了如消融研究中所示的策略3.3. 长期TDM配备了短期TDM的逐帧表示然而，这种表示是有限的，在时间的感受野，从而未能探索学习动作模型的长期时间结构。因此，我们的长期TDM试图通过一种新的双向和多尺度的时间差模块，使用跨段信息来增强原始表示。除了效率之外，长距离帧之间的空间位置的未对准是另一个问题。因此，我们设计了一个多尺度的架构，以平滑差异之前，差异计算大的感受野。如图3所示，为了提高效率，我们首先通过卷积以比率r压缩特征维度，并通过相邻片段计算对齐的时间C（Fi，Fi+1）=Fi−Conv（Fi+1），（4）1899其中，C（Fi，Fi+1）表示片段Fi的对齐的时间差，Conv是用于空间平滑的逐通道卷积，从而缓解丢失对齐问题。然后，对准的时间差通过多尺度模块进行远程运动信息提取：中国M（Fi，Fi+1）= Sigmd（Conv（CNNj（C（Fi，Fi+1），（5）j=1其中，不同空间尺度的CNN j旨在从不同的感受野提取运动信息，实际上N=3。它们的融合对于失准问题可能更鲁棒。在实施中，它涉及三个分支：（1）短连接，（2）3×3卷积，以及（3）平均池化、3×3卷积和双线性上采样。最后，我们利用双向交叉-分段时间差以增强名气等级特征，如下：Fi<$G （ Fi ， Fi+1 ） =Fi<$1[M （ Fi ， Fi+1 ） +M（Fi+1，Fi）]，（6）2其中，n是元素乘法。我们还结合了原始帧级表示和增强表示通过残差连接，如在方程。（二）、与短期TDM略有不同，我们采用差分表示作为注意力图来增强帧级特征，这部分是基于注意力建模对CNN后期更有效的观察。我们还比较了这种实现与其他形式的消融研究。3.4. 示例：TDN ResNet如上所述，我们的TDN框架基于TSN的稀疏采样[38]，其对均匀分布在整个视频上的帧序列进行操作我们的TDN提出了一个两级的运动建模机制，重点是捕捉时间信息的本地到全球的时尚。特别地，如图2所示，我们在早期阶段插入短期TDM（S-TDM）以进行更精细和低级别的运动提取，并且将长期TDM（L-TDM）插入到后期阶段以进行更粗略和高级别的时间结构建模。我们用ResNet主干实例化我们的TDN [10]。遵循V4D [42]中的实践，ResNet的前两个阶段是通过使用S-TDM在每个片段内提取短期时间信息，ResNet的后三个阶段配备了L-TDM，用于捕获跨片段的长期时间结构。对于局部运动建模，我们在S-TDM和Stage 1和Stage 22.对于长期运动建模，我们在阶段3-5的每个残差块中添加L-TDM和时间卷积。在实践中，最终的TDN-ResNet仅将原始2D TSN-ResNet的FLOP增加了约9%。4. 实验在本节中，我们将展示我们的TDN框架的实验结果。首先，我们描述了评估数据集和实施细节。然后，我们对TDN的设计进行了消融研究。接下来，我们将我们的TDN与最先进的方法进行比较。最后，我们展示了一些可视化结果，以进一步分析我们的TDN。4.1. 数据集和实施细节视频数据集。我们在两个视频数据集上评估我们的TDN，这两个视频数据集关注动作实例的不同方面以进行识别。Kinetics-400[15]是一个大规模的YouTube视频数据集，拥有约30万个修剪视频，涵盖400个类别。Kinetics数据集包含日常生活中的活动，某些类别与交互对象或场景上下文高度相关。我们在训练数据（大约24万个视频）上训练我们的TDN，并在验证数据（大约 2 万个视频）上报告性能。 Something-Something[8]是由众包创建的大规模数据集。通过对不同对象执行相同动作来收集视频，使得动作识别期望关注运动属性而不是对象或场景上下文。第一个版本包含超过174个类别的大约10万个视频，而第二个版本包含更多视频，在训练集中包含大约169k个我们报告了Something-Something V1 V2验证集的性能。培训和测试。在实验中，我们使用 ResNet50 和ResNet101来实现我们的TDN框架，并从每个视频中采样T=8或T=16帧。遵循惯例[6，39]，在训练期间，每个视频帧的大小调整为[256，320]中的短边，随机裁剪224×224的作物。我们预先训练我们的ImageNet数据集上的TDN [2]。批量大小为128，初始学习率为0.02。总训练时期在Kinetics数据集中设置为 100 ，在Something- Something 数据集中设置为60。当验证集的性能达到饱和时，学习率将除以10。为了测试，每个视频的短边被调整为256。我们实现了两种测试方案：1-clip和中间裁剪，其中只有224×224的中间裁剪使用单个夹子进行评价，使用10个夹子和3个夹子进行测试，其中使用三个256×256的夹子和10个夹子进行测试。第一种测试方案效率高，而第二个是用于通过更密集的预测方案来提高准确性4.2. 消融研究我们在Something- Something V1数据集上进行消融研究。对于这些评估，我们使用1个剪辑和中心裁剪的测试方案，并报告Top11900S-TDML-TDM- -阶段1阶段2-5阶段1-2阶段3-5阶段1-3阶段4-5FLOPs Top133 G 46.6%35G 50.6%36 G52.3%38G 51.7%（a）差分算子的效果研究：我们通过直接叠加或平均时间帧与基线进行比较，无论是短期还是长期建模，都比时间差分算子差。(d)S-TDM和L-TDM的位置研究：我们将S-TDM和L-TDM放置在ResNet 50的不同阶段结果表明，当阶段1-2侧重于短期建模，阶段3-5侧重于长期建模时，其性能最佳47.3%百分之四十七点九(b)S-TDM研究：比较了S-TDM的不同实现形式，包括时空注意、通道注意、剩余连接与注意的结合。S-TDMConv1 Res2L-TDMRes3 Res4 Res5Top1CCC46.6%百分之五十一点三百分之五十一点五CCCCCCCC百分之四十九点九百分之五十二点三(e)S-TDM 与 L-TDM ：比较 S-TDM 与 L-TDM的疗效。结果表明，在单纯使用单一类型的 TDM 时， S-TDM 略优于 L-TDM，且S-TDM与L-TDM是互补的。（3）L-TDM研究：比较了L-TDM的不同实现形式，重点是多尺度表示和双向差异，以及不同的融合策略，包括残余连接、通道注意和时空注意。36G52.3% 80.6%(f)相对于其他时间模块：我们将TDM与几个时间模块进行比较：时间卷积，TSM 和TEINet。为了公平比较，我们报告每个时间模块具有8帧和40帧的结果（对于40帧为++）。我们的TDM比以前的时间模块更好表1.使用8帧TDN-ResNet 50对Something-Something V1进行消融。我们展示了top-1分类准确度（%），以及对于大小为224×224的1-clip和center-crop输入，以FLOP（浮点运算，乘加数）衡量的计算成本。精度并与其他时态建模模块进行了比较，验证了TDM的有效性。差分运算的效果研究。我们开始我们的奉献研究，探索的有效性，时间差操作在我们的TDM。我们通过简单地去除S-TDM中的时间差操作和在L-TDM中用取平均值代替时间表1a显示了具有时间差异或没有时间差异的各种设置可以看出，简单的叠加和取平均融合时间信息将大大降低识别精度约10%。我们分析了这些没有差分运算的时间融合策略会使网络过度拟合静态信息，无法捕捉视频中的时间变化在S-TDM和L-TDM中加入时间差有助于提高精度，并且它们的组合获得最佳性能。短期TDM研究。我们比较了不同形式的短期TDM（S-TDM）。我们为所有后期阶段添加长期TDM（L-TDM），并在早期阶段放置S-TDM的变化如表1b所示，我们首先比较不同的融合策略，以在S-TDM中将差异表示与RGB特征相结合：（1）注意力与逐元素乘法，（2）加法与注意力，（3）仅加法。我们可以看到，我们的S-TDM与简单的加法，灰产量最好的性能和其他注意-基于融合可能破坏预先训练的特征对应性。此外，我们尝试像TEINet [21]一样使用RGB差异表示来学习通道注意力权重，其性能也比我们提出的S-TDM差在剩下的研究中，我们默认使用S-TDM的加法形式。长期TDM研究。我们采用短期TDM的早期阶段，并与不同形式的长期TDM（L-TDM）放置在后期阶段进行比较。结果见表1c。对于L-TDM设计，我们首先比较了两种基线架构：（1）Eq.（2）直接将差异表示加入帧级特征中;（2）如TEA [18]那样进行通道注意建模。实验结果表明，我们提出的L-TDM的时空注意形式优于无注意（ 52.3% vs.44.1% ）和通道注意（ 52.3%vs.44.1%）。50.9%）。然后，我们研究了多尺度结构在差异特征提取中的有效性，它能够将性能从49.7%提高到52.3%，这证实了其大感受野差异特征提取的有效性最后，我们比较了双向差分和单向差分的性能，它有助于提高性能2.3%。S-TDM和L-TDM的定位研究。我们进行了消融研究，确定在哪个阶段使用短期TDM（S-TDM）或长期TDM（L-TDM）。结果如表1d所示。从这些结果中，我们看到，S-TDML-TDMFLOPsTop1concatavg36.2G41.5%concat差异C36.2G百分之五十一点四差异Cavg35.9G百分之融合Top1FHF+FF+H43.7%47.6%百分之五十二点三F-2 H通道F+F双通道融合多尺度双向。Top1F+GF+F双通道C CC44.1%百分之五十点九F+FGF+FGCC50.0%百分之模型FLOPsTop1Top5T-Conv [33]33G百分之四十七点五百分之七十七点五T-Conv++[33]165G48.2%百分之七十九点一[19]第十九话33G47.1%76.2%[19]第十九话165G47.6%百分之七十七点九1901方法骨干帧GFLOPS Top1 Top5TSN [38][41]第四十一话（2 + 1）D [33][19]第十九话TEINet [20]茶[18][4]TANet [21]InceptionV3InceptionV1ResNet34ResNet50ResNet50ResNet50bLResNet50ResNet5025×1×1064×10×332×10×116×10×316×10×316×10×348×3×316×4×33.2×25071.4×30152×1065×3066×3070×3093.4×986×1272.574.774.374.776.276.173.576.990.293.491.491.492.592.591.292.9[36]第三十六话I3D [1][39]第慢[6]慢快[6]慢快[6]SmallBigNet [17]CorrNet [35]ResNet18InceptionV1ResNet50ResNet50ResNet50ResNet5016×25×1064×N/A×N/A128×10×38×10×3（4+32）×10×3（8+32）×10×38×10×332×10×123.5×250108×N/A282×3041.9×3036.1×3065.7×3057×30115×1070.772.176.574.875.677.076.377.289.390.392.691.692.192.692.5-TDN（ Ours ）TDN（ Ours ）TDN（Ours）ResNet50ResNet50ResNet508×10×316×10×3（8+16）×10×336×3072×30108×3076.677.578.492.893.293.6[39]第IP-CSN [32]慢快[6]慢快[6]SmallBigNet [17]CorrNet [35]ResNet101ResNet101ResNet101ResNet101128×10×332×10×3（8+32）×10×3(16+64）×10×332×4×332×10×3359×3083.0×30106×30213×30418×12224×3077.776.777.978.977.479.293.392.393.293.593.3-TDN（ Ours ）TDN（ Ours ）TDN（Ours）ResNet101ResNet101ResNet1018×10×316×10×3（8+16）×10×366×30132×30198×3077.578.579.493.693.994.4慢快[6]X3D [5]R101+NLX3D-XL(16+64）×10×316×10×3234×3048.4×3079.879.193.993.9表2. 与关于某物-某物V1和V2的最新方法的比较。我们使用ResNet50和ResNet101的主干实例化我们的TDN以进行评估。我们与其他方法进行比较，具有类似的骨干下的1剪辑和中心裁剪设置。“-”表示我们无法获得这些数字。 1在Sports1M上预先训练。在主网络中加入更多的S-TDM将稍微增加网络计算成本，这是由于其用于时间差表示的特征提取。在1-2级采用S-TDM，在3-5级采用L-TDM的方案，识别精度最高，计算量也比较合理。短期与长期建模。我们进行了对比研究，分别探讨S-TDM和L-TDM的有效性。结果总结见表1e。我们首先报告基线的性能，方法骨干帧GFLOPS Sth-Sth V1Top1 Top5TSN-RGB [38]BNInception81619.5-[44]第四十四话BNInception83334.4-[41]第四十一话成立6471.3848.278.7[19]第十九话ResNet508+169849.778.5TEINet [20]ResNet508+169952.5-TANet [21]ResNet508+169950.679.3茶[18]ResNet50167051.980.3[4]bLResNet5016×247.748.478.8[46]第四十六话BNIncep+R189226746.4-I3D [1]ResNet5032×230641.672.2荷兰I3D+GCN [40]R50+GCN32×260646.176.8消费税[22]ResNet50165948.677.9STM [13]ResNet5016×3067×3050.780.4V4D [42]ResNet508×4167.650.4-SmallBigNet [17]ResNet508+1615750.480.5CorrNet [35]ResNet5032×10115×1049.3-TDN（我们的）ResNet5083652.380.6TDN（我们的）ResNet50167253.982.1TDN（我们的）ResNet508+1610855.182.9CorrNet [35]ResNet10132×30224×3051.7-CorrNet [35]1ResNet10132×30224×3053.3-GSM [30]Inception V3融合26855.2-TDN（我们的）ResNet10186654.181.9TDN（我们的）ResNet1011613255.383.3TDN（我们的）ResNet1018+1619856.884.1方法骨干帧GFLOPS Sth-Sth V2Top1 Top5[44]第四十四话BNInception83348.877.6[4]bLResNet5016×247.761.788.1[19]第十九话ResNet5016×665×663.488.5消费税[22]ResNet50165962.687.9STM [13]ResNet5016×3067×3064.289.8SmallBigNet [17]ResNet508+1615763.388.8TEINet [19]ResNet508+169865.589.8TANet [21]ResNet5024×699×666.090.1TDN（我们的）ResNet5083664.088.8TDN（我们的）ResNet50167265.389.5TDN（我们的）ResNet508+1610867.090.3TDN（我们的）ResNet10186665.890.2TDN（我们的）ResNet1011613266.990.9TDN（我们的）ResNet1018+1619868.291.61902表3. 与Kinetics-400验证集上的最新方法进行比较。我们使用ResNet50和ResNet101的主干实例化我们的TDN。为了公平的比较，我们通过使用类似的骨干来与其他方法进行比较，而无需对额外的视频进行预训练S-TDM或L-TDM，即在后期只进行一维时间卷积进行时间建模，其精度为46.6%。在此基础上分别加入S-TDM和L-TDM，得到了51.5%和49.9%的性能S-TDM优于L-TDM的性能可能归因于局部运动信息对动作识别至关重要最后，将S-TDM和L-TDM结合起来，可以将性能提高到52.3%，体现了两个模块的互补性。与其他时间模块的比较。最后，我们将我们提出的TDM与其他时间建模方法进行了比较，结果见表1f。我们将TDM与三个时间模块进行比较：时间卷积[33]，TSM [19]和TEINet [20]。首先，这些方法都使用ResNet50作为主干，8帧作为输入。在这种情况下，他们的FLOP类似于我们的TDN。我们发现，我们的TDN的性能是更好的比那些基线具有类似的FLOP，证明了显式的时间差操作的有效性。为了公平起见，我们还实施了其他的措施。1903采用与我们相同数量的帧的多孔模块（即，用++表示的40帧），并且我们观察到简单地输入更多的帧将不会对提高识别精度有太大贡献。我们分析了这些时间模块仍然缺乏足够的建模能力来很好地捕捉细粒度的运动信息，因此更多的帧将使它们更严重地与外观过拟合另一方面，由于时间差操作，我们的TDM能够更多地关注运动信息，从而提高识别精度与更多的帧。4.3. 与最新技术水平的比较在Something-Somthing V1数据集上对8帧TDN进行消融研究后，我们直接将其最佳设置转移到Something-Something V2和Kinetics数据集400.在本小节中，我们将在这些基准测试中比较我们的TDN与那些最先进的方法正如预期的那样，采样更多的帧可以进一步提高精度，但也会增加FLOP。我们报告8帧TDN和16帧TDN的性能。为了公平比较，我们简单地列出了仅使用RGB而不对额外视频数据集进行预训练的方法的性能结果总结见表2和表3。为了与以前的方法进行公平比较，我们在Something-Something数据集上使用1个剪辑和中心裁剪测试方案，在Kinetics- 400数据集上使用10个剪辑和3个裁剪进行测试。我们首先将基于2DCNN的基线与TSN [38]和TRN [44]等长距离时间建模的后期融合进行比较，并发现我们的TDN在两个数据集上都显著优于这些基线方法然后，我们将我们的TDN与具有所有阶段的时间模块的2D CNN进行比较，例如S3D [41]，R（2+1）D [33]，TSM [19]，TEINet[20]，TANet [21]，TAM [4]和GSM [30]，我们的TDN在两个数据集上的表现都优于它们，证明了TDM在动作识别的时间建模中的有效性。在此之后，我们与最近的基于3D CNN的方法（如I3 D [1]，Non-local I3 D [39]和SlowFast [6]）进行了比较，我们的TDN仍然可以获得比这些方法稍好的性能，并且计算成本相对较小。最后，我们比较了最近的视频识别网络，如SmallBigNet [17]，V4D [42]，CorrelationNet[35]和X3D [5]。我们在Something-Something V1上的最佳结果明显优于 Kinetics 数据集上的最佳性能是SlowFast和Non-local Net的组合，它在Top1精度方面略优于我们，但Top5精度较低，FLOP较高。4.4. 激活标测图我们使用Grad- CAM [45，27]可视化类激活图，结果如图4所示。在这图4.使用CAM可视化激活图左：视频，中：基线，右：TDN。在这个可视化中，我们用TDM（TDN）或时间卷积（基线）训练了一个8帧网络为了简单起见，我们只在中心帧上可视化CAM。更多关于8帧的可视化示例可以在补充材料中找到。在可视化中，我们取8帧作为输入，并且仅在中心帧中绘制激活图这些可视化结果表明，只有时间卷积的基线无法集中在运动显著区域，而我们的TDN能够定位更多的动作相关区域，这要归功于我们提出的用于短期和长期时间建模的TDM。例如，我们的TDN更加关注交互对象的手部运动，而节奏卷积可能仅关注背景。更多的可视化示例和分析可在补充材料中找到。5. 结论在本文中，我们提出了一种新的视频级框架，称为TDN，用于从整个视频中学习动作模型。TDN的核心贡献是将时域差分算子推广为具有特定设计的高效通用时域模块（TDM），用于捕获视频中的短时和长时信息我们提出了两个定制的形式，实施的TDM和系统地评估其对时间建模的影响。正如 Kinetics-400 和Something-Something数据集上所展示的那样，我们的TDN能够产生比以前使用类似主链的最先进方法更优越的性能。此外，我们对TDM进行了深入的消融研究，以研究时间差分操作的效果，并证明它比具有更多帧的标准3D卷积更有效地提取细粒度的时间信息。我们希望我们的分析提供更多关于时间差分操作的见解，TDM可能为视频中的时间建模提供3D卷积的替代方案。致谢。本课题得到了国家自然科学基金（No.62076119，No.61921006）、江苏省创新人才和创业者计划、软件新技术与产业化协同创新中心的资助。1904引用[1] 乔·卡雷拉和安德烈·齐瑟曼。 Quovadis，动作识别？一个新的模型和动力学数据集。在CVPR中，第4724-4733页七、八[2] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页，2009年。5[3] JeffreyDonahue ， LisaAnneHendricks ， SergioGuadarrama，MarcusRohrbach，SubhashiniVenugopalan，Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归

下载后可阅读完整内容，剩余1页未读，立即下载