深度时空网络编码的静态与动态信息的量化分析

110 浏览量更新于2023-10-26 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13999深入探究深度时空网络编码的内容：量化静态与动态信息Matthew Kowal1，2，Mennatullah Siam1，Md Amirul Islam2，3Neil D.B. 2，5，Richard P.Wildes1，4，Konstantinos G.Derpanis德尔帕尼斯1，2，41约克大学，2Vector Institute for AI，3瑞尔森大学，4三星AI中心多伦多，5圭尔夫大学{m2kowal，msiam，wildes，kosta}@ eecs.yorku.ca，mdamirul@ryerson.ca，brucen@uoguelph.ca摘要深度时空模型用于各种计算机视觉任务，例如动作识别和视频对象分割。目前，对于这些模型在其中间表示中捕获了哪些信息的理解有限。例如，虽然已经观察到动作识别算法受到单个静态帧中的视觉外观的严重影响，但是与对动态信息的偏置相比，没有定量方法用于评估潜在表示中的这种静态偏置（例如，运动）。我们通过提出一种新的方法来解决这一挑战，用于量化任何时空模型的静态和动态偏差。为了显示我们的方法的有效性，我们分析了两个广泛研究的任务，动作识别和视频对象分割。我们的主要发现有三个方面：（1）大多数研究的时空模型偏向于静态信息;尽管某些具有交叉连接的双流架构在捕获的静态和动态信息之间表现出更好的平衡(ii)一些通常被认为偏向于动态的数据集实际上偏向于静态信息。(iii)架构中的各个单元（通道）可以偏向静态、动态或两者的组合。11. 介绍本文重点讨论了解释为视频理解任务训练的深度神经网络（DNN）所学习的信息的问题解释深度时空模型是计算机视觉中一个基本上未被充分研究的主题，尽管它们在视频理解任务上实现了最先进的性能，例如动作识别[53]和视频对象分割[48]。这些模型以端到端的方式进行训练，以在空间和时间上学习有区别的静态和动态特征。在这里，我们使用术语静态来表示可以提取的属性1项目页面和代码图1.我们介绍了一种通用技术，给定一个模型和一个视频数据集，可以量化模型内任何中间表示对编码静态（红色）或动态（蓝色）信息的偏差。我们使用这种技术来研究动作识别（正方形）和视频对象分割（diamonds）的任务，并探索架构和训练数据集对静态和动态偏差的影响从单个图像（例如，颜色和纹理）以及术语动态的（dynamic）到由于考虑多个帧而产生的属性（例如，运动和动态纹理）。虽然这种基于学习的范式在广泛的任务中取得了巨大的从科学和应用的角度来看，这种缺乏可解释性是不令人满意的。从科学的角度来看，对什么信息驱动着网络输出背后的决策阐明决策过程可能会产生改进模型的方向。从应用的角度来看，已经有多个案例显示了部署不透明视觉模型的道德和破坏性后果，例如。[3、21]。然而，目前，慢-快慢快慢MViTRTNetFusionSegTimeSformer视频数据集时空模型量化静态和动态单位架构对静态和动态偏差有什么影响影响静态和动态偏差？动态静止40302010%静态单位SSv2护士48DAVIS TAO-VOS%动态单位%单位%单位14000时空模型尚未得到充分探索[25]。一些证据表明，这些模型表现出相当大的偏向静态信息，例如。[6，24，47];因此，关于深时空模型中的表示，需要回答的一个有趣的问题是：捕获了多少静态和动态信息？虽然存在一些视频解译方法，但是它们具有各种限制，例如，主要是定性的[16]，使用特定的数据集来防止评估训练数据集的效果[20]，或者使用分类准确度作为度量，而不量化模型作为回应，我们提出了一个定量的范式来评估时空模型在其内部表示中偏向静态或动态信息的程度。我们定义偏向某一因素（动态或静态）的百分比单位（即。通道）的中间层，编码该因素;见图1（顶部）。受先前工作的启发[10，27]，我们提出了一种度量，用于基于与这些因素相对应的采样视频对之间的互信息来估计静态与动态偏差的量。我们探讨了两个常见的任务，以显示我们的方法作为理解时空模型，动作识别和视频对象分割的通用工具的有效性。我们的研究集中在回答以下三个问题：（i）模型架构对静态和动态偏差有什么影响？(ii)训练数据集如何影响这些偏差？（iii）静态和动态信息联合编码的单元在架构和数据集方面扮演什么角色捐款. 总的来说，我们做出了三大贡献。(i)我们介绍了一种通用的方法来量化时空模型中包含的(ii)我们提出了一种技术，用于identifying单位，共同编码的静态和动态因素。(iii)使用上述技术，我们对两个广泛研究的任务，动作识别和视频对象分割，提供了1（底部）。在其他发现中，我们发现在这两个任务中，所有的网络都是严重静态偏置的，除了具有交叉连接的双流体系结构鼓励模型捕获动态。此外，我们确认，与以前的生活相反[2 ， 33] ， Diving 48 [33] 数据集没有动态偏差，Something-Something-v2（SSv 2）[19]更适合评估模型2. 相关工作时空模型的可解释性。有限的工作一直致力于时空模型的可解释性。有几个工作是在代理任务上预测模型解释，例如。动态纹理识别[20]或fu-真帧选择[18]。这些方法不对中间层中的学习表示进行解释，并且在某些情况下需要在特定数据集上执行训练[20]。其他工作集中在理解时空模型中的潜在表示，主要涉及定性可视化[16]或特定的架构类型[51]。一个相关的任务是理解动作识别数据集的场景表示偏差[33，34]。然而，这些努力并没有集中在不同的建筑归纳偏见的影响，学习中间表征。我们提出的可解释性技术是第一个量化静态和动态偏见的中间表示学习现成的模型，用于多个基于视频的任务。大多数先前的努力集中在一个单一的任务，并研究数据集[33]或架构[16，35]。相比之下，我们的统一研究涵盖了两个不同任务的六个数据集和数十个架构，I.E.动作识别和视频对象分割。时空模型跨空间和时间学习区分特征的深度时空模型已被证明对视频理解任务有效[1，48，53]。现有的模型可以广泛地分类（与下游任务无关）为：分别对运动和外观特征进行建模的双流方法[4，14，28，38，52]，联合对运动和外观进行建模的3D卷积[4]，具有不同形式的时空数据关联的基于注意力的模型[2，38]，依赖于递归神经网络的模型[43]和组合上述模型元素的混合模型[4，38，43]。我们量化偏差的方法不限于模型的细节，适用于所有现存和未来的模型。我们经验证明我们的方法的灵活性，通过评估一组不同的模型。动作识别。3D卷积网络是流行的学习时空表示的视频动作识别，例如。[4、22、29、41、44]。其他工作考虑了双流体系结构，其中动力学直接提供给其中一个流作为光流，例如，[15、40]。卷积网络的最新技术水平的代表是SlowFast [14]，这是一种双流3D CNN，仅将RGB视频作为输入。为了鼓励每个流专门捕获占主导地位的静态或动态信息，每个流的输入的时间最近，基于注意力的方法已被证明适用于静态和时间序列视觉数据，包括动作识别，具有Transformer架构的变体[2，12，36，45]。视频对象分割。深度视频对象分割（VOS）方法可以分为自动、半自动和交互式[48]。在这项工作中，我们专注于视频中分割显著对象的自动方法，以及运动分割的相关任务[7]。我们考虑双流模型，融合运动和ap-140011动作识别静态和动态数据采样视频对象分割流量图2静态和动态单位相同的动态但不同的静态相同的动态但不同的静态相同的静态但不同的动态相同的静态但不同的动态图2.概述我们的方法分析偏向静态或动态信息。我们测量两个任务的深度时空模型的动态和静态偏差：动作识别和视频对象分割。（1）我们使用视频风格化[42]和帧重排或光流抖动（流可视化）对共享静态（vS，vS）或动态（vD，vD）信息的视频对进行1 2 1 2RGB格式）。（2）给定一个预训练模型fθ，我们计算视频对的中间表示zF之间的互信息（MI），以评估模型单位）的基础上。在补充中，我们提供了视频格式的风格化示例以及附加的静态和动态示例。持久性特征。我们还研究了无交叉连接[28]相对于运动到外观[52]或双向[38]交叉连接的影响3. 方法我们介绍了一种新的方法来量化的单位数（即。给定层中的通道）对时空模型中的静态和动态信息进行编码;对于概述，参见图2。我们的方法包括两个主要步骤。首先，给定各种数据集上的一些预训练时空模型，我们对静态和动态视频对进行采样（第二节）。第3.1节）。其次，我们使用这些静态和动态对来估计模型中的单元数量，这些单元基于对之间共享的相互信息对每个因子进行编码（第二节）。3.2）。3.1. 静态和动态对为什么是静态和动态？我们将静态定义为我们认为动态的主要替代属性是可跟踪的点或区域），但是固定闪光灯具有动态但没有运动）。因此，我们考虑动态运动，因为它包含了更广泛的视觉现象。作为补充，我们选择术语即使在单个帧中被伪装，物体的轮廓也可以通过其运动被揭示对于我们的估计技术，我们生成包含相同静态信息和扰动动态的视频对，反之亦然，最终目标是分析在大规模真实世界数据集上训练的模型。我们现在详细介绍我们的静态和动态采样技术，识别和VOS，如图2（图1）所示。动作识别。我们考虑的动作识别模型采用多帧（4到32帧）。为了构造具有相同动态但不同静态信息的视频对（即. 动态对），我们考虑相同的视频但具有两种不同的视频风格。对于视频风格化，我们使用最近的视频风格化方法（具有四种可能的风格），该方法干扰静态属性，如颜色，像素强度和纹理[42]，但具有较少的时间伪影（例如，闪烁）比风格化方法，考虑每个图像独立[26]。这些视频对将包含具有相同动态但具有扰动静态信息的对象和场景构造具有相同静态信息但不同动态信息的配对（即，静态对），我们采取相同风格的两个视频，但是沿着时间轴随机地混洗帧;参见图2（面板1，左）。在这种情况下，时间相关性被改变，而静态（即，每帧）信息保持相同。视频对象分割。考虑的VOS模型[28，38，52]分别将单个RGB帧和光流帧作为外观和运动流的输入;参见图2（图1，右）。因此，我们采用另一种方法来帧洗牌，以获得静态对。对于静态对，我们使用具有相同风格的RGB图像，但通过抖动光流来改变动态。RGB流表示分别与色调和饱和度编码方向和幅度一起使用，而我们抖动的正是这些参数。对于动态对，我们使用相同的光流，但不同的图像风格。为了创建风格化的图像，我们使用与上述动作识别相同的视频风格化方法[42]，然后从生成的视频中采样帧。3.2. 估计静态和动态单位我们寻求量化的单位数量（即信道），以及随机洗牌程式化流量抖动程式化14002N=[s接头FKN=[s残差--ΣK·1--2FF各个单元执行静态、动态或联合编码的程度受最近研究的启发，在每个单元i ∈ 1，. - 是的- 是的，N las协方差（zF（i），zF（i））单个图像[10，27]，我们使用互信息估计器来测量视频对之间共享的信息。分层度量给定一个预先训练好的网络，fθ和asi=12，方差（zF（i））方差（zF（i））（二）其中每个si是语义因子F在共享语义因子F的视频对v1和v2（即静态或动态），我们计算中间层l的特征为zF=fl（vF）和zF=fl（vF）（省略-F尤特岛考虑到这些个体相关性，我们计算出通过排除使用Softmax和1θ12θ2将l置于z上以简化符号）。我们用zF（i），zF（i）简单地阈值的相关性为每个因素与一个控制，1 2为了表示第i个单元（即，通道）在全局平均池化层之后的Nl维特征中。我们的指导常数参数λ，以产生我们的单位度量，Nl这种测量的直觉是，偏向静态因子的单元将导致静态对之间的相关性高于动态对，反之亦然。下1iFi=1Nl> λF∈K]假设中间表示zF（i），zF（i）在数据集中是联合高斯的，NF=101[si>λsiλk∈K，kF]（3）1 2i=1相关系数可以用作互信息的下限[17，30]，如在以前的工作[10，27]中所使用的通过计算所有Nl个通道上的相关系数SF，获得单位编码因子F的数量NF在所有视频对zF，zF之间，Nl1iFi=1<λ<$F∈K]，其中，K=静态，动态，N联合指示对两者联合编码的单元，并且N残差是不与N=σ（S）·Nl=exp（SF）·Nl，exp（Sk）k=0NlF F（一）这些因素在一定的阈值下，λ。请注意，我们将-符号单元作为联合、动态、静态或残差，并且不允许发生重叠。这种方法使我们能够调查存在的单位，共同编码静态SF=100协方差（z1（i），z2（i）），方差（zF（i））方差（zF（i））和动态因素。对于所有实验，我们设置λ= 0。5因为它介于无正相关和完全正i=11 2其中，我们将Softmax σ（）乘以该层中的单元的数量Nl，以计算相对于所考虑的其他因素对语义因素F进行编码的单元的数量，并且K=静态、动态、等同。除了静态和动态之外，我们考虑（1）中的第三个因素，即相同因素，其中视频对具有相同的静态和动态因素（即，相同的视频、风格、帧排序和光流）。该基线因子是模型对相同视频的编码之间的单位度量相关系数SF估计特定层中所有单元上的静态和动态信息的相对量;注意逐层度量中Softmax之前的求和所完成的池化，（1）。然而，还期望测量包含在每个单独信道中的静态和动态信息。这种测量允许更细粒度的分析有多少通道（即，单位）对高于某个阈值的因子F进行编码，以及识别任何关节或残余（即，非动态或静态）单元。因此，我们根据每个单元的信息量（即，静态与动态）被编码，无论是否有任何单元联合编码两个因子，或者是否存在与任一类型的信息都不相关的单元。我们测量静电的量，该增广式具有不同λ的结果。4. 实验结果我们选择了动作识别和视频对象分割这两个任务来证明我们的方法的通用性更具体地说，它们在语义上不同（即，多类对二元分类），标记（即，视频级对像素级）和输入类型（多帧图像对单帧光流）。我们探讨了三个主要的研究问题，并显示了相应的结果，就我们的定量技术为这两个任务：（一）什么是静态和动态偏差的模型架构的影响（第4.1）？(ii)训练数据集对静态和动态偏差有什么影响？4.2）？(iii)联合编码单元相对于模型架构和数据集的特征是什么培训和实施细节可以在补充中找到。4.1. 模型架构对静态和动态偏差有什么影响？4.1.1动作识别建筑。随着动作识别领域在很大程度上远离了显式输入运动表示（例如，光流），我们将我们的分析限制14003在14004C2di3DX3dSF-慢SF-快速仅慢速 FastOnlyMViT时间转换器××××静止型动态4035302520151 2 3 45网络层4035302520151 2 3 45网络层4035302520135791113 15网络层SF- 快速仅快速SF-慢速仅慢速TimeSfMViTI3DC2D动态静态联合残余0 20 40 60 80100单位编码因子F（%）图3.在Kinetics-400上训练的动作识别网络的分层和单元分析[4]。左：使用分层度量（1）对静态和动态因子进行分层编码，用于：（a）单流3D CNN，（b）SlowFast变体和（c）Transformer变体。SF-Slow和SF-Fast分别表示在融合层之前从慢分支和快分支获取的表示。右：在完全连接层之前的最终表示上，使用单位度量（3）估计动态，静态，联合和残差单位仅使用RGB模式。我们研究了三种类型的模型，就其静态和动态的偏见：（i）单流3D CNN（即。C2D[49]，I3D [4]和X3D [13]模型），（ii）SlowFast [14]变体，其中我们还研究单独训练时的两个流，称为SlowOnly和FastOnly模型以及（iii）基于Transformer的架构[2，12]。本小节中的所有模型都是在Kinetics-400数据集[4]上训练的，并取自SlowFast存储库[14]，我们没有进行任何训练（除了FastOnly，我们实现了）。对于所有模型，帧的数量和采样率是（8 8），除了FastOnly网络（32 2）、MViT（16 4）和TimeS- former（8 32）。确定静态和动态单位在所有模型中，我们生成了Stylized ActivityNet [11]验证集，并使用它对静态和动态对进行采样。我们选择这个数据集是因为动作分布类似于Kinetics-400，但大小要小得多，使其在计算（1）和（3）时具有内存效率。分层分析。图3（左）使用我们的分层度量（1）量化了多时空模型的静态和动态单元。虽然变压器在每一层进行测量，但卷积架构在五个“阶段”进行测量我们通过比较最后一层（即，阶段5），因为该表示包含模型输出之前的最终信息。有趣的是，除了FastOnly模型之外的所有单流网络都严重偏向于静态信息，即使静态对的视频帧被随机混洗。这一结果表明，在这些模型中的严重偏见，向静态特征表示。事实上，大多数3D CNN（例如，I3D和SlowOnly）的动态单元百分比与C2D网络相似，表明这些模型不能充分捕获复杂的动态表示。我们分别对慢-快模型的慢分支和快分支的表示进行了静态和动态估计（即，在特征融合之前如图3（b）所示，这种用于捕获动态信息的双流技术工作良好，因为快速分支具有大量的动态单元，即使不使用光流作为输入。值得注意的是，这一发现也适用于其他数据集（见第二节）。4.2）。SlowFast网络的一个关键组件是融合分支，旨在将信息从快速分支传输到慢速分支。该操作是通过连接慢速和快速特征，然后进行时间跨度卷积来执行的由于 SlowOnly 网络只是没有快速分支的SlowFast网络快通路的加入早在第二阶段就使慢通路中的动力单位增加了3.3%。补充中的其他实验表明，我们的结论具有不同数量的输入帧和采样率的鲁棒性。仅仅从模型的最后一层看，我们发现了许多有趣的观察结果。图3展示了所有模型如何偏向于较早层的静态信息，并倾向于在网络中更深处编码更多C2D、I3D和X3D模型在每个阶段的动态和静态信息中仅具有小的、通常单调的变化。SlowFast-Fast分支在动态单元方面具有最大的变化，再次显示了双流体系结构捕获动态信息的能力。相反，静态和动态编码的每层特性在两种基于变换器的架构中是不同的。它们编码越来越多的动态信息，直到模型的一半，在这一点上，模式逐渐变小，甚至略有逆转。单元分析。现在我们使用单位度量（3）检查单个单位，其中λ=0。5并在图3（右）中的完全连接层之前报告最终表示有趣的是，除了FastOnly之外，所有的单流模型都主要包含静态和联合单元。单流变换器和CNN在动态或剩余单元的出现方面似乎没有区别。相比之下，FastOnly模型和Slow Fast-Fast分支产生大量的(a)三维CNN(b)慢快(c)变压器单位数量（%）14005动态静止RTNet MATNet FusionSeg453525151 2 3 45网络层453525151 2 3 45网络层453525152 3 45网络层RTNetMATNet NoBARMATNetFusionSeg动态静态联合残余0 20 40 60 80100单位编码因子F（%）图4.对现有VOS网络进行分层和单元分析左：使用逐层度量在FusionSeg [28]、MATNet [52]和RTNet [38]中对运动、外观流和融合层的动态和静态因子进行编码，（1）。融合层大多偏向于静态因素。右：使用单位度量的针对融合层5的三个模型的单位分析，（3）。MATNet拥有最多的动态单元。MATNet NoBAR表示没有边界感知细化模块的MATNet动态单位当比较FastOnly模型和SlowFast-Fast分支时，揭示了与图3（右）的结果一致的另一个发现：当与Slow分支联合训练时，Fast模型提取了更多的动态信息。这些发现共同证明了具有不同容量和帧速率的双流架构的功效。在补充中，我们验证了这种结果模式在改变阈值λ时保持一致，并提供了多个层的结果。4.1.2视频对象分割建筑。我们研究了双流融合VOS模型的动态和静态偏差，该模型将两帧光流和RGB图像作为输入，具有不同类型的交叉连接：（i）FusionSeg [28]没有交叉连接，（ ii） MATNet [52]具有运动外观交叉连接，（iii）RTNet [38]具有双向交叉连接。为了与在中间表示中融合运动和外观的其他两个模型进行公平比较，我们在分析中使用了在DAVIS 16 [37]上训练的Fusion-Seg [28我们修改后的模型遵循编码器-解码器方法[5]，导致两个融合层，如补充中所详述我们的模型在DAVIS 16上实现了与原始模型相似的性能（70.8%vs.70.7% mIoU）。两个MATNet [52]和RTNet [38]，我们使用作者提供的模型，无需进一步微调。我们提供了一个分析的 MATNet 只训练在DAVIS16（即。没有额外的YouTube-VOS数据）。我们在分析中使用DAVIS16的程式化版本来评估先前模型的静态和动态偏差，根据SEC. 第3.1条在运动和外观流的情况下，我们分析交叉连接后的功能，如果存在。在融合层中，使用了RTNet中时空注意力融合后的特征在FusionSeg中，使用卷积层融合来自第二和第五ResNet阶段的运动和外观后的特征。分层分析。图4（左）显示了分层根据我们的逐层度量，对运动和外观流以及融合层进行分析，（1）。类似于我们在SEC中的动作识别模型的发现。4.1.1，大多数视频对象分割模型偏向于融合层中的静态因素（即，熔合层三、四和五）。我们观察到，随着我们在网络中的深入，外观流中的动态偏差会增加，特别是对于RTNet。相反，FusionSeg和MATNet两者的运动流中的偏置在整个层中在某种程度上是一致的。有趣的是，在RTNet中，静态偏差随着表示在网络中的深入而增加这一结果可能源于RTNet中的双向交叉连接。单元分析。使用我们的单位度量（3）获得这些模型的单个单位分析，其中λ=0的情况。5在图中示出4（右）用于融合层5。MATNet有一个非平凡的增加动力偏置单位相比，其他的模特。相比之下，RTNet和FusionSeg显示了更多的联合编码单元，这是以偏向静态和动态因素的单元为代价的。这种模式表明，MATNet中存在的交叉连接可以导致在后期融合层中编码静态和动态因素的专门单元的增加。我们还显示了在没有其边界感知细化模块和边界损失的情况下训练的MATNet与动作识别一样，该软件中的实验表明，我们的观察结果对于不同的融合层、阈值λ的变化和训练数据集的变化（即，没有YouTube- VOS）。在补充中，我们还证明了运动到外观的交叉连接与需要动态信息的任务的性能有关（即。运动物体的分割（ MoCA ）[31]）。4.1.3总结和分享见解我们已经在动作识别和视频分割中表明，大多数检查的最先进的模型偏向于编码静态信息。我们(a)外观流(b)运动流(c)融合单位数量（%）14006数据集SlowOnly FastOnly动力学（%）统计（%）Dyn.（%）统计（%）0−10−20−30−40−50SSv2动力学潜水48动态静态联合残余0 20 40 60 80100单位编码因子F（%）SSv2动力学潜水48动态静态联合残余0 20 40 60 80100单位编码因子F（%）−60SSv2 Diving48动力学数据集图6.使用单位度量估计动态、静态、联合和残差单位（3），用于SlowOnly（左）和Fas。图5.动作识别数据集的偏差分析。左：使用分层度量的动态和静态维度，（1），用于在Kinetics-400 [4]，Diving 48 [33]和 SSv 2 [19] 上训练的网络。右：使用混洗帧训练的SlowOnly和FastOnly模型相对于基线（即，标准训练）。SSv 2的性能下降比Diving 48或Kinetics-400更大。还证明了具有运动到外观[52]（快到慢[14]）交叉连接的双流模型的有效性，以实现对动态信息的更大编码。最后，我们记录了动态偏置模型的最后一层能够产生大量的专门动态单元，而静态偏置模型产生的联合单元。4.2. 训练数据集如何影响静态和动态偏差？4.2.1动作识别数据集。由于知道动作识别模型通常使用数据中的静态上下文偏差来进行预测（例如，[6，8]），我们在以下评估中考虑数据集，这些评估旨在对模型这种类型的两个流行数据集是 Something-Something-v2[19]（SSv 2）和Diving 48 [33]。SSv2是一个细粒度的以自我为中心的数据集，有174个类和超过30，000个独特的对象。值得注意的是，SSv2中的不同动作包括相似的外观但不同的运动，例如，类“从右向左移动”和“从左向右移动”。Diving48 [33]被创建为所有的动作都是一种特殊的跳水动作，只有一个旋转或翻转的区别我们比较了Kinetics-400、Diving 48和SSv 2，以确定每个数据集需要动态动作识别的程度。数据集偏倚。我们使用分层度量（1）来估计在三个数据集上训练的两个模型的最后一层中捕获的静态和动态单元，如图5（左）的表格所示。我们生成StylizedSSv 2和Stylized Diving 48来生成静态和动态估计（并继续使用 Stylized ActivityNet for Kinetics-400 训练模型）。我们测量最后一层，因为最终预测是直接从它做出的，因此最能代表模型用于最终预测的信息。t仅（右）Kinetics-400 [4]、Diving 48 [33]和SSv 2 [19]上的型号。动态单元产生于动态偏置模型（例如，FastOnly）和Diving48训练中的剩余单位。措辞SlowOnly和FastOnly架构遵循与Sec.4.1，FastOnly始终捕获更多动态信息。令人惊讶的是，与Kinetics相比，在Diving48上训练的模型捕获了类似数量的动态这些结果一开始可能看起来很奇怪，因为在没有动态信息的情况下，模型似乎不太可能在Diving48上表现良好。为了进一步理解和证实这一结果，我们进行了一个简单的实验，其中模型只有静态信息可供学习。如第3.1中，帧混洗视频将具有与非混洗输入相同的静态信息，但是时间相关性以及因此动态信息将被破坏。这种操作迫使模型专注于静态信息进行分类。我们比较了在混洗帧上训练和验证的模型与标准训练模型的前1验证准确性图5（右）显示了SlowOnly和FastOnly网络在Diving 48、SSv 2和Kinetics-400上的结果，即与未混洗帧相比，混洗帧为了公平比较，我们从Kinetics-400初始化所有模型两种模型在训练对 Diving 48 和Kinetics-400的混洗视频进行分类时都显示出较强的相对性能;然而，对于SSv 2，在混洗帧上训练时，分类性能下降到更大程度。这些结果表明，SSv2是一个更好的替代基准，ING时间能力的网络。个别单位分析。图6显示了Kinetics- 400、Diving 48和SSv 2上两个模型（一个静态偏置，SlowOnly，一个动态偏置，FastOnly）的各个单元（来自最后一层）在Kinetics-400上训练的SlowOnly模型只包含静态和关节单元。然而，当在Diving48或SSv2上训练时，残差和动态单元都出现了，这表明训练数据集对产生专门单元的影响。这一发现在所有静态偏置架构中是一致的;见附录。与SlowOnly模型不同，FastOnly模型包含许多在任何数据集上训练的动态单元，显示了该架构在生成专用动态单元方面的功效有趣的是，每个数据集在出现的单元潜水48产生剩余单位，表明除了动态和静态信息之外还有其他因素在起作用。另一方面，SSv2产生在混洗帧仅慢速FastOnly基线相对性能下降（%）动力学21.438.427.330.9护士4823.134.023.827.3SSv228.230.731.621.914007数据集融合层5融合层2动力学（%）统计（%）Dyn.（%）统计（%）DAVIS 27.8 30.1 34.0 25.9ImageNetVID26.4 33.1 33.0TAO-VOS表1.使用逐层度量的视频对象分割数据集的偏差，（1），用于FusionSeg两种型号中最具活力的单位。补充说明表明，这一观察结果与其他模型一致。戴维斯ImageNetVIDTAO-VOS戴维斯ImageNetVIDTAO-VOS融合层50 20 40 60 80100熔接层20 20 40 60 80100单位编码因子F（%）动态静态联合残余4.2.2视频对象分割数据集。我们研究了以下三个VOS数据集对模型静态和动态偏差的影响DAVIS 16 [37]是自动VOS最广泛使用的基准，具有50个2至4秒的短时范围序列和3455个手动注释帧。ImageNet VID [28]包含3251个弱标记视频，并在以前的工作中用于预训练模型在这里，我们使用它作为一个通用的训练数据集，即。而不仅仅是运动流，来评估它的影响。最后，TAO-VOS [46]包含626个相对较长的视频（平均36秒），这些视频以手动和弱标记帧之间的混合方式进行注释，导致74，187帧。我们将注释转换为排除实例，而只考虑前景/背景注释。数据集偏倚。我们在我们的三个数据集上使用早期（第二层）和晚期（第五层）融合层训练我们修改后的FusionSeg版本。我们使用分层度量（1）计算训练数据集的静态和动态偏差，并在表1中报告结果。在TAO-VOS上训练的模型在所有三个数据集中具有最少的静态偏差然而，数据集在动态偏差方面通过分析专门的动态和联合编码单元，进一步探索这些结果，如下一节所讨论的。个别单位分析。我们使用单位度量（3），λ=0，根据单个单位分析来分析数据集。五、从图7（左）中可以看出，在TAO-VOS上训练的模型产生最多数量的特定动态偏置单元，这与DAVIS 16和ImageNet VID不同，它们显示了更多的联合单元。为了进一步探索这一问题，我们通过计算整个数据集上每个像素的地面实况分割掩码的平均（归一化为0-1）数量来评估三个数据集的中心偏差，结果如图7（右）所示。可以看出，对于这两个层，具有最小中心偏差的数据集的专用动态单元的百分比最大，即。TAO-VOS，因为它的中心偏置图比其他图扩散得多。这些观察结果对如何将数据集最好地用于不同的任务具有影响。考试-图7. VOS数据集的偏倚分析。左：估算使用单元度量的动态，静态，联合和残差单元，（3），用于在DAVIS 16 [ 37 ]，ImageNetVID [ 28 ]和TAO-VOS [ 46 ]上训练的FusionSeg右：三个数据集的中心偏倚图结果表明，当在最小中心偏差数据集上训练时，两个融合层都出现了更动态的单元（即，TAO-VOS）。PLE，更一般的运动分割而不考虑中心，可以通过用动态偏置数据集（例如，TAO-VOS）不同于静态偏置数据集（例如，DAVIS16和ImageNet VID）。4.2.3总结和分享见解我们已经展示了训练数据集对这两项任务的影响。我们的研究结果对动作识别中一些广泛采用的数据集提出了质疑。特别是，Div-ing 48被认为是学习动力学的一个很好的基准[33]。相反，我们的研究结果表明，SSv2更适合于评估模型在视频对象分割中，我们发现在TAO-VOS上的训练产生了最多的专用动态单元。因此，它可能是一个更好的训练数据集的任务，依赖于捕捉动态（例如，运动分割）。5. 结论本文提出了可理解的学习时空模型的视频理解，特别是动作识别和视频对象分割。我们介绍了一种通用方法，用于分析各种体系结构利用静态信息与动态信息的程度。我们还展示了我们的方法如何应用于研究数据集中的静态与动态偏差。未来的工作可以将我们的方法应用于其他视频理解任务（例如.动作预测）以及使用在特定模型和数据集上获得的见解来改进它们的性能和适用性（例如，减少识别的偏差，以便更好地推广到新数据）。鸣谢。我们衷心感谢加拿大NSERC发现补助金和矢量研究所研究生联盟奖的财政支持。K.G.D.和R.P.W.他们以约克大学副教授的个人身份对这项工作做出了贡献。14008引用[1] Nayyer Aafaq，Ajmal Mian，Wei Liu，Syed ZulqarnainGi- lani，and Mubarak Shah.视频描述：方法、数据集和评估指标的调查。ACM Computing Surveys，52（6）：1-37，2019. 2[2] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？2021年国际机器学习会议论文集。二、五[3] Joy Buolamwini和Timnit Gebru。性别阴影：商业性别分类中的部门间准确性差异.在公平，可计算性和透明度会议记录中，第77-91页，2018年。1[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。二、五、七[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议论文集，第801-818页，2018年。6[6] Chinwoo Choi，Chen Gao，C. E. Joseph Messou，andJia-Bin Huang.为什么我不能在商场里跳舞？学习在动作识别中对场景偏差的调节。在神经信息处理系统进展会议论文集，2019年。二、七[7] 阿查尔·戴夫帕维尔·托克马科夫和德瓦·拉玛南分割任何移动的物体。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。2[8] 康斯坦丁诺斯湾Derpanis，Mikhail Sizintsev，Kevin J.Cannons，and Richard P. Wildes.基于时空方位分析的动作定位与识别。IEEE Transactions on Pattern Analysisand Machine Intelligence，35（3）：527-540，2012。7[9] 康斯坦丁诺斯湾Derpanis和Richard P. Wildes.基于时空方向分析的时空纹理表示与识别. IEEE Transactions onPattern Analysis and Machine Intelligence，34（6 ）：1193 3[10] Patrick Esser Robin Rombach和Bjorn Ommer。一个用于解释潜在表征的分解可逆解释网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第9223二、四[11] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。ActivityNet：用于人类活动理解的大规模视频基准。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第961-970页，2015年。5[12] Haoqi Fan，Bo Xiong，Karttikeya Mangalam，YanghaoLi ， Zhicheng Yan ， Jitendra Malik ， and ChristophFeicht-enhofer.多尺度视觉变换器。arXiv预印本arXiv：2104.11227，2021。二、五[13] 克里斯托夫·费希滕霍夫。X3D：扩展架构以实现

下载后可阅读完整内容，剩余1页未读，立即下载