动作识别中的框架依赖性建模方法及其对时间结构的影响

64 浏览量更新于2023-10-15 收藏 763KB PDF 举报

视频理解

动作识别

身份认证购VIP最低享 7 折!

30元优惠券

Recur、Attend还是Convolve？动作识别中So fia Broome'1Ernest Pokropek1Bo yu Li1Hedvig Körstro？ m1，21KTH，Swedensbroome，pokropek，boyul，hedvig@kth.se2 Silo AI，Sweden摘要今天的大多数动作识别模型都是高度参数化的，并在具有外观不同类的数据集上进行评估。研究还表明，与人类相比，综上所述，这引起了这样的怀疑，即大型视频模型部分地学习虚假的空间纹理相关性，而不是随着时间的推移跟踪相关形状，以从它们的运动中推断可概括的语义随着时间的推移学习视觉模式时，避免参数爆炸的一种自然方法是利用递归。生物视觉具有丰富的循环回路，在局部移位泛化方面优于计算机视觉。在这篇文章中，我们实证研究是否选择低层次的时间建模的纹理偏差和跨域鲁棒性的后果为了能够对捕获时间结构的能力进行轻量级和系统的评估，而不是从单个帧中揭示，我们提供了时间形状（TS）数据集，以及Diving48的修改域，允许研究视频模型中的空间纹理偏差。我们的实验的综合结果表明，健全的物理归纳偏见，如在时间建模的复发可能是有利的，当鲁棒性域转移是重要的任务。1. 介绍当涉及到视频理解时，最基本的问题之一是如何以这样的方式对帧之间的依赖性进行建模，即可以学习与视频中的活动相关的时间关系。一个强大的动作识别系统应该能够弄清楚帧是如何相互关联的，以及哪些形状和对象随着时间的推移而改变或持续存在。有了这些知识，它可以开始在更高级别上推断关系，例如对象-对象或代理-对象关系。框架依赖性的三种主要不同方法是3D卷积、自注意和递归。这些方法主要以不同的方式对世界（视觉序列）进行建模：线性、非线性和具有时间因果方向的非线性，这意味着它们各自使用不同的归纳偏差用于时间建模（补充的图1）。尽管框架依赖性问题很重要，但它几乎已经从动作识别的文章中消失了，可能是在改进分类基准的竞赛中。相反，重点放在深度视频模型的其他方面，例如先进的架构上层结构，正则化或训练方案。最近发生了向基于注意力的视频模型的转变，但没有讨论其底层时间模型的物理解释在视觉任务中，人类在泛化方面仍然比人工神经网络强得多[20，46]。回流模型在迄今为止唯一已经“解决”的视觉系统-生物视觉中是至关重要的32、34、44、52]。基于对生物视觉而不是计算机视觉中反馈连接丰富的观察[32，56]，在本文中，我们假设学习时空特征时缺乏重现可能是这种差异的一个原因因此，我们在广泛和系统的实验中实证地研究了以下研究问题：3D卷积、自关注和递归的主要不同的数学性质是否影响视频模型中的跨域鲁棒性-特别是，递归是否带来优势？视频模型缺乏对域偏移的鲁棒性[8，61，62]，并且已经多次表明[8，25，35，60]，2010年代最常引用的数据集（UCF-101 [51]，HMDB [33]，Kinetics [29]）表现出显著的空间偏差。这是动作识别中跨域鲁棒性差的合理原因，因为过度依赖空间而不是运动线索直观地导致过度拟合到一个域（例如，某些背景、观点或类似的演员外观）。当代最先进的动作识别方法主要是全卷积[5，17，18，21，60]，将卷积与时间采样和融合策略[58，59，63]相结合，或者更近的是基于注意力的视频变换器（VT）[4，23，419924200S1 S2 T图1. 动画图，在Adobe Reader中单击时显示。示例剪辑显示我们的三个修改后的Diving48域，视频模型中纹理偏差的研究：S1（在模糊背景上分割的潜水员），S2（在模糊背景上裁剪的潜水员边界框）和T（潜水员的掩蔽框和原始背景）。31、45、53]。模型的庞大规模，通常超过50M的可训练参数，使它们具有强大的学习域内模式的能力。随着模型变得越来越大，越来越多的资源被用来训练它们。最先进的模型应该在大规模数据集上显示有竞争力的基准测试数据，例如Kinetics-400和Kinetics- 600。值得怀疑的是，这些基准是否适合时间建模，或者更确切地说，如何将大量的YouTube剪辑有效地存储为权重表示。与此同时，一方面，标准图形处理单元（GPU）的硬件和软件之间的相互依赖性，另一方面，需要大量并行计算进行训练的模型之间的相互依赖性正变得更加交织在一起[30，41]。问题是，我们是否已经在行动识别方面陷入困境，是否已经在工业界和学术界都期望研究更大的理论工作[2，39，50]已经表明，过度参数化有助于推广，因为这种模型的损失景观的局部最小值通常被认为是全局的。这些研究是在保留的数据上进行的，但据我们所知，从未对具有显著域转移的数据进行过研究。虽然在GPU上训练的效率较低，但递归视频模型在每个时间步都有更有效的参数方法，这可能会阻碍对纹理线索的过度依赖，并促进学习时间相关的我们假设，使用可训练参数的经济需求会刺激学习更好的形状表示而不是纹理表示。反过来，这允许在数据集和野外更好地泛化。对于轮廓检测，发现具有循环动力学的模型比前馈模型更有样本效率和更好的推广[37，38]。本文的主要贡献如下：• 我们提出了第一个经验性的结果，从系统的实验中选择帧依赖性建模的动作识别如何影响跨域的鲁棒性。• 我们引入了一个轻量级的数据集，允许调查的时间形状建模能力和域泛化，称为时间形状数据集。• 我们提供了第一个讨论和实验的形状与。纹理偏置（根据Geirhos等人，[19]深度视频模型。• 我们公开Diving48数据集的基于分割的形状和纹理版本（以及303个实例分割帧），允许研究视频模型是否学会更多地依赖（时间）形状或纹理。2. 相关工作动作识别的领域转移。在[7，61]中，引入跨域数据集来研究用于视频域自适应的方法。[7]提出对齐时域特征，其中域偏移最显著，而[61]提出改进所谓的局部特征而不是全局特征的泛化能力，并使用新的增强方案。然而，引人注目的是，[7，61]中的所有实验都是基于通过2D ResNet [26]逐帧提取的特征，并在事后聚合，这意味着它们实际上不处理时空特征。使用逐帧特征节省了大量的时间和计算，但它避免了视频建模的一个重要方面。与域自适应领域不同，我们不是在基础架构之上提出减少域偏移的方法，而是根据经验研究哪种类型的基本视频模型本质上对它更鲁棒。在一个重要的工作易等人。[62]，引入基准来研究针对常见视频损坏的鲁棒性，针对基于时空注意力和卷积的模型进行评估。与我们的工作不同，域转移仅限于数据损坏，而不是新域中的相同分类任务，并且不评估递归模型。强调动作识别的时间性。随着视频理解领域的发展，许多作品强调了时间建模的重要性，例如，[14、22、40、43、47、49、60、63]。[22][40]与时间模型比较，纹理较少多个纹理24201一主要是不同的架构之间的能力，但没有明确调查域转移泛化。[49]检查视频架构和数据集的人类活动的理解上的一些定性属性，如姿态的变化，简洁性和密度的行动。[28]研究了运动对C3D架构的分类性能有多大[6]和[55]都对动作识别中2D和3D CNN的不同变体的特征进行了大规模研究。最后，我们连接到[47]，它讨论了具有强大图像建模能力的模型可能优先考虑这些线索而不是时间建模线索的风险。让人想起[19]的发现，[47]的作者发现，在运动不太重要的情况下，扩展卷积倾向于更好地学习类，并且可以通过在时间上更集中的数据上进行训练来帮助泛化（类似于[19]中基于形状的数据的训练）。然而，与我们的工作不同的是，只研究了完全卷积模型，并且重点不是将模型与帧依赖性建模的根本不同方法进行比较。3. 实验设计在本节中，我们描述了两个数据集的实验设计：48.我的超次元帝国主要思想。在所有的实验中，我们首先在一个特定的领域进行训练，然后在同一领域的一个数据集上进行验证。我们保存在验证集上表现最好的模型检查点，然后继续在其他域上评估它，这些域在某些方面不同，在[7]之后，我们训练的域将被称为源，而我们评估的未知域将被称为目标。为了衡量跨域鲁棒性，我们定义了鲁棒性比（rr.）作为模型在目标域上的准确度与其在源域上的最佳验证准确度之间的比率当目标任务对应于源任务时，理想情况下，此数字应接近1（越大越好）。可以看出，RR。是一种启发式度量，它建立在域内验证集的性能通常高于其他域的假设之上。如果验证集的性能一开始就很差，那么rr。信息量更少所有实验通用的方法。在我们的研究中，我们有目的地比较模型的基本功能。在我们的实验中没有应用预训练、丢弃或数据增强，除了Diving48上的剪辑序列被均匀地子采样为相等的长度（3D CNN和基于注意力的模型的输入都有非均匀帧采样方法，可以用作增强，或作为知情先验（例如，在[4]）中的推理过程中，时间变换器仅对中间帧进行采样;因此，为了研究模型的基本情况，我们的研究中没有使用这些模型。与神经网络相关的代码是用PyTorch [42]使用Lightning [16]编写的。进一步的实现细节和代码可以在相应的存储库中找到（时间形状实验，Diving48实验和潜水员分割）。这些数据集可在Har-vard Dataverse上下载，并从存储库链接。3.1. 模型我们将比较ConvLSTM，3D CNN和VT，因为它们提供了三种主要不同的时间建模方法，具有不同类型和程度的归纳偏差。作为 VT ，我们将使用TimeTransformer [4]，因为它最近在许多动作识别基准上取得了最先进的结果比较具有不同结构的神经网络模型是一项具有挑战性的任务。在我们的工作中，我们决定控制三个不同的因素：在特定数据集上的性能、可训练参数的数量和层结构（即，分层抽象的数量和表现力）。实验是在运行之前设计的，以保持过程尽可能无偏。由于在整个研究期间在五个固定的随机种子上运行，因此实验具有更高的完全重现性。卷积LSTM。ConvLSTM [48]层功能类似于LSTM层[27]，但矩阵乘法被2D卷积取代。这至关重要地意味着它们允许输入保持其空间结构，这与经典的递归层相反，该递归层需要被忽略的输入。帧依赖性使用重现来建模，重现在时间步之间引入非线性。此外，时间只能在因果方向上流动。在这项工作中，Con-vLSTM视频模型是一个完全基于这些类型的层的模型，在顶部有一个分类头。时间转换器。时间变换器（TimeSf）[4]是一个VT，完全依赖于自我注意机制来建模帧依赖性。[11]每一帧都被分成若干小块，这些小块是被关注的。我们使用TimeSformer-PyTorch库[57]，主要是标准设置，除非另有说明（划分时空注意力）。自我注意力既应用于一个帧的块之间（空间注意力），也应用于跨时间轴位于相同位置的块之间（时间注意力）。TS实验中使用了两种变体，头数设置为1或8（TimeSf-1和TimeSf-8）。TimeSf-1在参数计数方面更接近ConvLSTM和3DCNN，而TimeSf-8是标准设置。我们再次注意到，为了研究24202∈×联系我们模型的基本行为，我们不使用预训练，高级数据增强，也不对多个预测进行平均。这导致Diving48 forTimeSf的性能低于其最先进的结果。为了控制需要架构修改的层结构或参数数量，不可能使用预先训练的检查点。众所周知，VT或一般的视觉变换器（ViTs）由于其最小的感应偏差而需要大量的训练数据。因此，我们强调，我们并不是在质疑这些模型的整体性能--3D CNN。在3D CNN中，时间被视为空间，因此输入视频被视为体积，我们在其中卷积局部滤波器体积。卷积是一种线性运算，这意味着3D滤波器遍历的帧的顺序无关紧要。相反，所有的非线性都是分层应用的，在层之间，这就是这个模型仍然可以学习时间箭头的原因它的层结构通常类似于2D CNN，包括批量归一化和池化。我们研究中使用的实例也是如此。3.2. Temporal Shape数据集我们提出的TS数据集是一个综合创建的数据集，用于对短片段进行分类，显示方形点或随机MNIST数字跟踪形状及其随时间推移的轨迹（图1）。2）的情况。该数据集具有五个不同的轨迹类（即，时间形状）：圆形、直线、弧形、螺旋形和矩形。任务是识别哪个类是由移动实体在序列的帧中绘制的。运动对象的空间外观与类别不相关，因此不能用于识别。在2Dot 、 5Dot和 MNIST 域中，背景是黑色的，而在MNIST-bg中，背景包含白柏林噪声。柏林噪声可以或多或少是细粒度的;尺度由随机参数σ[1，10]调节。该数据集可以被认为是动作模板数据集的大幅缩小版本，例如20 BN-Something-something-v2 [24]，剥离了外观线索。序列由20个64x64帧组成，灰度级。这五个类中的每一个类在它们的状态中都有不同数量的可能变化。这些形状可以具有不同的起始位置、起始角度、方向、大小和速度。在实验中，4000个剪辑用于训练，1000个用于验证（模型选择），500个剪辑仅用于评估。对班级进行抽样调查，以达到班级平衡。由于数据集很小，我们使用轻量级模型。我们控制层结构，让比较模式-ELS具有三层，每一层具有类似块，每一层中具有相同数目的隐藏单元。ConvL-STM和3D CNN的一个块由一个模型特定的层、最大池化和随后的批量归一化组成。这两个模型在所有三个层中使用相同的卷积核大小（3 3）。对于时间变换器，我们使用一个时间变换器层作为一个块，并且每个注意力头的潜在维度Dh作为隐藏单元的数量，因为这些在尺度上相似。我们对每层不同数量的隐藏单元进行实验，h2，4，6，8，10，12，16，24，32，48。对于不同模型大小的十个实验中的每一个，我们在源域上的五类任务上训练模型100个时期，其中十个时期具有早期停止耐心，在研究开始时设置的五个不同的随机种子下重复。对于TimeSf-1和TimeSf-8，最大历元数为300（提前停止为100），因为它们比其他两种类型的模型需要更多的历元来收敛，这是由于它们的最小归纳偏差。然后，我们使用相同的分类任务在不同的目标域上评估来自源域的最佳模型检查点实验在两个“方向”上进行与真实视频数据相比，TS数据上的训练是轻量级的，并且在一个GPU卡上运行得很快（对于我们评估的模型大小，在分钟范围内，最多一个小时）。在所有TS实验中，我们使用64个批量进行训练。3.3. 潜水实验48Diving48 [35]是一个众所周知的细粒度和时间关键型动作识别数据集。它由18k短剪辑与潜水从48类。成功地对这些潜水进行分类需要时间建模，因为需要跟踪潜水员及其命令的运动。数据集在背景和观点方面都是不同的外观，可能包含未知的根据作者的说法，相同的竞争网站可以出现在训练和测试分割中，“以避免某些竞争的偏见”。相反，在我们看来，这实际上增加了偏见的风险，因为在看不见的地点识别潜水的能力从未经过测试。最好是在训练集和测试集之间完全分离竞争位置。因此，尽管从时间建模的角度来看，数据集提出了一个非常具有挑战性的分类任务，但它可能不会没有空间偏差（正如我们的实验所证明的那样Diving48的Modified域。我们总是在原始数据集上训练，但在原始测试集的稍微修改的域上评估我们的训练模型我们将测试集修改为三个新的域：两个基于形状，24203图2. 视频可以在Adobe Reader中点击显示。示例剪辑显示了TS数据集的四个域，用于类圆。在2Dot和5Dot中，圆由宽度为2和5像素的正方形绘制。在MNIST和MNIST-bg中，圆圈是用MNIST数字绘制的，w/和w/o柏林噪声背景。一种是基于纹理的（遵循Geirhos等人的方法）。[19]，Fig. ①的人。为此，我们将[19]中的形状和纹理偏差的概念在形状域中，我们模糊背景并且仅保留分割的潜水员（S1），或者潜水员及其边界框（S2）。在纹理域（T）中，我们对潜水员在每个帧中所在的边界框屏蔽框填充有平均Imagenet [9]像素值，然后是[8]。阶级的证据应该只存在于潜水员的运动中;因此纹理版本不应包含任何相关信号，并且准确度应理想地下降到随机性能。通过这种方式，我们可以研究在形状或纹理域上测试时不同模型的得分如何下降，表明跨域鲁棒性（对于S1和S2）和纹理偏差（对于T）。潜水的实例分割48. Diving48中潜水员的细分在补充中详细说明。我们发布了303个带有实例分割（单次或两次潜水）的手动标记帧，因为现成的COCO训练的[36]网络无法完成Person类的任务，可能是因为潜水员在空中呈现出不寻常的形状，或者观众中包括人。训练就像TS一样，我们在Diving48上训练模型时故意避免铃铛和哨子，以研究它们的基本行为。所有三个模型都使用相同的SGD优化器、交叉熵损失和0.001的恒定学习率进行每个模型最多训练500个epoch，如果验证性能没有提高，则提前停止30个epoch。唯一使用的数据增强是整个剪辑的50%概率的水平叠加这些模型使用PyTorch Lightning的ddp并行化方案在8个A100GPU上进行训练格式为224×224的采样帧。鉴于我们实验的目的不是优化分类性能，我们在不同的性能水平下评估模型，准确率从30%到50%不等。今天的一些先进的最先进的方法，包括预训练和大量的数据增强，在Diving48上获得高达80%的性能，但是当[35]第三十五话因此，30-50%的范围是相当好的表现，并且远高于随机（其为2.1%）。实验我们对Diving 48进行了三种不同的实验，即控制：层结构和性能（a-c）、最佳性能变体的性能（d）以及参数和性能的数量（e-h）。ConvLSTM有四个块，每个块有128个隐藏的ConvL-STM单元（14.3M参数）。在所有实验中。a-c.控制层结构和性能。在这个实验中，我们让模型有四层，每层h=128。我们再次将Dh视为TimeSf的隐藏单位类比。我们在不同的性能级别评估模型检查点：准确率分别为30%、35%和38.3%。选择最后一个精度是因为它是该实验中3D CNN的限制性最高性能。对于每种类型的模型，具有相同的层结构会产生不同数量的参数。这里，3D CNN具有10.6M参数。和TimeSf85M。D.仅为性能而控制。在这里，我们在超参数搜索后比较模型的最佳性能。由于在我们尝试的所有变体中，不可能将TimeSf训练到高于39.7%的准确度，因此该实验仅使用3D CNN和ConvLSTM进行。13D CNN是一个11层VGG风格的模型（2330万参数）。使用的检查点均精确达到50.07%的验证准确度。e-h。控制参数和性能的数量。在这里，我们选择了具有类似数量的可训练参数的模型，在本例中为14M。为了达到TimeSf的参数数量，其深度从12减少到11，Dh和D减半，分别为32和256。3D CNN有六个块，每个块有128个单元。4. 结果和讨论在介绍了两个数据集的实验设计之后，接下来，我们讨论我们的经验发现，首先是TS，然后是Diving48及其修改的域。数据集于2018年推出，标准视频方法测试了现成的，最好的结果是27%的ac-1我们尝试使用TimeSf的变体列表在补充中。2Dot5DotMNISTMNIST-bg242043D CNNConvLSTMTimeSf-8TimeSf-190807060504030201009080706050403020最佳值。5点MNIST MNIST-bg2.培训2Dot3D CNNConvLSTMTimeSf-8TimeSf-1最佳值。MNIST 5Dot 2Dotb）关于MNIST-bg的在其他领域中是无偏的，因为训练数据被设计为排除空间偏差。然而，在现实世界的数据中，总是会有偏差，因此最好构建模型，无论训练数据如何，都尽可能少地编码偏差。4.2. Diving48：对形状和纹理的浓缩结果：ConvLSTM的纹理偏差较小，比TimeSf和3D CNN更具跨域鲁棒性。型号S1/V↑S2/V↑T/V↓T/S1↓3DCNN0. 255±0。0260.260 ±0. 0340.221 ±0. 0280.878 ±0. 15ConvLSTM0.230 ±0. 0280. 266±0。0260的情况。185±0。0420的情况。807± 0。16TimeSformer0.175 ±0. 0280.176 ±0. 0260.190 ±0. 0371.10 ±0. 17图3.平均结果（% acc.）在每层不同数量的隐藏单元的十次试验中，每次重复五次（因此，每个模型总共运行50次）。与每个型号尺寸对应的图可参见补充文件。4.1. 时间形状浓缩结果：在没有空间纹理偏差的情况下，TimeSf和ConvLSTM比3D CNN更具跨域鲁棒性在2Dot上训练图3a显示，尽管3D CNN通常在源验证集和附近的5Dot域上获得更高的结果，但当在MNIST上测试时（远离源域），ConvLSTM和TimeSf与其原始结果相比下降较少。ConvL-STM实际上在MNIST域上的绝对数量上优于3D CNN。3D CNN的归纳偏差在空间和时间上是高度局部的，这可能会阻碍对这些时间形状的学习。推广到MNIST-bg域对所有三种模型来说都太具有挑战性了。稳健性比与型号尺寸。在图4中，我们绘制了rr。在2Dot上进行训练时，三个目标域。对于5Dot，RR。对于ConvLSTM，随着模型大小的增加而略有下降，而3D CNN和TimeSf相反地增加了rr。增加了模型尺寸。对于距离验证域更远的MNIST，3D CNN的上升趋势被打破，并且TimeSf不太明显。对于最具挑战性的域，MNIST-bg，rr.对于尺寸增大的所有三种型号来说，都变得非常低。图中的趋势。图4a-c指出了在附近域中具有有希望的性能的较大模型大小如何可能成为距离TimeSf和3D CNN的源更远的域中的障碍。关于 MNIST-bg 的培训在该实验中， TimeSf-8 和TimeSf-1是最稳健的（图1B）。3 b）。当涉及到学习空间和时间上的稀疏、长期依赖关系时，VT是一个很好的模型我们假设这允许TimeSf完全忽略Perlin噪声（这是高度随机的，需要建模）并学习真实的时间形状，这反过来又允许它表1.实验a-h的平均结果表1显示了Diving48实验的平均结果。我们注意到，相对于验证（ T/V ）和 S1 （ T/S1 ）的准确性，ConvLSTM对T的下降最多。ConvLSTM对S2域的鲁棒性最强，而3D CNN对S1域的鲁棒性最强。模型S1/V↑S2/V↑T/V↓T/S1↓3D CNN0的情况。2530.2450.2571.01ConvLSTM0.2470的情况。2810的情况。2380的情况。965TimeSformer0.1980.2030.2501.27表2.实验a：4x128，30%验证准确度。实验a-d. 在实验a-c中（图5），其中我们在源域上的验证准确度在30%和38.3%之间变化，TimeSf和3D CNN在T上的表现优于S1和S2，即使只有后者包含类证据。这表明Diving48中确实存在空间偏差，并且这些模型比ConvLSTM更容易对其进行编码。表2-4显示了这两个模型的T/S1>1，图2中也可见。5a-c. 2模型S1/V↑S2/V↑T/V↓T/S1↓3D CNN0的情况。2300.2330.2431.06ConvLSTM0.2170的情况。2710的情况。1990的情况。919TimeSformer0.1540.1520.190*1.24表3.实验b的结果：4x128，35%验证准确度。* 当低T/V结果不伴随T/S11时。<模型S1/V↑S2/V↑T/V↓T/S1↓3D CNN0.2190.2190.2371.09ConvLSTM0的情况。2790的情况。3080的情况。1870的情况。669TimeSformer0.1550.1550.175*1.13表4.实验c的结果：4x128，38.3%验证准确度。* 当低T/V结果不伴随T/S11时。<相比之下，T的ConvLSTM明显下降。TimeSf在这里很大，为85M参数，而3D CNN有趣地相当小，为10.6M参数。这表明2在表3-4中，相对于验证集（T/V），T的TimeSf下降最多这可以24205通过其整体大的下降来解释，而不是对纹理偏差的鲁棒性，在图中最清楚地可见。5a-c.为了使T/V成为有意义的指标，T/S1应该为1。<因此，我们对不伴有T/S11的最低T/V结果进行了检查。<242063D CNNConvLSTMTimeSf-83D CNNConvLSTMTimeSf-8↑10的情况。80的情况。60的情况。40的情况。200 10 20 30 4050a) Rr.，5Dot10的情况。80的情况。60的情况。40的情况。200 10 20 30 4050b) Rr.，MNIST10的情况。80的情况。60的情况。40的情况。203D CNNConvLSTMTimeSf-80 10 20 30 40 50c) Rr.，MNIST-bg图4.耐用性比（rr.）（）在2Dot上训练时，每层隐藏单位的数量。在子图a-c中，目标域逐渐远离源TimeSf-1由于其对小模型大小的接近随机验证精度而被排除在此a）4x128，30% b）4x128，35%0的情况。30的情况。250的情况。20的情况。150的情况。15· 10−20的情况。350的情况。30的情况。250的情况。20的情况。150的情况。15· 10−23D CNNConvLSTMTimeSfBV.S1和S2（c）4x128，38.3%BV.S1和S20的情况。350的情况。30的情况。250的情况。20的情况。150的情况。15· 10−2不0的情况。50的情况。40的情况。30的情况。20的情况。1不3D CNNConvLSTMTimeSfBV.S1 S2 Td) 最佳变量，百分之五十3D CNNConvLSTMBV.S1 S2 TConvLSTM0.41.00.41.00.00.63D CNN0.40.80.40.60.00.8时间Sf0.40.40.20.40.00.23D CNNConvLSTMTimeSf火车上2DotS1S2不模型Top-1Top-5Top-1Top-5Top-1Top-524207表 6.定性示例，对来自34类的五个随机片段进行预测，由来自实验 c 的模型实例进行。对于ConvLSTM 来说明显更大（表5）。定性的例子和潜水属性。表6显示了模型对从随机选择的类别（34）中随机选择的五个片段的预测的细分。这里使用的模型实例来自实验c（38.3%的准确率）。Top-1 acc.对于所有模型的这五个剪辑都等于对于S1和S2两者，而3DCNN具有80%和60%（对于TimeSf为40%和40%）。对于织构（T）结果，前5名的acc.3D CNN的相对于S1保持在 80% ，甚至相对于 S2 从 60% 提高到 80% ，而ConvLSTM下降了40%，TimeSf下降了40%。图5.潜水48精度下降，从源到目标，实验a-d。BV.是验证域中的最佳结果。请注意，与 3D CNN 和 TimeSf 相比，ConvLSTM在T上是如何下降的不仅参数计数导致过度拟合的敏感性，而且在时空建模的选择中可能存在过度拟合的固有倾向。递归模型在时间因果方向上遍历序列时必须考虑每个时间步，因为每个时间步在隐藏状态中是非线性登记的。我们假设，这使它能够更详细地记录运动随时间的变化，并将其视为显着的，如果是这样的话（就像潜水一样）。模型S1/V↑S2/V↑T/V↓T/S1↓3D CNN0的情况。2340.2420.1910.815ConvLSTM0.2320的情况。2480的情况。1360的情况。586表5.实验d：最佳变异，50.07% val。精度在实验d中，我们以50.07%的验证准确率比较了ConvLSTM和3D CNN百分之五十因此，到目前为止，ConvLSTM和TimeSf在T上显示声音下降。接下来，我们详细研究了模型的预测，以观察ConvLSTM和TimeSf的预测之间存在质的差异。Diving48的每个标签都有四个属性：起飞、腾空、扭转和正确的位置。在S1和S2的前1个预测中（表7），我们研究了每个模型在错误分类中有多少属性是正确的34级具有向内起跳、2.5索马-索特、不扭转和抱膝的属性值。对于ConvLSTM，类3/4的错误分类是8、20、35和44，其中8、35和44都包含3/4正确属性，20包含1/4正确属性（没有扭曲）。对于3D CNN，只有两个预测（32，35）获得了三个正确的属性，而对于TimeSf，最佳误分类只有两个正确的属性。这表明3DCNN和TimeSf在比ConvLSTM更小的程度上根据真实属性对类进行ConvLSTM在相同的全局验证性能下学习了更多相关的时间模式。观察表7的下三部分，进一步随机选择类12，22和45，ConvLSTM仍然在错误分类中实现了最大比例的正确属性。正如第34类，24208来自第34类的五个随机片段的前1个预测来自第12类的五个随机片段的前1个预测来自类别22的五个随机剪辑的前1个预测表7.预测和错误分类的例子。每个类都有四个属性，正确的属性。列显示了错误分类集中有多少属性是正确的。5. 结论与讨论我们已经研究了三个模型的跨域鲁棒性，这些模型在时间建模方面主要不同，在它们的基本设置中。3DCNN将帧视为线性体积，VT让帧具有非线性但时间对称的关系，并且ConvLSTM在时间因果方向上非线性地对帧依赖性进行建模。最近，已经讨论了生物视觉和计算机视觉之间反馈连接的差异[32，56]，在我们的工作中，我们假设缺乏反馈连接是计算机视觉中同样缺乏泛化能力的原因之一我们的实验是在两个非常不同的数据集，一个是合成的，没有偏见，一个是自然的，0的情况。30的情况。250的情况。20的情况。150的情况。15· 10−2e）14百万磅，百分之三十3D CNNConvLSTMTimeSf0的情况。350的情况。30的情况。250的情况。20的情况。150的情况。15· 10−2f）14百万磅，百分之三十五因此，具有更多的噪声和潜在的空间偏差。综合结果（Fig. 3-5，表1和7）表明，卷积-递归时域建模在裸骨骼方面比自注意和3D卷积对域移位更鲁棒，这大概是由于其对纹理偏差的较少编码。我们的结果完全可以用公共种子、代码和数据复制。事实上，我们对纹理偏差的观察是针对细粒度数据集（如Div-0的情况。40的情况。350的情况。30的情况。250的情况。20的情况。150的情况。1BV.S1 S2Tg）14百万磅，百分之四十3D CNNConvLSTM0的情况。450的情况。40的情况。350的情况。30的情况。250的情况。20的情况。150的情况。1BV.S1 S2 Th）14百万磅，百分之四十五3D CNNConvLSTMTimeSf3D CNNConvLSTM模型S1S2分类错误（集）正确属性ConvLSTM[34、三十四、三十五、八、二十][34、34、44、8、20]八、二十、三十五、四十四10/163D CNN[34、19、21、35、34][34、32、21、21、34]十九二十一三十二三十五8/16时间Sf[34、12、34、47、20][31、12、34、47、20]十二、二十、三十一、四十七5/16ConvLSTM[35、26、45、26、21][27、26、45、14、21]十四、二十一、二十六、二十七、三十五、四十五14/243D CNN[3、20、12、5、44][3、20、12、5、34]三、五、二十、三十四、四十四8/20ConvLSTM[26、二十六、三十五、二十二、二十一][二十六、二十六、三十五、二十二、二十一]二十一、二十六、三十五5/123D CNN[29、七、二十六、二十八、零][二十九、二十二、二十六、二十六、零]0、7、26、28、297/20时间Sf[15、27、46、44、34][15、27、46、44、34]十五、二十七、三十四、四十四、四十六5/20对45类中五个随机片段的前1位预测ConvLSTM[26、21、12、35、27][26、21、12、35、44]十二、二十一、二十六、二十七、三十五、四十四14/2424209ing48被构造成尽可能少地包含偏差，表明当涉及到更多空间偏差的数据集（如Kinetics）时，问题可能更糟，这将留给未来的工作。此外，ImageNet预训练的VT是否比从头开始训练的对应物显示更多或更少的纹理偏差还有待于未来的工作。我们研究的另一个发现是，当参数计数保持相等时（实验e-h），这些趋势不太明显。5· 10−25·10−2BV.S1 S2 TBV.S1 S2 T此外，定性随机示例一致表明，ConvLSTM学习到更多相关潜水图6.在Diving 48上进行的实验e-h，如图所示。五、3D CNN排在第二位，TimeSf排在最后。3实验e-h. 实验e-h的结果，其中可训练参数和性能的数量是固定的，如图所示。6（柔软的表格结果）。在这里，3D CNN是三个中最强大的，尽管ConvLSTM接近3D CNN，并且对于g-h中的T下降得更陡，其中性能更高（40%和45% acc.）。在这些实验中，尽管最不稳健，但 TimeSf 相对于 S1 和 S2 不再改善 T 。这表明TimeSf在具有更大量的参数时更可能显示纹理偏差，如在实验a-c中所做的那样。3包含这些额外剪辑的相应前1和前5准确度的表格在补充文件中。当仔细检查三个模型的错误分类时，我们发现这两个模型的模式比其他两个模型更好-这强调了TimeSf和3DCNN的纹理偏差趋势。像递归模型那样，跨时间步共享参数缩小了参数空间，可能会激励这些模型优先考虑要学习的模式。使用较小模型的另一个原因是它们需要较少的数据来训练，这在道德上是可取的，因为数据可以更容易地检查，并且从可持续性的角度来看[3]。我们的研究表明，健全的物理归纳偏见，如在时间建模的复发可能是有利的，当鲁棒性域转移的任务是重要的。在动作识别中，迄今为止，基准测试主要针对大型模型表现良好的域内任务进行。我们鼓励视频理解社区越来越多地对涉及域转移的任务进行评估。我们希望我们提出的数据集和评估框架可以帮助这种未来的域转移鲁棒性时空特征的调查24210引用[1] Alessandra Angelucci和Paul C.布雷斯洛夫前馈、横向和反馈连接对灵长类V1神经元经典感受野中心和超经典感受野周围的贡献脑研究进展，154：93[2] Mikhail Belkin，Daniel Hsu，Siyuan Ma，and SoumikMan-dal.协调现代机器学习实践和经典的偏差方差权衡。Proceedings of the National Academy of Sciences，116（32）：15849[3] 艾米丽·MBender，Timnit Gebru，Angelina McMillan-Major，and Shmargaret Shmitchell.关于随机parrots的危险在ACM公平，问责制和透明度会议上，2021年。[4] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？在2021年机器学习国际会议[5] Joao Carreira和Andrew Zisserman。什么是行动识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，2017年。[6] Chun-Fu Richard Chen ， Rameswar Panda ， KandanRamakr-ishnan ， Rogerio Feris ， John Cohn ， AudeOliva，and Quanfu Fan.深入分析用于动作识别的基于CNN的时空表示。在IEEE计算机视觉和模式识别会议上，2021。[7] Min-Hung Chen ， Zsolt Kira ， Ghassan Al-Re

下载后可阅读完整内容，剩余1页未读，立即下载