X3D：高效视频识别网络

133 浏览量更新于2023-10-23 收藏 700KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

203阿勒特输入帧çDRes2Res3第4区çÜ布çH，W伊什WC不X3D：扩展架构以实现高效视频识别Christoph FeichtenhoferFacebook AI Research（FAIR）摘要本文介绍了X3D，一个高效的视频网络，逐步扩大一个微小的二维图像分类架构沿多个网络轴，在空间，时间，宽度和深度的家庭。受机器学习中的特征选择方法的启发，采用简单的逐步网络扩展方法，该方法在每个步骤中扩展单个轴，使得实现了良好的精度与复杂度的权衡为了将X3D扩展到特定的目标复杂度，我们执行渐进式向前扩展，然后向后收缩。X3D实现了最先进的性能，同时需要4.8倍和5.5倍的乘加和参数，以获得与以前工作相似的精度我们最令人惊讶的发现是，具有高时空分辨率的网络我们在视频分类和检测基准上以前所未有的效率代码可在：https：//github.com/facebookresearch/SlowFast网站。1. 介绍用于视频识别的神经网络在很大程度上是通过将2D图像架构扩展到时空中来驱动的[23，37，51，58自然地，这些扩展通常沿着时间轴发生，涉及将网络输入、特征和/或滤波器内核扩展到时空中（例如，[6，12，16，32，43，62]）;然而，其他设计决策-包括深度（层数）、宽度（通道数）和空间大小-通常继承自2D图像架构。虽然沿着时间轴扩展（同时保持其他设计属性）通常会增加精度，但如果考虑到计算/精度权衡一一在应用中的核心重要性的考虑，则它可能是次优的部分原因是2D模型的直接扩展到3D，视频识别架构的计算量很大。与图像识别相比，典型的视频模型对计算的要求更高，例如。图像ResNet [23]可以使用比时间扩展视频变体[68]少约27倍的伊什图1. X3D网络在以下轴上逐步扩展2D网络：时间持续时间γt，帧速率γτ，空间分辨率γs，宽度γw，瓶颈宽度γb和深度γd。本文重点介绍了低计算制度的计算/准确性权衡视频识别。我们的设计基于为图像识别开发的“我们的核心思想是，虽然沿时间轴扩展小模型可以提高精度，但与扩展其他轴相比，计算/精度权衡可能并不总是最好的，特别是在低计算范围内，精度可以沿不同轴快速增加。在本文中，我们逐步“扩展”一个微小的基础2D图像架构到一个时空的扩展多个可能的轴，如图所示。1.一、候选轴是时间持续时间γt、帧速率γτ、空间分辨率γs、网络宽度γw、瓶颈宽度γb和深度γd。由此产生的架构被称为X3D（Expand 3D），用于从2D空间扩展到3D时空域。2D基础架构由MobileNet [24，25，48]通道1可分离卷积的核心概念驱动，但通过比移动图像模型少10倍然后我们的扩展逐渐增加计算量（例如，通过一次仅扩展一个轴，训练和验证所得架构，并选择实现最佳计算/精度折衷的轴。重复该过程直到架构达到期望的计算预算。这可以解释为由这些轴定义的超参数空间中的坐标下降[70]的形式1也称为“我们使用术语“预测204我们的渐进式网络扩展方法受到图像ConvNet设计历史的启发，其中流行的架构是通过深度扩展而出现的，[7，23，37，51，58，81]，分辨率[27，57，60]或宽度[75，80]，以及机器学习中的经典特征选择方法[21，31，34]。在后者中，渐进式特征选择方法[21，34]从一组最小特征开始，旨在通过在每个步骤中包括（前向选择）单个特征来以贪婪的方式找到相关特征以进行改进，或者从一组完整的特征开始，旨在通过重复删除性能降低最少的特征来找到不相关的特征（后向消除）。.为了与以前的研究进行比较，我们使用Kinetics-400[33]，Kinetics-600 [3]，Charades [49]和AVA [20]。对于系统的研究，我们将我们的模型分为不同的复杂程度的小型，中型和大型模型。总的来说，我们的扩展产生了一系列的时空架构，涵盖了广泛的计算/精度权衡。它们可以在实际中依赖于应用的不同计算预算下使用。例如，在不同的计算和精度机制中，X3D的性能优于最先进的技术，同时需要4.8倍和5.5倍的乘加和参数，以获得与以前工作相似的精度。此外，扩张是简单和便宜的，例如。我们的低计算模型仅在训练30个微小模型后就完成了，这些微小模型在计算上需要的乘加运算比一个大型最先进的网络少25倍以上[14，68，71]。从概念上讲，我们最令人惊讶的发现是，仅通过扩展时空分辨率和深度创建的非常薄的X3D网络的宽度明显低于基于图像设计的视频架构[23，51，58]我们希望这些这些进展将促进未来的研究和应用。2. 相关工作时空（3D）网络。视频识别体系结构的设计是通过扩展图像分类网络的时间维，并保持空间属性。这些扩展包括 2D模型的直接转换 [23 ， 37 ， 51 ， 58] ，如ResNet或Inception到3D [6，22，45，61，62，76]，在顶部添加RNN2D CNN [12，39，40，43，54，79]，或者用由相同的2D网络处理的光流流扩展2D模型 [6，17，50，67]。虽然从基于2D图像的模型开始并通过膨胀过滤器将其转换为时空等效物[6，16]允许对图像分类任务进行预训练，但它使视频架构固有地偏向于基于图像的对应物。SlowFast [14]体系结构探索了Slow和Fast路径中多个轴、不同时间、空间和通道分辨率之间的分辨率权衡间最重要的是，快速路径可以非常薄，因此仅增加了很小的计算开销;然而，在隔离时性能很此外，这些探索是在计算量大的Slow通路的架构保持不变的情况下进行的，以实现图像分类设计的时间扩展[23]。与之前的工作相关，我们的工作研究了是否需要重型Slow通路，或者是否可以使轻量级网络具有竞争力。高效的2D网络。针对图像分类任务，已经广泛开发了计算高效架构，MobileNetV 1 2 [25，48]和Shuf- fleNet[82]探索了通道可分离卷积和扩展瓶颈。在这种情况下，已经提出了几种用于神经架构搜索的方法，还在[59]和最近的MobileNetV3 [24]中向设计空间添加了挤压激励（SE）[26]注意力块[46]。MobileNets [25，48，59]通过使用宽度和输入大小（分辨率）的乘数进行缩放。最近，MnasNet [59]用于将线性缩放因子应用于空间，宽度和深度轴，以创建一组用于图像分类的EfficientNet [60]。我们的扩展与此相关，但需要更少的样本并处理更多的轴，因为我们在每个步骤中只为每个轴训练单个模型，而[60]在初始状态上执行网格搜索，需要训练kd个模型，其中k是网格大小，d是轴的数量此外，通过对约8000个模型进行采样，发现了用于本次检索的模型MnasNet[59]。对于视频，这是禁止的，因为数据集可以具有比图像分类多几个数量级的图像，例如，最大版本的Kinetics [4]有1.95亿帧，比ImageNet多162.5倍的图像。相比之下，我们的方法只需要训练6个模型，每个扩展轴一个，直到达到所需的复杂度，例如。对于5个步骤，需要训练30个模型。高效的3D网络。已经提出了几种用于有效视频分类的创新架构，例如。[2、5、9、11、13、18、28、35、38、42、44、55、56、63、65、66、72、76、84作为高效2D ConvNets [24，25，48，60，82]的关键构建块，逐层可分离卷积已在[35，63]中被探索用于视频分类，其中2D架构扩展到其3D对应物，例如，Shuf-fleNet和MobileNet在[35]中，或ResNet在[63]中通过在剩余阶段的瓶颈中使用3×3×3通道可分离卷积。早些时候，[9]采用ImageNet的2D ResNets和MobileNets，并将每个残差块内部的连接稀疏化，类似于可分离或组卷积。在[41]中引入了一个时间移位模块（TSM），它扩展了ResNet以使用内存移位操作捕获时间信息对自适应帧采样技术也有积极的研究，例如。[1，36，52，73，74，78]，我们认为这可以补充我们的方法。205相对于大多数这些作品，我们的方法并不假设一个固定的继承设计从2D网络，但扩展了一个微小的架构在几个轴的空间，时间，渠道和深度，以实现良好的效率权衡。3. X3D网络图像分类架构已经经历了架构设计的演变，沿着网络深度逐步扩展现有模型[7，23，37，51，58，81]，输入分辨率[27，57，60]或通道宽度[75，80]。移动图像分类领域也取得了类似的进展，其中收缩修改（更浅的网络、更低的分辨率、更薄的层、可分离的卷积[24，25，29，48，82]）允许以更低的计算预算运行鉴于图像ConvNet设计的这一历史，视频架构尚未观察到类似的进展，因为这些架构通常基于图像模型的直接时间扩展。然而，将固定的2D架构单次扩展到3D是理想的吗？还是沿着不同的轴扩展或收缩更好对于视频分类，时间维度暴露了一个额外的困境，增加了可能性的数量，但也要求与空间维度不同地处理它[14，50，64]。我们特别感兴趣的是不同轴之间的权衡，更具体地说：• 3D网络的最佳时间采样策略是什么？长输入持续时间和稀疏采样是否优于短持续时间剪辑的更快• 我们需要更精细的空间分辨率吗以前的工作已经使用较低的分辨率进行视频分类[32，62，64]以提高效率。此外，视频通常比互联网图像的空间分辨率更粗糙;因此，是否存在性能饱和的最大空间分辨率？• 是使用高帧率但通道分辨率较低的网络更好，还是使用更宽的模型缓慢处理视频更好？例如，网络应该具有较重的层作为典型的图像分类模型（和慢路径[14]），或者具有较低宽度的较轻层（如快速路径[14]）。或者，在这两个极端之间，是否• 当增加网络宽度时，是在ResNet块设计中全局扩展网络宽度更好[23]还是扩展内部（“瓶颈“）宽度更好，如在使用通道可分离卷积的移动图像分类网络中常见的那样• 为了保持感受野的大小足够大，其增长率大致恒定，应该用扩大的输入分辨率来进行更深的研究，还是扩展到不同的轴上更好？这是否适用于空间和时间维度？阶段滤波器2输出尺寸T×S数据层步幅γτ，1221γt×（112γs）转换器11×32，3×1，24γw21γt×（56γs）Res21×12，24γbγw3×32，24γbγw1×12，24γw1×12，48γγw21γt×（28γs）Res3B3×32，48γbγw1×12，48γw1×12，96γγw21γt×（14γs）第4区B3×32，96γbγw1×12，96γw1×12，192γγw21γt×（7γs）res5B3×32，192γbγw1×12，192γw21γt×（4γs）conv5pool5fc1FC21×12，192γbγw21γt×（4γs）1×12，20481×12，班级数21γt×（4γs）1×1×11×1×11×1×1表1.X3D架构。对于时间、空间和通道大小，内核的维度由{T ×S2，C}表示。步幅被表示为{时间步幅，空间步幅2}。使用因子{γτ，γt，γs，γw，γb，γd}扩展该网络以形成X3 D。在没有展开（所有因子等于1）的情况下，X2D，具有20.67M FLOPS和1.63M参数。本节首先介绍基础X2D架构。第3.1节中定义的操作进行了扩展。3.2通过使用第二节中的渐进方法。三点三3.1. 基实例化我们首先描述的基础网络架构，X2D，作为基线扩展到时空的实例化。基础网络实例化遵循ResNet [23]结构和具有退化（单帧）时间输入的SlowFast网络[14]的Fast路径如果所有扩展因子{γτ，γt，γs，γw，γb，γd}都设置为1，则在表1中指定X2 D。我们用T×S2表示时空大小，其中T是时间长度，S是正方形空间作物的高度和宽度。接下来描述X2D架构网络分辨率和信道容量。该模型将在数据层阶段中以帧速率1 / γ τ采样的原始视频剪辑作为输入。该基本结构只需要输入一帧大小为T×S2=1×1122的图像，因此可以看作是一个图像分类网络。各个层的宽度在[14]中的快速路径设计中定向，第一阶段conv1过滤3个RGB输入通道并产生24个输出特征。在从res2到res5的每个较深级处的每个空间子采样之后，该宽度增加2倍，其中步幅=1，22。空间子采样由每一级的第一res-block的中心（“瓶颈”）滤波器执行206类似于慢快路径[14]，该模型在整个网络层次结构中为所有特征保留时间输入分辨率在整个网络中没有时间下采样层（既没有时间池化也没有时间跨越卷积），直到分类之前因此，激活张量包含沿时间维度的所有帧，在所有特征中保持完整的时间频率。网络阶段。X2D由阶段级和瓶颈设计组成，其灵感来自最近的2D移动图像分类网络[24，25，48，82]，其采用通道可分离卷积，这是高效ConvNet模型的关键构建块。我们采用遵循MobileNet [24，48]设计的阶段，将瓶颈块中的每个空间3×3卷积扩展到3×3×3（即，3×32）时空卷积，在[35，63]中也已被探索用于视频分类。此外，第一卷积级中的3×1时间卷积是逐通道的。讨论X2D可以被解释为慢路径，因为它只使用单个帧作为输入，而网络宽度类似于[14]中的快速路径，其比典型的3D ConvNets轻得多（例如，[6，14，16，62，68]）。具体而言，它只需要2067万FLOP，仅相当于最近最先进的SlowFast网络的0.0097%[14]。如表1和图2所示。 1，X2 D扩展到6个a x es，{γτ，γt，γs，γw，γb，γd}，如下文所述。3.2. 扩展操作我们定义了一组基本的扩展操作，用于顺序扩展X2D从一个微小的空间网络到X3D，时空网络，通过执行以下操作的时间，空间，宽度和深度维度。• X-Fast通过增加帧速率1/γτ以及时间分辨率来扩展时间激活大小γt，同时保持剪辑持续时间恒定。• X-Temporal通过对较长的时间剪辑进行采样并将帧速率增加1/γτ来扩展时间大小γt，以扩展持续时间和时间分辨率。• X-Spatial通过增加输入视频的空间采样分辨率来扩展空间分辨率γs• X-Depth通过将每个剩余阶段的层数增加γd倍来扩展网络的深度。• X-Width通过全局宽度扩展因子γw均匀扩展所有层的通道数。• X瓶颈扩展每个残差块中的中心卷积滤波器的内部通道宽度γb3.3. 渐进式网络扩展我们采用一种简单的渐进算法进行网络扩展，类似于用于特征选择的前向和后向算法[21，30，31，34]。最初，我们从X2D开始，基础模型实例化有一组基数为a的单位扩展因子X0。我们使用α=6个因子，X={γτ，γt，γs，γw，γb，γd}，但其他轴也是可能的。向前扩张。测量当前扩展因子X的优度的网络扩展准则函数表示为J（X）。该测量值的分数越高表示扩展因子越好，而分数越低表示扩展因子越差。在我们的实验中，这对应于扩展了X的模型的精度。此外，令C（X）是测量当前扩展因子X的成本的复杂度准则函数。在我们的实验中，C被设置为由X扩展的底层网络实例化的浮点操作，但其他措施，如运行时，参数或内存是可能的。然后，网络扩展试图找到具有最佳折衷的扩展因子XX=argmaxZ，C（Z）=c=J（Z），其中Z是要探索的可能扩展因子，c是目标复杂度。在我们的例子中，我们执行的扩展只改变了其中一个a扩展因子，而其他因子保持不变;因此，只有Z的不同子集需要评估，其中每个子集都只在X的一维中改变。保持具有最佳计算/准确度折衷的扩展用于下一步骤。这是由这些轴定义的超参数空间中的坐标下降[70以渐进的方式执行扩展，其中扩展速率c是对应于在每个扩展步骤中增加模型复杂度c的步长我们在每个步骤中使用模型复杂度的乘数增加，其对应于使模型的帧的数量加倍的复杂度增加。因此，逐步扩展是简单和有效的，因为它只需要训练几个模型，直到达到目标复杂度，因为我们以指数方式增加复杂度。有关扩展的详细信息见补充材料。向后收缩。由于向前扩展仅在离散步骤中产生模型，因此如果向前扩展步骤超过目标，则执行向后收缩步骤以满足期望的目标复杂度该收缩被实现为最后一次扩展的简单缩减，使得其匹配目标。例如，如果最后一步已经将帧速率增加了2倍，则向后收缩将帧速率降低2倍以粗略地匹配期望的目标复杂度。<4. 实验：动作分类数据集。我们在Kinetics-400 [33]（K400）上进行扩展，包括240 k培训、20 k验证和35 k测试207动力学前1位准确度（%）807570656055500 5 1015 2025 30 35表2.K400-val上的扩展实例使用10-中心夹测试我们显示了前1名和前5名的分类准确度（%），以及计算复杂度测量GFLOPs（浮点运算，乘加数×109）为一个单一的剪辑输入。推理时间的计算成本与此的10倍因为每个视频使用固定数量的10个剪辑4.1. 扩大的网络在K400上扩展过程的精度/复杂度权衡曲线如图所示。二、扩展从X2 D开始，产生47.75%的top-1精度（垂直模型容量（GFLOPs）（乘加次数x109）图2. X3D的渐进式网络扩展。X2D基础模型首先扩展到瓶颈宽度（γb），其次扩展到时间分辨率（γτ），第三扩展到空间分辨率（γ s），第四扩展到深度（γd），第五扩展到空间分辨率（γs），第五扩展到空间分辨率（γd）。持续时间（γt）等。大多数模型的训练计算成本小，使扩展在实践中经济。400个人类动作类别的视频。我们报告了前1名和前5名分类准确度（%）。与以前的工作一样，我们在训练集和值集上训练和报告消融。我们还报告了测试集的结果，因为标签已经可用[3]。我们报告的计算成本（FLOPs）的一个单一的，空间中心裁剪剪辑。2训练所有模型都是在Kinetics上随机初始化（我们的训练配方如下[14]。详细信息和数据集详情见附录的§A.3。材料对于时间域，我们从全长视频中随机采样一个剪辑，网络的输入是时间步长为γ τ的γ t帧;对于空间域，我们从视频或其水平翻转中随机裁剪112 γs×112γs像素，其中短边随机采样[128 γs，160 γs]像素，这是[ 14，5]中使用的增强的线性缩放版本1，68]。推理。为了与以前的工作进行比较并评估准确性/复杂性权衡，我们采用了两种测试策略：（i）K-中心：时间上，均匀地采样K个剪辑（例如，K=10），并将较短的空间侧空间缩放到128γs像素，并取一个γt×112γs×112γs的中心裁剪，与[36，41，63，71]相当。（ii）K-LeftCenterRight在时间上与上述相同，但需要3次γt×128γs×128γs来覆盖较长的空间轴，作为全卷积测试的近似，遵循[14，68]。我们对所有单个预测的softmax得分进行平均。2我们使用单剪辑，中心裁剪FLOP作为计算成本的基本单位如果使用固定数量的剪辑和裁剪，则推理时间计算成本大致与此成比例，就像我们所有的模型一样。轴），具有1.63 M参数，每个剪辑20.67 M FLOPs（水平轴），在每个渐进步骤中大致加倍。我们使用10中心剪辑测试作为扩展的默认测试设置，因此每个视频的总成本为×10。我们将在第二节中消融不同数量的测试钛夹。四点三。图中的扩展2提供了几个有趣的观察：(i) 首先，沿着任何一个候选轴扩展都会提高精度。这证明了我们的动机考虑多个轴（而不仅仅是时间轴）时，设计时空模型。(ii) 令人惊讶的是，扩展算法选择的第一步不是沿着时间轴;相反，它是ResNet块设计中增加“瓶颈”宽度γb的因素这与倒置瓶颈设计相呼应 [48]这可能是因为这些层是轻量级的（由于MobileNets的信道设计），因此首先扩展是经济的另一个有趣的观察结果是准确度变化很大，瓶颈扩展γb提供最高的top-1 准确度55.0%，深度扩展γd最低，在41.4M FLOP的相同复杂度下为51.3%。(iii) 第二步骤将模型的时间大小从一个帧扩展到两个帧（扩展γτ和γt对于该步骤是相同的，因为在前一个帧中仅存在单个帧）。这是我们在第一步中所期望的最有效的扩展，因为它使网络能够为识别建模时间信息。(iv) 第三步增加空间分辨率γs并开始显示有趣的图案。扩展增加空间和时间分辨率，然后在第四步骤中增加深度（γd）这之后是多个时间扩展，增加时间分辨率（即，帧速率）和输入持续时间（γτγt），然后在步骤8和9中进行跨空间分辨率γs的两个以上扩展，而步骤10增加网络的深度γd。在增加输入分辨率之后的深度的扩展是直观的，因为它允许在每个残差级内增加滤波器感受野分辨率和X3D-MX3dtS-S 伊什SX3 D-L双头埃夫X3D-XLX3D-XS布吕德伊什τX3dτ阿勒特B伊什布吕德X2D埃夫布FLOPs（G）Params（男）0.603.761.963.764.733.7618.376.0835.8411.0模型top-1前5个状态FLOPs（G）X3D-XS68.687.9X-小≤ 0.6X3D-S72.990.5小≤ 2X3D-M74.691.7中等≤ 5X3D-L76.892.5大号≤ 20X3D-XL78.493.6超大型≤ 40208√√阶段滤波器输出尺寸T×H×W数据层步幅6，1213×160×160转换器11×32，3×1，2413×80×80Res21×12，54100×3 2，54×31×12，2413×40×40Res31×12，108108×51×12，4813×20×20第4区1×12，2162019- 03- 2200：00：001×12，9613×10×10res51×12，4322，432×71×12，19213×5×5Conv55号池1号池FC21×12，43213×5×51×12，204813×5×51×1×11×1×1阶段滤波器输出尺寸T×H×W数据层步幅5，1216×224×224转换器11×32，3×1，2416×112×112Res21×12，54100×3 2，54×31×12，2416×56×56Res31×12，108108×51×12，4816×28×28第4区1×12，2162019- 03- 2200：00：001×12，9616×14×14res51×12，4322，432×71×12，19216×7×7Conv55号池1号池FC21×12，43216×7×71×12，204816×7×71×1×11×1×1阶段滤波器输出尺寸T×H×W数据层步幅5，1216×312×312转换器11×32，3×1，321×12，7216×156×156Res23×32，721×12，321×12，16216×78×78Res3162×101×12，721×12，30616×39×39第4区2019 -06-2512：00：001×12，1361×12，63016×20×20res52019 - 03-26 00：00：001×12，28016×10×10Conv55号池FC21×12，63016×10×1016×10×101×1×1(a) X3 D-S，具有1.96G FLOP、3.76M参数和72.9% top-1精度，使用γτ = 6、γt= 13、γs= 2 、 γw= 1 、 γb= 2.25 、 γd= 2.2 的扩展。(b) X3 D-M具有4.73G FLOP、3.76M参数和74.6% top-1准确度，使用γτ = 5、γt=16、γs= 2 、 γw= 1 、 γb= 2.25 、 γd= 2.2 的扩展。(c) X3 D-XL，35.84G FLOPs&，10.99M参数，78.4% top-1 acc. 采用γτ = 5，γt= 16，γs=2 2，γw= 2.9 ，γb= 2.2 5，γd= 5的展开式。表3.三个不同复杂度的X3D实例。前1精度对应于K400上的10中心视图测试。（a）和（b）中的模型仅在输入和激活（γt，γτ，γs）的时空分辨率上不同，并且（c）在空间分辨率γs、宽度γw和深度γd上不同于（b）。X2D见表1。令人惊讶的是，X3 D-XL具有630个特征通道的最大宽度。(v) 即使我们从一个基本模型开始，该模型通过具有非常少的通道而故意变得很小，但扩展并没有选择将宽度全局扩展到扩展过程的第10步，使得X3D类似于具有高时空分辨率但低宽度的快速路径设计[15最后，最后一个扩展步骤，如图右上角所示。2，增加了宽度γw。本着VGG模型的精神[7，51]，我们根据目标复杂度定义了一组网络。我们使用FLOP，因为这反映了模型复杂性的硬件不可知测量参数也是可能的，但由于它们对输入和激活张量大小不敏感，因此我们仅将它们报告为次要度量。为了涵盖我们扩展中的模型，表2通过FLOP定义了复杂度机制，范围从超小（XS）到超大（XL）。扩展实例。最小的实例X3 D-XS是5个扩展步骤后的输出。扩展是简单而有效的，因为它需要训练几个模型，这些模型大多处于低计算状态。对于X3 D-XS，每个步骤训练大约0.04、0.08、0.15、0.30、0.60 GFLOPs的模型由于我们为6个轴中的每一个训练一个模型，这五个步骤的近似成本大致等于训练一个6 ×1.17GFLOPS的模型（公平地说，这忽略了数据加载等的开销成本）。因为总共训练了6×5=30个模型下一个更大的模型是X3 D-S，它是由第7次扩展步骤后的一个向后收缩步骤收缩步骤简单地按比例降低膨胀（γt），以大致匹配≤2 GFLOP的目标范围对于该模型，我们还尝试收缩其他轴以匹配目标，并发现γt是最好的。表2中的下一个模型是X3 D-M（≤ 2GFLOPs），其达到74.6%的top-1准确度，X3 D-L（≤20 GFLOPs），其达到76.8%的top-1准确度，X3D-XL（≤40 GFLOPs），其达到78.4%的top-1准确度。通过连续步骤中的扩展获得top-1精度。在补充材料的附录§B中提供了进一步的速度/精度比较。表3显示了具有不同复杂度的X3D的三个实例化。有趣的是检查模型的差异，表3a中的X3 D-S只是表3b的较低时空分辨率（γt，γτ，γs）版本;因此具有相同数量的参数，表3c中的X3 D-XL是通过扩展X3 D-M3b的空间分辨率（γs）和宽度（γw）创建的。X2D见表14.2. 主要结果动力学-400 表4显示了与三个X3D实例化的最新结果的比较。30视图）推断。对于每个模型，该表报告（从左到右）ImageNet预训练（pre），前1和前5验证准确度，平均测试准确度为（top-1 + top-5）/2（即官方测试服务器度量）、推理成本（GFLOPs×视图）和参数。与最先进的技术相比，SlowFast [14]，X3 D-XL提供了相当（略低）的性能（前1位精度为-0.7%，前5位精度相同），同时所需的乘加运算（FLOP）和参数比SlowFast 16×8，R101 + NL块[ 68 ]少4.8倍，精度比SlowFast 8×8，R101+NL更好，乘加运算减少2.4倍，参数减少5.5倍。更少的参数。当比较X3 D-L时，我们观察到与网络分离网络（ip-CSN-152）[63]和SlowFast8×8相似的性能，FLOPs减少4.3倍，参数减少5.4倍。最后，在较低的计算机制中， X3 D-M 与 SlowFast4×16，R50和Oct-I3 D + NL [8]相当，同时具有4.7倍的FLOP和9.1倍的参数。我们在X3 D-XL测试集上观察到一致的结果，平均值为85.3% top1/ 5，显示出良好的泛化能力。209模型预训练地图GFLOPs×视图Param非本地[68]ImageNet+Kinetics40037.5544 ×30630 ×30不适用×不适用529 ×30234 ×30234 ×3054.3M58.3MN/A122M59.9M59.9M[69]第六十九话ImageNet+Kinetics40039.7[第28话]动力学-40041.1[71]第71话动力学-40042.5[14]第十四话动力学-40042.5[14]第十四话Kinetics-60045.2X3D-XLX3D-XL动力学-400Kinetics-60043.447.148.4×3048.4×3011.0M11.0M表6.与最先进的字谜游戏进行比较。慢快变体基于T×τ= 16×8。表4. 与K400-val测试的最新技术水平进行比较。我们报告的推理成本与一个单一的“视图”（时间剪辑与空间裁剪）×这样的视图使用的数量（GFLOPs×视图）。“N/A”表示我们无法获得这些数字。列显示了Kinetics-400测试集上的前1名和前5名的平均值模型预训练top-1 top-5 GFLOPs×视图ParamI3D [3]Oct-I3 D + NL [8]慢速快速4×16，R50 [14]Slow Fast 16×8，R101+NL[14]-ImageNet--71.976.078.881.890.1不适用94.095.1108 ×N/A25.6 ×3036.1 ×30234 ×3012M12M34.4M59.9MX3D-MX3D-XL--78.881.994.595.56.2×3048.4 ×303.8M11.0M表5. 与Kinetics-600上的最新技术进行比较。结果与上表4中的K400一致Kinetics-600是Kinetics的更大版本，将展示我们的方法的进一步推广。结果示于表5中。我们的变体表现出与上述类似的性能，最好的模型现在提供比以前最先进的SlowFast 16×8，R101+NL [14]稍好的性能，再次减少4.8倍的FLOP（即，乘加操作）和5.5倍更少的参数。在较低的计算范围内，X3 D-M与SlowFast4×16，R50相当，但所需的FLOPs和参数少了5.8倍Charades[49]是一个具有较长范围活动的数据集。表6显示了我们的结果。X3 D-XL提供了更高的性能（K400为+0.9 mAP，K600预训练为+1.9mAP），同时所需的乘加运算（FLOP）和参数比之前最高的系统SlowFast[14]和+ NL块[68]少4.8倍。4.3. 消融实验本节提供了K400 val和测试集的消融研究，比较了准确度和计算复杂度。与EfficientNet3D比较。我们的目标首先是将X3D与EfficientNet的3D扩展结合起来[60]。这种架构使用与X3D完全相同的实现额外功能，例如通道可分离卷积[25]表 7. 与 EfficientNet 3D 的比较：我们在 K400-val 上与EfficientNet的3D版本进行比较并进行测试。使用10-中心夹EfficientNet3D具有与X3D相同的移动组件。而是通过搜索大量的模型来找到图像分类的最佳折衷该消融研究是否将EfficientNet直接扩展到3D与X3D（仅通过训练几个模型进行扩展Effi- cientNet模型提供了各种复杂性范围。我们消融了三个版本，B0、B3和B4，它们使用统一的缩放系数[60]在3D中进行扩展，以获得空间和时间分辨率。在表7中，我们比较了两个集合（K400-val和K400-test）上与EfficientNet 3D具有相似复杂性的三个X3 D模型（从上到下）。从K400-val（顶行）开始，我们的模型X3 D-XS，对应于图中的仅4个扩展步骤二、在FLOP（略低）和参数（略高）方面与EfficientNet 3D-B 0相当，但top-1精度高1.9%，top-1精度高1.3%接下来，将X3 D-M与EfficientNet 3D-B3进行比较，结果显示top-1和top-5的增益分别为2.0%和2.1%，尽管使用的FLOP减少了32%，参数减少了54%最后，将X3D-L与EfficientNet 3D-B4进行比较，结果显示top-1和top-5的增益分别为2.3%和1.9%，而FLOP和参数分别减少了23%和50%。看到较大模型的较大增益强调了渐进式扩展的益处，因为已经针对这些模型执行了更多扩展步骤。由于我们的扩展是通过验证集性能来衡量的因此，我们在表7的下半部分研究了K400测试集上的潜在差异，当比较上述相同的模型时，可以观察到类似的，甚至略高的准确度改善，表明我们的模型很好地推广到测试集。模型预 top-1 top-5 测试GFLOPs×视图ParamI3D [6]ImageNet71.190.3 80.2108 ×N/A216 ×N/A143 ×N/A11.1 ×5065 ×10282 ×30359 ×3012M双码流I3D [6]75.792.0 82.825M双码流S3 D-G [76]77.293.023.1MMF-Net [9]72.890.48.0M[41]第四十一话74.7N/A24.3M非本地R50 [68]76.592.635.3M非本地R101 [68]77.793.3 83.854.3M双码流I3D [6]-71.690.0216 ×NA152 ×115304 ×11528.9 ×30109 ×3036.1 ×30106 ×30116 ×30234 ×3025.0M[64]第六十四届全国人民代表大会代表-72.090.063.6M[64]第64话：我的世界-73.990.9127.2M[8]第八届全国政协副主席-75.7N/A33.6MIP-CSN-152 [63]-77.892.832.8M慢快4×16，R50[14]慢快8×8，R101[14]Slow Fast 8×8，R101+NL[14]Slow Fast 16×8，R101+NL[14]----75.677.978.779.892.193.293.593.984.284.985.734.4M53.7M59.9M59.9MX3D-X3D-XL-76.092.393.982.96.2×3024.8 ×303.8M6.1M模型数据 top-1 top-5 FLOPs（G）参数（M）EfficientNet3D-B066.7 86.6 0.74 3.30X3D-XS68.6 （+1.9）87.9（+1.3）0.60（-1.4）3.76（+0.5）EfficientNet3D-B3 K400 72.4 89.6 6.91 8.19X3D-MVal74.6 （+2.2）91.7（+2.1）4.73（-2.2）3.76（-4.4）EfficientNet3D-B474.5 90.6 23.80 12.16X3D-L76.8（+2.3）92.5（+1.9） 18.37（-5.4） 6.08（-6.1）EfficientNet3D-B064.8 85.4 0.74 3.30X3D-XS66.6 （+1.8）86.8（+1.4）0.60（-1.4）3.76（+0.5）EfficientNet3D-B3 K400 69.9 88.121078767472706866640.0 0.2 0.4 0.6 0.8以TFLOP为单位的每个视频的推理成本（乘加的数量x1012）图3. Kinetics-400上的准确性/复杂性权衡，每个视频的推理剪辑数量不同。通过K-中心剪辑测试获得前1精度（垂直轴），其中在每条曲线中示出了时间剪辑的数量K∈ {1，3，5，7，10}水平轴示出了每个视频的完整推理成本。推理成本。在许多情况下，像之前的实验一样，推理过程遵循固定数量的剪辑进行测试。在这里，我们的目标是消除使用更少的测试-ING视频级推理剪辑的效果。在图3中，我们示出了当改变所使用的时间剪辑的数量时，视频的完全推断的权衡。垂直轴显示K400-val上的前1精度，水平轴显示不同模型的FLOP中的总体推理成本每个模型在从K= 1剪辑到3剪辑测试时经历大的性能增量（其使FLOP增加三倍）;这是预期的，因为1-剪辑仅覆盖时间中心而3个剪辑覆盖了开始、中心和结束。将剪辑的数量增加到3个以上仅略微提高性能，这表明如果最高精度不重要，则可以使用稀疏剪辑采样执行有效的视频最后，当比较不同的模型时，我们观察到X3 D架构可以实现与SlowFast [14]，CSN[63]或TSM [41]相似的精度（对于后两者，我们只能获得10个剪

下载后可阅读完整内容，剩余1页未读，立即下载