基于多变量空间的视频识别双流模型搜索

57 浏览量更新于2023-10-14 收藏 792KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8033×个基于多变量空间的视频识别双流模型搜索Xinyu Gong†*，Heng Wang†，Zheng Shou†，Matt Feiszli†，Zhangyang Wang‡，Zhicheng Yan††德州大学奥斯汀分校（Universityof Texas at Austin）摘要传统的视频模型依赖于单个流来捕获复杂的时空特征。最近在双流视频模型上的工作，例如SlowFast网络和AssemblleNet，规定了单独的流来学习补充特征，并实现更强的性能。然而，手动设计两个流以及中间的融合块是一项艰巨的任务，需要探索一个非常大的设计空间。这种手动探索是耗时的，并且当计算资源有限并且探索不足时，通常以次优架构结束。在这项工作中，我们提出了一个务实的神经架构的搜索方法，这是能够有效地搜索两个流的视频模型在我们设计了一个多变量搜索空间，包括6个搜索变量，以捕捉各种各样的选择，在设计双流模型。此外，我们提出了一个渐进式的搜索过程，通过搜索的架构的个别流，融合块和注意力块一个接一个。我们展示了具有显著更好性能的双流模型可以在我们的设计空间中自动发现我们搜索的双流模型，即Auto-TSNet，在标准基准测试中始终优于其他模型。在Kinet- ics上，与SlowFast模型相比，我们的Auto-TSNet-L模型将FLOPS减少了近11，同时实现了相同的精度78。9%。在Something-Something-V2上，Auto- TSNet-M比其他方法（每个视频使用不到50 GFLOPS）至少提高了2%的准确性。1. 介绍视频识别需要学习空间和时间特征，这可以说比图像识别更具挑战性。已经做出了许多努力来扩展用于视频识别的单流图像架构，诸如C3D [32]、I3D [2]、S3D [45]、R（2 + 1）D [34]、R（2+1）D [36]、R（2+1）D [37]、R（2+1）D [38]、R（2+1）D [39]、R（2 + 1[37][38][39][39][39][39]然而，这样的单流模型通常表现不佳的双流模型，其中每一个流模型都具有相同的性能。*在Facebook AI实习期间完成的工作。†与Zhicheng Yan的通信。79787776757473727165 650 6500每个视频的图1：Kinetics-400的结果。将FLOP和准确性与最先进的模型进行比较，我们的Auto-TSNet模型实现了更好的准确性与复杂性的权衡。为了进行公平的比较，我们在推理时报告每个视频的FLOP，同时考虑到每种方法使用的视图数量不同。流采用单独的输入并学习彼此互补的时空表示[29，9，6]。在开创性的双流ConvNet [29]中，添加了一个单独的时间流，它将多帧光流作为输入，以更好地学习时间信息。最近，SlowFast网络[9]增加了一个快速路径，它以高帧速率运行，并以更细的粒度捕获时间信息与单流模型相比，双流模型的设计选择数量呈指数级增长，因为我们需要考虑来自第二流的额外复杂性，即流之间的特征融合。现有的手工制作的双流模型通过在很大程度上重用现有的单流架构来应对这样的挑战，并且仅针对每个流探索有限数量的定制设计选择。例如，在双流ConvNet [29]中，第二个时间流与空间流共享相同的架构，这使模型的总计算成本增加了一倍。在SlowFast网络[9]中，快速路径仅通过使用1D时间卷积和均匀减少特征通道来平衡准确性与复杂性（ATC）的权衡而与慢速路径不同。我们假设Auto-TSNet（Ours）TSM慢快X3 DVoV 3DA3 D-SFEfficientNet-3D视频Top-1准确度（%）8034现有的双流模型是次优的，并提出以下问题：我们能否更彻底地探索双流视频架构的设计空间，并发现具有更好性能的模型？在这项工作中，我们提出了一个务实的神经架构搜索（NAS）的方法，它可以有效地探索大的设计空间，并发现高性能的双流模型自动。不像手工制作的两个流模型，流经常使用类似的architec- tures，我们鼓励在每个流独特的架构我们的方法的核心是一个精心设计的多变量搜索空间，它包含6个搜索变量，包括流间融合块，注意力块，时间/空间内核大小，输出通道，和扩展率的构建块。所有这些对学习模型的准确性和复杂性都有实质性的影响。它们共同代表了双流模型的各种设计选择。有效地探索这样的巨型搜索空间在计算上是具有挑战性的。我们提出了一个多步骤的渐进过程分解的大搜索空间，只搜索了少量的设计选择在一次对于基本的搜索过程，我们采用PAR-SEC [3]，它通过避免同时实例化搜索变量的所有选择，并且一次只对一个体系结构进行采样，比其他不同的NAS方法与手动设计架构的过程，往往有利于统一选择的搜索变量，在我们的空间搜索导致发现的Auto-TSNet模型，选择更多的非统一的选择不同的组件的模型。通过大量的实验，我们证明Auto-TSNet模型在Kinetics-400 [13]（如图1所示）和Something- Something V2 [11]数据集上具有更均匀的选择，大大优于其他模型。我们的主要贡献概述如下。• 我们规定了一个多变量的搜索空间，以适应在设计两个流的视频模型的大变化，包括6个不同的搜索变量，其中每一个都有一个显着的影响模型的准确性和复杂性。• 我们将双流模型的搜索分解为多个步骤，并顺序搜索模型的不同部分，这使得在如此大的空间中的探索更有效。• 所发现的Auto-TSNet模型与手工制作的模型不同，它为不同的组件选择了更多不均匀的选择。我们评估他们的两个大的动作识别基准，并确认其优越的性能超过其他模型。2. 相关工作单流视频模型。视频包含了时空信号，视频识别需要同时提取时空特征.通常构建在图像模型之上的单流视频模型通过各种方式实现这种能力，例如用3D卷积代替2D [32，2]，插入1D时间卷积[34，45]，从视频中采样时间片段[37]，以及沿着时间维度移动特征通道[16]。从单流到双流视频模型。由于视频和图像之间的定义差异是视频包含帧之间的时间信息，因此提出了许多双流模型，其中额外的流专用于捕获与现有流互补的更多时间信息[10，38，36，43]。双流ConvNet [29]通过将光流馈送到单独的2D流来增强单流模型。双流残差网络[6]通过在流之间引入残差连接来更近期的SlowFast模型[9]采用慢速和快速路径来分别捕获空间语义和时间运动。神经架构搜索。NAS方法在预定义的空间中自动搜索模型，并且搜索到的2D模型已经超过了手工制作的模型。NAS方法可以基于RL[30，31，49]，进化[24，23]和可微搜索[17，22，3]。NAS还被用于搜索视频模型。CAKES [46]搜索逐通道空间/时间内核以提高模型效率。X3D [8]沿着6个维度（例如，空间分辨率、模型宽度）以导出有效的3D模型。双流视频模型的设计空间明显更大，并且先前的努力集中在搜索更少的变量上。AssemblleNet [26]只搜索流之间的连接，同时保持构建块的架构AssemblleNet++ [25]引入了新的对象流，但仅搜索SqueezeExcite [12]模块的块与以前的工作不同，我们搜索两个流视频模型超过6个不同的变量，这是至关重要的，以提高ATC权衡的模型。我们的设计空间允许不同的体系结构在各个流和不均匀的设计选择流的不同部分，并捕捉流间融合块，注意力块，和流架构的变化。提出了一种渐进式搜索过程，以有效地搜索在这样的大空间。3. 双流多元搜索空间3.1. 概述我们定义了一个多变量搜索空间的双流模型，使用单独的流捕捉互补的时空信号。如图2a所示，a8035阶段1阶段2阶段3阶段4(a) 多变量双流超级模型融合。为了学习两个流之间的互补信号，我们允许在模型的不同层融合来自两个流的特征。而不是手动设计，我们搜索的融合操作和它们的位置之间的两个流。关注注意力块已用于提高准确性[39，44，40]。先前的工作表明，注意力块的设计和它们的放置位置对最终的性能是至关重要的。我们建议搜索这些设计选择，以产生更有竞争力的模型。骨干模型主干包括堆叠的构建块，并代表了计算成本的重要部分。在我们的工作中，我们采用了一个分层的骨干搜索空间. 如图2a所示，网络骨干的每个流包括4个级，并且每个级具有多个块组，其中同一组中的块共享相同的架构。3.2. 可搜索双流融合块早期的双流模型[38，37]不会在模型中间融合来自各个流的特征。最近的SlowFast工作[9]添加了一个融合块，以在每个阶段结束时融合来自两个流的特征，并在所有位置使用相同我们假设这种统一的设计选择是次优的，并建议探索稀疏流密集流skip信道时间时步抽样时步卷积稀疏流(b) 超级TS-融合块��×超级MBConv3D��（×��⋯⋯��简体��中文&⋯⋯��）×��nMBConv3D MBConv3DMBConv3D��×&MBConv3D��×1×1×1Conv、BN、ReLU��×��1×��×1×1×1Conv，BN��×(c) 超级MBConv3D块图2：双流模型的多变量搜索空间。(a)宏观架构，我们在其中定义模型中各个块组的布局。（b）超级TS-融合块，其中我们搜索融合操作的类型。（c）超级MBConv3D块，其中我们搜索3D深度卷积的核大小（t和k），增加多少熔合块、在哪里增加以及使用什么类型的熔合的设计选择在每个组的末尾，我们添加一个超级双流融合块，如图2b所示，其中我们搜索用于组合来自两个流的特征并将融合特征传递到稀疏流中的下一个块的融合操作的类型候选融合操作从[9]中采用，并且细节包括在补充中。3.3. 可搜索注意力块注意力块，如非本地[39]和GloRe块[5]，可以插入到主干中以提高性能。在手动设计的情况下，必须仔细决定在哪里添加注意力块以及添加多少[39，5]。不同的选择对模型识别性能和模型FLOPS都有很大的影响。因此，我们搜索atten- tion块的数量和位置，以实现更好的ATC权衡。特别地，我们选择使用GloRe [5]作为注意力块的实例。也可以使用其他注意力块，例如非局部块[39]。在我们的搜索空间中，可搜索的注意力块被放置在块输出通道C出来和膨胀率e.组，其在图2a中表示为超级注意力我们决定来自每个流的特征是否应该简单地通过它或进入注意力块以进行每个稀疏流将稀疏帧作为输入，所述稀疏帧是相同的。密集流从具有较大时间步幅的视频中提取密集帧，而密集流采用具有较小时间步幅的密集帧。所提出的搜索空间可以被分解成三个部分。形成全局推理。3.4. 可搜索主干构建块我们设计了一个层次化的搜索空间，其中的骨干是由不同架构的块组组成的密集流稀疏流....分类器8036×个--|最大输入大小C×T×S23× 4× 22423× 4× 1122第0阶段操作员转换1 ×32conv3 ×12块组渠道2424膨胀-N11S21融合块-关注块-48× 4× 112248× 4× 5621MBConv3D(32、48、8）(32、48、8）(1.5、6.0、0.75）1221TS-Fusion-88× 4× 56288× 4× 2822MBConv3D(64，88，8）(64，88，8）(1.5、6.0、0.75）1421TS-FusionGloRe176× 4× 282(128，176，16）12176× 4× 142176× 4× 142176× 4× 1423MBConv3D(128，176，16）(128，176，16）(1.5、6.0、334111TS-FusionGloRe最大输入大小C×T×S23× 32× 22423× 32× 1122第0阶段操作员转换1 ×32conv3 ×12块组渠道拓展8-8N11S21关注块-8× 32× 112216× 32× 5621MBConv3D8（8、16、8）(1.5、6.0、0.75）1221-24× 32× 56224× 32× 2822MBConv3D（8、24、8）（8、24、8）(1.5、6.0、0.75）1421GloRe32× 32× 282(16、32、8）1232× 32× 14232× 32× 14232× 32× 1423MBConv3D(16、32、8）(16、32、(16、32、8）(1.5、6.0、0.75）334111GloRe(a) 稀疏流（b）密集流表1：双流宏架构。（a）稀疏流的宏观架构。每行表示块组，其包括具有相同架构的多个MBConv3D块它还有一个可搜索的GloRe注意力块和最后的TS-Fusion块。通道和扩展列表示块的输出通道和扩展速率。它们的搜索选择被表示为范围（min、max、step）。列N表示MBConv3D块的重复次数，列S是组中第一块的空间步幅。（b）密集流的宏观结构。真实（图2a）。每个组由若干块组成，这些块依次堆叠并共享相同的archi。结构在这项工作中，我们采用源自Mo-bileNetV 2 [27]的 MBConv （移动反向瓶颈 Conv ）的 3D 版本，即MBConv 3D（图2c），其具有4个搜索变量，包括时间空间核大小tk、输出通道C_out和扩展速率e。深度卷积的时间核。时间内核大小对模型FLOPS和准确性有很大影响。当其被设置为1时，MBConv3D块仅具有2D卷积，这在计算上更便宜，但不能捕获时间信息。当它大于1时，MBConv3D块在3D中进行卷积，这是更昂贵的，但可以通过捕获时间信号来提高识别我们搜索每个块组的时间内核大小。这不仅避免了繁琐的手动调谐，而且改善了ATC权衡。深度卷积的空间核。空间核大小始终被认为是模型复杂性和性能的关键[30，41]。在手工制作的视频模型中，如I3D [2]，S3D，SlowFast和X3D，几乎所有卷积层的空间内核都固定为3我们假设这种简单的选择是次优的，并将空间内核大小添加到我们的搜索空间中。MBConv3D块的输出通道。在X3D [8]中，也采用MBConv3D块作为构建块，每个块的输出通道是按照简单的启发式方法手动规定的，例如当空间分辨率降低一半时，输出通道数加倍。由于输出通道的选择实质上影响模型的计算成本和容量，因此我们从更广泛的选择中搜索输出通道。MBConv3D块的扩展速率。MBConv3D块通过逐点卷积以扩展速率扩展特征通道，执行3D深度卷积，并且最后通过逐点卷积收缩特征通道。表2：用于MBConv3D块的核大小的选择其他逐点卷积。扩展速率影响深度卷积操作的特征通道的数量，并且因此影响模型的ATC权衡。以前的模型[27，8]对所有块使用恒定的扩展速率。相比之下，我们为每个块搜索一个单独的扩展率。3.5. 最后的搜索空间我们的搜索空间的宏架构的完整规范如表1所示。我们的搜索空间有6个变量（时空内核大小，通道宽度，扩展率，融合和注意力块），其中每个块组可以有其独特的选择。它包含超过2 1053个体系结构，并提出了一个很大的挑战，有效地搜索体系结构内。表2中示出了用于MBConv3D块的时间和空间核大小的选择。4. 搜索方法4.1. 搜索算法我们采用PARSEC [3]方法作为我们的基本搜索程序，这是不同NAS方法DARTS [17]的概率版本。与DARTS不同，DARTS需要同时实例化所有层选择并且占用大量内存，PARSEC一次只对一个架构进行采样，并且使用与标准模型训练相同的内存。PARSEC构造了一个超网，在该超网中我们可以根据分布P（Aα）对体系结构Ai进行采样。结构参数α表示选择的概率不同的操作。利用重要性加权蒙特卡罗算法[1]，我们共同优化α和搜索变量时间核空间核选择{1，3，5}{3，5}8037×个×个×个×个模型权重的超网，以最大限度地提高数据像lihood的采样架构，这是加权的代理架构性能指标（视频级的准确性验证集在我们的论文）。我们还在损失函数中添加了一个铰链型正则化项，以惩罚超过目标FLOPs范围的架构。4.2. 渐进式搜索在我们的大搜索空间中直接搜索双流模型的所有部分的架构是具有挑战性的。因此，我们考虑一个分而治之的策略，通过分解成多个步骤的搜索过程，并搜索模型的不同部分顺序。从经验上讲，我们发现这样的渐进过程可以加速搜索效率，而不会牺牲最终发现的体系结构的性能，同时搜索所有的模型部分相比。步骤1：我们首先搜索稀疏流的架构，包括时间/空间内核，输出通道，和MBConv 3D块的扩展速率，其存在于大小为8 - 10- 24的大大减小的搜索空间中。步骤2：之后，我们修复稀疏流并继承来自步骤1的模型权重，并且进一步搜索密集流的架构以及融合块以优化整个双流模型的性能。因此，密集流和融合块的搜索有利于更能够从两个流学习互补特征的架构该步骤中的搜索空间包含6 1024个唯一的体系结构。步骤3：在最后一步中，我们搜索添加注意力块的位置，这可以以低计算成本提高整个双流模型的性能，同时保持先前搜索的架构固定并继承它们的模型权重。该步骤中的搜索空间具有4096的小尺寸。5. 实验5.1. 数据集我们使用两个大规模视频基准Kinetics- 400 [13]和Something-Something-V2 [11]，它们捕获了视频识别任务的不同方面。（i）Kinetics- 400：它包含400个动作类中的 240 K 训练和 20 K 验证（ ii ） Something-Something-V2：与Kinetics不同的是，它将人的动作和动作中涉及的对象解耦，并迫使模型学习时间信息而不是识别对象。它包含来自174个人类动作类的训练和验证集中的169K和25K视频。我们提出的自动TSNet可以推广到不同特征的数据集根据标准协议，我们报告了以下数据的前1/前5验证准确度：两个数据集。5.2. 实现细节我们在下面简要介绍搜索、培训和评估设置，并在供应中包含更多细节。架构搜索我们从Kinetics-400数据集中随机选择100个类，表示为MiniKinetics-100，并在其上搜索架构以进行快速搜索。稀疏流的架构被搜索800个时期。搜索密集流和注意块的位置分别需要400、200个epoch采用Adam优化器更新结构参数，学习率为0.025，权重衰减为零。超网中的模型权重使用SGD进行优化，SGD使用0.4的学习率和余弦衰减的时间表。稀疏流和密集流分别取4帧和32帧作为输入。我们使用[182，228]的缩放抖动范围，然后从输入视频的每帧中随机截取大小为160 160的训练搜索到的模型。在搜索之后，我们采用最可能的架构，并使用随机初始化的模型权重从头开始训练它。我们训练模型300个epoch。我们使用SGD优化器，学习率为0.4，余弦衰减时间表。评估搜索到的模型。在验证集上评估经训练的模型。我们从每个视频中均匀地抽取10个片段，并使用两种不同的方式拍摄作物，以获得与先前工作相当的结果。（1）10-中心：我们调整剪辑有一个短边182.采用大小为1602（2）10-左中右：我们取3个大小为182 2的裁剪以覆盖剪辑的较长轴。预测在剪辑的所有裁剪上被平均。默认情况下，除非明确说明，否则我们的结果是通过10中心作物测试关于方法复杂度的比较，我们考虑使用总FLOP（每个视频的FLOP）作为主要度量。5.3. 主要结果在这里，我们在表3中呈现了我们的Auto-TSNet模型的主要结果，包括代表小型，中型和大型模型的S，M和L变体。我们还比较他们与其他国家的最先进的视频模型，其架构进行搜索。Auto-TSNet-S和Auto-TSNet-M共享相同的架构，并且仅在输入视频空间分辨率（1822对2562）上不同。Auto-TSNet-L模型是通过将Auto-TSNet-S的深度简单地拉伸2，并将输入空间分辨率增加到3562来获得的。我们还报告了另外三个变体的结果我们的模型，即Auto-TSNet-St，Auto-TSNet-Mt和Auto-TSNet-Lt，其中注意力块被移除。在表3的第一部分中，我们比较了小型模型，Auto-TSNet-S†在使用类似FLOP的情况下显著优于X3 D-S1.3%当─8038†联系我们×个模型X3D-S [8]Auto-TSNet-S†（我们的）Auto-TSNet-S（我们的）Params（男）3 .第三章。87 .第一次会议。78. 6GFLOPS×视图二、7 ×30二、8 ×303 .第三章。4 ×30总GFLOPs8184102Top-1累积（%）七十三。三个一个74岁675.4[31]第三十一话X3D-M [8]Auto-TSNet-M†（我们的）Auto-TSNet-M（我们的）8. 23 .第三章。87 .第一次会议。78. 6六、9 ×10六、2 ×30五、2 ×30六、1 ×3069186156183七十二4七十六。0七十六。677.3[31]第三十一话X3D-L [8]Auto-TSNet-L†（我们的）Auto-TSNet-L（我们的）12个。2六、112个。2十三岁223岁8 ×10二十四岁8×30十八岁1×3019号。9 ×3023874454359774岁5七十七。578岁378.9表3：与Kinetics-400上的其他NAS模型的比较。Auto-TSNet和X3 D模型使用10-LeftCenterRight测试进行评估。表示没有注意力块的模型。模型FLOPS RatioP前1位的访问率（%）X3D-S-七十二9百分之八十五七十二8手册-TSNet百分之七十73.2百分之五十五七十二4表 4 ：在 Kinetics-400 上比较 X3 D-S 模型与我们的Manual- TSNet模型。所有型号使用约2.0G FLOPS。比率P表示稀疏流使用的FLOPS的比率。通过搜索和添加tension块，Auto-TSNet-S进一步提高精度0.8%。在第二节中，我们比较了中等大小的模型，Auto-TSNet- M使用类似的FLOP将X3 D-M提高了1.3%的大差距。Auto-TSNet-M的性能甚至与X3 D-L（77. 3%对77。5%），同时使用更少的FLOP66%。在表3的最后一节中，用于比较大型模型，Auto-TSNet-L显著超过X3 D-L 1。4%（78. 9%对77。5%），同时使用更少的FLOPs。5.4. 从单流模型到双流模型X3D [8]是一系列单流模型，在标准基准测试中表现良好。然而，我们假设双流模型可以实现比单流模型更高的性能。在自动搜索双流模型之前，我们手动构建双流基线模型并与X3D模型进行比较。我们将稀疏流和密集流的输入帧的数量固定为4和32。对于每个流，我们重用X3 D-S模型的宏结构，并且仅通过在以下约束下均匀地缩小每个块处的特征通道来修改它。（i）：每个作物的双流模型的总FLOPS接近X3 D-s（ii）：稀疏流的FLOPS占该稀疏流的FLOPS的P%。总FLOPS，其中P是超参数。以下在SlowFast [9]中的设计中，我们使用时间跨越卷积*准确性在官方repo中报告。X3 D纸作为沿网络均匀放置的2个流之间的融合块。我们用P85、70、55的3种选择进行实验，并将所得模型表示为Manual-TSNet-P%。结果示于表4中。在Kinetics-400上，Manual-TSNet-70%模型实现了最佳性能，比X3 D-S模型提高了0. 3%的top-1精度，使用类似的FLOPS。请注意，我们手工制作的Manual-TSNet模型仅表示我们的多变量搜索空间中相当稀疏的数据点集，并且不期望在该空间中是最优的。尽管如此，Manual-TSNet-70%已经超过了精心设计的X3 D-S型号，它支持-使我们能够更广泛地探索超越简单的均匀信道缩放的更精细粒度的空间。5.5. 双流模型的渐进搜索5.5.1搜索稀疏流如第4节所述，我们采用渐进式搜索过程，从搜索稀疏流的架构开始。我们将稀疏流的目标FLOPS设置为1。4GFLOPS的基础上，我们的人- ually探索双流模型手册-TSNet-70%表4中的设计。稀疏流的搜索需要2.3天。搜索到的稀疏流达到70。在Kinetics-400上的Top-1准确率为8%，FLOP为1.39G，如表5所示，这是我们渐进式搜索的良好起点。5.5.2搜索密集流和融合块在渐进式搜索的第二步中，我们也修复了上一步中稀疏流的作为超网的模型权重，并进一步搜索密集流和TS融合块的架构。我们将整个双流模型的目标FLOPS设置为2.0G。结果示于表5中。所发现的模型包括稀疏流、密集流和融合块。与前一步搜索的稀疏流网络相比，搜索的双流模型实现了3的性能提升。百分之三。搜索模型的FLOP为2.05 GFLOP，接近目标2GFLOP。5.5.3寻找注意力障碍在渐进式搜索的最后一步中，我们搜索注意力块的插入位置，其中我们选择使用GloRe作为注意力块的实例我们考虑在阶段2、3和4插入GloRe块。我们在阶段2、3和4为每个流均匀地挑选6个位置作为候选注意位置，这导致26的空间26=总共4096个选择。我们将目标FLOP设置为2.5G.检索仅需0.9天，结果如表5的最后一行所示。最终搜索的Auto-TSNet模型选择将两个GloRe块插入到阶段3的稀疏流（参见图3），这提高了搜索的架构的准确性。8039× ×××个渐进式搜索结束参数GFLOPs Top-1搜索天数熵（M）×访问次数（%）✓×六点五十八点九八点九三41×3072.84.89 .第九条。78.63. 25 ×3075.4#流稀疏流密集流融合块关注块搜索天1视图GFLOPSTop-1累积（%）1✓二、31 .一、39七十82✓✓✓1 .一、6二、0574岁1（+3。第三章2✓✓✓✓0的情况。9二、46 74岁6（+0.第五章）表5：渐进式架构搜索的结果设计方法搜索天数1-视图GFLOPs前1位的访问率（%）手动-1.40七十2搜索2.31.3970.8表6：Kinetics-400上的主干消融搜索。设计方法搜索天总融合块每个阶段的S1 S2 S3 S4Top-1累积（%）0- -七十7手动-510+1 +1+2 +1+2 +2+4 +2七十三。2七十一2搜索0.74+1个+1个+2 -73.7表7：在Kinetics-400上评估Manual-TSNet上的融合位置的选择步骤2的结构乘以0。5%（74. 6%对74。1%）。搜索架构的FLOP也接近我们的目标FLOP。5.6. 消融可搜索组件在本节中，我们考虑隔离每个可搜索的组件（主干，融合和注意力），以验证搜索其架构的必要性。仅搜索主干。在Auto-TSNet的渐进搜索的第一步中，我们搜索稀疏流，其目标 FLOP 被设置为 1 。4GFLOPS。我们直接将搜索到的稀疏流的性能与Ta中的Manual-TSNet-70%的稀疏流进行表6，其示出了搜索的稀疏流比手工制作的稀疏流好0。6%的top-1准确度（70. 2%对70。8%）。仅搜索Fusion 我们进行了一项玩具研究我们只搜索具有预定义结构的两个流之间的融合位置，与Manual-TSNet-70%中的那些相同候选融合操作包括时间跨越卷积和无连接。我们基于Manual-TSNet-70%的主干架构创建了3个变体候选可搜索融合位置完全覆盖Manual-TSNet-70%及其两个变体的融合位置。结果在表7中。我们观察到搜索的架构已经超过了其他手动设计的基线，具有相当大的精度提升0.5%，证明融合搜索是不平凡的。只寻求注意力为了证明搜索注意力块的需要，我们还进行了一个实验，我们只搜索注意力块的位置，同时保持其他可搜索的组件固定（相同的手册 TSNet-70%）。我们采用Manual-TSNet-70%作为基线，以及其具有不同插入的变体表8：在Kinetics-400上的Manual-TSNet-70%模型中比较手动插入和搜索的注意力块表9：在Kinetics-400上的一步搜索和渐进搜索的比较。使用10- LeftCenterRight测试评估模型。渐进式搜索的熵在针对每个部分的搜索中被平均。注意力障碍。表8中的结果确认具有搜索的注意力位置的网络优于其他手动设计的变化。与Manual-TSNet-70%相比，搜索网络的准确性提高了0。百分之四5.7. 渐进式搜索在本文中，我们采用了一种渐进的搜索算法，将巨大的搜索空间（21053）分解成几个小的子搜索空间（[81024，6 1024，4。096 103]），以进行更有效的搜索。我们比较了渐进搜索和一步搜索的搜索时间，以及它们的搜索性能。这里，一步搜索表示同时搜索所有变量，而不是以渐进的方式逐部分搜索。它们之间的唯一区别是一步搜索算法一次搜索所有变量，并且为了公平起见，我们保持其他设置相同。我们还引入了结构参数α的熵作为搜索过程的收敛指标。较低的熵值指示搜索更接近收敛。结果示于表9中。我们确认渐进式搜索机制将搜索时间减少了26%，并且收敛得更好（熵为18.9 vs9.7）。渐进式搜索的搜索架构也取得了更好的性能，比非渐进式搜索的性能高出2倍. 百分之六。5.8. Kinetics-400上与SOTA的比较在表 10 中，我们将 Auto-TSNet 模型与使用 10-LeftCenterRight测试设置的最新结果进行比较。与X3D-S相比，Auto-TSNet-S的表现优于X3 D-S，其显著性差异为2.4%。使用类似的FLOP，Auto-TSNet-M超过X3 D-M1.3%。Auto-TSNet-M的性能甚至与X3 D-L相当，而使用的FLOPs减少了66%。Auto-TSNet-L以1.4%的差距超过X3 D-L，同时使用的FLOP减少了20%。Auto-TSNet-L的性能甚至接近设计方法搜索天使用GloRe每个阶段的S2S3 S4Params（男）1视图GFLOPSTop-1累积（%）手册-TSNet-70%-×个---7 .第一次会议。71二、03七十三。2✓+2个--8. 03二、19七十二7手动-+2个+2个-8. 24二、41七十三。28040ImageNet×个#流模型预-培训Params（男）总GFLOPSTop-1累积（%）TSN [37]--41.1TSN，双重关注[44]--四十二1TRN，双重注意-51岁6[47]第四十七话--四十八8TSM，双重注意--55. 01I3D + STIN + OIE [21]--六十岁。2动态推理[42]-三十五4五十八2bLVNet-TAM[7]四十2三十二1六十岁。2MSTNet [28]二十四岁3三十三岁。2五十九5TANet [19]三十4三十三岁。0六十岁。5[20]第二十话-29岁561岁6TEINet [18]-三十三岁。061岁322-[47]第四十七话ImageNet--55. 52-[44]第四十四话：我的世界--五十八42Auto-TSNet-S（我们的）-8.623.762.3Auto-TSNet-M（我们的）8.646.563.6表11：将Auto-TSNet模型与Something上的其他有效SOTA模型（低于50 GFLOP）进行SF 8×8，R101Auto-TSNet-S（我们的）Auto-TSNet-L（我们的）十三岁259778.9表10：将Auto-TSNet模型与Kinetics-400上的其他模型进行比较。与X3 D-XL相比（78.9% vs 79.1%），但节省了60%的FLOPS。与SF16 8 R101相比，Auto-TSNet-L实现了相同的性能，但它比SF16×8 R101小11倍。FLOPS成本。5.9. Something-Something-V2上的可转移性我们试图回答的下一个问题是：搜索的Auto-TSNet模型是否过拟合数据集？换句话说，当我们在不同的数据集上从头开始训练同一个模型时，它会获得高性能吗？为了解决这个问题，我们在 Something-Something-V2数据集上进一步评估了搜索到如前所述，Something-Something- V2数据集的特征与Kinetics-400截然不同，后者更侧重于时间建模。结果如表11所示，其中我们选择了50 GFLOP下的最先进的有效模型进行比较。Auto-TSNet模型无需任何预训练即可实现极具竞争力的性能。与GST 8F相比，Auto-TSNet-S显示出0. 7%，同时使用更少的20% FLOP。Auto-TSNet-M进一步将准确率提高到63。6%，优于所有其他方法。5.10. Auto-TSNet模型我们在图3中可视化了所发现的Auto-TSNet架构。对于主干，我们可以观察到，空间内核大小5和时间内核大小1在两个流中被广泛使用，这与当前手工制作的模型中的设计完全不同。令人惊讶的是，我们注意到注意力块只出现在稀疏流上，这表明它们在密集流上不太有效不像#流模型预-培训Params（男）总GFLOPSTop-1累积（%）I3D [2]12-七十一1MF-Net [4]8. 0555七十二8TSM [16]eNet二十四岁365074岁71非本地，R50 [39]AG三十五3八千四百六十七十六。5非本地，R101Im五十四3一万七百七十七十七。710月-13D +NL三十三岁。686775. 7SmallBigNet [15]-五千零一十六七十七。42-流R（2+1）D[34]127 234，960七十三。9Something-V2数据集。A3D-SF 4×16，R50[48]三十四4一千零八十三75. 72SF 4×16，R50[9]SF 16×8，R1012Auto-TSNet-M（我们的）-34岁4108375. 6五十三73，18077。9五十三76，39078 . 98. 6 10275.4-8. 6 18377.3葛马我8041图3：我们搜索的Auto-TSNet的可视化S.每个矩形框（除了两个流之间的融合块）表示块组。我们用height去标注扩展率，在框中标注组的块输出通道不同的颜色被用来表示内核大小，如图例所示我们使用阴影纹理来区分空间内核大小从时间。星形符号用于表示关注块。由于人工设计的体系结构通常倾向于搜索变量的统一选择，因此搜索的模型使用非统一的体系结构选择。6. 结论我们提出了一种方法来寻找高性能的视频识别双流模型。我们精心规定了一个多变量空间与6个搜索变量，这对模型的性能和复杂性有很大的影响，并反映在设计双流模型的大变化提出了一个渐进的搜索过程，cess有效地搜索在建议的大设计空间，发现的双流模型跑赢了其他模型在两个大规模的动作识别基准。8042引用[1] Bradley P Carlin和Thomas A Louis。经验贝叶斯：过去现在和未来。 Journal of the American StatisticalAssociation，95（452）：1286[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[3] Francesco Paolo Casale ，Jonathan Gordon ， and NicoloFusi. 概率神经结构搜索。 arXiv 预印本 arXiv ：1902.05116，2019。[4] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng.用于视频识别的多光纤网络在欧洲计算机视觉会议（ECCV）的会议记录中，第352-367页[5] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在IEEE计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载