时空融合在3DCNN中的概率观点

31 浏览量更新于2023-10-20 收藏 2.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

98293D CNN中的时空融合：概率观点周义洲1孙晓燕2罗冲2查正军1曾文军21中国科学技术大学网址：zyz0205@mail.ustc.edu.cn，zhazj@ustc.edu.cn2微软亚洲研究院{xysun，cluo，wezeng}@microsoft.com摘要尽管在静态图像识别方面取得了成功，但是在过去的几年中，用于时空信号任务（例如视频中的人类动作识别）的深度神经网络最近，人类专家已经投入了更多的精力来分析3D卷积神经网络（3D CNN）中不同组件的重要性其中，时空融合是其中的一个关键。它控制在推理过程中如何在每一层提取空间和时间信号。以前的尝试通常从ad-hoc设计开始，这些设计经验性地组合某些卷积，然后基于通过训练相应网络获得的性能得出结论。这些方法只支持对有限数量的融合策略进行网络级分析。在本文中，我们建议将时空融合策略转换为概率空间，这使我们能够对各种融合策略进行网络级评估，而无需单独训练它们此外，我们还可以获得细粒度的数值信息，如层级偏好的时空融合的概率空间内。该方法大大提高了时空融合分析的效率。基于概率空间，我们进一步生成新的融合策略，在四个著名的动作识别数据集上实现了最先进的性能1. 介绍对于许多视频应用，例如动作识别[31，43，33]，视频注释[41]和人员重新识别[37]，时空融合是不可或缺的组成部分。以动作识别为例，深度网络中的时空融合可以大致分为两大类：在双流架构中融合/集成两种模态（即RGB中的空间语义和光流中的时间动力学）[31，23]，在单流3D中融合空间和时间线索图1：3D CNN中的时空融合。(a)文中给出了文献中所报道的融合方法的实例，这些方法都是根据经验设计的，并通过训练每个相应的网络进行评估。(b)提出的概率方法。我们建议通过找到一个概率空间来分析时空融合，其中每个单独的融合策略被认为是一个有意义的概率的随机事件。我们首先介绍了一种基于基本融合单元的模板网络然后将所有可能的融合策略嵌入到融合策略后验分布所定义的概率空间其结果是，各种融合策略可以评估/分析，而无需单独的网络训练，以获得网络级的意见和层级的偏好。这里，S、ST和S+ST分别是由2D、3D和2D/3D卷积的混合实例化的CNN [29，43].在本文中，我们专注于后者。从概念上讲，3D CNN能够学习响应视频中的外观和运动的空间时间特征。最近的研究还表明，纯3DCNN在大规模基准上的表现优于2D CNN [7]。然而，我们仍然观察到，通过采用额外的空间或时间，这项工作是在Yizhou Zhou在微软亚洲研究院实习时完成的。†通讯作者。基本单位的圣S+ST（b）我们的或然方法网络级观察模板网络……嵌入层级首选项...…网络深度LGD[21][27]第27话底部重y[36]顶部重金属[36]智能[29]&[43]第四十三话(a)现有方法（特别设计）9830在3D CNN中显式地进行特征学习。如图1顶部所示。1，不同的时空融合策略[29，21，36，27，43]已经被研究并推荐用于动作识别。他们通过3D CNN中每层不同类型的基本卷积单元的组合来探索视频中的空间语义和时间动态。虽然结论不同，但这些工作有一个共同点-他们根据采用一种或几种经验设计的融合策略的网络性能得出结论[27，36，26]。每个融合策略是预定义的，固定的，并在每个单独的网络中进行评估，导致融合策略的网络级分析。由于组合的扩散和过高的计算成本，现有的解决方案难以模拟大量的融合策略进行评估，也不能支持细粒度和层级分析。在本文中，我们建议从不同的角度来分析3D CNN中的时空融合，即。一个概率。具体地说，我们将时空融合分析作为一个优化问题，目标是找到一个概率空间，在这个概率空间中，每个融合策略都被视为一个随机事件，并被赋予一个有意义的概率。概率空间将被构造为满足以下要求。首先，每个时空融合策略（事件）的有效性可以很容易地从概率空间中导出，这样我们就可以根据导出的有效性来分析所有的融合策略，而不是训练由每个融合策略定义的每个网络。其次，从与每个融合策略的性能密切相关的概率中，应该能够推导出融合效率的层级度量，使得能够执行融合策略的层级细粒度分析现在，问题变成了我们如何构建这个概率空间。最近的研究表明，使用dropout（应用于内核权重的每个通道）优化神经网络在数学上等效于对网络权重[5]和架构[42]的后验分布的近似。它启发我们在3DCNN中通过dropout来构建概率空间。在我们的方法中，我们建议首先设计一个基于基本融合单元的模板网络。我们将基本单元定义为3D CNN中不同形式的时空卷积，例如，空间，时空，和空间+时空卷积，如图所示。1.然后，概率空间可以由不同子网络（融合策略）上的后验分布以及模板网络中的请注意，在我们的融合分析中，我们需要在基本融合单元上近似后验因此，基于变分Dropout [15]和Drop- Path [16]，我们提出了变分DropPath（v-DropPath）。通过使用对应用于每个基本融合单元的丢弃操作的概率进行因子分解的变分分布然后通过最小化变分分布与后验分布之间的Kullback-Leibler（KL）散度来推断后验分布，这等价于使用v-DropPath优化模板网络。我们将证明这样一个概率空间完全满足上面在3.1节和3.3节中提到的两个一旦我们获得这样的分布，我们通过执行 v-DropPath w.r.t. 它的最佳下降概率。这些融合策略可以直接评估，而无需训练。此外，我们还利用导出的概率空间提供了层级时空融合偏好的数值测量。实验结果表明，我们提出的prob-technology方法可以产生非常有竞争力的融合策略，以获得国家的最先进的结果在四个广泛使用的数据库上的动作识别。它还提供了关于时空融合的一般和实用提示，可以应用于具有不同骨干的 3D 网络，例如 ResNet[9] ，MobileNet[22]，ResNeXt[35]和DenseNet[10]，并实现良好的性能。总之，我们的工作有四个主要贡献：1. 我们是第一个从概率角度研究3D CNN时空融合的人我们提出的概率方法，使一个高效和有效的分析各种时空融合策略。时空融合的层级细粒度数值分析也成为可能。2. 我们提出了变分丢弃路径，以端到端的方式构建所需的概率空间。3. 基于概率空间构造了新的时空融合策略，并在四个著名的动作识别数据集上实现了最新的4. 我们还表明，从概率空间得到的时空融合的提示是通用的，适合于不同的骨干网络受益。2. 相关工作时空融合已经在各种任务和框架中得到了广泛的研究[21，18，44]。在本文中，我们选择了它的典型场景之一，即。、行动识别，探讨相关工作。我们进一步将用于动作识别的时空融合方法大致分为两类：双流（RGB和光流）CNN中的融合和单个3D CNN中的融合。由于空间限制，在这里我们只回顾最相关的工作-单个3D CNN中的时空融合。9831{}--MM {}•F•{M}•B{M}--存在相当多的关于3D CNN中的时空融合的文献。其中一些工作表明，3D CNN的效率可以提高通过以特定方式经验地解耦时空特征例如，Wang等人[29]提出了融合方法，该方法利用具有平方池的3D卷积来捕获外观无关关系，并利用2D卷积来捕获静态外观信息。然后将这两个特征连接并馈送到1x1卷积中以形成新的时空特征。实验结果表明，该融合方法在保证模型大小和FLOP接近原始三维结构的前提下，能显著提高融合性能。Feichtenhofer等人[3]还提出了一种结合3D和2D CNN的融合方法。它们使用2D卷积（具有更多通道）以较低的帧速率从各个帧捕获丰富的空间语义，并使用因子化的3D卷积以高时间分辨率从帧中提取运动信息，该运动信息通过横向连接融合Zhou等人。[43]提出了一种混合的3D/2D卷积管MiCT-block，它通过3D CNN中的级联和残差连接将2D CNN与3D卷积集成它鼓励3D网络中的每个3D卷积通过将其输出添加到由2D卷积捕获的空间语义特征来提取时间残差信息其他一些工作不是提出一种特定的融合策略，而是通过评估一组预定义的融合方法来研究3D CNN中的时空融合[27，36，26]。例如，在[36]中分别构建、训练和评估了四种融合方法，包括图1所示的bottom-heavy-I3 D和top-heavy-I3 D。在[27，26]中以类似的方式研究了更多的融合，例如混合卷积和反向混合卷积。虽然这些方法具有有意义的观测，但只能分析有限数量的融合策略，提供网络级提示，并且具有巨大的计算成本。在对比所有上述方法，在本文中，我们提出了构建一个概率空间，编码所有可能的时空融合策略下一个预定义的网络拓扑结构。它不仅提供了一种更有效的方法来分析各种融合策略，而无需单独训练它们，而且还有助于对3D CNN中的时空融合进行细粒度的数值分析。3. 概率空间中的时空融合我们观察到，L层3D CNN中的融合策略可以用一组三元组{（l，v，u）}L表示，其中l（1≤l≤L）是层索引，v是长度为l−1的二进制向量，表示将使用的层的特征，u（u∈U）表示基本融合单元图2：文献中报道的三种时空融合策略的示例三重表示（l，v，u）在当前层中使用这里U由一组基本融合单元定义例如，U可以是空间（S）、时间（T）和时空（ST）三种模式的组合，即，U=S、T、ST、S+T、S+ST、T+ST、S+T+ST。作为具体的例子，现有的融合策略可以很好地由三元组表示，例如，、头重脚轻结构[36]、SMART-块[29]/MiCT-块[43]和全局扩散结构[21]，如图所示。2所示的序列。3.1. 概率空间如在引言中所讨论的，我们构造概率空间与后验分布在不同的融合策略以及它们的相关核权重。在概率空间中，=（l，v，u）L应该是随机事件.我们还定义WM为相应策略的核权重，这也是这样的空间中的随机事件。因此，我们给出了概率空间表示为（B，F），其中样本空间n=（，W M），它是概率空间中所有可能结果的集合。一组事件=（，W M），其中每个事件在我们的情况下相当于一个结果。概率测度函数我们使用后验分布为事件分配概率，F：=P（M，W M|D）、（1）其中D=X，Y表示用于训练的数据样本X和地面实况标签Y在这个概率空间中，各种融合策略及其相关的核权重被成对采样，我们可以在没有训练的情况下直接进行评估。一种策略的整体性能只能以网络测试为代价来获得因此，满足概率空间的第一个要求。现在，将时空融合策略嵌入到这样的概率空间中的核心是导出等式中定义的度量函数。1.一、1，−，3DConvF2，[0]，中国F2DConv3、[1，1]、Conv4，[1，1，0]，1003，[0，1]，02DConv2，[1]，2DConvF1，−，+��2DConv3DConv3，[0，1]，0，3DConv2，[1]，2DConv1，−，2DConv2DConv3D联系我们9832∈^--^MQ··∼^M^^M∈^QM^Σǁ2+W3.2. 通过变分丢弃路径嵌入这是很难获得后验分布在方程。(1)，像往常一样。在我们的方法中，我们提出了一个变分贝叶斯方法来近似它。我们首先建立一个模板网络的基础上的基本融合单元，将在时空融合研究。例如，我们可以设计一个密集连接的3D CNN，U=S，ST，S+ST，如图所1.一、然后，我们将一个变分分布，因式分解在模板网络中的每个基本单元我们进一步提出了受[15，5，42]启发的v-DropPath，它使我们能够通过训练模板网络来最小化变分分布和后验分布之间的KL距离。下文将介绍更多细节通过引入模板网络，Eq.(1)可以转换为P（M，WM|D）→−P（M^WT|D）、（2）哪里是阿达玛产品（带广播），（0，1）L× L ×3是一个二进制随机矩阵，（l，i，u）= 1/0表示模板网络中第i层的特征和融合单元u分别在第l层启用/禁用. W TRL× L ×3×V表示模板网络的随机权重矩阵，其中为了简单起见，我们使用V表示核形状。这种转换实际上将内核权重集成到融合策略中。由于我们可以从嵌入版本W T中完全恢复M（这是因为内核是在实数域中定义的，因此每个元素为零的概率可以是忽略），第一个要求仍然满足。然后，我们通过最小化KL散度来近似后验分布KL（Q（M^WT）||P（M^WT|D））、（3）其中（）表示变分分布。相反如[5]中那样因式分解卷积通道上的变分分布，我们因式分解（ WT）在每层中的熔合单元上，Yq（M（l，i，u）·W T（l，i，u，：））。（四）l，i，u通过用k l，i，u重新参数化q（M（l，i，u）·W T（ l ， i ，s ，：）），w l ， i ， u ，其中， l ， i ， uBernoulli（p l，i，u）和w l，i，u是与随机变量相关联的确定性权重矩阵。权重矩阵WT（l，i，u，：），最小化等式（1），3近似等于最小化其中kl，i，u是预定义的长度尺度先验，N是训练样本的数量梯度w.r.t. 通过Gumbel-Softmax [12]计算伯努利参数p。对于逐步证明方程。5、请参考我们的补充材料。当量5揭示了近似后验分布可以通过训练模板3D网络来实现，其中每个空间或时间卷积由服从具有概率的伯努利分布的logit函数来p.这正是[16]中提出的下降路径。但这里的网络权重和丢弃率都需要优化。我们采用Gumbel-Softmax的不可微伯努利分布，使基于梯度的解决方案。请在补充材料中找到更多细节。3.3. 时空融合一旦获得由后验分布定义的概率空间，我们就可以在网络和层两级非常有效地网络级。传统上，通过训练和评估由一个融合策略定义的每个单独的网络来探索网络级融合策略。在我们的方案中，我们成功地消除了个人的训练和评估，通过使用嵌入的概率空间。我们通过直接采样一组策略和核权值对{（M，WM）t}来研究融合策略|t= 1、2、…}与M，WMP（M^WT|Dtr）Q（M^WT）。（六）这是可行的，因为每个（M，W M）t都可以从嵌入版本M，W，T中完全恢复。上述示例过程等效于基于下式随机选择m l，i，uBernoulli分布与优化的pl，i，u，如等式中5，这进一步等效于随机丢弃模板网络中的一些路径。每个融合策略的有效性，然后可以很容易地从验证数据集上的测试性能由于采样和评估是轻量级的，我们的方法可以大大扩展的数量和形式的融合策略进行分析。层级。网络级分析表明了不同时空融合策略的整体有效性但很少揭示各层融合策略的重要性。有趣的是，在我们的方法中，这种细粒度的层级信息的数值度量也是可以实现的。回想一下，我们对方程中的变分分布进行了因式分解。 4使用重新参数化技巧的不同融合策略[15]。因此，我们可以推断，11-logP（Y| X，w·X）+普卢伊乌logPl，i，u每层融合单元的边缘概率为l，i，u（kl，i，u）2（1−pl，i，u）2N我，我，你，（五）9833P（M^（l，i，u））=1|D）=1−pl，i，u。（七）详细推导请参考补充资料。当量7表明，一个温泉的边缘分布-l，i，u9834----圣S.S.+ 圣3x1x1 1x1x1 1x1x13x1x11x3x3 1x3x3基本融合单元层l模板网络11x1x1 3x1x1231x3x3DROPV-DropPath图3：我们实验中使用的密集连接模板网络。在每一层中，有三个DropPath（四）业务。D2和D3的组合推导出三个基本融合单元S、ST和S+ST。对D1和D2/D3的操作分别对应于索引i和u，i，u从优化后的丢失概率可以得到时-时融合策略。它表示在所有可能的网络中使用融合单元的概率，这些网络可以很好地解释给定的数据集并满足先验约束（在我们的情况下是稀疏性）。我们建议使用这个数字作为层级时空偏好的指标。因此，也满足了对概率空间的第二个要求。4. 实验在本节中，我们将从三个方面验证我们的概率方法的有效性。实验中使用了四个动作识别数据库。在描述了实验装置之后，我们将首先展示通过我们的方法获得的融合策略的性能，然后，基于对从概率空间生成的不同融合策略的分析，提供了几个主要的观察结果。最后，在不同的骨干网络上验证了所提出的时空融合策略的鲁棒性4.1. 实验设置模板网络。图3描绘了为我们的方法设计的模板网络的基本结构。模板网络是一个密集连接的网络，包括混合的2D和3D卷积。在这里，我们选择U=S，ST，S+ST，这样在我们的方法中探索的融合单元在概念上被包括在大多数其他融合方法中以进行公平的比较。我们还将每个3D卷积分解为1D卷积和2D卷积，并使用逐元素求和来融合2D和3D卷积以简化。此外，我们增加了几个过渡块来降低特征的维数，如[10]中那样，层的总数被设置为121我们在补充材料中提供了有关模板网络的更多详细信息。在实践中，我们共享在第节中定义的变量的变分概率。3、计算效率。数据集。我们将该方案应用于四个著名的动作识别数据集，即。，Something- Something（V1 V2）[6]，Kinetics 400 [14]和UCF 101 [24]。Something V1/V2分别包含约86 k/169 k的训练视频和12 k/25 k的验证视频。这两个数据集中的视频片段是第一人称视频，有174个类别，更侧重于时间建模。Ki-netics 400是一个大规模的动作识别数据库，它提供了来自400个类的大约240 k个训练样本和20 k个验证样本。UCF101有大约9k和3.7k的视频用于培训和验证。共分为101类。Kinetics400和UCF 101都包含视频片段中的复杂场景和对象内容，并且具有大的时间冗余。训练如前所述，我们通过使用v-DropPath训练模板网络来近似不同融合策略的后验分布我们将每个卷积运算的丢弃率初始化为0。1.一、我们分别用90个epochs（Something- Something（V1 V2）/UCF 101）和 110 个 epochs （ Kinet-ics 400 ）训练模板网络。Kinetics的批量为64，其他为32。初始学习率是0.005（Something UCF）和0.01（Kinetics），我们通过在第40、60、80个epoch（Something/UCF）和第40、80个epoch（Kinetics）乘以0.1来衰减它们。视频帧的大小都调整为256（短边），并随机裁剪为224x224。Eq.中的长度尺度先验 k5 由网格搜索确定，其中对于SomethingV1，k= 250，对于Kinetics400，k= 10，对于其余的，k= 50在实践中，在使用v-DropPath训练模板网络之前使用预热，即。删除所有v-DropPath操作，并从头开始训练模板网络50个epoch。所有实验都是在多个（8-32）v100 GPU上使用分布式设置和同步批处理归一化[11]进行的，内存为32 G。取样和推断。我们从概率空间通过采样不同的时空卷积组合w.r.t.得到各种时空融合策略。v-DropPath的丢弃概率。样本策略直接在验证数据集上进行评估。在每种时空融合策略的推理过程中，我们将输入视频帧的短边调整为256，并对中心进行裁剪，得到256× 256的区域。我们均匀采样多个视频剪辑和平均预测分数，以获得视频级预测。剪辑的数量因数据集而异，将与结果一起讨论。9835表1：Something-Something V1的性能评估Im./ K.400表示ImageNet/Kinetics 400预训练。方法骨干额外修改预训练#FFLOPs#参数。Top-1Top-5TSN[31]BNInception-我816G10.7M百分之十九点五-TSN[17]ResNet50-我833G24.3M百分之十九点七46.6%[40]第四十话BNInception-我816G18.3M百分之三十四点四-[17]第十七话ResNet50-我833G31.8M38.9%68.1%[40]第四十话BNInception-我16-36.6M42.0%-[第17话]ResNet50-我1665G24.3M百分之四十七点二百分之七十七点一[39]第三十九话3D Res.18YIm.+K.400--X百分之四十七点八-STM[13]3D Res.50Y我1666.5G24.0M百分之四十九点八-非本地I3D[32]3D Res.50Y我64336G35.3M44.4%76.0%非本地I3D + GCN[32]3D Res.50+GCNY我64606G62.2M46.1%76.8%[36]第三十六话3D BNincept.+栅极Y我6471G11.6M48.2%78.7%I3D[32]3D Res.50N我64306G28.0M41.6%72.2%I3D[36]3D BNIncept。N我64108G12.0M45.8%76.5%S3D[36]3D BNIncept。N我6466G8.77M百分之四十七点三百分之七十八点一ECO[45]BNIncept.+ 3DRes.18NIm.+K.400832G47.5M百分之三十九点六-ECO[45]BNIncept.+ 3DRes.18NIm.+K.4001664G47.5M41.4%-[45]第四十五话BNIncept.+ 3DRes.18NIm.+K.40092267G150M46.4%-我们3D DenseNet121N我1631G21.4M50.2%78.9%表2：从我们的概率空间中选择的时空融合策略的消融研究战略数据集SStS+STOpt一些V141.8%47.5%百分之四十六点五百分之五十点二什么V255.1%60.5%百分之五十九点五62.4%UCF10183.6%百分之八十三点一百分之八十四点二84.2%动力学400百分之六十七点八68.3%69.7%71.7%4.2. 消融研究为了证明我们的概率空间的有效性，对于每个数据集，我们从构建的空间中抽取100个融合策略，并根据在保持的验证数据集上的性能选择最佳融合策略。我们将最佳策略表示为“优化”（Opt）。然后，我们将其与图3中的对应策略“S”、“ST”和“S+ST”进行比较。2中所述的两个基本融合单元，在所有层上分别设计有一个固定的对应基本融合单元S、ST或S+ST。可以观察到，我们的概率空间可以在所有数据集上生成更好的策略。我们的4.3. 与最新技术该方法从概率的角度分析了时空融合策略它不仅能够实现先进的分析方法，而且还实现了高性能的时空融合策略。在本节中，我们将在四个动作识别数据集上比较从概率空间中提取的策略与最先进的融合方法。我们的方法非常有竞争力-9836积极的表现，即在所有方案中，在这些数据集中的三个数据集上表现最好，在UCF 101上获得第二好，尽管一些比较结果是用更好的主干和/或用诸如非局部、运动编码器或门控函数之类的额外模块实现的。V1 V2. 表. 1展示了不同时空融合方法的性能V1数据集。它表明，我们的方法导致的融合策略，优于所有其他方案，包括迄今为止最先进的3D网络S3D，一个大的利润与50%的减少FLOP和帧。当然，它的性能甚至优于那些精心设计的功能模块，例如。STM采用逐通道运动模块来显式地编码运动信息，并且Non-local I3 D + GCN显式地将对象语义与图形结合。在最近发布的数据集Something V2上也可以观察到如表中所示。3，我们的融合策略显著优于传统的I3D解决方案及其分别在底层和顶层中结合3D卷积的底部重和顶部重的对应方案。我们对两个数据集都采用了ImageNet预训练，我们的融合策略可以实现比在大规模数据集Kinetics（如ECO）上预训练的更高的准确性。动力学400 表4中报告了在Kinetics400上通过不同融合方法实现的准确度为了进行苹果之间的比较，所有方法都是从头开始训练的。可以观察到，我们的时空融合配置在Top1精度上优于第二好的R（2+1）D，FLOP减少97%，其中R（2+1）D是使用ResNet34作为骨干的3D网络与R（2+1）D相比，我们实际上在浅层中使用了更多的空间4.第一章9837表3：与Something-Something V2上的最新结果的性能比较。表5：与UCF 101最新结果的性能比较。IM.，S.1M和K.400表示ImageNet，方法Val. Top-1Val. Top-5Sport1M和Kinetics400。我们的方法与TSN[17]30.0%60.5%ResNeXt 50和Inception主干的设计符合-[40]第四十话百分之四十八点八77.6%我们从概率空间中观察到的暗示[40]第四十话百分之五十五点五百分之八十三点一详情请参阅第4.4及4.5节TSM（ImageNet+ Kinetics400）[17]59.1%百分之八十五点六[34]第三十四话百分之五十五点五82.0%I3D-ResNet50[34]百分之四十三点八百分之七十三点二2D-3D-CNN w/ LSTM [19]百分之五十一点六-我们的（ImageNet）62.9%88.0%表4：在Kinetics400上训练的不同时空纹理的性能比较结果，在抓痕电子化的3D建筑技术-UCF101 由于UCF101只有9k个训练视频，我们分别使用ImageNet预训练和Kinetics400预训练进行评估。当仅结合ImageNet预训练时，我们的融合策略会产生最先进的结果，其中1。比执行纯时空融合的I3D精度高5%当使用Kinetics400作为预训练数据集时，整体性能仍然是最先进的。请注意，我们在这里没有使用任何额外的功能模块，因此性能稍差（0。3%）比最先进的3D网络S3 D-G，采用注意力机制。4.4. 意见我们将从概率空间中导出的策略可视化，这些策略在图1中的测试数据集上具有最高的准确性。4.我们还说明了边际概率，使用不同的基本单元在每一层的基础上方程。7.蓝色、绿色和黄色条的幅度分别表示在每层中使用单位S、ST和S+ST橙色虚线表示选定的图层级基本融合单位，这些单位可产生最佳精度。从这些数字中，我们看到，观察一如彩色条所示，与其他两个单元相比，单元S+ST在较低级别的特征学习中具有更高的边际概率橙色的虚线也显示了类似的趋势。的S+ST单元在所有融合单元中占总使用量的百分比最高，尤其是在低层。这表明，一个合适的时空融合策略可以设计基于S+ST单元，特别是在低层。观察二在较高的层中优选更多的ST单元，因为在ST上存在较高的边际概率在更高级别的特征学习中，单元（除了下面将讨论的UCF 101观察三. 当场景语义复杂时，额外的S单元可能是有益的。例如，Kinet-ics 400/UCF 101包含具有400/101的野生视频不同的类别，分别。场景内容比《 Something-Something》中的第一人称视频更复杂。通过比较图4（c）和（d）与其它的比较，表明选择了更多的S或S+ST4.5. 泛化我们进一步讨论了我们的观察，以及所选择的融合策略的推广。我们将融合策略扩展到三个骨干网络，包括ResNet 50 [9]和ResNeXt 50/ResNeXt 101 [35]。它们在拓扑结构、参数大小和 FLOP 方面我们在Something V1上报告剪辑级精度以进行快速比较。请方法Pre.骨干Top-1TDD[30]我VGG-M82.8%C3D[25]我3DVGG1144.0%LTC[28]我3DVGG11百分之五十九点九ST-ResNet[4]我3DRes.50百分之八十二点三I3D[1]我3DIncept。84.5%我们我3DDenseNet121百分之八十五我们我3DRexNeXt5086.0%Res3D[26]S.1M3DRes.18百分之八十五点八P3D[20]S.1M3DRes.19988.6%MiCT[43]S.1M3DIncept。88.9%Res3D[26]K.4003DRes.1889.8%TSN[31]K.400Incept.V3百分之九十三点二I3D[1]K.4003DIncept。百分之九十五点六方法骨干FLOPsTop1Top5STC[2]R.Xt101不适用×不适用68.7%百分之八十八点五[第29话]ResNet1823.5G ×250百分之六十九点二88.3%[27]第27话ResNet34152G ×11572.0%百分之九十S3D*[36]BNIncept。66.4G ×25069.4%百分之八十九点一I3D[1]BNIncept。216G ×N/A百分之六十八点四88.0%9838在补充材料中找到关于其他骨干网的更多结果和讨论。98391.21.111.21.111.21.111.21.11B1.L1B1.L4T1B2.L3B2.L6B2.L9B2.L12B3.L2B3.L5B3.L8B3.L11B3.L14B3.L17B3.L23B4.L1B4.L4B4.L7B4.L10B4.L13B4.L16B1.L1B1.L4T1B2.L3B2.L6B2.L9B2.L12B3.L2B3.L5B3.L8B3.L11B3.L14B3.L17B3.L23B4.L1B4.L4B4.L7B4.L10B4.L13B4.L160.90.80.70.60.50.40.30.20.10STST+SS0.90.80.70.60.50.40.30.20.10STST+SS层层（a）某事-某事V1（b）Something-SomethingV20.90.80.70.60.50.40.30.20.10STST+SS0.90.80.70.60.50.40.30.20.10STST+SS层层(c)UCF101空间时空图4：我们的时空融合策略和层级融合单元的边缘概率的可视化。在每个子图的顶部，我们通过橙色虚线显示了从具有最高精度的概率空间导出的融合策略。如每个子图的右侧所示，涉及S、ST和S+ST三个单元。蓝色、绿色和黄色条的幅度分别表示在每一层中使用基本单元S、ST和S+STx轴为层编索引，其中B表示密集块，L是块中的层索引表6：观察结果的概括。每个骨干的融合策略战略Net.SStS+STOpt3D ResNet50百分之三十三点八40.1%38.9%41.2%3D ResNeXt5035.2%42.1%40.7%43.6%3D ResNeXt101百分之三十六点六百分之四十二点七百分之四十二点三44.0%我们采用了四种不同的融合策略'Opt'、'S+ ST '、'S'和'ST'进行比较，如第4.2节所定义。注意，这里由“Opt”表示的融合策略具体来说，我们根据图2构建融合策略“Opt”。4(a)以及（b），在前半层和后三层中使用S+ST单元，并且在其余层中使用ST如表中所示6.在所有评价的融合策略中，“Opt”融合方法5. 结论与讨论在本文中，我们将分析3D CNN中的时空融合问题转化为优化问题，LEM，其旨在将所有可能的融合策略嵌入到由每个融合策略上的后验分布及其相关联的核权重定义的概率空间中。这样的概率空间使我们能够从概率的角度研究时空融合，其中各种融合策略被评估和分析，而不需要单独的网络训练。给出了层级融合偏好的数值测量方法。通过进一步提出变分丢弃路径，可以通过训练模板网络来有效地解决优化问题。在四个动作识别数据库上的实验结果证明了该方法的有效性。我们还观察到几个有用的提示，我们的概率方法，可以扩展到设计高性能的融合策略在不同的骨干。确认本工作得到了国家重点研发项目2017YFB1300201 、国家自然科学基金 61622211 、U19B2038和61620106009以及中央高校基础研究基金WK2100100030的资助(d)动力学400空间+时空优化融合单元融合单元融合单元融合单元边际概率边际概率B1.L1B1.L4T1B2.L3B2.L6B2.L9B2.L12B3.L2B3.L5B3.L8B3.L11B3.L14B3.L17B3.L23B4.L1B4.L4B4.L7B4.L10B4.L13B4.L16边际概率边际概率B1.L1B1.L4T1B2.L3B2.L6B2.L9B2.L12B3.L2B3.L5B3.L8B3.L11B3.L14B3.L17B3.L23B4.L1B4.L4B4.L7B4.L10B4.L13B4.L169840引用[1] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[2] Ali Diba ， Mohsen Fayyaz ， Vivek Sharma ， M MahdiArzani，Rahman Yousefzadeh，Juergen Gall，and LucVan Gool.用于动作分类的时空通道相关网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第284-299页[3] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络arXiv预印本arXiv：1812.03982，2018。[4] Christoph Feichtenhofer，Axel Pinz，and Richard Wildes.用于视频动作识别的时空残差网络。神经信息处理系统的进展，第3468-3476页，2016年[5] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在机器学习国际会议上，第1050-1059页[6] Raghav Goyal，Samira Ebrahimi Kahou，Vincent Michal-ski ， Joanna Materzynska ， Susanne Westphal ， HeunaKim，Valentin Haenel，Ingo Fruend，Peter Yianilos，Moritz Mueller-Freitag，et al.学习和评估视觉常识的“某事某事”视频数据库。在ICCV，第1卷，第5页，2017年。[7] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史在IEEE计算机视觉和模式识别会议论文集，第6546-6555页[8] Dongliang He，Zhichao Zhou，Chuang Gan ，Fu Li，Xiao Liu ， Yandong Li ， Limin Wang ， and ShileiWen.Stnet：用于动作识别的局部和全局时空建模。在AAAI人工智能会议论文集，第33卷，第8401-8408页[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[10] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[11] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[12] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax 进行分类重新参数化。arXiv预印本arXiv：1611.01144，2016。[13] Boyuan Jiang ， MengMeng Wang ， Weihao Gan ， Wei

下载后可阅读完整内容，剩余1页未读，立即下载