SmallBigNet：视频分类的核心视图与上下文视图融合

15 浏览量更新于2023-10-23 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1092SmallBigNet：集成核心视图和上下文视图进行视频分类Xianhang Li12岁，Yali Wang1岁，Zhipeng Zhou1岁，Yu Qiao12岁†1中国科学院深圳先进技术研究院SIAT-SenseTime联合实验室计算机视觉与模式识别深圳市重点实验室2深圳市人工智能与机器人社会研究院SIAT分院摘要时间卷积已被广泛用于视频分类。然而，它是在有限的视角下对时空上下文执行的，这通常削弱了其学习视频表示的能力。为了解决这个问题，我们提出了一个简洁新颖的SmallBig网络，小视图和大视图的合作。对于当前时间步，小视图分支用于学习核心语义，而大视图分支用于捕获上下文语义。与传统的节奏卷积不同，大视图分支可以为小视图分支提供最活跃的视频功能，一个更广阔的3D感受域通过聚合这样的大视图上下文，小视图分支可以学习用于视频分类的更多鲁棒性和区分性的时空表示此外，我们建议在小视图和大视图分支中共享卷积，这提高了模型的紧凑性，并消除了过拟合。因此，我们的SmallBigNet实现了与2D CNN相当的模型大小，同时提高了3DCNN的准确性。我们在大规模视频基准上进行了广泛的实验Kinetics 400，Something-Something V1和V2。我们的SmallBig网络在准确性和/或效率方面优于许多最新的最先进的方法。代码和型号将在https://github.com/xhl-video/SmallBigNet上提供。1. 介绍3D卷积已广泛用于深度视频分类[1，23]。特别是，时空因子化是优选的，以减少计算成本以及过拟合[23，32]。然而，这种形式的时间卷积通常是在有限的视图上操作的，这通常会导致同等贡献的第一作者（xianhang710@gmail.com，（yl.wang，zp.zhou）@ siat.ac.cn）†通讯作者（yu. siat.ac.cn）包含不相关的视频上下文。如图1（a），时域卷积（例如，3×1×1）是在一个跳高视频的黄色管执行。显然，对于t处的蓝框，t−1和t+1处的黄框提供了几乎无用甚至有害的上下文。例如，t-1处的黄色盒子包含运动员的手臂。然而，手臂的动作并不是识别跳高的关键。因此，t-1的上下文往往是冗余的。此外，t+1处的黄色框包含另一个坐着的人的上半身，没有任何关于运动员的线索。因此，t+1处的上下文往往是有噪声的。通过将这些上下文与t处的蓝框聚合，时间卷积通常导致弱且不稳定的时空表示，其对于识别跳高没有区别。为了解决上述问题，我们创造性地引入了一种新颖简洁的SmallBig单元。1（b），其中大视图分支可以灵活地向小视图分支提供来自较大时空接收场的有区别的上下文通过聚合这样的上下文线索，小视图分支倾向于学习用于视频分类的关键时空表示。请注意，我们的 SmallBig 设计在动机和机制方面都不同于SlowFast设计[7]。特别是，SlowFast的动机是模仿双流融合。因此，它馈送两个时间速率的输入帧以建立两个3D CNN（即，慢速和快速路径），并应用横向连接将它们整合到统一的框架中。另外，我们的SmallBig的动机是释放3D CNN本身的上下文感受野因此，我们引入两种不同的观点（即，小分支和大分支），并发现大视图的最活跃上下文以增强小视图的核心表示。更具体地说，我们在我们的SmallBig单元中提出了两个不同的操作。首先，我们在大视图分支中执行3D最大池化，这可以从更宽的3D管中发现最活跃的例如，我们将t处的蓝色盒子视为中心，并找到其对应的3×3×3黄色管1093t+1t+1ttt-1t-1最大池（3x3x3）t+1不t-1Conv（1x1x1）参数共享Conv（1x1x1）t+1不t-1小景分店大景分店(a) 时间卷积（时间t）（b）我们的小大单位（时间t）图1.动机如子图（a）所示，时间卷积在有限视图（黄色管）上操作，其通常包含无用的视频上下文，例如，t+ 1处的黄色框包含另一个坐着的人的上半身，没有关于运动员的任何线索。将这些背景集合起来，对识别跳高是有害的。为了缓解它，我们提出了一种新颖而简洁的SmallBig单元，具有两个视图，其中大视图分支可以在更广泛的3D感受野中为小视图分支提供最活跃的上下文。这种合作使我们的SmallBig单元能够学习更多有区别的时空表示，用于视频分类。从图中的t−1到t+1第1段（b）分段。随后，我们在该管上应用最大池化以识别其最活跃的特征，即，在t+1处的红框。正如我们所看到的，这个盒子包含了运动员的起跳姿势。显然，与应用于时间卷积的有限视图中的黄色框相比，它提供了更多的区分线索来识别跳高（图1）。1（a））。其次，我们建议在小视图分支和大视图分支之间共享卷积参数。这种操作提高了我们的SmallBig单元的紧凑性，同时提高了精度。最后，我们以ResNet风格构建我们的SmallBig网络（Small- BigNet）。通过在剩余块中逐步应用一些SmallBig单元，我们从更广泛的3D感受野扩大了具有更丰富背景的两个视图的合作能力。因此，当层更深时，我们的小-大网络可以逐渐学习视频分类的关键时空表示。为了评估它，我们对广泛使用的视频基准进行了大量的实验 Kinetics 400 [13] ， Something-Something V1和V2 [10]。在相同的设置下，我们的SmallBig网络在准确性和/或效率方面优于最近的最先进的方法2. 相关作品用于视频分类的2D CNN。在过去的几年里，视频分类主要由深度学习框架驱动[1，7，21，27，28，31]。广泛使用的2D框架之一是双流CNN [21]，它可以分别从RGB和光流中学习视频表示。为了进一步提高性能，深度描述符提出了许多扩展[25]，空间描述符，时间融合[8，9]，关键卷挖掘[34]，注意力[26]，使用RNN的顺序建模[6，18，20]，时间段网络[27]，时间关系网络[33]，时间移位模块[15]等。特别是，时间移位模块（TSM）[15]沿着时间维度移动特征，这实现了3D CNN的性能，但保持了2D CNN的复杂性然而，它可能缺乏理解视频中时空动态的综合能力.或者，我们的SmallBig设计可以有效地利用更广泛的3D视图中最活跃的上下文，并通过两个不同视图的合作来学习关键的时空用于视频分类的3D CNN。3D CNN通过将时间视为卷积的第三维而在时空学习中变得流行[11，12，22]。然而，这种操作引入了更多的参数，这使得3D卷积更难训练。为了缓解这样的问题，I3D [1]已经通过将2D卷积膨胀到3D而被提出。但是，繁重的计算负担限制了这些全3D CNN的能力最近的研究表明，分解3D卷积对于降低复杂性以及提高准确性是优选的，例如，P3 D [19]，R（2+1）D [23]，S3 D-G [32]等。然而，这些方法中的时间卷积是在有限的视图上执行的，其中不相关的上下文通常会降低其学习视频表示的能力。学习长期视频依赖。或者，学习长期依赖性已被强调用于视频分类[4，5，16，28，29，30]。最流行的模型之一是非本地网络[28]。然而，这种方法主要是将全球关系聚合为-t+1不t-1Conv（3x1x1）t+1不t-11094不不不不不不KKSIST视频分类，这可能无法充分利用本地管道中的精细上下文。相反，我们的方法逐渐扩大在一个SmallBig块的上下文感受野因此，它允许我们从局部视图到全局视图逐步学习关键视频表示。最后，在[7]中提出了一种SlowFast网络。关键的区别在于，它使用两种时间速率的输入帧来模拟3D CNN的双流融合，而我们的Small- Big使用3D CNN本身的两个时空视图来利用上下文来增强核心视频特征。3. 小单位运动员在红色的盒子里。第1段（b）分段。通过聚合x（h，w）的这种上下文，我们的SmallBig单元可以减少冗余并提高时空学习的鲁棒性。2）在小的大的视图之间的参数共享。在获得最活跃的上下文特征后，我们应用1 × 1 × 1逐点卷积滤波器p和v来进一步编码小视图和大视图分支中的表示。具体来说，我们建议在两个视图的过滤器之间共享参数，即，ρ =通过这个操作，我们的SmallBig单元的大小被减小为2D卷积的大小。在在这种情况下，我们的SmallBig单元可以有效地增强y（h，w）在本节中，我们首先分析时间卷积，然后解释如何设计我们的SmallBig单元。时间卷积不失一般性，我们使用广泛使用的3×1×1时间卷积滤波器作为说明。具体地，我们将x（h，w）表示为在（h，w）的空间位置和t的时间帧处的特征向量。此外，我们将Θ =[Θα，Θβ，Θγ]表示为该3 × 1 × 1卷积滤波器中的参数。如图在图1（a）中，时域卷积应用Θ来编码从t-1到t +1的视频动态，w.r.t.，每个空间位置（h，w），y（h，w）=TemConv（Θ， x（h，w），{ x（h，w）， x（h，w）}），两种观点的合作。4. 示例：SmallBig-ResNet在介绍了SmallBig单元之后，我们说明了如何将其适配为剩余样式块，然后从ResNet23（或ResNet50）构建SmallBig网络。小块大块。如图2，我们首先引入两个广泛使用的残差块用于比较，即，子图（a）中的2D卷积和子图（b）中的3D卷积，其中2D卷积由三层组成，即，两个1×1×1和一个1×3×3。对于3D卷积，我们t tt−1电话+1[28]在第一个1×1×1上应用通货膨胀，=Θβx（h，w）+[Θαx（h，w）+Θγx（h，w）]，（1）导致3×1×1时间卷积。tt−1电话+1对于我们的SmallBig块，我们调整了2D的层其中y（h，w）是时空表示的输出向量。如在引言中所提到的，时间卷积是利用以下时空上下文来执行的：x（h，w）和x（h，w）。这种有限的观点往往削弱了卷积逐渐变成SmallBig单位，如子图（c）-（e）所示。注意，对于Subplot（e）中的典型SmallBig块，我们在最后一层的大视图分支中将池化大小设置为T×3×3，其中T是总数量。t−1电话+1y（h，w）的判别能力。小单位。为了解决上述问题，我们提出从更广的时空感受野中发现 x（ h ， w ）这导致具有参数λ=[λρ，λν]的新颖且简洁的SmallBig单元，y（h，w）=SmallBig（x，x（h，w），{x（i，j）}），采样视频帧的BER。主要原因是，3×3×3max pooling在中间层的大视野分支，1×3×3卷积进一步扩大了空间感受野。在最后一层的大视野分支中进一步扩大时间感受野，以平衡时空视野最后，我们在一个典型的SmallBig块之上引入一个额外的SmallBig单元，这导致Subplot（f）中的一个完整的SmallBig块。在大视野分店的前-t tk= x（h，w）+MaxPool（{x（i，j）}）。（二）tra SmallBig单元，我们在全球范围"我的朋友小视图ν联系我们大观T×H×W时空管如此则完整的SmallBig块可以逐步将最活跃的上下文从局部视图集成到全局视图。毛皮-接下来，我们主要讲解本单元中的两个关键操作1）3D Max Pooling Over Big View。为了进一步释放上下文的时空位置约束，我们提议在更宽的T×H×W管上工作（例如，3×3×3），以（t，h，w）为中心。特别是，我们执行最大池化在这个3D管中的特征向量{x（i，j）}因此，我们可以从一个更大的视野。与时间上的x（h，w）和x（h，w）相比，因此，该额外单元中的池化操作实际上产生全局特征向量（在conv之后），其与时空位置不相关。因此，我们自然地将此向量调整为注意力（使用sigmoid），并将其应用于渠道产品聚合。最后，除了两个视图之间的参数共享之外，我们建议在这个额外的SmallBig单元中使用类似于Schooleck的设计，例如，输入：输出通道对于其第一卷积是4：1，而t−1电话+1卷积，这种最大池化特征通常更容易区分-用于捕获关键的视频动态，例如，起飞姿势输入：输出通道是1：4，用于其第二卷积。这是用于减少我们的完整SmallBig块的计算成本1095KKKK不C（1x1x1）C（1x3x3）C（1x1x1）M（3x3x3）C（1x1x1）共享C（1x1x1）M（3x3x3）C（1x3x3）分享C（1x3x3）M（TxHxW）C（1x1x1）分享C（1x1x1）XC（1x1x1）C（1x1x1）分享M（3x3x3）C（1x1x1）M（3x3x3）C（1x3x3）C（1x3x3）分享M（Tx3x3）C（1x1x1）分享 C（1x1x1）M（3x1x1）C（1x1x1）分享CC（1x3x3）C（1x1x1）M（3x3x3）C（1x1x1）分享CC（1x3x3）C（1x1x1）C（3x1x1）C（1x3x3）C（1x1x1）(a) 2D块(b) 3D块（c）小块大块（3x1x1）(d) 小块大块（3x3x3）(e) 小型大块（典型）(f) 小块大块（满）图2.小块大块。C：卷积。M：最大池。我们通过将所有的2D卷积层逐渐调整为SmallBig单元来设计一些SmallBig块更多的解释可以在第4节中找到。5. 进一步讨论：小型与大型非局部如前所述，我们的SmallBig设计与众所周知的非局部操作有关[28]，它也在更广泛的视野中利用时空上下文因此，我们进一步讨论我们的设计和这种SOTA架构之间的差异。为了方便起见，我们将{x（i，j）}all表示为T×H×W的全局管中的所有特征向量。对于x（h，w）at（t，h，w），非局部操作实际上找到不（i，j）它与{xk}所有的上下文高度相似。我们特别将此操作重写为两个视图的公式，参数V=[Vθ，Vφ，Vg，Vo]，y（h，w）=NonLocal（ V， x（h，w），{ x（i，j）}all）表1.我们的SmallBig网络的2D骨干：ResNet23（或ttΣ=x（h，w）+VoKf（x（h，w），x（i，j））g（x（i，j））t t 拉瓜IIResNet50）。我们通过调整每个2D来=x（h，w）+Vs（i，j）Vx（i，j）剩余块作为SmallBig块，例如图1B。2（c）-（f）。输入去所有的kgk是8×224×224，它是从64帧剪辑中采样的，时间步长为8。=x（h，w）+VoVg n（i，j）SX所有（i，j）.（三）联系我们小视图联系我们大观SmallBig-ResNet。在建立了小的大的s（i，j）是x（h，w）和x（i，j）之间的相似性得分。它块，我们从ResNet23（或k t k）构建SmallBig网络是从核函数计算的，例如，嵌入式高斯-ResNet50）。输入线夹尺寸为8×224×224。sianf（x（h，w），x（i，j））= exp[（Vx（h，w））<$（Vx（i，j））]/C对于每个2D残差块，我们将其替换为我们的任意tkθtφkx图中的小块大块。2（c）-（f）。请注意，由于参数共享，SmallBig-ResNet中的参数数量与2D ResNet相当此外，SmallBig-ResNet的参数可以直接从2D ResNet的参数初始化，该参数已经在ImageNet上进行了良好的预训练这简化了初始化问题，并在实践中增强了我们的SmallBig-ResNet。KK层输出大小conv11×7×7，64，步幅1×2×28× 112× 112pool1 最大1×3×3，标准品1×2×28× 56× 56res21× 1× 1，641×3×3，641× 1×1，2568× 56× 56res31× 1× 1，2561×3×3，2561× 1× 1，5128× 28× 28Res41× 1× 1，5121×3×3，5121× 1×1，10248× 14× 14Res51× 1× 1，10241×3×3，10241× 1× 1， 20488× 7× 7全局平均池1× 1× 11096克鲁克具有归一化项Cx。加法y，g（x（i，j））=Vgx（i，j）是x（i，j）的线性变换。因此，我们将Vg移出求和。通过比较等式中的大视图分支，（2）和（3），我们发现这两种机制都表现出视觉注意的精神。然而，我们的SmallBig设计包含以下独特的特征。第一，视觉1097不不注意力不同。非局部操作使用相似性比较作为软注意，其目的是为x（h，w）找到相似的上下文。这样的上下文通过对时空依赖性进行建模来隐含地作为辅助视频分类或者，我们的SmallBig单元使用max pooling作为硬注意力，旨在找到x（h，w）周围的关键上下文。这样的上下文更明确和区分，以提高分类准确性，因为它们被高度激活以识别不同的视频类别。秒-第二，视觉注意的感受野不同。非局部操作直接作用于全局空间。时间管来学习长期关系，这可能忽略用于分类的关键视频细节。或者，我们的SmallBig单元在本地时空管上工作，以捕获精细的视频线索。更重要的是，我们逐渐扩大了小-大块中大视图分支的感受野，允许我们从局部视图到全局视图渐进地学习视频表示。我们的实验还表明，SmallBig网络稳定地优于非本地网络。6. 实验数据集。我们在大规模视频基准上进行了实验，Kinetics400 [13] ， Something- Something V1 and V2[10].Kinetics400包含来自400个类别的约30万个视频。Something-Something V1/V2由来自174个类别的大约108 k/220 k视频组成我们主要评估验证集上的所有模型，其中我们报告Top1 Top5准确率（%）和GFlops，以全面评估准确率和效率。训练对于所有数据集，我们遵循[28]使用224×224的空间大小，这是从缩放视频中随机裁剪的，其短边随机采样为[256，320]像素。对于Kinetics400，输入剪辑const，8帧，这是从64个连续帧与时间跨度8采样。我们用 110 个 epoch 训练我们的模型对于 SmallBig-ResNet 23，我们将初始学习率设置为0.02，批量大小设置为128。对于SmallBig-ResNet 50/101，我们将初始学习率设置为0.00625，批量大小设置为128。对于Something-Something V1和V2，我们将视频分为8个片段，然后在每个片段中随机选择一帧。我们用50个epoch训练我们的模型。初始学习率为0.01，分别在30、40、45个时期衰减。最后，我们为每个视图单独应用批量归一化（就在卷积之后）。所有模型都在ImageNet上进行了预训练，包括每层小视图分支中的BN对于大视图分支中的BN，我们将其缩放参数初始化为零。这种设计使我们的SmallBig网络的初始状态成为原始的ResNet。推理。在[7，28]，我们重新调整视频框架的短边256，并采取三个作物（左，中，右）的大小256×256，以涵盖空间尺寸。除非另有说明，否则我们统一为Kinetics 400/ Something-Something V1和V2抽取10/2个剪辑。我们平均他们的softmax分数用于视频级预测。6.1. Kinetics400的评价在下文中，我们进行了广泛的消融研究，以调查我们的小-大网络中的各种不同特征。然后，我们进一步评估我们的SmallBig网络的准确性和效率，通过与最近的最先进的方法进行全面的小的有效性。我们应用表1的ResNet23（R23）作为骨干，并调整图1的SmallBig块（3×1×1）。2（c）进入所有剩余阶段。为了便于计算，我们还调整了图1的3D块（3×1 ×1）。（2）以同样的方式。如表2所示，我们的SmallBig-R23优于其2D和3D同行。请注意，即使我们没有进一步扩大大视图分支中的时空接收场，我们的SmallBig块（3×1×1）仍然比3D块（3×1×1）获得更好的结果。它表明，最大池化发现的最活跃的上下文是学习关键视频表示的更好的指导，与时间卷积相比。使用SmallBig块的阶段。我们使用上面的SmallBig-R23（3×1×1）来评估哪个阶段可能对SmallBig设计很重要。在表3中，我们从下到上逐渐如预期的那样，中间块（例如，res4）通常比底部和顶部块更重要。主要原因是，底部（或顶部）块的感受野太小（或太大），放大3D视图往往会发现无用（或类似）的上下文。相反，中间块包含具有合理时空感受域的中间层语义。因此，这些块中的上下文将更具歧视性。在我们下面的实验中，我们在所有残差阶段使用SmallBig块来实现最佳精度。大视野分支的接受域更广。对于 SmallBig-R23（3×1×1），我们在其大视野分支上进一步扩展了三维感受野。如表4所示，准确度先增大后减小。这可能是因为当我们在太大的视图上直接执行最大池时，上下文的多样性减少了。因此，SmallBig-R23在图3中的3×3×3时实现了最佳性能第2段（d）分段。更多SmallBig图层。表4中的上述实验表明，将3D接收场直接放大到非常大的视图是不合理的因此，我们将每个残差块中的更多层调整为我们的SmallBig单元，允许将3D感受野从局部逐渐扩展到全局视图。如表5所示，当更多的卷积层被渐进地更改为SmallBig时，准确性不断提高正如预期的那样，1098R23Top1Top52D64.185.43D：3×1×168.388.2小大：3×1×169.088.6表2. 小的有效性我们采用ResNet23（R23）作为2D骨架，采用图1中的3D块（3×1×1）.图 2 （ b ）和图 2 （ b ）的小块（3×1×1）。2（c）在所有剩余阶段。表3.使用SmallBig块的阶段。如预期的那样，中间块（例如，#24443;往往比其他人更重要。表4.大视野分支的接受域更广。小-大-R23前5名R2364.1 85.4小大：3×3×3（第一层）69.5 89.0小大：3×3×3（第一层）+T×3×3（第三层）70.8 89.3SmallBig：典型71.4 90.0SmallBig：完整72.6 90.3表5.更多SmallBig图层。准确性始终更好，当更多的层被逐渐改变为我们的SmallBig设计时。对于SmallBig：典型或完整，所有模块参见图。2（e）或（f）。表6. SmallBig的详细设计小-大-R50Top1 Top5额外单位：简单75.8 92.1额外单位：默认76.3 92.5表7.小型与大型非本地我们的SmallBig-R23优于NonLocal-R23，显示了我们的SmallBig设计在查找上下文时的优越性表8.骨干我们的SmallBig- R23甚至优于R50。表9.SmallBig中的额外单元（满）。为了比较，我们把图中的额外单元重新放置 . 2（f）通过简化版本。SmallBig-R23 （ Full ）实现最佳性能，其中所有SmallBig块参考图。2（f）。在下文中，我们在实验中使用完整设置。SmallBig的详细设计我们使用SmallBig-R23（Full）进一步研究表6中的Small-Big的详细设计。平均池与最大池。我们在大视图分支中应用不同的池化操作最大池的性能更好。因此，我们在实验中选择了它。不分享vs分享我们在SmallBig单元中应用不同的参数共享策略进行卷积正如预期的那样，参数共享可以减少我们的SmallBig-R23的模型大小作为原始R23。它的准确性甚至比不共享的情况略好。因此，我们在小视图和大视图分支之间共享参数。单个BN vs单个BN。正如在实现细节中提到的，我们为每个视图单独应用BN，即，BN（conv（小））+BN（conv（大））。这将带来额外的失败。为了进一步降低复杂性，我们直接在输出表示上应用单个BN，即，BN（conv（小）+conv（大））。由于卷积和求和运算的线性，该运算相当于BN（conv（small+big）），其仅需要单个卷积并减少了2D CNN的触发器。如表6所示，单个BN具有更高的效率但精度低得多为了保持一致性，我们选择单个BN以实现更好的精度。小型与大型非本地我们比较我们的SmallBig设计与相关的NonLocal操作。具体来说，我们使用[28]中建议的NonLocal的优选设置，其中NL被添加到res3和res4的所有残差块上。如表7所示，我们的SmallBig-R23优于NonLocal-R23。它表明，为了提高性能，最好是从局部到全局视图逐渐找到最活跃的上下文，而不是直接在全局视图上找到依赖更深的脊椎。我们进一步研究我们的SmallBig网络的性能，具有更深的骨干，例如，ResNet50（R50）.如表8所示，我们的SmallBig- R23甚至优于R50。它说明了我们的小大设计的力量。此外，SmallBig-R50的性能优于SmallBig-R23，显示了SmallBig在更深骨干中的有效性。额外的单位在SmallBig（满）。如图2（f），我们添加一个额外的SmallBig单元，并使用全局池。请注意，我们在extra单元中应用了按渠道的产品聚合。因此，我们设计了一个挤压和激励版本进行比较。具体来说，我们首先执行全局时空池化，然后添加两个额外的1×1×1卷积。所得到的向量（在sigmoid之后）被用作残差聚合的通道注意力。在表9中，我们的默认设计在额外的单元上优于此简化设计.这说明，我们的默认额外单元是全局时空聚合的优选，小-大-R23Top1Top5R2364.185.4小大： res2+3+4+569.088.6小大： res3+4+568.888.5小大： res4+568.688.5小大： Res564.585.6小-大-R23Top1Top5R2364.185.4小大： 3×1×169.088.6小大： 3×3×369.589.0小大： 3×5×569.188.5小大： 3×7×768.688.3小大： T×3×369.388.5小-大-R23ParamsGFLOPSTop1Top5R2311.3M1764.185.4平均池13.4M3172.290.0最大池13.4M3172.690.3无份额22.1M3171.689.6With Share13.4M3172.690.3单BN13.3M1764.685.8单个BN13.4M3172.690.3模型ParamsGFLOPSTop1Top5R2311.3M1764.185.4非本地-R2318.7M3470.289.1小-大-R2313.4M3172.690.3骨干Top1Top5R2364.185.4小-大-R2372.690.3R5070.489.1小-大-R5076.392.51099方法骨干帧，1个剪辑，1个裁剪V1前5名V2Top1Top5 GFLOPSTSN [33]成立819.5- -一种- -16TRN多尺度 [33]成立834.4- -一种- -16ECO [35]Incep+R18 839.6- -一种- -32ECO [35]Incep+R18 1641.4- -一种- -64[35]第三十五话：Incep+R18 9246.4- -一种- -267[第15话]R50845.6七十四点二- -33[第15话]R501647.2七十七点一- -65[15]第十五话R50二十四=八+十六49.7七十八点五- -98我们的小大R50847.0七十七点一59.7 八十六点七52我们的小大R501649.3七十九点五62.3 八十八点五105我们的小大恩R50二十四=八+十六 50.4八十点五63.3八十八点八157方法骨干帧×剪辑×裁剪V1前5名V2Top1Top5 GFLOPSI3D [29]R5064=32×241.6七十二二- -[29]第二十九话R5064=32×244.476.0- -荷兰I3D + gcn [29] R5064=32×246.176.8- -CPNet[16]R342，304=24×16×6- -57.65 83.95N/A[第15话]R5048=8×2×3- -59.1 八十五点六[第15话]R5096=16×2×3- -63.4 八十八点五我们的小大R5048=8×2×348.3七十八点一61.6 八十七点七我们的小大R5096=16×2×350.0七十九点八63.8 八十八点九N/A我们的小大恩R50144=24×2×351.4八十点七64.5八十九点一表10.在Kinetics400验证集（RGB输入）上与SOTA进行比较。我们的 8 帧 SmallBig-R50 以更高的精度优于 32 帧Nonlocal-R50，并使用4. GFlops比128帧Nonlocal-R50低9倍，但精度具有竞争力它的精度甚至略优于32帧的Nonlocal-R101。此外，在可比的GFlops下，我们的8帧SmallBig- R50优于36帧SlowFast-R50。所有这些结果表明，我们的SmallBig网络是一个准确和有效的视频分类模型。两种观点的合作。与SOTA方法的比较。我们在表10中进行了全面的比较，其中我们的小型-大型网络优于最近的SOTA方法。首先，我们的8帧SmallBig-R50优于32帧Nonlocal-R50 [28]（Top1 acc：76.3 vs. 74.9），它使用4. GFlops比 128 帧 Nonlocal-R50 低 9 倍，但精度具有竞争力（Top1 acc：76.3 vs. 76.5）。此外，它甚至比32帧Nonlocal- R101（Top1 acc：76.3 vs. 76.0）。所有这些结果清楚地表明，我们的SmallBig网络是一种比非局部网络更准确其次，在可比较的GFlops下，我们的8帧SmallBig-R50优于36帧SlowFast-R50 [7]（Top1 acc：76.3 vs. 75.6）。它表明了SmallBig在3D CNN本身的上下文开发中的重要性。此外，我们在8帧SmallBig-R50和32帧SmallBig-R101上执行分数融合，这模拟了具有两个时间速率的两个流融合。在测试时，我们使用4个剪辑和每个剪辑 3 个裁剪来维持计算。我们的SmallBigEn实现了比SlowFast更好的准确性，使用相同的帧数。最后，我们的8帧SmallBig-R50优于8帧TSM-R50 [15]（ Top1 acc ： 76.3 vs. 74.1 ）。结果表明，SmallBig的时空学习比TSM的时间移位更有效表11.与SOTA在Something-Something V1上的和V2验证集（RGB输入）。对于V1和V2，我们的SmallBig-R50实现了最佳精度，w.r.t.，单剪辑中心裁剪和多剪辑多裁剪。此外，我们的8帧SmallBig-R50甚至优于V2的48帧TSM-R50。对于多剪辑多裁剪，目标是报告最佳精度。因此，如TSM所建议的，GFlops不被考虑在内。6.2. 评价某事某事V1 V2由于Something-Something V1和V2中的分辨率较低且视频长度较短，我们为我们的SmallBig Net采用了仅慢速基线[7]，其中我们在图中添加了SmallBig-Extra单元。2（f）分别在该基线的res3、res4和res5阶段之上。 [15]后，我们根据测试阶段中的采样帧的数量对结果进行分组，即，单剪辑中心裁剪情况和多剪辑多裁剪情况。对于多剪辑多裁剪情况，目标是报告最佳性能。因此，GFlops不被考虑，如[15]中所建议的。结果示于表11中。对于V1和V2，我们的SmallBig-R50实现了最佳精度，w.r.t.，单剪辑中心裁剪和多剪辑多裁剪。此外，我们的8帧SmallBig-R50甚至超过了V2的48帧TSM-R50 [15]（Top1 acc：59.7 vs. 59.1）。所有这些结果进一步表明，我们的小-大网络可以有效地提高视频分类的准确性。6.3. 可视化我们可视化并分析了SmallBigNet学习的卷积特征。为了比较，我们使用非本地网络[28]作为强基线。具体来说，我们将8×224×224个片段分别送入SmallBig-R23和Nonlocal-R23，然后从res3.2中提取8×28×28卷积方法骨干框架，尺寸Top1Top5GFlops×作物STC[5]ResNeXt101三十二，一百一十二68.788.5不适用×不适用[第24话]R18十六、一百一十二69.288.35，875=23.5×250MFNet[3]R34十六、二百二十四72.890.411×N/AR（2+1）D[23]R34八、一百一十二74.391.4152×N/AI3D[1]成立六十四、二百二十四71.189.3108×N/A[32]第三十二话成立六十四、二百二十四74.793.471.4×N/A[2]第2话R50八二二四74.6九十一点五41×N/ASlowOnly[7]R50八二二四74.9九十一点五1，257 =41.9×30GloRe[4]R50八二二四75.1N/A867=28.9×30[第15话]R50八二二四74.1九十一点二990=33×30[17]第十七话R50八二二四74.9九十一点八990=33×30[第15话]R50十六、二百二十四74.7N/A1，950 =65×30[17]第十七话R50十六、二百二十四76.2九十二点五1，980 =66×30慢快[7]R50+R5036=4+ 32，22475.692.11，083 =36.1×30[28]第二十八话R50三十二、二百二十四74.9九十一点六不适用×不适用[28]第二十八话R50一百二十八，二百二十四76.5九十二点六8，460 =282×30我们的小大R50八二二四76.392.51，710 =57×301100特征（经过SmallBig和Nonlocal操作）。最后，我们沿着通道维度平均特征图，并将其显示在原始图像上。1101T=1 T=2 T=3 T=4 T=5 T=6 T=7 T=8✘✔T=1 T=2 T=3 T=4 T=5 T=6 T=7 T=8✘✔图3.可视化。与非本地网络相比，我们的SmallBigNet可以发现关键的视频细节（例如，制作珠宝）以及减少嘈杂的背景（例如，Pull Ups），以进行正确的预测。更多解释见第6.3节。图3清楚地表明，与非本地网络相比，我们的SmallBig网络可以发现关键的视频细节，并减少嘈杂的背景。从这个可视化中，我们还发现，特征图中的这进一步验证了我们在第5节中的讨论，其中我们的SmallBig网络更适合学习用于视频分类的高度激活的上下文。此外，我们从第一层可视化小视图和大视图。正如预期的那样，小视图倾向于捕获区分性的核心语义，而大视图倾向于发现重要的上下文语义。对于制作珠宝，小视图捕获手部轮廓和珠宝对象，而大视图突出显示包含关键手部动作的区域。对于Pull Ups，小视图捕获关键的人体部位和对象，而大视图突出显示最活跃的动作区域。通过聚合大的上下文视图来增强小的核心视图，我们的SmallBig网络更适合聚合视频分类的核心视图和上下文视图，并且可以有效地学习时空表示。7. 结论在这项工作中，我们提出了一个简洁而新颖的SmallBig网络与合作的小和大的意见。在大视角分支中，我们通过扩大时空感受野来寻找最活跃的语境，从而增强小视角分支中的核心表征。此外，我们提出了一个参数共享计划，在我们的设计，这使我们能够使SmallBig网络紧凑。最后，所有的实验表明，我们的小-大网络是一个准确和有效的大规模视频分类模型。鸣谢本工作得到中国科学院科技服务网络计划（ KFJ-STS-QYZX-092 ）、广东省重点支持项目（ 2016 TX 03 X276 ）

下载后可阅读完整内容，剩余1页未读，立即下载