自校准卷积：一种改善卷积网络的特征变换方法

33 浏览量更新于2023-10-25 收藏 1005KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10096用自校准卷积刘江江1侯启斌2程明明1王长虎3冯佳时2南开大学CS 2新加坡国立大学3字节跳动AI Labhttps://mmcheng.net/scconv/摘要CNN的最新进展主要致力于设计更复杂的架构，以增强其表示学习能力。在本文中，我们考虑在不调整模型架构的情况下改进CNN的基本卷积特征变换过程。为此，我们提出了一种新的自校准卷积，它通过内部通信扩展了每个卷积层的视野，从而丰富了输出特征。特别是，与标准卷积不同，使用小内核融合空间和信道信息的方案（例如，3×3），我们的自校准卷积通过一种新的自校准操作，自适应地围绕每个空间位置建立远程空间和通道间依赖性。因此，它可以帮助CNN生成通过显式地并入更丰富的信息来实现更有区别的表示。我们的自校准卷积设计简单而通用，可以很容易地应用于增强标准卷积层，而不会引入额外的参数和复杂性。大量的实验表明，当将我们的自校准卷积应用到不同的主干时，基线模型可以在各种视觉任务中得到显着改善，包括图像识别，对象检测，实例分割和关键点检测，而不需要改变网络架构。我们希望这项工作可以为未来的研究提供一种有前途的方法来设计新的卷积特征变换，以改善卷积网络。代码可在项目页面上找到。1. 介绍在大规模图像分类数据集上训练的深度神经网络（例如， ImageNet [30]）通常被用作骨干，为下游任务提取强代表性特征，例如对象检测[23，29，2，8]，分割[45，11]和人体关键点检测[11，39]。一个好的分类网络往往具有很强的特征*作者贡献均等。ResNet-50 ResNeXt-50SE-ResNet-50我们的图1.不同网络通过Grad-CAM学习的特征激活图的可视化[31]。所有网络都在ImageNet上训练[30]。我们的结果是从ResNet- 50中获得的，并使用了建议的自校准卷积。从激活图中，可以观察到具有常规（分组）卷积的残差网络[12，40]，甚至SE块[16]由于其卷积层的有限接收域而无法捕获整个区分区域。相比之下，校准卷积有助于我们的模型很好地捕捉整个区分区域。转换能力，因此提供了强大的表示，以利于下游任务[20，10，27]。因此，高度期望增强卷积网络的特征变换能力。在文献中，生成丰富表示的有效方法是使用强大的手工设计的网络架构，例如残差网络（ResNets）[12]及其各种变体[40，43，34，7]或设计-基于AutoML技术的网络[47，26]。最近，一些方法试图通过将注意力机制[38，48，16，15]或非局部块[37，3]纳入成熟的网络来模拟空间位置或通道或两者之间的相互依赖性。上述方法背后的共同思想集中在调整网络结构以产生丰富的fea，10097真实的表现，这需要太多的人力。在本文中，我们不是设计复杂的网络架构来加强特征表示，而是引入自校准卷积作为一种有效的方法，通过增强每层的基本卷积变换来帮助卷积网络学习判别表示。与分组卷积类似，它将特定层的卷积滤波器分成多个部分，但不均匀地，每个部分内的滤波器以异构方式进行具体地说，自校准卷积不是在原始空间中均匀地对输入进行所有卷积，而是首先通过下采样将输入转换为低维嵌入。通过一个滤波器部分变换的低维嵌入被用于校准另一部分内的滤波器的卷积变换。受益于这种异质卷积和滤波器之间的通信，每个空间位置的感受野可以有效地扩大。作为标准卷积的增强版本，我们的自校准卷积提供了两个优点。首先，它使每个空间位置自适应编码信息，来自长范围区域的肯定上下文，打破了在小区域内操作卷积的传统（例如， 3 ×3）。这使得我们的自校准卷积产生的特征表示更具区分性。在图中-在图1中，我们将ResNets产生的具有不同类型卷积的特征激活图可视化[12，40]。可以看出，具有自校准卷积的ResNet可以更准确和完整地定位目标对象。其次，所提出的自校准卷积是通用的，并且可以容易地应用于标准卷积层，而不引入任何参数和复杂度开销或改变超参数。为了证明所提出的自校准卷积的有效性，我们首先将其应用于大规模图像分类问题。我们以剩余网络[12]及其变体[40，16]为基线，在具有可比模型参数和计算能力的情况下，top-1精度得到大幅提高。除了图像分类，我们还进行了广泛的实验，以证明所提出的自校准卷积在几个视觉应用中的泛化能力，包括对象检测，实例分割和关键点检测。实验表明，通过使用所提出的自校准卷积对所有三个任务的基线结果可以大大改善。2. 相关工作在本节中，我们简要回顾了最近关于卷积网络的架构设计和长距离依赖性构建的代表性工作建筑设计：近年来，新颖建筑设计领域取得了显著进展[33，35，32，44]。作为早期的工作，VGGNet [33]使用与AlexNet [19]相比具有更小内核大小（3×3）的卷积滤波器ResNets [12，13]通过引入残差约束来改进序列结构，连接和使用批量归一化[18]，使得构建非常深的网络成为可能。ResNeXt [40]和Wide ResNet [43]通过分组3×3卷积层或增加其宽度来扩展ResNetGoogLeNet [35]和Inceptions [36，34]利用精心设计的Inception模块，具有多组专用过滤器（3×3等）的多个并行路径的规则用于特征变换。NASNet [48]学习通过探索预定义的搜索空间来构建模型架构，从而实现可移植性。DenseNet [17]和DLA [42]通过复杂的自下而上的跳跃连接来聚合特征。双路径网络（DPN）[7]利用剩余连接和密集连接来构建强大的特征表示。SENet [16]引入了挤压和激励操作，以明确建模通道之间的远程依赖建模：在大多数计算机视觉任务中，建立远程依赖关系是有帮助的。其中一个成功的例子是SENet[16]，它采用挤压和激励块来建立通道维度之间的相互依赖性。后来的工作，如GENet [15]，CBAM [38]，GCNet [3]，GALA [25]，AA [1]，和NLNet [37]通过引入空间注意力机制或设计高级注意力块进一步扩展了这一思想建模长程依赖性的另一种方式是利用具有大内核窗口的空间池化或卷积运算符。一些典型的例子，如PSPNet[45]采用具有不同大小的多个空间池化算子来捕获多尺度上下文。也有许多工作[28，14，41，5，22]利用大卷积核或扩张卷积进行长程上下文聚集。我们的工作也不同于Octave卷积[6]，其目的是减少空间冗余和计算成本。与上述所有专注于调整网络架构或添加额外的手工设计块以改进卷积网络的方法不同，我们的方法考虑更有效地利用卷积层中的卷积滤波器并设计强大的特征变换以生成更具表现力的特征表示。3. 方法传统的2D卷积层F与一组滤波器集合K=[k1，k2，.-是的-是的，kC]，其中ki表示具有大小C的第i组滤波器，并且变换10098C我身份自校准r×向下F2K2r×向上乙状C/2 × H/r × W/rC/2 × H × WF3K3X1C/2 × H × WC/2 × H ×WF4K4C/2 × H× WY1Concat输出：是C × H × W图2.所提出的自校准卷积的示意图。可以看出，在自校准卷积中，原始滤波器被分成四个部分，每个部分负责不同的功能。这使得自校准卷积与传统卷积或以均匀方式执行的分组卷积完全不同。有关自校准操作的更多详细信息，请参见第3.1条输入X=[x1，x2，. . .，xC]∈RC× H × W，其输出Y=[y1，y2，. -是的-是的，y<$]∈RC<$×H<$ ×W<$. 请注意，为了便于标记，我们省略了滤波器的空间大小和偏置项。给定上述符号，通道i处的输出特征图可以被写为ΣCyi= ki<$X = kj<$xj，（1）j=1输入通道号C与输出通道号C相同，i。e. ，C=C. 因此，在下文中，我们使用C来代替C，以获得符号一致性。给一群滤波器集合K具有形状（C，C，kh，kw），其中kh和kw分别是空间高度和宽度，我们首先将其均匀地分成四个部分，每个部分负责不同的功能。不失一般性，假设C可以除以2。分离后，我们有四个por-由{K}4表示的滤波器的集合，其中每个滤波器具有1 2CCCii=1其中“*”表示卷积并且ki=[ki，ki，. - 是的- 是的，ki]。从上面可以看出，每个输出特征图都是COM-通过所有通道的求和来计算，并且所有通道都通过重复等式n来均匀地产生1多次。通过这种方式，卷积滤波器可以学习类似的模式。此外，卷积特征变换中每个空间位置的视场主要由预定义的内核大小控制，并且由这样的卷积层堆栈组成的网络也缺乏大的感受野来捕获足够的高级语义[46，45]。上述两个缺点都可能导致特征图的区分性较低。为了减轻上述问题，我们提出了自校准卷积，这是elab- orated下面。3.1. 自校准卷积在分组卷积中，特征变换过程在多个并行分支中均匀且单独地执行，并且每个分支的输出被连接为最终输出。与分组卷积类似，所提出的自校准卷积也将可学习卷积滤波器分成多个部分，但不同的是，滤波器的每个部分不是平等对待的，而是负责特殊功能。3.1.1概述拟议设计的工作流程如图2所示。在我们的方法中，我们考虑一个简单的情况，其中shape（2，2，k h，k w）。给定过滤器的四个部分，然后我们将输入X均匀地分成两个部分{X1，X2}，然后将每个部分发送到用于收集不同类型的上下文信息的特殊路径中。在第一条路径中，我们使用{K1，K2，K3}来执行自校准操作在X1上，产生Y1。在第二条路径中，我们执行一个简单的卷积运算：Y2=F1（X2）=X2< $K1，其目标是保持原始空间上下文。两然后将中间输出{Y1，Y2}连接在一起作为输出Y。在下文中，我们详细描述了如何在第一条路。3.1.2自校准为了高效地收集每个空间位置的信息上下文信息，我们建议在两个不同的尺度空间中进行卷积特征变换：原始尺度空间，其中特征图与输入共享相同的分辨率，并且在下采样之后具有小的潜在空间。在小的潜在空间中的变换后的嵌入被用作参考，以指导在原始特征空间中的特征变换过程，因为它们的大视场。自校准：给定输入X1，我们采用过滤器大小为r× r且步长为r的平均池化，如下所示：T1=平均池r（X1）。（二）X2C/2 × H ×WF1K1C/2 × H ×WY2分裂输入：XC × H ×W逐元素求和按元素相乘100991111虎鲨Stingray红脚萨克斯管牛仔帽图3.通过ResNet-50的不同设置产生的中间特征图的视觉比较特征图是从最后一个构建块中的3×3卷积层中选择的。对于顶行，我们使用传统的卷积，对于底行，我们使用所提出的自校准卷积（SC-Conv）。很明显，具有自校准卷积的ResNet-50可以捕获更丰富的上下文信息。T1上的特征变换是基于K2执行的：X′=上（F2（T1））=上（T1<$K2），（3）其中Up（·）是将中间参考从小尺度空间映射到原始特征空间的双线性插值算子现在，校准操作可以如下公式表示：Y′=F3（X1）·σ（X1+ X′），（4）自校准操作对目标检测相关任务高度期望的多尺度信息进行编码。我们将在第二节中给出更多的实验分析。4.第一章3.2. 实例化为了证明所提出的自校准卷积的性能，我们以残差网络的几个变体[12，40，16]为例。50层和101层的瓶颈结构被认为是。为了简单起见，我们只将卷积运算替换为每个构建块中的3×3卷积层与我们的自校准卷积，并保持所有相关的超参数不变。默认情况下，自校准卷积中的r被设置为4。与分组卷积的关系：分组卷积采用分裂-变换-合并策略，其中单独的卷积变换在多个并行分支中均匀地进行[40]或以并行方式进行[9]。与分组卷积不同，我们的自校准卷积可以以异构方式利用卷积滤波器的不同部分。因此，变换期间的每个空间位置可以通过自校准操作融合来自两个不同空间尺度空间的信息，这在应用于卷积层时大大增加了视场，并因此导致更具区别性的特征表示。其中F3（X1）=X1<$K3，σ是sigmoid函数，如Eqn. 4.我们使用X′作为残差来形成用于校准的权重，这被发现是有益的。校准后的最终输出可写成如下：Y1=F4（Y′）= Y′<$K4.（五）与基于注意力的模块的关系：我们的工作也与依赖于附加注意力块的现有方法不同，例如SE块[16]，GE[15]块或CBAM [38]。这些方法需要额外的可学习参数，而我们的自校准卷积在本质上改变了利用卷积层的卷积滤波器的方式，因此不需要额外的学习。1 1able参数然而，尽管如此[15]，优点：所提出的自校准操作的优点是三方面的。首先，与常规卷积相比，通过采用如等式11中所示的校准操作，4.允许每个空间位置不仅自适应地将其周围的信息上下文考虑为来自潜在空间的嵌入，作为来自原始尺度空间的响应中的标量，而且还对通道间依赖性进行建模。因此，可以有效地扩大具有自校准的卷积层的视场。如图3所示，具有自校准的卷积层编码更大但更准确的判别区域。其次，自校准操作仅考虑每个空间位置周围的上下文，而不是收集全局上下文，从而在一定程度上避免了来自不相关区域的一些污染信息。从图6的右两列可以看出，在低维空间中编码空间信息，它并没有显式地保留原始尺度空间的空间信息。在下面的实验部分中，我们将展示在没有任何额外的可学习参数的情况下，我们的自校准卷积可以在基线和其他基于注意力的图像分类方法上产生显着的改进。此外，我们的自校准卷积是对注意力的补充，因此也可以从附加注意力模块中受益。4. 实验4.1. 实现细节我们使用公开的PyTorch框架1实现我们的方法。为了公平比较，我们采用官方分类框架来执行所有分类实验，除非特别声明。我们报告重新-卷积与自校准可以准确地定位目标对象时，可视化的最终得分层。第三，1https://pytorch.orgSC ConvConv10100网络ParamsMAddsFLOPsTop-1Top-550层ResNet [12]25.6M4.1G8.2G76.493.0SCNet25.6M4.0G7.9G77.893.9ResNeXt [40]25.0M4.3G8.5G77.493.4ResNeXt 2x40d25.4M4.2G8.3G76.893.3SCNeXt25.0M4.3G8.5G78.394.0SE-ResNet[16]28.1M4.1G8.2G77.293.4SE-SCNet28.1M4.0G7.9G78.293.9101层表 1. 当在不同的分类框架中使用所提出的结构时，在ImageNet-1 K数据集上进行比较我们报告了单作物准确率（%）。ImageNet数据集上的结果[30]。输入图像的大小为224×224，这些图像是从调整大小的图像中随机裁剪的，如[40]所示。我们使用SGD来优化所有的模型。权重衰减和动量分别设置为0.0001 使用了四个TeslaV100 GPU，mini-batch大小设置为256（每GPU 64）。默认情况下，我们训练所有模型100个epoch，初始学习率为0.1，每30个epoch后除以10。在测试中，我们报告了从短边尺寸调整为256的图像中裁剪单个224×224如[40]。请注意，所有消融比较中的模型共享相同的运行环境和超参数，除了网络结构本身。表1中的所有模型都在相同的策略下训练，并在相同的设置下测试4.2. ImageNet上的结果我们进行消融实验，以验证我们提出的架构中每个组件的重要性，并与ImageNet-1 K分类数据集上现有的基于注意力的方法进行比较[30]。4.2.1消融分析概括能力：为了证明所提出的结构的泛化能力，我们考虑三种广泛使用的分类架构作为基线，包括ResNet[12]，ResNeXt [40]和SE-ResNet [16]。具有自校准卷积的相应网络分别命名为SCNet、SCNeXt和SE-SCNet遵循 ResNeXt 的默认版本 [40] （ 32×4d ），我们在SCNeXt中将瓶颈宽度设置为4我们也-ResNet（res3）SCNet（res3） ResNet（res3）SCNet（res3）图4.来自不同网络的res3处的侧输出的特征图的可视化（ResNet与SCNet）。我们对两个网络都使用仅根据我们的结构确定每个组卷积的基数，以确保SCNeXt的容量接近ResNeXt。对于SE-SCNet，我们以与[16]相同的方式将SE模块应用于SCNet。在表1中，我们显示了每个模型的50层和101层版本产生的结果。与原始ResNet-50架构相比，SCNet-50的准确率提高了 1.4% （ 77.8%vs. 76.4% ）。此外，SCNet-50（1.4%）的改善也高于ResNeXt-50（1.0%）和SE-ResNet-50（0.8%）。这表明自校准卷积比增加基数或引入SE模块[16]表现得更好。当网络深入时，也可以观察到类似的现象。另一种方法来调查所提出的结构的泛化能力是看到它的行为在其他视觉任务的骨干，如对象检测和实例分割。我们将在下一小节给出更多的实验比较。自校准卷积V.S.香草卷积：为了进一步研究所提出的自校准卷积与香草卷积相比的有效性，我们在一个中间阶段（即res 3）之后向ResNet-50和SCNet-50添加了如[ 21 ]中所做的侧监督（辅助损失）。来自侧输出的结果可以反映网络在深度变化时的表现以及不同级别的特征表示有多强。图5中描绘了来自res3处的侧面监督的前1准确度结果。显然，SCNet-50的副结果比ResNet-50的副结果好得多。这一现象间接表明，与香草卷积相比，具有所提出的自校准卷积的网络可以生成更丰富和更具鉴别力的特征为了进一步证明手风琴茅草拉萨黛西望远镜贡多拉ResNet [12]44.5M7.8G15.7G78.093.9SCNet44.6M7.2G14.4G78.994.3ResNeXt [40]44.2M8.0G16.0G78.594.2SCNeXt44.2M8.0G15.9G79.294.4SE-ResNet[16]49.3M7.9G15.7G78.494.2SE-SCNet49.3M7.2G14.4G78.994.3101017060504030200 20 40时代 60 80图5.ResNet-50和SCNet-50的辅助损耗曲线我们在res3之后添加辅助损耗。可以看出，SCNet（红线）比ResNet（蓝线）好得多。这表明自校准卷积更适合深度较低的网络。为此，我们在图4中示出了来自侧输出的分数层的一些可视化。显然，SCNet即使在较低深度的网络中，也可以更精确和完整地定位目标对象。节中4.3，我们将通过将两个卷积应用于不同的视觉任务来对此注意比较：为了说明为什么提出的自校准卷积有助于分类网络，我们采用Grad-CAM [31]作为注意力提取工具来可视化ResNet-50，ResNeXt-50，SE-ResNet-50和SCNet-50产生的注意力，如图6所示。可以清楚地看到，由SCNet-50产生的注意力可以更精确地定位目标对象，并且不会过多地扩展到背景区域当目标对象较小时，与其他三个网络相比，我们的网络的注意力也更好地局限于语义区域。这表明我们的自校准卷积有助于发现更多完整的目标对象，即使它们的尺寸很小。设计选择：如SEC所示。3.1中，我们引入了下采样操作来实现自校准，这已被证明对改进CNN有用。在这里，我们研究了自校准卷积中的下采样率如何影响分类性能。在表2中，我们显示了自校准卷积中使用的不同下采样率的性能。可以看出，当不采用下采样操作（ r=1 ）时，结果已经比原始 ResNet-50 好得多（77.38% vs. 76.40%）。随着下采样率的增加，可以实现更好的性能。特别地，当下采样率被设置为4时，我们具有77.81%的top-1准确度。注意，我们不使用更大的下采样率作为莱昂贝格方尖碑桨轮太阳镜颈托图6.由Grad-CAM生成的注意力地图的可视化[31]。很明显，我们的SCNet可以比其他网络更精确地定位前景物体，无论它们有多大，形状如何。这在很大程度上依赖于我们的自校准操作，这有利于自适应地捕获丰富的上下文信息。我们为所有网络使用50层设置。最后残余块已经非常小（例如，7×7）。此外，我们发现通过添加如图2所示的标识连接，将较低分辨率（F2之后）的特征图作为残差也有助于获得更好的性能。丢弃额外的身份连接导致性能下降到77.48%。平均池与最大池：除了上述的设计选择，我们还调查了不同的池类型对性能的影响。在我们的实验中，我们试图用最大池化算子替换自校准卷积中的所有平均池化算子，并观察性能差异。在所有其他配置不变的情况下，如表2所示，使用max pool- ing运算符会使top-1精度的性能下降约0.3%（77.81vs. 77.53）。我们认为，这可能是由于这样一个事实，即与最大池，平均池- ing在整个池窗口内的位置之间建立连接，这可以更好地捕捉本地上下文信息。讨论：根据上述消融实验，引入自校准卷积有助于分类网络，如ResNet和ResNeXt。但是，请注意，探索最佳体系结构设置不在本文的范围内。本文只是对如何提高香草香精的浓度作了初步的探讨。我们鼓励读者进一步研究更有效的结构。在下一小节中，我们将展示我们的方法在应用于流行的视觉任务时如何表现为预训练的骨干。ResNet-50（列车）ResNet-50（val）SCNet-50（train）前1位误差SE-ResNetSCNetResNetResNeXt10102模型DS率（r）身份池化前1精度ResNet-- -76.40%ResNeXt-- -77.40%SE-ResNet-- AVG77.20%SCNet1✓-77.38%SCNet2✓AVG77.48%SCNet4✗AVG77.48%SCNet4✓Max77.53%SCNet4✓AVG77.81%SCNeXt4✓AVG78.30%表2.关于SC- Net设计选择的烧蚀实验. ‘Identity’ refers to thecorresponding component with the same name as in Figure ‘DSRate’ is the down-sampling rate in 二、我们还显示了两种类型的池操作下的结果：平均池化（AVG）和最大池化（MAX）。4.2.2与基于注意力的方法的比较在这里，我们对现有的基于注意力的方法，包括CBAM [38]，SENet [16]，GALA [25]，AA [1]和GE[15]，进行了基准测试。ResNet-50架构。比较结果可见于表3中。可以很容易地发现，大多数基于注意力或非局部的方法需要额外的可学习参数来构建其相应的模块，然后将其插入构建块中。完全不同的是，我们的方法不依赖于任何额外的可学习参数，而只是异构地利用卷积滤波器。其效果明显优于其它方法。还应该提到的是，所提出的自校准卷积也与上述基于注意力的方法兼容。例如，当将GE块添加到SCNet的每个构建块时，如[15]中所做的那样，我们可以进一步提高准确性0.5%。这也表明我们的方法不同于这种附加模块。4.3. 应用在本小节中，我们研究了所提出的方法的泛化能力，将其应用于流行的视觉任务作为骨干，包括对象检测，物体分割和人体关键点检测。表3. 在ImageNet-1 K数据集上与基于先验注意力的方法进行比较。所有方法都基于ResNet- 50基线。我们报告单作物的准确率（%），并显示复杂性比较。“†”表示使用以下训练的模型：三百个纪元。11]，我们使用80k COCO训练图像和来自验证集的35k图像的联合来训练每个模型（trainval35k）[24]，并报告其余5k验证图像的结果（minival）。我们严格按照Faster R-CNN工作[29]及其FPN版本[23]设置超参数图像都重新调整大小，使其较短的边缘与800像素. 我们使用8个Tesla V100 GPU来训练每个模型，并将minibatch设置为16，即，，每个GPU上有2个图像。最初的学习-我们将训练率设置为0.02，并使用2×训练时间表来训练每个模型。重量衰减和动量已设置0.0001和0.9。我们使用标准COCO指标报告结果，包括AP（不同IoU阈值的平均平均精度），AP 0。5、AP 0.75和APS、APM、APL（不同尺度的AP）。采用50层和101层骨干网。检测结果：在表4的顶部，我们展示了当使用不同的分类主干时对象检测的实验结果。当以Faster R-CNN [29]为例时，采用ResNet-50-FPN作为主干时，AP得分为37.6，而用SCNet-50替换ResNet-50则会产生较大的改进，3.2 (40.8 v.s. 37.6）。更有趣的是，具有SCNet-50主干的Faster R-CNN的性能甚至比具有4.3.1对象检测网络设置：在对象检测任务中，我们采用广泛使用的Faster R-CNN架构[29]，其中特征金字塔网络（FPN）[23]作为基线。我们采用广泛使用的mmdetection框架2[4]来运行我们所有的实验。如在先前的工作[23]2https://github.com/open-mmlab/mmdetection网站ResNeXt-50（40.8 vs. 38.2）。这表明所提出的利用卷积滤波器的方式比直接对滤波器进行分组这可能是因为所提出的自校准卷积包含自适应响应校准操作，这有助于更精确地定位目标对象的确切位置，如图6所示。此外，从表4中，我们可以观察到，使用更深的主链导致与上述类似的现象（ResNet-101-FPN：39.9 → SCNet-101-FPN：42.0）。网络ParamsMAddsTop-1Top-5ResNet [12]25.6M4.1G76.493.0ResNeXt [40]25.0M4.3G77.493.4SE-ResNet [16]28.1M4.1G77.293.4ResNet + CBAM [38]28.1M4.1G77.393.6GCNet [3]28.1M4.1G77.793.7ResNet + GALA [25]29.4M4.1G77.393.6ResNet + AA [1]28.1M4.1G77.793.6ResNet + GE [15]†31.2M4.1G78.093.6SCNet25.6M4.0G77.893.9SCNet†25.6M4.0G78.294.0SE-SCNet28.1M4.0G78.293.9GE-SCNet31.1M4.0G78.394.010103骨干APAP 0.5AP 0.75APSAPMAPL目标检测（更快的R-CNN）实例分割（Mask R-CNN）ResNet-50-FPN35.056.537.418.338.248.3公司简介37.259.939.517.840.354.2ResNeXt-50-FPN35.557.637.618.638.748.7SCNeXt-50-FPN37.560.340.018.240.555.0ResNet-101-FPN36.758.639.319.340.350.9公司简介38.461.041.018.241.656.6ResNeXt-10137.359.539.819.940.651.2SCNeXt-101-FPN38.261.240.818.841.456.1表4.与COCOminival数据集上最先进的方法进行比较。所有结果均基于单模型检验和相同的超参数。对于对象检测，AP指的是框IoU，而例如分割AP指的是掩模IoU。4.3.2实例分割表5.关键点检测实验[24]。我们使用基于OKS的mAP报告了COCOval2017集的结果，并将最先进的方法[39]作为我们的基线。两种不同的输入尺寸（256×192和384×288）被认为是在[39]中。使用标准的基于OKS的mAP评估COCOval2017集的结果，其中OKS（对象关键点相似性）定义了不同人类姿势之间的相似性。在测试阶段采用更快的R-CNN对象检测器[29]，COCO val 2017集上的“人”类别的检测AP为56.4，如表5示出了比较。可以看出，简单地用SCNet-50替换 ResNet-50，对于256×192输入大小，AP分数提高了1.5%，对于384×288输入大小，AP分数提高了2.5%。这些结果表明，引入所提出的卷积层中的自校准操作有益于人体关键点检测。当使用更深的网络作为骨干时，我们也有超过1%的性能-例如分割，我们使用与Mask R-CNN [11]中相同的超参数和数据集进行公平比较。结果基于在该部分中执行的所有实验的mm检测框架[4]我们将SCNet版本Mask R-CNN与表4底部的ResNet版本进行比较。因为我们已经详细介绍了对象检测结果，所以这里我们只报告使用掩码AP的结果。可以看出，ResNet-50-FPN版本和ResNeXt-50-FPN版本掩码R-CNN分别具有35.0和35.5个掩码AP。然而，当考虑SCNet时，相应的结果在掩模AP中分别改进了2.2和2.0当采用更深的主链时，也可以观察到类似的结果。这表明我们的自我校准的CON-演化对于实例分割也是有帮助的。4.3.3关键点检测最后，我们将SCNet应用于人体关键点检测，并在COCO关键点检测数据集上报告结果[24]。我们采用最先进的方法[39]作为基线。我们仅将[39]中的主干ResNet替换为SCNet，所有其他训练和测试设置3保持不变。我们3https://github.com/Microsoft/human-pose-estimation.pytorch网站如表5所示，AP中的曼斯增益。5. 结论和未来工作本文提出了一种新的自校准卷积，它能够异构地利用嵌套在卷积层中为了提高滤波器的多样性，我们引入了自适应响应校准操作。所提出的自校准卷积可以很容易地嵌入到现代分类网络中。在大规模图像分类数据集上的实验表明，在积木块中构建多尺度特征表示，极大地提高了预测精度。为了研究我们的方法的泛化能力，我们将其应用于多个流行的视觉任务，并发现在基线模型的实质性改进我们希望异构利用卷积过滤器的思想可以为视觉社区提供一个不同的网络架构设计的视角。谢谢。本研究部分得到新一代人工智能重大项目的资助。 2018AAA01004 ，国家自然科学基金（61620106008），国家青年人才支持计划，天津自然科学基金（18ZXZNGX00110）。部分工作是刘江江在字节跳动人工智能实验室实习时完成的。骨干规模APAP. 5AP. 75 APmAPlResNet-50256 ×19270.688.978.267.277.4SCNet-50256 ×19272.189.479.869.078.7ResNet-50384 ×28871.989.278.667.779.6SCNet-50384 ×28874.489.781.470.781.7ResNet-101256 ×19271.688.979.368.578.2SCNet-101256 ×19272.689.480.469.479.4ResNet-101384 ×28873.989.680.570.381.1SCNet-101384 ×28874.889.681.871.281.9ResNet-50-FPN37.659.440.421.941.248.4公司简介40.862.744.524.444.853.1ResNeXt-50-FPN38.260.141.422.241.749.2SCNeXt-50-FPN40.462.843.723.443.552.8ResNet-101-FPN39.961.243.523.543.951.7公司简介42.063.745.524.446.354.6ResNeXt-10140.562.144.223.244.452.9SCNeXt-101-FPN42.064.145.725.546.154.210104引用[1] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens，and Quoc V Le.注意力增强卷积网络。arXiv预印本arXiv：1904.09925，2019. 二、七[2] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测：一个调查。计算视觉媒体，5（2）：117-150，2019。1[3] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。arXiv预印本arXiv：1904.11492，2019。一、二、七[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Chen Change Loy，and Dahua Lin. mm检测。https://github.com/open-mmlab/mmdetection，2018. 七、八[5] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的高效多尺度架构。在NeurIPS，第8699- 8710页，2018年。2[6] Yunpeng Chen，Haoqi Fan，Bing Xu，Zhicheng Yan，Yan-nis Kalantidis，Marcus Rohrbach，Shuicheng Yan，and Ji-ashi Feng.降低八度音：用倍频程卷积减少卷积神经网络中的空间冗余。在ICCV，第3435-3444页，2019年。2[7] Yunpeng Chen，Jianan Li，Huaxin Xiao，Xiaojie Jin，Shuicheng Yan，and Jiashi Feng.双路径网络。神经信息处理系统进展，第4467-4475页，2017年。一、二[8] Deng-Ping Fan ， Ming-Ming Cheng， Jiang-Jiang Liu ，Shang- Hua Gao，Qibin Hou，and Ali Borji.clut- ter中的显著对象：将显著对象检测带到前景。在ECCV，第186-202页，2018年。1[9] Shang-Hua Gao，Ming-Ming Cheng，Kai Zhao，Xin-YuZhang，Ming-Hsuan Yang，and Philip Torr. Res2net：一种新的多尺度骨干网架构。IEEE TPAMI，第14[10] 葛世明，金心，叶绮婷，洛赵，李强。通过对象感知最优边界搜索和混合域合成进行图像编辑。ComputationalVisual Media，4（1）：71-82，2018。1[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 ICCV ，第 2980-2988页。IEEE，2017年。一、七、八[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一二四五七[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在ECCV中，第630-645页。施普林格，2016年。2[14] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著对象检测。IEEE TPAMI，41（4）：815-828，2019。2[15] Jie Hu ， Li Shen ，

下载后可阅读完整内容，剩余1页未读，立即下载