内容感知特征重组：轻量高效、视野大、内容感知处理的特征上采样技术

160 浏览量更新于2023-10-16 收藏 2.3MB PDF 举报

内容感知

网络架构

身份认证购VIP最低享 7 折!

30元优惠券

3007CARAFE：内容感知功能重新组装王嘉琪1陈凯1徐锐1刘子伟1陈昌来 2林大华11香港中文大学-商汤科技联合实验室2南洋理工大学{wj017，ck015，xr018，dhlin}@ ie.cuhk.edu.hkzwliu. gmail.comccloy@ntu.edu.sg摘要特征上采样是许多现代卷积网络架构中的关键操作，例如，特征金字塔。它的设计对于密集预测任务（如对象检测和语义/实例分割）至关重要。在这项工作中，我们提出了内容感知的特征重组（CARAFE），一个通用的，轻量级的和高效的运营商来实现这一目标。CARAFE有几个吸引人的特性：（1）视野大。不像非正式的作品（例如，双线性插值）仅利用亚像素邻域，CARAFE可以在大的感受野内聚合上下文(2)内容感知处理。而不是对所有样本使用固定的内核（例如，在一些实施例中，CARAFE实现了特定于实例的内容感知处理，其在运行中生成自适应内核。(3)重量轻，计算速度快。CARAFE引入了很少的计算开销，可以轻松地集成到现代网络架构中。我们对目标检测、实例/语义分割和图像内绘的标准基准进行了全面的评估。CARAFE在所有任务中显示出一致且显著的增益（分别为1.2%AP、1.3%AP、1.8%mIoU、它有很大的潜力，作为一个强大的基石，为未来的研究。代码和模型可从https：//github.com/open-mmlab/mmdetection网站。1. 介绍特征上采样是深度神经网络中最基本的操作之一。一方面，对于密集预测任务中的解码器（例如，超分辨率[6，17]、修补[11，29]和语义分割[39，4]），对高级/低分辨率特征图进行上采样以匹配高分辨率监督。另一方面，特征上采样还涉及将高级/低分辨率特征图与低级/高分辨率特征图融合，这在许多现有技术的体系结构中被广泛采用，[31]第18话：我的世界重新装配中心重新装配区域上采样图1：CARAFE工作机制示意图。左：Mask R-CNN的多级FPN特征（左至虚线）和右：Mask R-CNN with CARAFE（右至虚线）。对于采样位置，该图示出了FPN的自上而下路径中累积的这样的区域内的信息被重组到相应的重组中心。”[26]《明史》：“。因此，设计有效的特征上采样算子成为一个关键问题。最广泛使用的特征上采样算子是最近邻和双线性插值，它们采用像素之间的空间距离来指导上采样过程。然而，最近邻和双线性插值仅考虑子像素邻域，未能捕获密集预测任务所需的丰富语义信息。自适应上采样的另一种途径是去卷积[27]。去卷积层用作卷积层的逆算子，其学习一组实例不可知的上采样内核。然而，它有两个主要缺点。首先，反卷积算子在整个图像上应用相同的内核，而不管底层内容如何。这限制了它对局部变化的反应能力。其次，它配备了一个大型3008参数的数量以及因此当使用大的内核大小时的繁重的计算工作量这使得它很难覆盖一个更大的区域，超越了一个小的邻居，从而限制了它的表达能力和性能。在这项工作中，我们超越了这些限制，并寻求一种特征上采样算子，该算子能够1）在大的感受野内聚集信息，2）适应于即时的特定于实例的内容，以及3）保持计算效率。为此，我们提出了一个轻量级的，但非常有效的运营商，称为内容感知功能重组（CARAFE）。具体而言，CARAFE通过加权组合重新组装以每个位置为中心的预定义区域内的特征，其中权重以内容感知的方式生成此外，对于每个位置存在多组这样的上采样权重。然后，通过将生成的特征重新排列为空间块来实现特征上采样。注意，这些空间自适应权重不是作为网络参数学习的。相反，它们是使用具有softmax激活的轻量级全卷积模块实时预测的。图1显示了CARAFE的工作机制。通过CARAFE上采样后的特征图可以更准确地表示对象的形状，从而模型可以预测更好的实例分割结果。我们的CARAFE不仅在空间上对特征图进行上采样，而且还学习增强其区分度。为了证明CARAFE的普遍有效性，我们在广泛的密集预测任务中进行了全面的评估，即目标检测、实例分割、语义分割、图像修复，采用主流架构。CARAFE可以将更快的RCNN [30]的性能提高1.2%AP。在MS COCO [19]测试开发2018上通过1.3% AP进行对象检测和掩码RCNN [8]。CARAFE在语义分割中进一步将UperNet [35]在ADE 20k [43，44] val上提高了1.8% mIoU，并在图像修复中将GlobalLocal [11]在Places [42 当对H×W特征图，256通道，由CARAFE引入的计算开销仅为H×W×199kFLOPs，相比之下，HW1180kFLOPs的deconvolution。所有任务的实质性成果表明，CARAFE是一个有效的和高效的特征上采样算子，具有很大的潜力，可以作为未来研究的一个强大的构建块。2. 相关工作上采样运算符。最常用的上采样方法是最近邻和双线性插值。这些插值利用距离来测量像素之间的相关性，并在其中使用手工制作的上采样内核在深度学习时代，SEV-提出了使用可学习算子对特征图进行上采样的各种方法。例如，反卷积[27]是卷积的逆运算符，是那些可学习的上采样器中最有名的Pixel Shuffle [32]提出了一种不同的上采样器，它将通道空间上的深度最近，[23]提出了引导上采样（GUM），它通过对具有可学习偏移的像素进行采样来执行插值。然而，这些方法要么利用小邻域中的上下文信息，要么需要昂贵的计算来执行自适应插值。在超分辨率和去噪领域，其他一些作品[24，14，9]也探索在低级视觉中使用可学习的内核。基于类似的设计思想，本文展示了基于内容感知的特征重组在多个视觉感知任务中的有效性和工作机制，并提供了一个轻量级的解决方案。密集预测任务。对象检测是用边界框定位对象的任务，实例分割还需要预测实例掩码。Faster-RCNN [30]引入了用于端到端训练的区域建议网络（RPN），通过引导锚定方案[34]进一步改进。[18，21，15，41，28]利用多尺度特征金字塔来处理不同尺度的对象通过添加额外的掩码预测分支，Mask-RCNN [8]及其变体[1，10]产生了有希望的像素级结果。语义分割[22，16]需要对给定图像进行逐像素语义预测。PSP-Net [39]在多个网格尺度上引入了空间池。UperNet [35]设计了一个基于PSPNet的更通用的框架。图像或视频修复[38，37，36]是一个经典的问题，以填补缺失的区域，输入图片。U-net [31]在最近的作品[11，33]中很受欢迎，并采用了多个上采样算子。Liu等[20]引入部分卷积层以减轻缺失区域对卷积层的影响。我们的CARAFE在广泛的密集预测任务中表现出普遍的有效性。3. 特征的内容感知重组特征上采样是许多现代卷积网络架构中的关键运算符，这些架构是为包括对象检测、实例分割和场景解析在内的任务而开发的在这项工作中，我们提出了内容感知的重新组装的功能（CARAFE）上采样的特征图。在每个位置上，CARAFE可以利用底层内容信息来预测重组内核并在预定义的附近区域内重组特征。由于CARAFE的内容信息，它可以在不同的位置使用自适应和优化的重组内核，并实现比主流的上采样操作，如。插值或去卷积。3009起来′升升升示例位置重新组装操作编码器⨂=（��′信道压缩机核归一化器内容内容感知重组模块核预测模块图2：CARAFE的总体框架。CARAFE由两个关键部分组成，即，内核预测模块和内容感知重组模块。在该图中，尺寸为C×H×W的特征图以因子σ（= 2）3.1. 制剂CARAFE作为一个具有内容感知内核的重组操作符工作。它包括两个步骤。第一步是根据每个目标位置的内容预测其重组核，第二步是重组具有预测内核的特征给定大小为C × H × W的特征图X和上采样率σ（假设σ是整数），CARAFE将产生大小为C×σH×σW的新特征图X′。如果n yr在输出X ′的l′=（i′，j′）上得到位置i，则在输入X处存在对应的源位置l=（i，j），其中i=i′/σ，j=j′/σ。这里我们将N（Xl，k）表示为以位置l为中心的X的k × k子区域，即，x的邻居。在第一步骤中，内核预测模块基于Xl的邻居来预测每个位置l的位置方面的内核 Wl'，如等式11所示。（一）. 重新组装步骤被公式化为Eqn。其中φ是将Xl的邻居与内核Wl'重组的内容感知重组模块：Wl′=n（N（Xl，kencode r））.（一）X′= φ（N（X，k），W ′）.（二）我们在以下部分中详细说明ψ和φ3.2. 核预测模块内核预测模块负责以内容感知的方式生成重组内核X上的每个源位置对应于X上的σ2个目标位置。X′。每个目标位置需要k个向上×k个向上重新分配。bly kernel，其中kup是重组内核大小。在那里-因此，该模块将输出大小为Cup× H × W，其中Cup= σ2k2。核预测模块由三个子模块组成，模块，即，信道压缩器、内容编码器和内核归一化器，如图2所示。通道压缩器减少输入特征图的通道。然后，内容编码器将压缩的特征图作为输入，并对内容进行编码以生成重组内核。最后，内核规范化器将softmax函数应用于每个重组内核。下面详细解释这三个子模块通道压缩器。我们采用1×1卷积层将输入特征通道从C压缩到Cm。再-引入输入特征映射的通道使得后续步骤中的参数和计算成本更少，使得CARAFE更有效。还可以在相同预算下为内容编码器使用更大的内核大小。实验结果表明，在可接受的范围内减少特征通道不会损害性能。内容编码器。我们使用一个卷积层的内核大小为k的编码器，以产生重组内核的输入功能的基础上的内容。编码器的参数为k编码器×k编码器×Cm×Cm。直观地说，增加k值编码器可以扩大编码器的感受野，并在更大的区域内利用上下文信息，这对于预测重组k值是重要的。nels。然而，计算复杂度随着内核大小的平方而增长，而从更大的内核大小的好处经验公式kencoder=kup−2是我们在5.3节中研究的性能和效率之间的良好权衡。内核规范化器。在应用于输入fea之前，3010在真实映射中，每个kup×kup重组核在空间上用softmax函数归一化。归一化步骤强制核值的总和为1，这是一个软选择。在当地的一个区域。由于核归一化器，CARAFE不执行任何重新缩放和改变的平均值的特征映射，这就是为什么我们提出的操作被命名为重组的特征。3.3. 内容感知重组模块利用每个重新组装内核W1'，内容重新组装模块将经由函数Φ重新组装局部区域内的特征。我们采用φ这只是一个加权和运算符。对于目标位置l′和以l=（i，j）为中心的对应正方形区域N（Xl，kup），重组如等式n所示。（3），其中r=kup/2 k：被视为CARAFE的特殊情况，其中重组内核大小为1，而不管内核规范化器。空间Transformer网络。STN预测以输入特征图为条件的全局参数变换，并经由变换扭曲特征。然而，这种全局参数变换假设太强，无法表示复杂的空间方差;并且众所周知，递归很难训练。在这里，CARAFE使用特定于位置的重组来处理空间关系，这使得更灵活的局部几何建模。变形卷积网络（DCN）。DCN还采用了学习几何变换的思想，并将其与规则卷积层相结合。它预测内核偏移，而不是使用网格卷积内核。与动态滤波器类似，它也是一个复杂的参数运算器，计算量是CARAFE的24倍厄齐尔Xl′=ΣrWl′（n，m）·X（i+n，j+m）.（三）还已知其对参数初始化敏感n=−r m =−r利用重组内核，基于特征的内容而不是位置的距离，N（Xl，kup）的区域中的每个像素对上采样的像素l’有不同的贡献重新组装的特征图的语义可以比原始特征图更强，因为来自可以更多地关注局部区域中的相关点。3.4. 与先前操作员的在这里，我们讨论CARAFE与动态滤波器[13]、空间注意力[3]、空间变换器[12]和可变形卷积[5]之间的关系，它们具有相似的设计理念，但侧重点不同。动态过滤器。动态滤波器根据网络的输入生成特定于实例的卷积滤波器，然后将预测滤波器应用于输入。动态过滤器和CARAFE都是内容感知算子，但它们之间的根本区别在于它们的核生成过程。具体而言，动态滤波器作为两步卷积工作，其中附加的滤波器预测层和滤波层需要大量计算。相反，CARAFE只是局部区域中特征的重新组装，而不需要学习跨通道的特征假设输入特征映射的通道为C，滤波器的核大小为K，则预测的在动态滤波中，每个位置的核参数为C×C×K×K。对于CARAFE，内核参数仅K×K。因此，它在存储器和速度方面更有效。空间注意力空间注意力预测与输入要素大小相同的注意力地图，然后在每个位置上重新缩放特征图CARAFE算法通过加权和的方法对局部区域的特征进行重组.总之，空间注意力是一个具有逐点引导的重缩放算子，而CARAFE是一个具有区域局部引导的重组算子。空间注意力可以4. CARAFE的应用CARAFE可以无缝集成到需要上采样算子的现有框架中。在这里，我们提出了一些主流的密集预测任务的应用。CARAFE的附加参数可以忽略不计，它在高级和低级任务中都有利于最先进的方法，例如对象检测、实例分割、语义分割和图像修复。4.1. 目标检测和实例分割特征金字塔网络（FPN）是目标检测和物体分割领域中一种重要而有效的体系结构.它显著提高了流行框架的性能，如Faster R-CNN和Mask R-CNN。FPN构建了具有自上而下路径和横向连接的强语义金字塔。在自上而下的路径中，首先使用最近邻插值对低分辨率特征图进行2x上采样，然后与高分辨率特征图融合，如图3所示。我们建议用CARAFE代替所有特征层的最近邻插值。这种修改是平滑的，不需要额外的更改。除了FPN结构之外，Mask R-CNN还在掩模头的末端采用了去卷积层它用于对预采样进行上采样从14×14到28×28的数字，以获得更精细的掩码预测。我们也可以用CARAFE来代替de-卷积层，导致更少的计算成本。4.2. 语义分割语义分割要求模型在整个图像上输出上采样被广泛用于放大特征图和融合特征，3011P6C5P5C4P4C3P3C2P2图3：使用CARAFE的FPN架构。CARAFE在自上而下的路径中以因子2对特征图进行采样。它通过无缝地替代最近邻插值而集成到FPN中。在这个任务中不同层次的信息。Uper-Net是语义分割的强大基线。它在以下三个组件中使用上采样，即，PPM、FPN、保险丝。我们采用CARAFE而不是他们原来的上采样器。Pyramid Pooling Module（PPM）. PPM是PSPNet中的关键组件，可将输入特征图分层下采样为多个尺度{1×1，2×2，3×3，6×6}，然后再上采样为原始大小，双线性插值最后通过拼接将这些特征与原始特征融合。由于上采样率非常大，我们采用两步策略，CARAFE作为性能和效率之间的权衡。首先，我们使用双线性插值将{1×1，2×2，3×3，6×6}特征上采样到原始特征图的一半大小，然后使用CARAFE将它们进一步上采样2x。特征金字塔网络（ FPN）。与检测模型类似，UperNet也采用了FPN来丰富特征语义.它仅具有四个不同的特征级别{P2，P3，P4，P5}，步长为{4，8，16，32}。我们以与4.1节相同的方式替换上采样运算符。多层次特征融合（FUSE）。UperNet在FPN的基础上提出了一个多层次的特征融合模块。该方法首先对P3、P4、P5进行双线性插值，使其大小与P2相同，然后通过级联将不同层次的特征进行融合。该过程等同于顺序上采样-级联，首先将P5上采样到P4并将它们级联，然后将级联的特征图上采样到P3，依此类推。我们在这里用CARAFE替换顺序双线性上采样。4.3. 图像修复部分转化[20]。在网络的后半部分有两个上采样算子。我们简单地用CARAFE替换两个上采样层并评估性能。对于部分卷积，我们可以通过使用我们的内容感知重组内核更新掩码来方便地保持CARAFE中的掩码传播。5. 实验5.1. 实验设置数据集评估我们在几个重要的密集预测基准上评估CARAFE。我们使用trainsplit进行训练，并在默认情况下评估所有这些数据集的val对象检测和实例分割。我们在具有挑战性的MS COCO2017数据集上进行实验。结果用标准的COCO度量进行评价，即。IOU的mAP从0.5到0.95。语义分割。我们采用ADE20k基准测试来评估我们的方法在语义分割任务。结果用平均IoU（mIoU）和像素精度（P.A.）测量其分别指示预测与地面实况掩模之间的平均IoU以及每像素分类准确度。图像修复。采用Places数据集进行图像修补.我们使用L1误差（越低越好）和PSNR（越高越好）作为评估指标。实施详情。如果没有另外指定，CARAFE在实验中采用一组固定的超参数，其中对于信道压缩器，Cm为64，对于内容编码器，k_encoder=3，k_up=5更多实施细节详见补充资料。对象检测和实例分割。我们在Faster RCNN上评估CARAFE，并使用ResNet-50 w/ FPN主干对RCNN进行掩码，并遵循Detectron [7]和MMDetection [2]的1x训练时间表设置。语义分割。我们使用UperNet1的官方实现，并采用相同的实验设置。图像修复我们采用全局局部[11]和局部卷积[20]作为基线方法来评估CARAFE。5.2. 基准测试结果目标检测实例分割。我们首先通过用CARAFE替换FPN中的最近邻插值来评估我们的方法，用于FasterRCNN和Mask RCNN，并在Mask RCNN中替换掩模头中的去卷积层如表1所示，CARAFE在bbox AP上将Faster RCNN提高了1.2%，在mask AP上将Mask RCNN提高了1.3%。APS、APM、APL的改善均在1%AP以上，说明对各种目标尺度都是有益U-net架构在最近提出的图像修复方法，如Global Local [11]和1https://github.com/CSAILVision/semantic-segmentation-pytorch3012表1：MS COCO 2018测试开发的检测和实例分割结果。方法主干任务APAP50AP75APSAPMAPLR-CNN ResNet-50更快BBox36.959.139.721.540.045.6更快的R-CNN w/ CARAFE ResNet-50BBox38.160.741.022.841.246.9掩码R-CNNResNet-50BBox37.859.740.822.240.746.8ResNet-50Segm34.656.536.818.737.345.1面罩R-CNN w/ CARAFE ResNet-50BBox38.861.242.123.241.747.9ResNet-50Segm35.958.138.219.838.646.5表2：使用更快RCNN的检测结果。FPN中使用了各种上采样方法。北卡罗来纳州不列颠哥伦比亚省，P.S.和S.A. 指示表3：使用Mask RCNN的实例分割结果。在掩模头中使用各种上采样方法。Nearest + Conv、Bilinear + Conv、Pixel Shuffle和Spatial Atten-节中。方法APAP 50 AP 75 AP S AP M AP L FLOPs参数最近36.5 58.439.321.3 40.347.2 00德孔夫34.255.536.317.637.846.7双线性36.7 58.739.721.0 40.547.5 8k0像素混洗34.456.036.618.537.647.5北卡罗来纳 36.6 58.639.521.4 40.346.4 4.7M59万胶34.355.736.517.637.646.9公元前36.6 58.739.421.6 40.646.8 4.7M59万S.A.34.155.636.517.637.446.6[27]第二十七话36.4 58.239.221.3 39.946.5 1.2M59万CARAFE34.756.237.118.237.947.5我们令人鼓舞的业绩得到了质量的支持，表4：分别通过在FPN和掩码头中采用CARAFE的掩码RCNN的检测和实例分割结果。M.H.表示在面罩头中使用CARAFE。FPN M.H. 任务APAP50AP75APSAPM APL实验结果如图1所示。我们想象恐惧-在FPN的自上而下途径中的真图，并将CARAFE与基线进行比较，即，最近邻插值很明显，通过内容感知的重组，特征图更具鉴别力，并且预测对象的更准确的掩模。在图4中，我们展示了比较基线和CARAFE的实例分割结果的一些示例。为了研究不同上采样算子的有效性，我们通过使用不同的算子在FPN中执行上采样，对Faster RCNN进行了广泛的实验。结果示于表2中。为北卡罗来纳州和“B.C.”，分别表示‘De- conv’, 我们也比较这里的“空间注意力”，表示为“S.A.”。CARAFE在所有这些上采样算子中实现了最好的AP“Nearest +Conv”和“Bilinear + Conv”的结果表明，外部参数不会导致显著的增益。‘Deconv’, ‘Pixel Shuffle’, ‘GUM’ and‘Spatial Attention’ obtainFPN是一种金字塔特征融合结构，Bbox 37.4 59.1 40.3 21.2 41.2 48.5塞姆34.2 55.5 36.3 17.637.8 46.7CBbox38.660.742.223.242.149.5Segm35.257.237.519.338.347.6CBbox37.359.040.221.840.848.6Segm34.756.237.118.237.947.5C CBbox38.660.941.923.442.349.8Segm35.757.638.119.439.048.7实际上，我们还探索了掩模头中的不同上采样算子。在典型的Mask R-CNN中，采用反卷积层对RoI特征进行2x上采样。为了进行公平的比较，我们不对FPN进行任何更改，仅用各种运算符替换反卷积层由于我们只修改了掩码预测分支，因此性能是根据掩码AP报告的，如表3所示。CARAFE在实例分割中取得了最好的性能。在表4中，我们分别报告了在FPN中采用CARAFE和在Mask RCNN上采用mask head的对象检测和实例分割结果。在这些实验中取得了一致的改进。语义细分我们取代的使用CARAFE在UperNet中使用上采样器，并在ADE20k基准上评估结果。如表5所示，CARAFE通过单尺度测试将mIoU大幅提高，从40.44%提高到42.23%。请注意，方法APAP50AP75APSAPMAPL最近32.755.034.817.735.944.4双线性34.255.936.418.537.546.2P.S. [32个]36.5 58.839.120.9 40.446.7 4.7M2.4MGUM[23]36.9 58.939.721.5 40.648.1 1.1M132kS.A. [3]第一章36.9 58.839.821.7 40.847.0 28k2.3kCARAFE37.8 60.140.823.1 41.748.5 199k74k3013图4：COCO 2017 val上基线（顶行）和CARAFE（底行）之间的实例分割结果比较。表5：ADE 20k val上的语义分割结果Sin -表7：Places val上的图像修复结果。在我们的实验中使用了角尺度测试。 P.A.表示像素精度压缩通道Cm，编码器内核大小k 编码器和表6：在UperNet的每个组件中采用CARAFE的效果。重新组装内核大小kup。我们还测试了不同的规范化方法在内核规范化。我们在具有ResNet-50主干的FasterRCNN上进行了设计和设置的消融研究，并在COCO2017 val上评估了结果。为了达到一个有效的设计，我们首先分析了计算的复杂性测量的FLOPs。当使用输入通道C对特征图进行上采样时，CARAFE还实现了比最近的强大基线更好的性能，如PSPNet[39]和PSANet[40]。我们进行了一步一步的研究，以检查修改UperNet中不同组件的有效性，如第4.2节所述。表6中的结果显示CARAFE对所有三种组分都有帮助，并且它们的组合导致进一步的增益。图像修复。我们表明，CARAFE在图像修复等低级任务中也是有效的。通过在两个强采样中基线Global Local [11]和Partial Conv [20]，我们观察到这两种方法的显著改进如表7所示，我们的方法在PSNR度量上将两个基线提高了1.1 dB和0.2 dB。5.3. 消融研究进一步分析模型设计超参数。我们研究了模型设计中超参数的影响，的2.报告了正式实施后在动物园模型上的表现编码器在通道式压缩机中进行了不同Cm值的此外，我们还尝试移除通道压缩器模块，这意味着内容编码器直接使用输入特征来预测重组内核。表8中的实验结果表明，将Cm压缩到64不会导致性能下降，同时更有效。进一步减小的Cm将导致性能略微下降。在不使用通道压缩器的情况下，也能达到同样的性能，证明了通道压缩器可以在不损害性能的情况下加快内核预测的速度基于上述结果，我们将Cm默认设置为64，作为性能和效率之间的权衡。然后，我们研究了k编码器和kup的影响。直观地说，增加k也需要更大的k编码器，因为内容编码器需要大的感受野来预测大的重组核。如表9所示，同时增加k编码器和k可以提高性能，而仅仅扩大其中之一则不会。我们总结经验公式k编码器=kup-2，方法L1（%）峰值信噪比（dB）全局本地6.7819.58部分转换5.9620.78全球本地w/CARAFE6.0020.71部分转化，含CARAFE5.7220.98方法骨干MiouP.A.PSPNetResNet-5041.6880.04PSANetResNet-5041.9280.17UperNet2ResNet-5040.4479.80UperNet w/CARAFEResNet-5042.2380.34CC42.0180.11σ的每像素浮点数为CARAFE计算为CC41.9380.342（Cin+1）Cm+2（Cmk2 +1）σ2k2+2σ2k2Cin，up upCCC42.2380.34关于[25]PPMFPN保险丝MiouP.A.C40.8579.97C40.7980.01CCC41.0641.5580.2380.303014(a)（b）第（1）款示例位置重组中心重新组装的装置图5：CARAFE在对特征图进行上采样时执行内容感知的重组。红色单元通过CARAFE在FPN结构的自上而下路径中重新组装成绿色表8：各种压缩通道的消融研究N/A表示通道压缩器已移除。表10：不同标准化方法的消融研究核规范化器CmAPAP50AP75APSAPMAPL方法APAP50AP75APSAPMAPL1637.660.140.622.741.648.4乙状37.459.840.223.140.947.43237.760.340.722.841.249.0S形归一化37.860.140.722.641.648.06437.860.140.823.141.748.5Softmax37.860.140.823.141.748.5表9：不同编码器内核大小k编码器和重新组装的内核大小为k。更大区域的信息。我们对高分辨率特征图中的一些像素进行采样，并查看它是从哪些邻居重新组装的。绿色圆圈表示示例位置，红色点表示重组期间的高权重源。从图中，我们可以清楚地了解到CARAFE是内容感知的。它往往编码器向上50 75S M用相似的语义信息重组点。人体上的位置更喜欢来自同一个人的其他点，而不是其他物体或附近的背景。对于具有较弱语义的背景区域中的位置，重组更均匀或仅偏向于具有类似低级纹理特征的点。6. 结论这是一个很好的选择，在所有的设置。虽然采用更大的内核大小是有帮助的，但我们默认设置kup=5和kencoder=3作为性能和效率之间的权衡除了softmax函数，我们还测试了内核规范化器中的其他变量，例如sigmoid或带规范化的sigmoid。如表10所示，CARAFE如何工作我们进行了进一步的定性研究，以弄清楚CARAFE是如何工作的。使用采用CARAFE作为上采样的操作符，我们在图5中可视化重组过程。在FPN结构中，低分辨率特征图将被连续上采样多次以达到更高的分辨率，因此上采样特征图中的像素会重新组合我们提出了一种通用的、轻量级的、高效的上采样算子CARAFE。它在目标检测、实例/语义分割和修复方面的标准基准性能分别提高了1.2% AP、1.3% AP、1.8% mIoU和1.1dB。更重要的是，CARAFE引入很少的计算开销，可以很容易地集成到现代网络体系结构。未来的发展方向包括探索CARAFE在低水平视觉任务中的适用性，如图像增强和超分辨率。鸣谢。本研究部分由商汤科技集团的合作研究资助（香港中文大学协议编号： TS1610626& 编号TS1712093），香港一般研究基金（第14236516& No. 14203518）、新加坡 MoE AcRF Tier 1 （ M4012082.020 ）、 NTUSUG和NTU NAP。12837.860.140.822.441.748.725637.860.440.822.741.348.8N/A37.860.340.822.941.548.7KKAPAPAPAPAPAPL1337.359.640.522.040.748.11537.359.940.022.341.147.33337.359.740.422.140.848.33537.860.140.823.141.748.53737.760.040.923.041.548.45537.860.240.722.541.448.65738.160.441.323.041.648.87738.060.241.123.041.848.83015引用[1] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在IEEE计算机视觉和模式识别会议，2019。[2] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.MM检测：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155，2019。[3] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. SCA-CNN：图像字幕卷积网络中的空间和通道注意力。2017年在IEEE计算机视觉和模式识别会议上发表[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。2018年欧洲计算机视觉会议[5] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。IEEEInternational Conference on Computer Vision ，2017。[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence，38（2）：295[7] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。[8] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克 . 面罩 R-CNN 。 IEEEInternational Conference onComputer Vision，2017。[9] 胡学才，穆浩元，张翔宇，王自磊，谭铁牛，孙建.Meta-SR：一种用于超分辨率的放大任意网络。在IEEE计算机视觉和模式识别会议上，2019年。[10] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.面罩评分R-CNN。在IEEE计算机视觉和模式识别会议上，2019年。[11] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics，36（4）：107，2017。[12] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，2015年。[13] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。在神经信息处理系统的进展，2016年。[14] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿3016第在IEEE计算机视觉和模式识别会议上，2018。[15] Tao Kong，Fuchun Sun，Chuanqi Tan，Huaping Liu，and Wenbing Huang.用于目标检测的深度特征金字塔重构。在2018年欧洲计算机视觉会议[16] 李晓晓，刘紫薇，罗平，陈昌来，唐晓鸥。并非所有像素都相等：通过深层级联的困难感知语义分割。在IEEE计算机视觉和模式识别上，2017年。[17] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络在IEEE计算机视觉和模式识别研讨会上，2017年。[18] Tsung-Yi Lin，Piotr Dollar，Ross Girshick，KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议，2017年7月。[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克

下载后可阅读完整内容，剩余1页未读，立即下载