金字塔卷积的跨金字塔级特征提取方法及其在目标检测中的性能提升

62 浏览量更新于2023-10-23 收藏 805KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13359用于目标检测的新疆王*，张世龙，于卓然，冯立通，张文{wangxinjiang，zhangshilong，yuzhuoran，fenglitong，wayne.zhang}@ sensetime.com摘要特征金字塔是一种有效的多尺度特征提取方法。该方法的发展主要集中在聚合不同层次的上下文信息，而很少触及特征金字塔中的层间早期的计算机视觉方法通过定位空间和尺度维度上的特征极值来提取尺度不变特征。受此启发，在这项研究中提出了一种跨金字塔级的卷积，称为金字塔卷积，是一种改进的3-D卷积。堆叠金字塔卷积直接提取3-D（尺度和空间）特征，并优于其他精心设计的特征融合模块。基于3-D卷积的观点，在金字塔卷积之后自然地插入从整个特征金字塔收集统计信息的集成批量归一化。此外，我们还表明，朴素金字塔卷积，连同RetinaNet头的设计，实际上最适合从高斯金字塔中提取特征，其属性很难被特征金字塔所满足。为了减轻这种不确定性，我们构建了一个比例均衡金字塔卷积（SEPC），仅在高级特征图处对齐共享金字塔卷积核。由于计算效率高，且与大多数单级目标检测器的头部设计兼容，SEPC模块在最先进的单级目标设计中带来了显著的性能提升（在MS-COCO 2017数据集上增加>4AP）。tectors，和SEPC的一个轻版本也有1003. 5AP增益而推理时间仅增加了约7%皮拉-中卷积也作为两级目标检测器中的独立模块很好地起作用，并且能够通过102AP提高性能。源代码可以在https://github.com/jshilong/SEPC找到。*平等贡献424140393837363560 65 70 75 80 85 90时间（ms）图1：各种单级检测器（包括RetinaNet [20]，FCOS [38]，FSAF [48]，Reppoints [44]，FreeAnchor [46]）中金字塔卷积的COCO小型数据集的性能。两阶段检测器的参考点，如Faster R-CNN （ Faster ） [31] ， Libra Faster R-CNN （ L-Faster ） [29] ， Cascade Faster R-CNN （ C-Faster ） [1] 和Deformable Faster R-CNN（D-Faster）[49]也提供了。所有模型均采用ResNet-50主干，并使用1x训练策略。1. 介绍一个物体在自然图像中可能以截然不同的尺度出现，但应该被识别为相同的。在自然图像中，尺度可以很容易地变化超过1个量级[33]，这在各种计算机视觉任务中是一项具有挑战性的任务，广泛的研究集中在这个问题上。多尺度训练[4]是通过让网络记住不同尺度下的模式来直接解决尺度变化的方法。多尺度推断[27]与传统的图像金字塔方法[26，30]具有相同的思想。然而，图像金字塔方法是耗时的，因为需要多个输入。CNN中不同阶段的内在特征金字塔[24]提供了图像金字塔的有效替代方案。下采样卷积特征的每个级别对应于FSAFFreeAnchorC-FasterD-Faster代表点L-更快FCOSRetinaNet快基线SEPC-lite两级探测器AP13360P3P4P5P6P7P31.000.860.700.000.00P40.551.000.84-0.010.00P50.260.501.00-0.010.00P60.150.290.461.000.48P70.090.160.240.481.00图2：RetinaNet特征金字塔中特征映射的相关矩阵。上三角形和下三角形分别表示FPN之前和之后的相关性原始图像中的特定比例。然而，特征金字塔的每两个层次之间存在着语义间隙为了减轻差异，已经提出了不同的特征融合策略，包括自上而下的信息流[19，7]，额外的自下而上的信息流路径[23，41，14]，多个沙漏结构[28，47]，concate-从不同层[18，36，10]中指定特征，使用非局部注意力模块[29]进行特征细化，逐步多阶段局部信息融合[45，35]。然而，特征融合的设计是直观的，通过直接求和后的特征地图，他们的分辨率相同。没有探索特征金字塔的内在属性，以使所有特征图没有区别地平等贡献。尺度空间理论在计算机视觉中已经研究了几十年。通过检测金字塔中的尺度空间极值，提出了有效的受此启发，我们建议通过在尺度维度上的显式卷积来捕获尺度间的相互作用，在特征金字塔中形成3-D卷积，称为金字塔卷积（PConv）。与直接对所有特征图求和相比，尺度维的卷积是一种自然的选择。例如，特征金字塔上相邻尺度的特征图应该是最相关的，然而这在以前的方法中被忽略了。通过在特征提取网络（主干）的每个下采样操作之后提取中间输出来构建特征金字塔，例如VGG[32]，ResNet [13]和ResNext [43]。图2展示了在Reti-naNet中FPN之前和之后从主干提取的特征图之间的相关矩阵。靠近对角线的值大于远离对角线的值。这类似于使用空间卷积来处理自然图像的先验，图像上的相邻像素的相关性强于远距离对。然而，在先前的特征融合设计中没有直接捕获该属性[29，36]。此外，我们还表明，头部设计的视网膜网是尺度核为1的PConv的一种特殊情况，它实际上最适合于从高斯金字塔中提取特征。高斯金字塔是通过用高斯核连续模糊图像然后进行子采样来生成的。高斯模糊的核大小应该与子采样率成比例，以便在子采样期间去除在这个高斯金字塔中进行PConv有助于提取尺度不变的特征。然而，从深层骨干网络构建的特征金字塔通常与高斯金字塔相差甚远。首先，两个特征金字塔层之间的骨干中的多个卷积层形成更大的有效高斯核;其次，由于在获得下一个金字塔特征时的非线性操作（如ReLU），有效高斯内核的理论值应该因像素而异。因此，我们将探讨借由设计一个尺度均衡模组来缓和这两种差异的可能性。使用可变形卷积的思想[5]，底部金字塔的核大小是固定的，并随着共享核在尺度维度上的步幅而变形。对PConv的这种修改现在使其能够通过在卷积较高层时对齐其内核来使不同的金字塔级别（尺度）相等，并且因此被称为尺度均衡金字塔卷积（SEPC）。它可以从特征金字塔中提取尺度不变性特征，并且由于可变形内核仅适用于高级特征，因此仅带来适度的计算成本增加。配备SEPC模块后，各种型号的检测性能都得到了提升。例如，SEPC模块在最先进的单级检测器中达到高达4.3AP的增加，例如FreeAnchor [46]，FSAF [48]，Reppoints [44]和FCOS[38]，使它们甚至超过大多数两级检测器。SEPC的轻型版本（SEPC-lite）也可以达到约3.5AP的性能增益而计算成本仅增加了0.7%。本研究的贡献主要体现在以下几个方面。（一）.我们提出了一个轻量级的金字塔卷积（PConv）在特征pyra内部进行3-D卷积中以满足尺度间相关性。(2). 我们还开发了一个尺度均衡金字塔卷积（SEPC），通过仅在高级别特征图处对齐共享PConv内核来放松特征金字塔和高斯金字塔之间的差异。(3). 该模块提高了性能（103. 5AP增加最先进的单级物体检测器），其中推理速度的折衷可忽略不计。2. 相关工作2.1. 对象检测现代目标检测体系结构通常分为一级和两级。两阶段检测13361金字塔卷积ide=0.5...步幅=2str步幅=2步幅=1步幅=1步幅=0.5图3：金字塔卷积作为三维卷积。三个卷积核（红色，黄色和青色）用于此3D卷积。每个内核的卷积步幅随着特征图的大小而缩放。相同帧颜色的特征图（例如，蓝色和粉红色）在相同帧颜色的右侧生成特征图。该图像仅用于显示比例尺，不代表特征图。像SPP [12]，Fast R-CNN [9]，Faster R-CNN [31]这样的代表首先提取区域建议，然后对它们进行分类。尺度方差问题在两阶段检测器中有所缓解，其中不同大小的对象在ROI池化过程中被重新缩放为相同大小另一方面，单阶段目标检测[24]直接利用卷积的固有滑动窗口特性来构建特征金字塔并直接基于每个像素预测目标。虽然单级检测器在实时任务中具有快速推理的RetinaNet [20]是一个里程碑式的单级检测器，因为它通过采用焦点损失和新设计的检测头来提高检测性能以下工作进一步加速了模型，并通过将对象检测视为关键点本地化任务来同时提高其性能，从而消除了对每个特征图上多个锚点的依赖性[44，38]。但FPN和头部的设计与RetinaNet相同。2.2. 特征融合在深度网络中，低层特征通常被认为缺乏语义信息，但保留了丰富的几何细节，这与高层特征相反。因此，特征融合在结合语义和几何信息方面起着至关重要的作用。几个主干结构具有融合来自不同尺度的信息的设计，例如Inception网络[37]和ScaleNet[17]。FPN [19]及其当代作品在检测小物体时使用高级特征图接下来的工作从不同的方面进一步提高了特征融合的效率。如图4、PA-Net[23]直接为低级特征图创建短路径，因为检测大对象也需要位置敏感特征图的帮助。遵循相同的哲学，在[28，47]中也提出了多个双向信息融合路径。除了直接求和的常规方法外，其他一些方法也采用了级联将所有特征映射投影到一个公共空间，然后进行反向分布。Pang等人。[29]通过添加非局部块来微调组合特征图，进一步提高了特征扩散的水平2.3. 跨尺度相关在传统的和最近的研究中，也有一些其他的方法考虑到跨尺度相关性。计算跨尺度差以近似SIFT [25]中的拉普拉斯算子，以提取尺度不变特征。WorrallWelling [42]还使用扩张卷积将组卷积扩展到深度神经网络。Wang等人。[40]将特征图与相邻尺度进行融合，以在所有特征图被转换为与最大特征图相同的大小后捕获尺度间相关性在这些工作中，要么需要对输入图像的不同变换进行重复计算，[42] 或者在高分辨率特征图上进行尺度相关[40]，这两种方法都会导致计算资源的不期望的增加。在这项研究中，当在不同尺度上进行卷积时，特征图的金字塔结构保持不变，这是更有效的。13362快捷雷芬P7 P7P7 P7P6P6 P6P5P5 P5P4P3 P3(a) 金字塔卷积(b) FPNP4P3(c) PA-NetP4P3(d) Libra R-CNNP4P3(e) HR-Net图4：金字塔卷积（a）与其他特征融合模块的比较，包括（b）FPN [19]（c）PA-Net [23]，（d）Libra R-CNN [29]和（e）HR-Net [36]。默认情况下，每个向上的特征图都具有按比例缩小2的空间大小。虚线表示插值操作，这意味着它们可以是上采样、下采样或快捷方式，具体取决于相应的特征图大小。每条黑色实线是一个独立的卷积，相同颜色的彩色实线是共享的卷积运算。善于计算。实际上，RetinaNet及其后代的头部结构的原始设计也可以被视为一个尺度内核为1的 PConv因此，我们的设计PConv是兼容的国家的最先进的单级目标检测器，以最小的计算成本增加。3. 金字塔卷积金字塔卷积（PConv）实际上是跨越尺度和空间维度的3-D卷积。如果我们把每一层的特征表示为一个点，如图1所示。在图4a中，PConv可以表示为N个不同的2-D卷积核。然而，如图所示。3.在不同的金字塔等级之间存在大小不匹配。空间大小随着金字塔级别的上升而缩小。为了适应不匹配，我们在不同层中卷积时为K个不同的内核例如，对于N=3的PConv，第一个内核的步幅应为2，而最后一个内核的步幅应为0的情况。五、则PConv的输出为yl = w1 <$s0. 5xl+1+w0xl+w−1s2xl−1，（1）其中l表示pyramidlev el，w1，w0和w−1是三个独立的2-D卷积核，x是输入特征映射，并且n2表示步长为2的卷积。stride 0的内核。5进一步被步长为1的正态卷积和连续双线性上采样替换层.也就是说，yl=Upsample（w1xl+1）+w0xl+w−1s2xl−1（2）与传统卷积类似，零填充也用于PConv。至于底部金字塔水平（l=1），方程中的最后一项。2是不必要的，而对于最高层（l=L），第一项被忽略。尽管在每层有3个卷积操作，PConv的总FLOP实际上只有原始头的1.5倍左右1）。3.1. 管道除了提取尺度相关特征的能力之外，PConv还受益于其与RetinaNet及其后代的头部设计的如图5a所示因此，4个卷积头可以直接由我们的PConv模块替换，其尺度内核为3。堆叠的PConv回应了3-D深度网络中的堆叠卷积模块[39]，以便逐渐增加相关距离，而无需太多计算负担。然而，每个PConv仍然带来一些额外的计算。作为替代方案，4个PConv模块由分类分支和定位分支共享，形成如图1所示的组合头部结构。5b.为了满足分类和定位任务的差异，在共享的4个可以计算出，这种设计的 FLOPs 甚至比原来的 RetinaNet 头更少（见Appen。1）。3.2. 在头部在本研究中，我们也检索BN在检测头中的使用。共享BN遵循PConv模块，并从特征金字塔内的所有特征图收集统计信息，而不是从单个层收集统计信息。这种设计很自然，因为我们将PConv视为3D卷积。由于统计数据是从金字塔内部的所有特征图中收集的，因此方差变得更小，特别是对于高级别的fea。图具有小的特征图尺寸。这使我们能够在头中训练BN，即使在小批量的情况下也是如此，并实现更好的性能。4. 比例均衡金字塔卷积在设计金字塔卷积时，我们使用了一个简单的实现。每个二维卷积核的大小13363（一）图6：（a）高斯金字塔上的PConv;（b）关于特征金字塔的SEPC图5：（a）原始RetinaNet的头部设计;（b）使用PConv的头部设计。在最终的输出卷积中，K是锚框的数量，对于无锚方法为1，C是分类中的类的数量PConv中使用的lution在内核沿着尺度维度移动时保持不变，即使特征图大小缩小也是如此。当PConv在高斯金字塔上进行时，这是合理的（高斯金字塔是通过连续高斯模糊图像，然后进行下采样来构建的），因为注1金字塔卷积能够从高斯金字塔中提取尺度不变的特征。详细的数学证明可以在Appen中找到3.它直观地显示在Fig. 6a. 当N=1的PConv从金字塔中提取特征时，不同尺度的对象可以在不同的级别上被相同的内核捕获此外，高斯模糊在生成金字塔时也是必要的，以避免在下采样图像中提取特征时的高频噪声。另一方面，过于强烈的模糊会掩盖细节。高斯金字塔中的最佳模糊环内核大约是两个金字塔级别之间的下采样比率的大小。在PConv的简单实现中，以及在RetinaNet头的设计中，这种方式直接用于处理特征金字塔。然而，最佳模糊核很难满足特征金字塔。在图6b中，我们看到高级特征中的特征图的模糊效果比图像金字塔中的模糊效果严重得多。这是由于在特征金字塔中的两个特征图之间的主干中的许多层卷积和非线性操作。为了折衷更强的模糊效应并提取尺度不变特征，一些研究提倡使用扩张卷积[42]。也就是说，随着PConv模块在尺度维度上的跨越，内核也应该是比最底部的特征中使用的更大。然而，由于骨架中的非线性操作，不同像素的膨胀率也不同，使得难以直接使用恒定的膨胀率。相反，我们借用可变形卷积的思想，直接预测卷积核的偏移量，因为共享核在尺度维度上向上迈进。如图6b，核与底卷积特征图被固定为正常的3×3卷积。在处理要素金字塔中的高级要素图时，基于特征图的当前层来预测变形偏移。通过这种方式，每个金字塔级别（尺度）中的特征通过变形偏移进行均衡，并且准备好由共享PConv内核进行卷积。因此，它被称为缩放均衡金字塔卷积（SEPC）。PConv和SEPC的伪代码都可以在Appen中找到二、SEPC有很多好处。1)考虑了由于可变形卷积核的膨胀能力，使得两层特征金字塔之间存在较大的模糊效应; 2）减少了特征金字塔与高斯金字塔的差异。3)由于卷积的计算成本从一层到其上特征金字塔级别减少了4，因此仅将可变形卷积添加到高级特征图会导致最小的计算。在这项研究中，我们研究了SEPC-完全的效果，即将SEPC应用于图1中的组合头和额外头。5b，以及SEPC-精简版，其仅将SEPC应用于额外头。5. 实验本研究中的实验是在80个类别的MS-COCO 2017检测数据集[21]上进行的。训练集由大约118k张图像组成，验证集由5k张图像组成（minival）。默认情况下， minival 会报告检测指标。测试集（ test-dev）上的结果也报告为并发颅脑2564K256 256 256 256256CKP7P6P5P4（b）第（1）款额外的头部ConvConvPConvPConvPConvPConvConvConv2562562562564K256256256256CKP7P6P5P4（一）ConvConvConvConvConvConv（b）第（1）款ConvConvConvConv13364ReLUAPσ在这项研究中的几个模型。有关实验设置的更多详细信息，请参见Appen。4.3938单BN5.1. 单级目标探测器本研究中的单级目标检测器大多是37BN36BN最新和最先进的模型，使用基于锚点的方法，如RetinaNet [20]和FreeAnchor [46]，或无锚点的方法，如FSAF [48]和Reppoints [44]。拟议SEPC与其原始基线之间的结果比较见表1。1. SEPC-全被发现能够提高性能超过4AP，但招致独立国阵BN转换器转换器ReLUBN综合BN（a）3534RetinaNetFSAF（b）第（1）款自由锚不必要的推理时间由于所涉及的可变形操作而增加。SEPC-lite在每个网络中的改进也是实质性的，增加了3。13。8个AP，延迟仅增加7%。SEPC- lite在更多探测器上的直接比较如图所示1.一、应当注意到我们自己实施的FSAF基线（详情见附件）。6)已经达到36.9AP，比原来的结果高出1.1AP。SEPC-lite将 FSAF 的性能进一步提升到 40.9 ，比 Cascade 和Deformable Faster-RCNN高出0.5AP，同时保持20%以上的速度。SEPC-lite在FreeAnchor上的改进也是令人惊讶的，FreeAnchor是最好的单级探测器之一，使其达到41.7，并毫无痛苦地将最先进的水平提高了3.2。5.1.1消融研究5.1.2各组分用PConv替换头部的正常卷积带来了大约1001。5各种模型中AP增加。至于PConv的速度，PConv的总FLOPs实际上比原来的head要小，延迟仍然增加了3%左右，这是由于更多的卷积涉及的核心在头部插入集成BN（iBN）也使模型受益0。2001年。2个AP用于不同的架构。其他几项研究也主张在训练检测网络时进行群体归一化（GN）[38]。然而，BN在GN中缺少的一个特征是BN在进行推理时不需要计算现场统计，并且可以合并在前一个卷积层中。这在推理速度方面带来了显着的优势，正如iBN相同的前向延迟所揭示的那样。性能的提高是BN优化速度快、泛化能力强的自然结果。(see即将开始第五章）对于比例均衡模块的效果，我们也将SEPC的结果与PConv+iBN的结果进行了比较，发现有显著的改善（1。六块二。5AP增加），这表明比例均衡模块可以帮助调整功能，不同的级别，并且在各种目标检测器中很好地起作用。图7：（a）中不同的批量标准化实现特征金字塔等级。仅给出2个特征水平作为说明;（b）在特征金字塔中具有不同批量归一化实现的架构的AP结果的比较。5.1.3与DCN股骨头的比较如果所有卷积都被RetinaNet类似模型的原始头部中的可变形卷积核（DCN）[5]取代AP的增长各不相同。对于大多数模型，如RetinaNet和FreeAnchor，限制（101AP）。FSAF中的性能提升更为显著，这可能是由于DCN的自适应核函数和FSAF的自适应损失函数。然而，在所有这些模型中，DCN头的运行时间成本如Tab.所示。1 ， RetinaNet FreeAnchor 中 PConv+iBN（不涉及DCN）的AP增益在AP和时间效率方面已经显著优于DCN头SEPC-lite和SEPC带来了进一步的AP增益，并在所有这些模型中优于DCN头，同时仅带来1/5和1/2的运行时开销。5.1.4头部中不同BN实现的比较BN在处理特征金字塔时有不同的实现，如图所示。7a.每个BN模块后的输出是y=γx−µ+β，其中γ和β是参数，µ和σ是归一化的批统计量。单个BN在每个特征金字塔级别之后添加BN模块，其具有跨金字塔的共享参数γ和β。但是每个特征图在训练过程中都会自己收集统计数据。独立BN使特征层中BN的参数和统计数据都是其自身独有的，并在[8]中使用。如3.2节所述，集成BN计算来自特征金字塔网络的所有特征图的批量统计这四种BN设计的效果如图7所示简单地使用单个BN会导致灾难性的 BNConvReLUBN无BN单BN38.738.838.5独立BN集成BN37.436.936.836.435.935.734.532.028.7Conv13365检测器注意FLOPS（G）时间（ms）APAP50AP75APSAPMAPL基线239.3273.235.755.038.518.938.946.3DCN磁头249.55102.136.856.839.620.440.349.0RetinaNetPConvPConv+iBN239.29239.3676.576.437.037.957.759.339.440.622.322.540.842.248.949.1SEPC242.2289.639.760.442.723.14452.2SEPC-lite24078.538.859.941.822.642.851基线*205.262.436.956.13920.640.148.2DCN磁头215.4285.240.158.542.822.443.354.7FSAFPConvPConv+iBN205.18205.2566.066.138.738.958.959.141.141.822.222.24242.55151SEPC208.1177.441.360.443.62344.857.8SEPC-lite205.8868.240.76043.422.444.655.1基线239.3276.438.557.341.221.141.851.5DCN磁头249.55100.439.458.042.421.743.052.7自由锚PConvPConv+iBN239.29239.3679.479.740.041.259.160.54344.322.824.343.844.653.354.6SEPC242.2289.942.861.945.925.646.457.4SEPC-lite24081.241.76145.124.245.254.8标签：我们自己的实现表1：不同架构的检测AP结果的比较。所有模型都使用ResNet-50主干进行训练，并采用1x训练策略。在COCOminival set上评价结果由于共享参数和非共享统计数据之间的不匹配，检测器的性能下降。集成BN和独立BN都提高了AP，并且集成BN优于独立BN，因为在训练期间统计数据更稳定。5.1.5与其他特征融合模块的比较针对不同的特征融合方法，Tab. 2介绍了我们的PConv与FreeAnchor上其他最先进的特征融合模块的比较。显然，与包括NAS-FPN在内的常见特征金字塔网络相比，PConv提供了显著的性能提升[8]天秤座[29]此外，所设计的PConv栈头也获得了最小的FLOPs增加的特征融合模块。本节的结果验证了PConv在特征融合中的有效性。5.2. 与最先进的物体探测器的在本节中，我们将我们的方法与COCO2017基准数据集上的其他最先进的对象检测器进行比较。训练策略遵循具有640-800尺度抖动的2x，并且除非另有说明，否则仅用单个尺度获得结果。细节可以在Appen中找到。 4. 我们仅报告配备 SEPC-lite 和 SEPC 的FreeAnchor用于实际潜在应用的目的，因为SEPC对于诸如ResNext-101的大型骨干会它是ob-表2：PConv与FreeAnchor上的其他特征融合模块（包括FPN[19] ， HR-Net [36] ， PA-Net [23] ， NAS-FPN [8] 和 Libra[29]）的比较。报告了在COCOminival上评估的结果SEPC显著提高了原始基线，并使用ResNext-101骨干网实现了最先进的47.7AP，而无需使用铃声（例如，多尺度测试、同步BN、可变形主干），甚至超过了具有可变形主干和多尺度测试的大多数两阶段检测器。如果应用 DCN 骨干和更强的训练尺度抖动（ 480-960），则AP性能达到50.1，这是在具有单尺度测试的单阶段模型上报告的最好检测5.3. 扩展到两级物体探测器我们还提出，PConv（没有尺度均衡模块）仍然可以有效时，它被应用到两阶段的目标检测器。如表4所示，PConv在不同的两阶段检测中提供了AP的显著改善。特征融合APAP50AP75FLOPS（G）FPN38.557.341.2239.3HR-Net38.657.141.3297.6PA-Net38.957.641.6245.9NAS-FPN39.157.041.8347.1Libra39.458.742.2315.8PConv40.059.143239.313366方法骨干历元输入大小APAP50AP75APsAPmAPl两级探测器Cascade-RCNN− [1]ResNet-10118最小80042.862.146.323.745.555.2[16]第十六话ResNet-10124最小80042.763.646.523.946.656.6[33]第三十三话DCN+ResNet-101--44.466.249.927.346.456.9[34]第三十四话DCN+ResNet-101--46.167.051.629.648.958.1TridentDetQ△ [6]DCN+ResNet-10136最小80046.867.651.528.051.260.5单级探测器免费锚[46]ResNet-10124最小80043.062.246.424.74654FSAF [48]ResNext-101-64x4d24最小80044.164.347.326.047.155.0免费锚[46]ResNext-101-64x4d24最小80044.964.448.426.54856.5AlignDet [3]ResNext-101-32x8d18最小80044.164.748.926.947.054.7CornerNet [15]沙漏-104∼20051140.656.443.219.142.854.3[6]第六话沙漏-104∼20051144.962.448.125.647.457.4NAS-FPN [8]AmoebaNet + Drop Block150128048.3-----FreeAnchor+SEPC-liteResNet-10124最小80045.564.949.52748.856.7FreeAnchor+SEPC-liteResNext-101-64x4d24最小80047.167.051.229.350.858.3FreeAnchor+SEPCResNext-101-64x4d24最小80047.767.351.729.250.860.3FreeAnchor+SEPC†DCN+ResNext-101-64x4d24最小80050.169.854.331.353.363.7<$：多尺度测试;−：单尺度训练;Q：软NMS;△：同步BN†：更宽的训练范围（480-960）表3：&SEPC与其他先进目标探测器的单模型单尺度测试结果比较。在测试开发中对结果进行评价。检测器注意APAP50AP75快基线PConv36.538.558.459.939.141.4掩模基线PConv37.339.65960.140.243.5HTC基线PConv42.143.660.862.045.947.4表4：仅PConv模块扩展到两级检测器，包括Faster R-CNN[31]，Mask R-CNN [11]和HTC [2]。tors. PConv为Mask-RCNN提供了最大的AP增加，将AP提高了2.3。6. 结论在这项研究中，我们探索通过金字塔卷积（PConv）考虑尺度间的相关性，该卷积在尺度和空间维度上运行3-D卷积那么，这就是所谓的规模均衡金字塔卷积（SEPC）。具有固定空间核大小的朴素步幅模式实际上最适合提取高斯金字塔中的特征，这与深度网络生成的特征金字塔相距甚远SEPC有助于缓解这种差异并提取更强大的特征。由于SEPC具有重量轻、与大多数目标检测器兼容的特点，因此它能够以最小的计算开销显著提高检测性能。7. 确认我们要感谢商汤科技的邵文琪和邝章辉特征金字塔的尺寸。该PConv的跨越模式在空间和尺度上都与常规模式有很大首先，由于金字塔中的空间大小不同，PConv内核的空间切片的步幅与金字塔级别中的卷积特征图大小成比例。PConv内核的这种类13367似于步进的模式有助于对齐相邻特征图的空间位置，因为它们涉及一个PConv。其次，当PConv在尺度维度上大步上升时，内核还应调整其空间变形，13368引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[2] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在IEEE计算机视觉和模式识别集，第4974-4983页，2019年。[3] Yuntao Chen ， Chenxia Han ， Naiyan Wang ， andZhaoxiang Zhang. 重新审视一阶段物体检测的特征对齐arXiv预印本arXiv：1908.01570，2019。[4] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年[5] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[6] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在IEEE计算机视觉国际会议论文集，第6569-6578页[7] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C Berg. Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659，2017。[8] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le. Nas-fpn：学习可扩展的特征金字塔体系结构，用于对象检测。在IEEE计算机视觉和模式识别会议论文集，第7036-7045页[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[10] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.用于对象分割和细粒度定位的超列。在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 447[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence，37（9）：1904[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Tao Kong，Fuchun Sun，Anbang Yao，Huaping Liu，Ming Lu，and Yurong Chen.Ron：反向连接对象先验网络进行对象检测。在IEEE计算机视觉和模式识别会议集，第5936-5944页[15] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734-750页[16] Yanghao Li ， Yuntao Chen ， Naiyan Wang ， andZhaoxiang Zhang.用于对象检测的尺度感知三叉神经网络。ICCV，2019。[17] Yi Li ， Zhanghui Kuang ， Yimin Chen ， and WayneZhang.规模聚集网络的数据驱动神经元分配。在IEEE计算机视觉和模式识别会议论文集，第11526[18] 李作新，周富强。特征融合单次多盒检测器。arXiv预印本arXiv：1712.00960，2017年。[19] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[20] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[22] 托尼·林德伯格。尺度空间理论：分析不同尺度结构的基本工具应用统计学杂志，21（1-2）：225[23] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议的论文集，第8759-8768页[24] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[25] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91[26] G·劳尺度不变特征变换。Int. J，2：91[27] Mahyar Naji

下载后可阅读完整内容，剩余1页未读，立即下载