CentripetalNet:追求高质量的角点关键点目标检测

183 浏览量更新于2023-10-24 收藏 14.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

kivee@foxmail.com; liguoxuan18@mails.ucas.ac.cn; liaoyue.ai@gmail.com;{wangfei, qianchen}@sensetime.com; pengjuren@xjtu.edu.cn105190CentripetalNet: 追求高质量的目标检测关键点对0董志伟 1,2 李国轩 3 廖越 4 王飞 2 � 任鹏举 1 钱晨 201 西安交通大学人工智能与机器人研究所 2 商汤研究 3 中国科学院大学 4北京航空航天大学0摘要0基于关键点的检测器取得了很好的性能。然而，错误的关键点匹配仍然普遍存在，并且极大地影响了检测器的性能。在本文中，我们提出了CentripetalNet，它使用向心位移来配对同一个实例中的角点关键点。CentripetalNet预测角点的位置和向心位移，并匹配其位移结果对齐的角点。结合位置信息，我们的方法比传统的嵌入方法更准确地匹配角点。角点池化将边界框内的信息提取到边界上。为了使这些信息在角点处更加明显，我们设计了一个交叉星形可变卷积网络来进行特征适应。此外，我们通过为CentripetalNet配备一个掩码预测模块，在无锚点检测器上探索实例分割。在MS-COCOtest-dev上，我们的CentripetalNet不仅在AP方面优于所有现有的无锚点检测器，达到48.0%，而且在MaskAP方面也与最先进的实例分割方法具有可比性，达到40.2%。代码可在https://github.com/KiveeDong/CentripetalNet获得。01. 引言0目标检测是计算机视觉中各种应用的基本主题，如自动驾驶、移动娱乐和视频监控。由于尺度变形和遮挡引起的大尺度变化，目标检测具有挑战性。随着深度学习的发展，目标检测取得了巨大的进展[10, 9, 30, 27, 25, 21, 11, 22, 1, 17,34, 33, 36, 20, 19, 16, 39]。基于锚点的方法[9, 30,25]在过去几年中引领了潮流，但手动设计一组合适的锚点是困难的。此外，基于锚点的方法0� 通讯作者0(a) CornerNet0(b) CenterNet (c) CentripetalNet0图1. (a)CornerNet由于相似外观导致的相似嵌入而生成一些错误的角点对。(b)CenterNet通过中心预测去除一些错误的角点对，但它自然无法处理一些密集的情况。(c)CentripetalNet避免了CornerNet和CenterNet的缺点。0受到负样本和正样本锚框之间显著不平衡的困扰。为了改进这一点，CornerNet[17]提出了一种将边界框表示为一对角点（即左上角点和右下角点）的新方法。基于这个想法，涌现了许多基于角点的方法[17,7]。基于角点的检测框架逐渐引领了目标检测领域的新趋势。基于角点的检测框架可以分为两个步骤，包括角点预测和角点匹配。本文重点研究第二步。0传统的方法[17,7]主要使用关联嵌入方法来配对角点，其中网络需要学习每个角点的额外嵌入以确定两个角点是否属于同一个边界框。这样，如果两个角点来自同一个框，它们的嵌入将相似，否则，它们的嵌入将非常不同。基于关联嵌入的检测器在目标检测中取得了很好的性能，但也存在一些限制。首先，训练过程使用推送和拉取损失来学习每个点的嵌入。推送损失将105200计算对角线上不属于同一对象的点之间的推力损失，以将它们彼此推开。而拉力损失仅考虑来自同一对象的点之间的拉力。因此，在训练过程中，网络实际上是在所有潜在点中寻找唯一的匹配点。当一个训练样本中存在多个相似的对象时，它对异常值非常敏感，训练难度会大大增加。其次，嵌入预测是基于外观特征而不使用位置信息的，因此如图1所示，如果两个对象具有相似的外观，即使它们相距很远，网络也倾向于为它们预测相似的嵌入。0基于上述考虑，我们提出了CentripetalNet，使用向心位移来匹配角点，并结合交叉星形可变卷积模块来更好地预测向心位移。给定一对角点，我们为每个角点定义一个二维向量，即向心位移，其中向心位移编码了从角点到框的中心点的空间偏移量。通过这种方式，每个角点可以根据向心位移生成一个中心点，因此如果两个角点属于同一个边界框，它们生成的中心点应该是接近的。匹配的质量可以通过两个中心点与该匹配的几何中心之间的距离来表示。与关联嵌入方法相比，该方法结合了每个角点的位置信息，对异常值具有鲁棒性。此外，我们提出了一种新颖的组件，即交叉星形可变卷积，用于学习大的感受野和‘交叉星形’的几何结构。我们观察到在角点池化输出的特征图中存在一些‘交叉星形’。‘交叉星形’的边界包含了物体的上下文信息，因为角点池化使用最大值和求和操作将物体的位置信息沿着‘交叉星形’边界扩展到角点。因此，我们将物体的几何和位置信息明确地嵌入到可变卷积的偏移字段中。配备向心位移和交叉星形可变卷积，我们的模型在MS-COCOtest-dev2017上的AP从42.1%提高到47.8%。此外，受到多任务学习在目标检测中的益处的启发，我们添加了实例掩膜分支以进一步提高准确性。我们应用RoIAlign来从一组预测的感兴趣区域（RoIs）中汇集特征，并将汇集的特征输入到掩膜头部生成最终的分割预测。为了证明CentripetalNet的有效性，我们在具有挑战性的MS-COCO基准测试[23]上评估了该方法。CentripetalNet不仅在AP方面超过了所有现有的无锚点检测器，达到了48.0%，而且在实例分割方法方面也取得了可比较的性能。02. 相关工作0基于锚点的方法：基于锚点的检测器在特征图的每个位置设置锚框。网络预测每个锚框中是否存在物体，并调整锚框的大小以匹配物体。两阶段方法源自R-CNN系列方法[10, 12,9]，首先使用选择性搜索方法[32]提取RoIs，然后对其进行分类和回归。Faster R-CNN[30]使用区域建议网络（RPN）通过修改预设锚框生成RoIs。Mask R-CNN[11]使用双线性插值将RoIPool层替换为RoIAlign层。其掩膜头使用自顶向下的方法获取实例分割。一阶段方法直接对预设锚框进行分类和回归，而不提取RoIs。SSD[25]利用多个不同卷积层的特征图对具有不同步长的锚框进行分类和回归。与YOLO [27]相比，YOLOv2[28]使用预设锚点。然而，上述方法都受到负样本和正样本之间不平衡的困扰。RetinaNet[22]使用焦点损失来缓解分类不平衡问题。Re�neDet[41]通过引入锚点细化模块来改进FPN结构，以过滤和消除负样本。0无锚点方法：对于基于锚点的方法，锚框的形状应该经过精心设计以适应目标对象。与基于锚点的方法相比，无锚点检测器不再需要预设锚框。主要提出了两种类型的无锚点检测器。第一种类型的检测器直接预测对象的中心点。Yolov1[27]在靠近对象中心的点上预测对象的大小和形状。DenseBox[14]引入了一个完全卷积神经网络框架以获得高效率。UnitBox[40]使用IoU损失将四个边界作为一个整体进行回归。由于正样本数量相对较少，这些检测器的召回率相当低。为了解决这个问题，FCOS[31]将对象边界框内的所有点都视为正样本。它检测所有正样本以及点到边界框边界的距离。对于第二种类型，检测器预测关键点并将它们分组以获取边界框。CornerNet[17]检测对象的左上角和右下角，并将它们嵌入到一个抽象特征空间中。它通过计算每对点的嵌入之间的距离来匹配同一对象的角点。ExtremeNet[42]检测对象的最上、最左、最下、最右和中心点。结合Deep Extreme Cut[26]，可以将极端点用于实例分割。这些检测器需要一些特定的分组方法来获取边界框。RepPoints[38]使用可变卷积网络(DCN) [6]获取用于表示目标的点集。Corner Pooling 1 ×1 conv 1 ×1 conv 1 ×1 conv 3×3 conv 3. CentripetalNet(a)(b)(c)Centripetal Shift. For bboxi = (tlxi, tlyi, brxi, bryi), its105210引导移动0偏移场0交叉星形可变卷积0右下角预测和特征适应0RoI对齐 3 × 3卷积 × 4 反卷积0实例掩码0实例掩码头0左上角预测和特征适应0沙漏网络0左上角角点预测0实例分割0目标检测01 × 1卷积0左上角 & 向心移动0右下角 & 向心移动0向心移动模块03 × 3卷积可变卷积0图2.CentripetalNet的概述。由于左上角和右下角的角点预测和特征适应类似，我们只绘制了左上角模块以简化。向心移动模块获取预测的角点和适应的特征，然后预测每个角点的向心移动，并根据预测的角点和向心移动进行角点匹配。在匹配过程中，如果移动后的角点位置足够接近，则它们形成一个得分较高的边界框。0这些转换函数经过精心设计，将点集转换为边界框。CenterNet[7]在CornerNet的基础上增加了一个中心检测分支，并通过中心点验证大大提高了性能。这些方法通常具有很高的召回率，但也会产生很多错误检测。主要挑战在于如何匹配同一目标的关键点。在这项工作中，我们提出了一种向心移动方法，它通过预测的空间信息编码角点之间的关系，并通过预测的空间信息获取它们对应的中心点，从而可以通过它们共享的中心建立左上角和右下角之间的连接。0首先，我们提供了该方法的概述。如图2所示，CentripetalNet由四个模块组成，分别是角点预测模块、向心移动模块、交叉星形可变卷积和实例掩码头。我们首先基于CornerNet流程生成角点候选框。然后，我们引入了一种向心移动算法，以追求高质量的角点对并生成最终预测的边界框。具体而言，向心移动模块预测角点的向心移动，并匹配那些从它们的位置和向心移动解码出来的结果对齐的角点对。接下来，我们提出了一种新颖的交叉星形可变卷积，其偏移场是从角点到相应中心的移动学习得到的，用于丰富目标的视觉特征。0角点位置，这对于提高离心位移模块的准确性非常重要。最后，我们添加了一个实例掩码模块，进一步提高检测性能，并将我们的方法扩展到实例分割领域。我们的方法使用离心位移模块预测边界框作为区域建议，使用RoIAlign提取区域特征，并应用一个小型卷积网络来预测分割掩码。总体而言，我们的CentripetalNet是端到端训练的，可以带或不带实例分割模块进行推断。0图3. (a) 将真实角点映射到热图时，使用局部偏移 O tl (或 O br )来补偿精度损失，如[17]所示。 (b) 引导位移 δ是从热图上的真实角点到边界框中心的位移。 (c) R central是我们用来匹配角点的中心区域。03.1. 离心位移模块02 ) 。我们定义其左上角和右下角的离心位移为csitl = (log( ctxi−tlxis), log( ctyi−tlyis))csibr = (log( brxi−ctxis), log( bryi−ctyis))(1)Lcs = 1NN�k=1[L1(csktl, ˆcsktl) + L1(cskbr, ˆcskbr)](2)Rcentral = {(x, y)|x ∈ [ctlx, cbrx], y ∈ [ctly, cbry]} (3)ctlx = tlx+brx2− brx−tlx2µctly = tly+bry2− bry−tly2µcbrx = tlx+brx2+ brx−tlx2µcbry = tly+bry2+ bry−tly2µ(4)wj = e−|brjctx−tljctx||brjcty−tljcty|(cbrxj −ctlxj )(cbryj −ctlyj )(5)(a)(b)(c)105220将左上角和右下角分别解码为0在这里，我们使用对数函数来减小离心位移的数值范围，使学习过程更容易。在训练过程中，我们在真实角点的位置应用平滑L1损失。0其中 L 1 是SmoothL1损失，N是训练样本中的真实边界框数量。0角点匹配。为了匹配角点，我们设计了一种使用离心位移和位置的匹配方法。直观上讲，属于同一个边界框的一对角点应该共享该框的中心点。由于我们可以从角点的位置和离心位移解码出相应的中心点，因此很容易比较一对角点的中心点是否足够接近，并且接近于由角点对组成的边界框的中心点，如图3(c)所示。受到上述观察的启发，我们的方法如下进行。一旦从角点热图和局部偏移特征图中获得角点，我们将相同类别且满足 tlx < brx ∧ tly < bry的角点分组，构建预测边界框。对于每个边界框 bbox j，我们将其分数设置为其角点分数的几何平均值，这些分数是通过对预测的角点热图应用 softmax获得的。然后，如图3所示，我们为每个边界框定义一个中心区域，如方程式3所示，以比较解码中心点和边界框中心的接近程度。0R central 的角点计算如下0其中 0 < µ ≤ 1表示中心区域的宽度和高度是边界框宽度和高度的 µ倍。通过离心位移，我们可以分别解码左上角和右下角的中心点 ( tl ctx , tl cty ) 和 ( br ctx , br cty)。然后我们计算每个预测边界框的分数权重 w j ，满足 ( tlj ctx , tl j cty ) ∈ R j central 的条件。0( br j ctx , br j cty ) ∈ R j central 如下0这意味着回归的中心更接近，预测的框具有更高的得分权重。对于其他边界框，我们将wj设置为0。最后，我们可以通过乘以得分权重来重新评分预测的边界框。03.2. 交叉星形可变形卷积0由于角点池化，特征图中存在一些“交叉星形”，如图4(a)所示。“交叉星形”的边界保留了物体的丰富上下文信息，因为角点池化使用max和sum操作将物体的位置信息沿着“交叉星形”的边界延伸到角点。为了捕捉“交叉星形”上的上下文信息，常见的方法是使用可变形卷积来移动感受野。然而，如图7(a)所示，标准的可变形卷积无法很好地将采样点与“交叉星形”的边界对齐，这表明在没有任何先验信息的情况下学习“交叉星形”的几何结构是困难的。根据上述观察，我们提出了交叉星形可变形卷积，一种增强角点处视觉特征的新型卷积操作。0图4. (a) 由角点池化引起的“交叉星形”。(b)交叉星形可变形卷积在角点处的采样点。(c)角点预测模块的左上角热图。0我们提出的交叉星形可变形卷积如图2所示。首先，我们将角点池化的特征图输入交叉星形可变形卷积模块。由于“交叉星形”的几何结构相对于物体的尺度和角点相对于中心的方向有关，我们嵌入一个引导位移，即从角点到中心的位移，如图3(b)所示，以明确地引导偏移场分支。形式上，引导位移是一个向量(δx, δy) = (ctx0s�)。矢量在每个轴上的值表示尺度，矢量的信号表示方向。注意，方向信息的监督引导网络关注靠近物体的交叉星形边界。具体而言，偏移场在三个卷积层上进行。前两个卷积层将角点池化输出嵌入到特征图上。Lmask = 1NNL = Ldet + Loff + αLδ + Lcs + Lmask(9)105230特征图，其受以下损失的监督：0Lδ = 10k=1 [L1(δtl, ˆδtl) + L1(δbr, ˆδbr)] (6)0其中δ表示引导位移，定义为0δi tl = (ctx i0s - � tlx i0s�, cty i0s - � tly i0s�) (7)0第二个卷积层将上述特征映射到偏移场中，该偏移场明确包含上下文和几何信息。引导位移将尺度和方向的几何信息嵌入到偏移场分支中，并降低了学习难度。通过在图7c中可视化学习到的偏移场，我们的交叉星形可变形卷积可以有效地学习到“交叉星形”的几何信息，并提取“交叉星形”边界的信息。03.3. 实例掩码头0我们将软NMS之前的检测结果视为区域建议，并使用完全卷积神经网络在其上预测掩码。为了确保检测模块能够产生建议，我们首先对CentripetalNet进行几个时期的预训练。我们选择得分排名前k的建议，并在骨干网络的特征图上执行RoIAlign以获取它们的特征。我们将RoIAlign的大小设置为14×14，并预测一个28×28的掩码。在获取RoI的特征之后，我们应用四个连续的3×3卷积层，然后使用一个转置卷积层将特征图上采样到28×28的掩码图ˆm。在训练过程中，我们对每个区域建议应用交叉熵损失。0k =1 交叉熵 ( m i , ˆ m i ) (8)04. 实验04.1. 实验设置0数据集我们在MS-COCO2017数据集上训练和验证我们的方法。我们在train2017数据集上训练我们的模型，其中包含约115K个标注图像，并在val2017数据集上验证我们的方法，其中包含5K个图像。我们还在test-dev2017上报告我们的模型与其他检测器的性能比较。多任务训练我们最终的目标函数是0其中L det和Loff的定义与CornerNet相同。我们将α设置为0.05，因为我们发现较大的α会降低性能。0网络。与CornerNet一样，当我们使用Hourglass-104作为骨干网络时，我们会添加中间监督。然而，对于实例分割掩码，我们只使用骨干网络最后一层的特征来获取候选框并计算L mask。0实现细节我们使用16个32GB的NVIDIA V100GPU训练我们的模型，批量大小为96（每个GPU上的6个图像），并使用Adam优化器，初始学习率为0.0005。为了与其他最先进模型进行比较，我们训练了210个epoch，并在第180个epoch时将学习率降低10倍。在消融研究中，我们使用Hourglass-52作为骨干，并训练了110个epoch，在第90个epoch时降低学习率（如果没有指定）。在训练过程中，我们随机裁剪输入图像并将其调整为511×511的大小，还应用了一些常见的数据增强技术，如颜色抖动和亮度抖动。在测试过程中，我们保持输入图像的分辨率，并在将其输入网络之前用零填充。我们默认使用翻转增强，并在MS-COCOtest-dev2017上报告单尺度和多尺度的测试结果。为了获取角点，我们遵循CornerNet的步骤。我们首先对预测的角点热图应用softmax和3×3最大池化，选择得分最高的100个左上角点和100个右下角点，然后使用预测的局部偏移量对它们的位置进行微调。接下来，我们可以按照第3.2节中描述的方式对角点对进行分组和重新评分。具体而言，对于面积大于3500的边界框，我们将µ设置为1/2.1，对于其他边界框，我们将µ设置为1/2.4。最后，我们应用软NMS，然后保留剩余边界框中得分高于0的前100个结果。04.2. 与最先进模型的比较0目标检测如表1所示，使用Hourglass-104作为骨干网络的CentripetalNet在MS-COCO test-dev2017上单尺度的AP为46.1%，多尺度的AP为48.0%，是所有无锚点检测器中表现最好的。与第二好的无锚点检测器CenterNet（Hourglass-104）相比，我们的模型在单尺度和多尺度上分别提高了1.2%和1.0%的AP。与CenterNet相比，CentripetalNet的改进来自于大型和中型物体的检测，这正是CenterNet的弱点，因为从概率的角度来看，大型物体的中心点比小型物体更难定位。与两阶段检测器（无集成）相比，我们的模型具有竞争力，因为其性能接近TridentNet[18]的最先进AP48.4%。此外，如表2所示，CentripetalNet的AR指标在所有尺寸的物体上均优于其他无锚点检测器。我们认为CentripetalNet的召回优势在于两个方面。首先，基于离心位移的角点匹配策略可以消除许多高得分的误检。CentripetalNet w.o/mask(single-scale)Hourglass-10445.863.049.325.048.258.7CentripetalNet w.o/mask(multi-scale)Hourglass-10447.865.051.528.950.259.4CentripetalNet(single-scale)Hourglass-10446.163.149.725.348.759.2CentripetalNet(multi-scale)Hourglass-10448.065.151.829.050.459.9MethodAR1 AR10 AR100ARSARM ARLCornerNet511-104 [17]36.455.760.038.562.777.4CenterNet511-104 [7]37.560.364.845.168.379.7CentripetalNet-10437.763.968.748.871.984.0105240方法骨干 AP AP 50 AP 75 AP S AP M AP L0两阶段：Faster R-CNN w/FPN [21] ResNet-101 [13] 36.2 59.1 39.0 18.2 39.0 48.2 Mask R-CNN [11] ResNeXt-101 39.8 62.343.4 22.1 43.2 51.2 HTC [2] ResNeXt-101 47.1 63.9 44.7 22.8 43.9 54.6 PANet(多尺度) [24] ResNeXt-101 47.4 67.2 51.8 30.151.7 60.0 TridentNet(多尺度) [18] ResNet-101-DCN 48.4 69.7 53.5 31.8 51.3 60.30单阶段基于锚点：SSD513 [25] ResNet-101 31.2 50.4 33.3 10.2 34.5 49.8 YOLOv3 [29] DarkNet-53 33.0 57.9 34.4 18.3 35.441.9 RetinaNet800 [22] ResNet-101 39.1 59.1 42.3 21.8 42.7 50.20单阶段无锚点：ExtremeNet(single-scale) [42] Hourglass-104 40.2 55.5 43.2 20.4 43.2 53.1 CornerNet511(multi-scale) [17]Hourglass-104 42.1 57.8 45.3 20.8 44.8 56.7 FCOS [31] ResNeXt-101 42.1 62.1 45.2 25.6 44.9 52.0 ExtremeNet(multi-scale)[42] Hourglass-104 43.7 60.5 47.0 24.1 46.9 57.6 CenterNet511(single-scale) [7] Hourglass-104 44.9 62.4 48.1 25.6 47.457.4 RPDet(single-scale) [38] ResNet-101-DCN 45.0 66.1 49.0 26.6 48.6 57.5 RPDet(multi-scale) [38] ResNet-101-DCN 46.567.4 50.9 30.3 49.7 57.1 CenterNet511(multi-scale) [7] Hourglass-104 47.0 64.5 50.7 28.9 49.9 58.90表1. 在MS-COCO test-dev上的目标检测性能比较。0其次，我们的角点匹配策略不依赖于中心点检测，因此CentripetalNet可以保留那些在CenterNet中因为中心点漏检而被错误移除的正确边界框。0表2. 在MS-COCOtest-dev2017上进行多尺度测试的AR指标比较。实例分割在MS-COCOtest-dev2017上，如表3所示，我们的最佳模型在单尺度测试中达到了38.8%的AP，而具有ResNeXt-101-FPN的MaskR-CNN达到了37.5%的AP。ExtremeNet可以用于实例分割，配合另一个网络DEXTR，可以将极值点转换为实例掩码。然而，与相同的骨干网络相比，CentripetalNet的AP比ExtremeNet高出4.2%，并且可以通过掩码预测模块进行端到端训练。与排名靠前的方法相比，我们的模型在MaskAP方面达到了可比较的性能，为40.2%。04.3. 消融研究0Centripetal Shift为了验证我们提出的向心移位的有效性，我们基于之前基于角点的检测器（包括CornerNet和CenterNet）中使用的角点匹配方法进行了一系列实验。CornerNet使用关联嵌入来匹配角点0对于证明我们的向心移位的有效性，我们将CornerNet中的关联嵌入替换为我们的向心移位，并使用我们的匹配策略。为了公平起见，我们没有使用交叉星形可变卷积，并将关联嵌入的维度扩展到2，与我们的向心移位相同。如表4所示，我们基于向心移位的方法为CornerNet带来了很大的性能提升。由于向心移位编码了角点和中心之间的关系，直接回归到中心应该具有类似的效果。然而，在实现过程中，由于将角点从原始图像映射到热图时进行了舍入操作，偏移有时可能为负数，因此有时不可能将对数应用于热图上的角点与精确中心位置之间的偏移。我们将关联嵌入替换为中心回归，并发现它的性能比CornerNet要好，但仍然比我们的向心移位要差，如表4所示。CenterNet直接预测中心热图，并根据中心和关联嵌入来匹配角点。因此，我们将中心预测模块添加到CornerNet中，并使用CenterNet的匹配策略，但我们的方法仍然表现更好，特别是对于大物体。0交叉星形可变形卷积我们的交叉星形可变形卷积是一种特征适应方法。特征适应最近在基于锚点的检测器[35][5]中进行了研究，但我们的工作是第一个讨论该方法的。PolarMask [37]ResNeXt-10132.955.433.815.535.146.3ExtremeNet [42]+DEXTR [26]Hourglass-10434.654.936.616.636.552.0Mask R-CNN [11]ResNeXt-10137.160.039.416.939.953.5TensorMask [4]ResNet-10137.159.339.417.439.151.6MaskLab+ [3]ResNet-10137.359.839.619.140.550.6MS R-CNN [15]ResNeXt-101-DCN39.660.743.118.841.556.2HTC [2]ResNeXt-10141.2-----PANet(multi-scale) [24]ResNeXt-10142.065.145.722.444.758.1APAP50 AP75 APSAPMAPLDConvRoI ConvDConvAPAP50 AP75 APSAPMAPLRoI conv.41.158.543.422.943.455.5105250方法骨干网络 AP AP 50 AP 75 AP S AP M AP L0CentripetalNet（单尺度） Hourglass-104 38.8 60.4 41.7 19.8 41.3 51.3 CentripetalNet（多尺度） Hourglass-104 40.262.3 43.1 22.5 42.6 52.10表3. MS-COCO测试集上的实例分割性能比较。0联合嵌入（1D） 37.3 53.1 39.0 17.8 39.4 50.80联合嵌入（2D） 37.5 53.1 39.7 17.7 39.4 51.20中心预测 39.9 57.7 42.3 23.1 42.3 52.30中心回归 40.1 55.8 42.7 21.0 42.9 55.60向心位移 40.7 58.0 42.8 22.4 43.0 55.40表4.向心位移的影响（不包括交叉星形可变形卷积和掩膜头），与联合嵌入、中心回归和中心热图预测进行比较。0偏移场0预测的锚点/边界框0偏移场0引导偏移0(a) 可变形卷积 (b) RoI卷积 (c) 交叉星形可变形卷积0图5. 不同的特征适应方法。DConv表示可变形卷积。0用于无锚点检测器的主题。可变形卷积通常用于特征适应，而不同特征适应方法之间的主要区别在于如何获得可变形卷积的偏移场。引导锚定[35]从预测的锚定形状中学习偏移场，以使特征与图像中不同位置的不同锚定形状对齐。AlignDet[5]提出了一种更精确的特征适应方法，RoI卷积[5]，它计算可变形卷积的精确采样位置，如图5(b)所示。为了将RoI卷积与我们的特征适应方法进行比较，我们回归角落处边界框的宽度和高度，然后我们可以在角落池化的特征图上应用RoI卷积。如表5所示，我们的方法优于原始的可变形卷积和RoI卷积。这表明我们的交叉星形可变形卷积可以改进特征，以更好地预测向心位移。AlignDet证明了精确的RoI卷积优于从锚定形状中学习偏移场。然而，对于我们的模型，从引导位移中学习偏移场的效果比RoI卷积更好。0卷积。有两个可能的原因。首先，在角落池化之后，大量的信息被收集在边界框的边缘而不是边界框的内部。如图7所示，我们的交叉星形可变形卷积倾向于在边界框的边缘进行采样。因此，它具有更好的特征提取能力。其次，边界框宽度和高度的回归在角落位置不准确，因此RoI卷积的计算采样点不能与真实值很好地对齐。0无特征适应 40.7 58.0 42.8 22.4 43.0 55.40可变形卷积 40.8 58.2 43.2 23.1 42.7 54.90交叉星形可变形卷积 41.5 58.7 44.4 23.3 44.1 55.70表5.不同特征适应方法的比较。基础模型是没有特征适应和掩码头的CentripetalNet，然后我们分别添加不同的特征适应模块。0（a）（b）（c）0图7.不同特征适应方法的采样点。（a）标准可变形卷积。（b）RoI卷积。（c）交叉星形可变形卷积。0实例分割模块许多研究[11,8]已经证明实例分割任务可以提高基于锚点的检测器的性能。因此，我们按照第3.3节的描述添加了一个掩码预测模块。如表6所示，多任务学习在训练110个epoch时将我们模型的APbbox提高了0.3%，如果我们训练210个epoch的CentripetalNet，提高则为0.4%。我们发现掩码头对CornerNet的性能没有任何改善。这个结果表明，这种多任务学习对角点预测和关联嵌入预测几乎没有影响，但是有益于对边界框的预测。epochAPAP50 AP75 APSAPM APL105260图6. 上面三行分别显示了CornerNet、CenterNet和CentripetalNet的结果。当同一类别的相似物体高度集中时，CornerNet和CenterNet的表现不佳。然而，CentripetalNet可以处理这种情况。0CornerNet 110 37.3 53.1 39.0 17.8 39.4 50.80CornerNet带掩码 110 37.3 53.0 39.5 18.3 39.2 50.70没有掩码的CentripetalNet 110 41.5 58.7 44.4 23.3 44.1 55.70CentripetalNet 110 41.8 58.9 44.5 23.0 44.1 56.70没有掩码的CentripetalNet 210 41.7 59.0 44.4 23.3 44.4 56.10CentripetalNet 210 42.1 58.7 44.9 23.7 44.5 56.80表6.掩码预测模块对CornerNet和CentripetalNet的影响，两者均使用Hourglass-52作为骨干网络。0图8. CentripetalNet实例分割结果。0符合我们向心移位预测的预测。如图8所示，CentripetalNet可以生成精细的分割掩码。04.4. 定性分析0如图6所示，CentripetalNet成功地去除了CornerNet中错误的角点对。与CentripetalNet相比，CenterNet无法处理这种情况。0与CenterNet相比，CentripetalNet具有两个优势。首先，CentripetalNet不依赖于中心检测，因此可以保留正确的预测边界框，而CenterNet由于中心检测的缺失而错误删除了这些边界框。其次，CenterNet无法处理物体中心位于由另外两个物体的角点组成的框的中央区域的情况。这种情况通常发生在密集的情况下，比如人群。然而，如图6中的最后一张图片所示，在极端的长宽比下，向心偏移的预测变得困难，因此我们的模型可能表现不佳。05. 结论0在这项工作中，我们引入了简单而有效的向心移位方法来解决最近的无锚点检测器中的角点匹配问题。我们的方法通过位置和几何信息建立角点之间的关系，并克服了由于相似外观引起的关联嵌入的歧义性。此外，我们还为我们的检测器配备了一个实例分割模块，并首次使用无锚点检测器进行端到端实例分割。最后，对MS-COCO的最新性能证明了我们方法的优势。致谢：本工作得到了商汤科技有限公司、中国国家科技重大专项（2018ZX01028-101-001）、中国国家自然科学基金（61773307和61621003）以及中国国家重点研发计划（2016YFB1000902）的部分支持。105270参考文献0[1] Zhaowei Cai和NunoVasconcelos。级联R-CNN：深入研究高质量目标检测。在CVPR，2018年。[2] Kai Chen，Jiangmiao Pang，Jiaqi Wang，YuXiong，Xiaox- iao Li，Shuyang Sun，Wansen Feng，ZiweiLiu，Jianping Shi，WanliOuyang等。用于实例分割的混合任务级联。在CVPR，2019年。[3] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang和HartwigAdam。Masklab：通过改进具有语义和方向特征的目标检测进行实例分割。在CVPR，2018年。[4] Xinlei Chen，RossGirshick，Kaiming He和PiotrDoll´ar。Tensormask：用于密集目标分割的基础。arXiv预印本arXiv:1903.12174，2019年。[5] Yuntao Chen，ChenxiaHan，Naiyan Wang和ZhaoxiangZhang。重新审视一阶段目标检测的特征对齐。arXiv：计算机视觉和模式识别，2019年。[6] Jifeng Dai，Haozhi Qi，YuwenXiong，Yi Li，Guodong Zhang，Han Hu和YichenWei。可变形卷积网络。在ICCV，2017年。[7] KaiwenDuan，Song Bai，Lingxi Xie，Honggang Qi，Qing- mingHuang和QiTian。Centernet：用于目标检测的关键点三元组。arXiv预印本arXiv:1904.08189，2019年。[8] Chengyang Fu，MykhailoShvets和Alexander CBerg。Retinamask：学习预测掩码改进了最先进的单次检测。arXiv：计算机视觉和模式识别，2019年。[9] RossGirshick。快速R-CNN。在ICCV，2015年。[10] RossGirshick，Jeff Donahue，Trevor Darrell和JitendraMalik。用于准确目标检测和语义分割的丰富特征层次结构。在CVPR，2014年。[11] K. He，G. Gkioxari，P. Dollar和R.Girshick。掩码R-CNN。IEEE模式分析

下载后可阅读完整内容，剩余1页未读，立即下载