基于极值点和中心点分组的对象检测方法简介

201 浏览量更新于2023-10-18 收藏 1.56MB PDF 举报

自上而下方法

对象检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于极值点和中心点分组的自德州大学奥斯汀分校zhouxy@cs.utexas.edu嘉诚卓UT奥斯汀jzhuo@cs.utexas.eduPhilippKraühenbuühlUT Austinphilkr@cs.utexas.edu摘要随着深度学习的出现，对象检测从自下而上转变为自上而下的识别问题。最先进的算法列举了对象位置的近乎详尽的列表，并将每个位置分类为：反对与否。在本文中，我们表明，自底向上的方法仍然表现出竞争力。我们使用标准的关键点估计网络检测四个极端点（最顶部，如果五个关键点在几何上对齐，我们将它们分组到一个边界框中。然后，对象检测是纯粹基于外观的关键点估计问题，而没有区域分类或隐式特征学习。所提出的方法与现有技术的基于区域的检测方法执行相同，边界框AP为43。COCO测试开发7%此外，我们估计的极端点直接跨越粗糙的八角形掩模，COCO掩模AP为18。9%，比香草边界框的MaskAP好得多。极值点引导分割进一步将其提高到34。6%掩蔽AP。1. 介绍自上而下的方法多年来一直主导着对象检测。流行检测器通过显式裁剪区域[12]或区域特征[11，41]（两阶段对象检测）或隐式设置区域代理的固定大小锚[25，28，38]（一阶段对象检测）将对象检测转换为矩形区域分类。然而，自上而下的检测并非没有限制。矩形边界框不是自然的对象表示。大多数对象都不是轴对齐的框，将它们放入框中会包含许多分散注意力的背景像素（图1）。①的人。此外，自上而下的对象检测器在没有真正理解对象本身的组成视觉语法[9，13]的情况下这在计算上是昂贵的。最后，盒子是对象本身的坏代理它们几乎不传达详细的对象信息，例如，物体形状和姿态。图1：我们建议通过找到它们的极值点来检测对象。它们直接形成一个边界框，但也给出了一个更紧密的对象的八边形近似。在本文中，我们提出了ExtremeNet，一个自下而上的对象检测框架，检测对象的四个极端点（最顶部，最左边，最底部，最右边）。我们使用最先进的关键点估计框架[3，5，30，31，49]通过预测每个对象类别的四个多峰热图来找到极值点此外，我们使用每个类别的一个热图来预测对象中心，作为x和y维度上两个边界框边缘的平均值。我们用纯粹基于几何的方法将极端点分组为对象。我们将四个极端点分组，每个地图一个，当且仅当它们的几何中心在中心热图中预测的分数高于预定义的阈值时。我们列举了所有O（n4）的极值点预测组合，并选择有效的组合.极值点预测的数量n通常很小，对于COCO [26]n 40，在GPU上实现的暴力算法就足够了。图2显示了所提出的方法的概述。我们不是第一个使用深度关键点预测的人用于物体检测。CornerNet [22]预测边界框的两个对角。他们使用关联嵌入特征将角点分组到边界框中[30]。我们的方法在两个关键方面有所不同：关键-850851提取峰枚举峰组合查看中心热图分数几何中心低中心得分：高中心评分：接受图2：我们的对象检测方法的说明。网络预测四个极端点热图（顶部。关于我们到DEXTR [29]导致接近最先进的实例分割结果。我们提出的方法实现了43的边界框AP。COCO测试开发的7%，优于所有报告的一级物体探测器[22，25，40，52]，与先进的两级探测器相当。Pascal VOC[8，14]预训练的DEXTR [29]模型产生的Mask AP为34。6%，不使用任何COCO掩码注释。代码可在https://github.com/xingyizhou/ExtremeNet上获得。2. 相关工作两阶段对象检测器Region-CNN系列[11，12，15，16，41]将对象检测视为两个顺序问题：首先提出一组（大的）类别不可知的边界框候选，裁剪它们，并使用图像分类模块对裁剪的区域或区域特征进行分类。R-CNN [12]使用选择性搜索[47]来显示了覆盖在输入图像上的热图）和每个类别的一个中心热图（左下行）。我们列举了四个极端点热图的峰值组合（左中），并计算了组合边界框的几何中心（右中）。当且仅当边界框的几何中心在中心热图（右下）中具有高响应时，才会产生边界框点定义和分组。角是边界框的另一种形式，并且遭受自顶向下检测所遭受的许多问题。角通常位于对象外部，没有明显的外观特征。另一方面，极端点位于对象上，在视觉上是可区分的，并且具有一致的局部外观特征。例如，人的最高点通常是头部，而汽车或飞机的最低点将是车轮。这使得极值点检测更容易。与CornerNet的第二个区别我们的检测框架是完全基于外观的，没有任何隐式特征学习。在我们的实验中，基于外观的分组效果明显更好。我们的想法是由Papadopoulos等人。[33]，他建议通过单击四个极端点来注释边界框。这种注释的收集速度大约是边界框的四倍极端点也有一个密切的联系，对象面具。直接连接膨胀的极端点提供了比边界框更细粒度的对象遮罩。在我们的实验中，我们表明，拟合一个简单的八角形的极端点产生一个很好的对象掩模估计。我们的方法可以进一步与Deep Extreme Cut（DEXTR）[29]结合使用，后者将极值点符号转换为指定对象的分割掩码直接将我们的极值点预测作为指导生成区域建议并将其馈送到ImageNet分类网络。SPP[16]和Fast RCNN [11]首先通过卷积网络馈送图像，并裁剪中间特征图以减少计算。更快的RCNN [41]进一步用区域建议网络取代区域建议[47]。分类检测的想法是直观的，并且保持了迄今为止的最佳性能[6，7，19，20，24，27，37，45，46，54]。我们的方法不需要区域建议或区域分类。我们认为，一个区域是不是一个必要的组成部分，在对象检测。用四个端点表示对象也很有效，并提供与边界框一样多的信息。单级物体探测器单级物体探测器检测器[22，25，28，38，39，42，48]没有区域裁剪模块。它们可以被认为是类别特定的区域或锚提案网络，并直接分配一个类标签到每个积极的锚。SSD [10，28]在不同的网络层中使用不同的尺度锚点YOLOv2 [39]学习锚形状先验。RetinaNet [25]提出了一种焦点损失来平衡正锚和负锚之间的训练贡献。Refinedet [52]学会早期拒绝负面锚点。设计良好的单级物体检测器在更高的效率下实现与两级物体检测器非常接近的性能。我们的方法属于单阶段检测器类别。然而，而不是在O（h2w2）空间中设置锚，我们在O（hw）空间中检测边界框的五个单独部分（四个端点和而不是在每个像素位置设置默认的比例或纵横比作为锚，我们只预测该位置是关键点的概率我们的中心图也可以被看作是一个没有边界框回归的比例和长宽比不可知的区域建议网络。可变形零件模型作为自底向上的对象检测左侧热图顶部热图底部热图右侧热图852顶部热图左热图底部热图右热图中心热图沙漏网络4 x 2 x H x W偏移地图4 x C x H x W极端点热图C x H x W中心热图图3：我们的框架的说明我们的网络将图像作为输入，并生成四个C通道热图，一个C通道热图和四个2通道类别不可知偏移图。热图通过加权像素逻辑回归进行训练偏移映射使用在地面真实峰值位置应用的平滑L1损失进行训练。的方法，我们的分组中心和极值点的想法是与可变形零件模型[9]。我们的中心点检测器的功能类似于根过滤器[9]，我们的四个极值点可以被认为是所有类别的通用部分分解我们预测的中心和四个极值点具有固定的几何结构，而不是学习零件配置我们使用最先进的关键点检测网络，而不是低级别的图像过滤器进行部分检测。自底向上人体姿态估计中关键点的确定是自底向上多人姿态估计中的一个重要组成部分。有多种解决方案：Newell等人[30]建议学习每个关键点的关联特征点击通常不准确，需要多次调整。整个过程需要34。平均5秒[44]。 Papadopoulos et al.[33]建议，通过单击四个端点（x（t），y（t）），（x（l），y（l）），（x（b），y（b）），（x（r），y（r））来指定边界框，其中框为（x（l），y（t），x（r），y（b））。极值点是这样一个点（x（a），y（a）），使得物体上没有其他点（x，y）沿着四个基本方向a（上、下、左、右）之一更远。极端点击注释时间平均为7.2秒[33]。结果注释与更耗时的box注释相当。在这里，我们直接使用极端点击注释并绕过边界框。我们还使用每个中心点对象为（x（l）+x（r），y（t）+y（b））。2 2其使用嵌入损失来训练Cao等人[3]第一章学习类似于连接的关键点之间的边缘的亲和场。帕潘德里欧等[34]学习到人类骨骼树上的父关节的位移，每个关键点的2D特征。Nie等[32]还学习一个特征作为相对于对象中心的偏移。与上述所有方法相比，我们的中心分组是纯粹基于外观的，并且易于学习，通过利用极值点及其中心的几何结构。隐式关键点检测流行的关键点检测方法对定义明确的语义关键点起作用，例如，人体关节StarMap [53]使用单个热图混合所有类型的关键点进行一般关键点检测。我们的极值点和中心点就是这样一种一般的隐式关键点，但具有更明确的几何属性。关键点估计，例如，人体关节估计[3，5，15，30，49]或椅子角点估计[36，53]通常使用完全卷积的编码器-解码器网络来预测多通道热图，每种类型的关键点（例如，一个热图用于人类头部，另一个热图用于人类手腕）。该网络以完全监督的方式进行训练，要么对渲染高斯图进行L2损失[3，5，30，49]，要么使用每像素逻辑回归损失[22，34，35]。最先进的关键点估计网络，例如，104层HourglassNet [22，31]，以完全卷积的方式训练它们回归到宽度W和高度H的热图Y=2（0，1）H×W，3. 预赛极值点和中心点让（x（tl），y（tl），x（br），y（br））表示边界框的四条边。敬...对于边界框，用户通常点击左上角（x（t1 ），y（t1 ））和右下角（x（br ），y（br））。由于这两个点都位于物体的外部每个输出通道。训练由多峰高斯热图Y2（0，1）H×W指导，其中每个关键点定义高斯核的均值标准devia-或以其量，或以其量。高斯热图在L2损失情况下用作回归目标，或者在逻辑回归情况下用作权重图以减少正位置附近的惩罚[22]。顶部偏移左偏移底部偏移右偏移853ij ijij ijcx，c yCornerNetCornerNet [22]使用HourglassNet [31]作为对象检测器的关键点估计。他们预测了盒子对角的两组热图。为了平衡正负位置，他们使用修改的焦点损失[25]进行训练：算法1：中心线输入：一个类别的图像的中心和极值热图：Y（c），Y（t），Y（l），Y（b），Y（r）∈（0，1）H×W中心和峰值选择阈值：τc和τp输出：带分数的//将热图转换为关键点的坐标//T，L，B，R是点的集合Ldet=-1X高X宽（1-Y））αlog（Yij）如果Yij=1、（1）T←ExtractPeak（Y（t），τp）L←ExtractPeak（Y（l），τp）N（1-Y）β（Y）αlo g（1-Y）o. W.i=1j=1其中，和是超参数，并且在训练期间固定为= 2和=4N是图像中对象的数量。对于极端点的亚像素精度，CornerNet还回归到与类别无关的关键点偏移B←ExtractPeak（Y（b），τp）R←ExtractPeak（Y（r），τp）对于t∈ T，l∈ L，b∈ B，r∈R，//如果边界框有效如果ty≤ly，ry≤by且lx≤tx，bx≤rx，则//计算几何中心cx<$（l x+r x）/2c y<$（t y+by）/2//如果检测A.每个角落。这种回归恢复了部分（c）cx，cy≥τc，则在沙漏网络的下采样中丢失的信息添加带有分数的边界框（lx，ty，rx，by）工作偏移映射使用平滑L1 Loss进行训练[11]SL1地面实况极值点位置：XN端端端（t）tx，ty（l）lx，ly（b）bx，by（r）rx，ry（c）cx，cy）/5.Loff1= Nk=1SL1（n（a），~x/s-b~x/sc），（2）4.1. 中心广场其中s是下采样因子（对于沙漏，s= 4Net），~x是k∈y点的坐标CornerNet然后使用关联嵌入将对角分组到检测中[30]。我们的极值点估计使用CornerNet架构和损失，但不使用关联嵌入。Deep ExtremeCut（DEXTR）[29] 一种极值点引导的图像分割方法。它需要四个极端点和裁剪的图像区域周围的边界框跨越的极端点作为输入。由此，它使用Chen等人的语义分割网络产生所指示对象的类别不可知的前台分割。[4]的文件。网络学习生成与输入极值点匹配的分割掩码端点位于对象的不同侧面。这使分组复杂化。例如，关联嵌入[30]可能没有足够的全局视图来对这些关键点进行分组。在这里，我们采取了一种不同的方法，利用极端点的扩散性质。我们的分组算法的输入是每个类五个热图：一个中心热图Y（c）2（0，1）H×W和四个分别用于顶部、左侧、底部、右侧的外部热图Y （t）、Y（l）、Y（b）、Y（r）2（0，1）H×W给定一个热图，我们通过检测所有峰值来提取对应的关键点。峰值是具有大于1 μp的值的nypixel位置，其在围绕像素的3μ3我们将此过程命名为ExtrectPeak。给定从热图Y（t）、Y（l）、Y（b）、Y（r）中提取的四个极值点t、b、r、l，我们计算它们的几何网络，中心c=（lx+tx，ty+by）。如果预测2 24. ExtremeNet用于目标检测ExtremeNet使用HourglassNet [31]来检测每个类的五个关键点（四个极端点和一个中心）。我们遵循CornerNet的训练设置，损失和偏移预测[22]。偏移预测是类别不可知的，但特定于极值点没有偏移预测，中心地图。因此，我们的网络的输出是5C热图和42偏移图，其中 C 是类的数量（ MS COCO 的 C=80[26]）。图3示出了概况.一旦提取了极值点，我们就以纯粹的几何方式将它们分组到检测中。在中心地图Y（c）中具有高响应，我们提交作为有效检测的极端点：Y（c）≥100c为阈值100c。然后，我们以蛮力方式对k个点t、b、r、l的所有四元组我们提取检测结果每个班级都独立。算法1总结了这一过程。我们设置Ep=0。1，且εc=0。在所有实验中均为1。这种暴力分组算法的运行时间为O（n4），其中n是每个基本方向提取的极值点的数量。补充材料提出了一个O（n2）的算法，在纸上更快。然而，在GPU上加速更困难，在MS COCO数据集的实践中更慢，其中n为 40。如果Y（Y+Y+Y+Y+Y854i0−1我xy我增加分数，并在沿聚集方向的局部极小处停止聚集。具体来说，让M是极值点且N（m）=Y<$m+i，m是垂直或水平线段。设i00，<0i1是两个最接近的局部最小值N（m）<> N（m）0N（m）N（m）。< 边聚合更新密钥-i1i 1+1P得分为Ym 为 Ym+λaggri1i=i0N（m），其中(a) 原始热图。（b）边缘聚合之后。图4：边聚合的目的说明。在多个点是一个边缘上的极值点的情况下，我们的模型预测了一段低置信度的响应（a）。边缘聚合增强了中间像素（b）的置信度4.2. 鬼盒抑制中心分组可以给出对于相同大小的三个等距共线对象的高置信度假阳性检测。中心对象在这里有两个选择，提交到正确的小盒子，或者预测一个包含其邻居极值点的大得多的盒子。我们称这些假阳性检测为“幽灵”盒子。正如我们我们提出了一个简单的后处理步骤来删除鬼盒。根据定义，鬼盒包含许多其他较小的检测。为了阻止鬼盒，我们使用一种软非最大值抑制形式[1]。如果包含在某个边界框中的所有框的得分之和超过自身得分的3倍，则将其得分除以二、这种非最大值抑制类似于标准的基于虚反射的非最大值抑制，但是惩罚潜在的虚盒而不是多个重叠盒。4.3. 边缘聚合极值点并不总是唯一定义的。如果对象的垂直或水平边缘形成极值点（例如，汽车的顶部）沿着该边缘的任何点都可以被认为是端点。因此，我们的网络沿着对象的任何对齐边缘产生弱响应，而不是单个强峰值响应。这种微弱的响应有两个问题：首先，较弱的响应可能低于我们的峰值选择阈值，并且我们将完全错过极值点。其次，即使我们检测到关键点，它的分数也会低于具有强峰值响应的轻微旋转对象。我们使用边缘聚合来解决这个问题。对于每个极值点，提取为局部最大值，我们aggr-门在垂直方向上的得分，左和右极值点，或水平方向，顶部和底部的关键点。我们把所有单调的-λaggr是聚合权重。在实验中，我们设置λaggr= 0。1.一、示例见图44.4. 极端实例分割极值点比简单的边界框携带更多关于对象的信息，注释值至少是其两倍（8 vs 4）。我们提出了一个简单的方法来近似的对象掩模使用极端点创建一个八边形的边缘是中心的极端点。具体地说，对于一个极值点，我们在其对应的边缘上将其在两个方向上延伸到整个边缘长度的1/4。线段在与角相交时被截断。然后，我们将四个线段的端点连接起来，形成八角形。参见图1的示例。为了进一步改进边界框分割，我们使用深度极端切割（DEXTR）[29]，这是一种经过训练的深度网络，可将手动提供的极值点转换为实例分割掩码。在这项工作中，我们简单地用我们的极值点预测替换DEXTR[29]的手动输入，以执行2阶段实例分割。具体来说，对于我们预测的每个边界框，，我们裁剪边界框区域，用我们预测的极值点渲染高斯图，然后将关联的图像馈送到预训练的DEXTR模型。DEXTR [29]是类不可知的，因此我们直接使用ExtremeNet检测到的类不使用进一步的后处理。5. 实验我们在流行的MS COCO数据集上评估了我们的方法[26]。COCO包含丰富的边界框和实例分割注释80个类别。我们在train2017 split上训练，其中包含118k图像和860k注释对象。我们对val2017分割进行了所有消融研究，其中包含5k图像和36k对象，并与包含20k图像的测试开发分割的先前工作进行了比较。主要评估指标是固定召回阈值密集集上的平均精度。我们在IOU 阈值 0 处显示了平均精度。 5 （ AP50 ）， 0. 75（AP75），并且在0. 5和1（AP）。我们还报告了小、中、大物体的AP（APS、APM、APL）。测试评估在官方评估服务器上完成。定性结果见表。4，可以在补充材料中找到更多。我8555.1. 极端点标注COCO中没有直接的极值点注释[26]。然而，有完整的注释对象分割掩模。因此，我们在多边形掩模注释中找到极值点作为极值。的情况下OAP AP50AP75APSAPM一条边平行于一条轴或在一个3 角度，我们放置在边缘中心的端点。虽然我们的训练数据来自更昂贵的分割注释，但极端点数据本身的收集比标准边界框便宜4倍。5.2. 培训详情我们的实现基于CornerNet的公共实现[22]。我们严格遵循CornerNets的超参数：我们将输入分辨率设置为511×511输出分辨率为128×128。数据增强控制器在0. 6和1. 3、跑--DOM裁剪和随机颜色抖动。该网络使用Adam [21]进行优化，学习率为2。5e-4。Cor- nerNet [22]最初在10个GPU上进行了50万次训练，相当于超过140个GPU天。由于有限的GPU资源，自比较实验（Ta-布莱。1）是从预训练的CornerNet模型中微调的，该模型在5个GPU上随机初始化头部层，进行250k次迭代，批量大小为24。在200k迭代时，学习速率下降10kHz。最先进的比较实验是在5个GPU上从头开始训练500k迭代，学习率在450k迭代时下降。5.3. 试验详细信息对于每个输入图像，我们的网络为极端点生成四个C通道热图，为中心点生成一个C通道热图，以及四个2通道偏移图。我们应用边缘聚合（第节。4.3）到每个极端点热图，并将中心热图乘以2以校正整体尺度变化。然后，我们应用center- ter分组算法（第。4.1.热图。ExtrectPeak中最多提取40个顶点，以保持枚举效率。通过在偏移映射的对应位置处添加偏移来细化预测的边界框坐标在CornerNet [22]之后，我们保持原始图像分辨率，而不是将其调整为固定大小。我们使用翻转增强进行测试。在我们的主要比较中，我们使用了额外的5μ m多尺度（0.5，0.75，1，1.25，1.5）增强。最后，Soft-NMS [1]过滤所有增强检测结果对一张图像的测试需要322毫秒（3.1FPS），其中网络转发168毫秒，解码130毫秒，图像预处理和后处理（NMS）的休息时间。5.4. 消融研究中心线与关联嵌入我们的Ex-tremeNet也可以用关联嵌入来训练，表1：COCO val2017的消融研究和错误分析。我们在删除每个组件或将其替换为其基础事实后显示AP（%丁[30]类似于CornerNet [22]，而不是我们的几何中心点分组。我们尝试了这个想法，并用一个用铰链损失训练的四通道关联嵌入特征映射代替了中心映射[22]。表1示出了结果。我们观察到2。当使用相关嵌入时，AP下降1%。虽然关联嵌入对于人类姿势估计和CornerNet工作得很好，但我们的极端点位于对象的非常一侧。从其极端点的有利位置学习整个对象的身份和外观可能太难了。虽然它可能适用于小对象，其中整个对象很容易适应关键点的有效感受野，但它不适用于中型和大型对象，如表1所示。此外，极值点往往位于重叠对象之间的交点处，这进一步混淆了同一性特征。我们的几何分组方法优雅地处理了这些问题，因为它只需要对外观进行推理。边缘聚合边缘聚合（第4.3节）给出了0的适当AP改进。百分之七。它证明对于更大的对象更有效，这些对象更可能具有长轴对齐的边缘，而没有一个明确定义的极值点。去除边缘聚合将解码时间提高到76 ms，整体速度提高到4.1 FPS。我们简单的幽灵包围盒抑制（第4.2节）产生0。AP改善3%。这表明幽灵盒在MS COCO中不是一个重要的实际问题更复杂的假阳性去除算法，例如，学习NMS[18]，可能会产生稍微好一点的结果。错误分析为了更好地了解错误来自哪里以及我们的每个组件的性能如何40.3 55.143.7 21.6 44.0 56.1w/多尺度测试43.3 59.646.8 25.7 46.6 59.4无中心分组38.2 53.840.4 20.6 41.5 52.9无边缘聚合39.6 54.743.0 22.0 43.0 54.1无Ghost移除40.0 54.743.3 21.6 44.2 54.1w/ gt中心48.6 62.153.9 26.3 53.7 66.7w/ gt extreme56.3 67.260.0 40.9 62.0s 64.0w/ gt extreme + center 79.8 94.586.2 65.5 88.7九十五点五w/ gt ex. + CT. + 偏移86.094.091.3 73.4 95.7九十八点四856骨干输入分辨率AP AP50AP75APS APMAPL两级探测器更快的R-CNN w/ FPN[24]ResNet-1011000⇥ 60036.2 59.1 39.018.2 39.0 48.2可变形CNN [7]inception-ResNet1000⇥ 60037.5 58.0-19.4 40.1 52.5[51]第五十一话ResNet-1011000⇥ 60039.3 59.8-21.7 43.7 50.9[15]第十五话ResNeXt-1011333⇥ 80039.8 62.3 43.422.1 43.2 51.2[23]第二十三话ResNet-1011000⇥ 60041.5--25.2 45.3 53.1Cascade R-CNN [2]ResNet-1011333⇥ 80042.8 62.1 46.323.7 45.5 55.2D-RFCN + SNIP [43]DPN-981333⇥ 80045.7 67.3 51.129.3 48.8 57.1PANet [27]ResNeXt-1011000⇥ 60047.4 67.2 51.830.1 51.7 60.0单级探测器[39]第三十九话暗网-19544⇥ 54421.6 44.0 19.25.022.4 35.5[40]第四十话暗网-53608⇥ 60833.0 57.9 34.418.3 35.4 41.9SSD [28]ResNet-101513⇥ 51331.2 50.4 33.310.2 34.5 49.8DSSD [10]ResNet-101513⇥ 51333.2 53.3 35.213.0 35.4 51.1[25]第二十五话ResNet-1011333⇥ 80039.1 59.1 42.321.8 42.7 50.2[52]第五十二话ResNet-101512⇥ 51236.4 57.5 39.516.6 39.9 51.4[52]第ResNet-101512⇥ 51241.8 62.9 45.725.6 45.1 54.1[22]第二十二话沙漏-104511⇥ 51140.5 56.5 43.119.4 42.7 53.9[22]第二十二话沙漏-104511⇥ 51142.1 57.8 45.320.8 44.8 56.7ExtremeNet（SS）沙漏-104511⇥ 51140.2 55.5 43.220.4 43.2 53.1ExtremeNet（MS）沙漏-104511⇥ 51143.7 60.5 47.024.1 46.9 57.6表2：COCO测试开发的最新技术水平比较SS/ MS分别是单尺度/多尺度测试的缩写。这表明我们的ExtremeNet与最先进的基于区域的对象检测器不相上下。经过训练后，我们通过将每个输出组件替换为其基础事实来提供错误分析。表1示出了结果。单独的地面实况中心热图不会增加AP太多。这表明我们的中心热图训练得相当好，并表明隐式对象中心是可学习的。用地面实况替换极值点热图得到16。AP改善3%。当同时替换极值点热图和中心热图时，结果为79。8%，远高于更换其中一个。这是因为我们的中心分组在关键点位置上非常严格，并且高性能需要改善极端点热图和中心热图。添加地面实况偏移进一步将AP增加到86岁。0%。其余错误来自ghost box（第4.2节）。5.5. 最先进的比较表2将ExtremeNet与COCO test-dev上的其他最先进的方法进行了比较。我们的多尺度测试模型实现了43的AP。7，优于所有报道的一级物体检测器，并与流行的两级检测器相当。值得注意的是，它执行1。比CornerNet高6%在单尺度设置下，我们的性能为0。3%AP低于CornerNet [22]。然而，我们的方法对于小对象和中等对象具有比CornerNet更高的AP，已知的更具挑战性。对于更大的物体，我们的中心-AP AP50 AP75 APS APMBBox12.1 34.96.28.212.7 16.9我们的八角形18.9 44.513.7 10.4 20.4 28.3[29]第二十九话34.6 54.936.6 16.6 36.5 52.0面罩RCNN-50 [5]34.0 55.536.1 14.4 36.7 51.9面罩RCNN-10137.5 60.639.9 17.7 41.0 55.4表3：COCO val2017上的实例分割评估。结果显示在Mask AP中。因为几个像素的偏移可能会造成检测和假阴性之间的差异，所以TER响应图可能不够准确，无法很好地执行此外，请注意，我们使用一半数量的GPU来训练我们的模型。5.6. 实例分割最后，我们将有/没有DEXTR的实例分割结果[29]与表3中的其他基线进行了比较。作为虚拟基线，我们直接将矩形边界框内的所有像素指定为分割掩码。857极端点热图中心热图八角形遮罩极端点+DEXTR [29]表4：COCO val2017的定性结果。第一列和第二列：我们预测的（组合四个）极端点热图和中心热图。我们将它们叠加在输入图像上。我们用不同的颜色显示不同类别的热图。第三列：我们预测的边界框和由极端点形成的八边形掩码。第四列：将我们的极值点预测馈送到DEXTR的结果掩码[29]。我们的最佳模型的结果（43。3%边界框AP）为12。1%掩蔽AP。简单的八角形面具（第节。4.4）基于我们预测的极值点得到掩码AP为18。9%，比边界框基线好得多这表明这种简单的八边形掩模可以在不增加额外成本的情况下给出相对合理的对象掩模。请注意，直接使用四个端点的四边形会产生一个太小的掩码，具有较低的IoU。当与DEXTR [29]结合时，我们的方法实现了34的掩码AP。COCO val2017的6%。为了将这个结果放在上下文中，最先进的掩码RCNN [15]得到的掩码AP为37 。 5% ， ResNeXt-101-FPN [24 ， 50] 脊柱和 34.0%AP ， Res50-FPN 。考虑到我们的模型还没有在COCO分割注释或任何类特定分割上进行训练的事实，我们的结果与Res50 [17]和2. 低于ResNeXt-101的9%AP非常有竞争力。6. 结论总之，我们提出了一种新的目标检测框架，自底向上的极值点估计的基础上。我们的框架提取了四个极端点，并以纯粹的几何方式将它们分组。所提出的框架产生国家的最先进的检测结果，并产生竞争的MSCOCO实例分割结果，没有看到任何COCO训练实例分割。致谢我们感谢Chao-Yuan Wu、Dian Chen和Chia-WenCheng提供有用的反馈。858引用[1] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码软改进对象检测InICCV，2017.五、六[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。CVPR，2018年。7[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。第1、3条[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI，2018年。4[5] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR，2018年。第1、3条[6] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。2[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 二、七[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊2[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。PAMI，2010年。第1、3条[10] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C Berg. Dssd：解卷积单次激发探测器。arXiv预印本，2017年。二、七[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。一、二、四[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。一、二[13] Ross B Girshick ， Pedro F Felzenszwalb ，and David AMcalester.使用语法模型的对象检测NIPS，2011年。1[14] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓见ICCV，2011年。2[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 二三七八[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。2014年，在ECCV。2[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。8[18] Jan Hendrik Hosang，Rodrigo Benenson，and Bernt Schiele.学习非最大抑制。在CVPR，2017年。6[19] Jonathan Huang ， Vivek Rathod ， Chen Sun ， MenglongZhu ， Anoop Korattikara ， Alireza Fathi ， Ian Fischer ，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.速度/准确度859现代卷积对象检测器的折衷。在CVPR，2017年。2[20] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位置信度在ECCV，2018年9月。2[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2014年。6[22] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在ECCV，2018。一二三四六七[23] Zeming Li，Chao Peng，Gang Yu，Xiangyu Zhang，Yangdong Deng，and Jian Sun.光头R-CNN：为二级物体探测器辩护。arXiv预印本，2017年。7[24] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。二七八[25] Tsung-YiLin，Priyal Goyal，Ross Girshick，KaimingHe ， and PiotrDoll a'r. 密集目标检测的焦面损失。ICCV，2017年。一、二、四、七[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。一、四、五、六[27] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络。在CVPR，2018年。二、七[28] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。一、二、七[29] K.K. Maninis、S. Caelles，J. Pont-Tuset，and L.范古尔

下载后可阅读完整内容，剩余1页未读，立即下载