没有合适的资源?快使用搜索试试~ 我知道了~
6569hohorsreee马马CenterNet:用于目标检测的段凯文1段宋白2段凌溪3段洪刚1、4段黄清明1、4、5<$段齐天3<$1中国科学2华中科技大学3华为诺亚4中国科学院大学大数据挖掘与知识管理重点实验室5鹏程实验室duankaiwen17@mails.ucas.ac.cn{songbai.site,198808xc}@ gmail.com{hgqi,qmhuang}@ ucas.ac.cnhuawei.com摘要在对象检测中,基于关键点的方法通常会遇到大量不正确的对象边界框的缺点本文提出了一种有效的解决方案,探索在个别裁剪区域的视觉模式,我们的框架建立在一个代表性的一阶段基于关键点的检测器名为CornerNet。我们的方法,名为中心网络,检测每个对象作为一个三元组,而不是一对,关键点,这提高了精度和召回。相应地,我们设计了两个自定义模块,级联角落池和中心池,丰富了左上角和右下角收集的信息,并提供了更多来自中心区域的可识别信息在MS-COCO数据集上,CenterNet实现了47.0%的AP,比所有现有的一级检测器至少高出4.9%。此外,与排名靠前的两阶段检测器相比,中心网络具有更快的推断 速 度 , 代 码 可 在 https://github.com/Duankaiwen/CenterNet上获得。1. 介绍在深度学习的帮助下,对象检测得到了显著改善,特别是卷积神经网络[12](CNN)。在当今时代,最流行的流程图之一,基于锚的流程图[11,13,28,32,34],在图像上放置一组具有预定义大小的矩形这些方法通常需要大量的锚点,以确保与地面实况对象的足够高的IoU(交集)率,以及每个对象的大小和纵横比本作品是第一作者在华为诺亚方舟实验室实习时完成的。†黄庆明和齐田分别是纸,分别。图1:在第一行中,我们可视化了CornerNet的前100个绑定框(根据MS-COCO数据集标准)。地面实况和预测对象分别以蓝色和红色标记。在第二行中,我们展示了正确的预测可以通过检查方框的中心部分来确定。必须手动设置锚点。此外,锚点和卷积特征通常未对齐,这不利于边界框分类任务。为了克服基于锚点的方法的缺点,提出了一种名为Corner-Net[21]的该流水线使用一对角关键点表示每个对象,这绕过了对锚框的需要,并实现了最先进的一级对象检测精度。尽管如此,CornerNet的性能仍然受到其引用对象全局信息的能力相对较弱的限制。也就是说,由于每个对象是由一对角构造的,所以算法灵敏地检测对象的边界,而不知道哪些关键点对应该被分组到对象中。因此,如图1所示,CornerNet经常生成不正确的边界框,其中大部分可以很容易地用一些补充信息过滤掉,例如。即纵横比。为了解决这个问题,我们为CornerNet配备了以下功能:盆栽植物pottpteodtpeldanptlant盆栽植物盆栽盆栽人盆栽盆栽盆栽盆栽PPPP盆栽盆栽盆栽花瓶盆栽花瓶brocbcroolcicoli胡 萝 卜西 兰 花西 兰 花西 兰 花西 兰 花西 兰 花胡 萝 卜西 兰 花bbrooccccooli li西 兰 花西 兰 花胡 萝 卜西 兰 花西兰 花西 兰 花cabrrotccoli西 兰 花西 兰 花brborcoccocloilibrooccccooliiBRBORCCLIO L西 兰 花西兰花broccolibrobcrcooclcioli西 兰 花6570能够感知每个建议区域内的视觉模式,使其能够自己识别每个绑定框的正确性。 在本文中,我们提出了一个低成本但有效的解决方案命名为CenterNet,它探讨了一个建议的中心部分,即。,靠近长方体几何中心的区域,具有一个额外的关键点。我们认为,如果预测的边界框与地面实况框具有高IoU,则边界框的中心区域中的中心关键点将被预测为相同类的概率高,反之亦然。因此,在推断期间,在将提议生成为一对角关键点之后,我们通过检查是否存在落入其中心区域内如图1所示,其思想是使用三个关键点而不是一对关键点来表示每个对象。相应地,为了提高中心点和角点的检测,我们分别提出了两种增强中心点和角点信息的策略第一种策略是中心池化,它在分支中用于预测中心关键点。 中心汇集帮助中心的关键-点在对象内获得更多可识别的视觉模式,这使得更容易感知提案的中心部分。我们通过在中心关键点预测的特征图上获得中心关键点的水平和垂直方向上的最大总和响应来实现这一点。第二种策略是级联角池,它使原始角池模块[21]具有感知内部信息的能力。我们实现这一点,通过获得最大的总和响应的边界和内部方向上的ob-objective角点预测的特征图。通过实例验证了这种双向池化方法的稳定性。,对特征级噪声具有更强的鲁棒性,这将有助于提高查准率和查全率。我 们在 MS-COCO 数 据集 [26]上 评估 了 所提 出 的CenterNet,这是大规模对象检测的最受欢迎的基准之一CenterNet结合了中心池化和级联角池化,四十七0%的测试开发集,性能优于所有现有的一级检测器的大幅度。平均推断每幅图像使用52层沙漏骨干[30]的时间为270 ms,每幅图 像 使 用 104 层 沙 漏 骨 干 [30] 的 时 间 为 340 ms ,CenterNet非常高效,但与其他两级检测器的最新性能非常接近。2. 相关工作目标检测包括目标的定位和分类。在深度学习时代,由深度卷积神经网络提供动力,对象检测方法可以大致分为两种主要类型的流水线,即两阶段方法和一阶段方法。两阶段方法将对象检测任务分为两个阶段:提取感兴趣区域(Region of Interesting),然后对感兴趣区域进行分类和回归。R-CNN [12]使用选择性搜索方法[45]来定位输入图像中的RoI,并使用基于DCN的区域分类器来独立地对RoI进行分类。SPP-Net [14]和Fast-RCNN [11]通过从特征图中提取RoI来改进R-CNN。Faster-RCNN [34]允许通过引入RPN(区域建议网络)进行端到端的RPN可以通过回归锚框来生成ROI。后来,锚框被广泛用于目标检测任务。Mask-RCNN [13]在Faster-RCNN上添加了一个掩码预测分支,从而可以同时检测对象R-FCN [6]用位置敏感的分数图取代了完全连接的层,以提高对象的检测。Cascade R-CNN [4]通过训练具有增加IoU阈值的检测器序列来解决训练时的过拟合和推断时的质量失配问题。提出了基于关键点的对象检测方法[43,29,50,49],以避免使用锚框和边界框回归的缺点其他有意义的工作提出了不同的问题,在目标检测,[52,22]关注架构设计,[1,10,37,47]关注上下文关系,[23,3]关注多尺度统一。一阶段方法去除了RoI提取过程,并直接对候选锚框进行分类和YOLO [32]使用的锚框比其他ap更少,处理(将输入图像划分为S× S网格)以执行回归和分类。YOLOv2 [33]通过使用更多锚框和新的包围盒回归方法。SSD [28]在输入图像上密集地放置锚盒,并使用来自不同卷积层的特征对锚盒进行回归和分类。DSSD [9]在SSD中引入了一个去卷积模块,以结合低级和高级特征。而R-SSD [18]在不同的特征层中使用池化和去卷积操作来组合低级和高级特征。RON [20]提出了一种反向连接和一种有效提取多尺度特征之前的对象性。Refinedet [48]两次细化锚框的位置和大小CornerNet [21]是另一种基于关键点的方法,它直接使用一对角来检测对象。虽然CornerNet实现了高性能,但仍有改进的空间。3. 我们的方法3.1. 基线和动机本文使用CornerNet [21]作为基线。为了检测角点,CornerNet生成两个热图:6571BACKB一号嵌入和偏移偏移图2:CenterNet的体系结构卷积骨干网络应用级联角池化和中心池化,分别输出两个角热图和一个中心关键点热图类似于CornerNet,一对检测到的角点和类似的嵌入被用于检测潜在的边界框。然后使用检测到的中心关键点来确定最终的边界框。方法FDFD5FD25FD50FDSFDMFDLCornerNet37.832.736.843.860.333.225.1表1:CornerNet的错误发现率(%)。错误发现率反映了不正确绑定框的分布。结果表明,不正确的包围盒占所有包围盒的很大比例。更 大 的 边 界 框 造 成 这 种 结 果 的 一 个 可 能 原 因 是CornerNet无法评估边界框内的区域使Corner-Net [21]感知边界框中的视觉模式的一种潜在方法是然而,这样的范例被称为计算-左上角的热图和右下角的热图。热图表示不同类别的关键点的位置,并为每个关键点分配此外,CornerNet还预测每个角的嵌入和一组偏移。嵌入用于识别两个角是否来自同一对象。偏移学习将来自热图的角重新映射到输入图像。 完成网站对象边界框、左上角和右下角根据以下公式从热图中选择:他们的分数。然后,计算一对角点的嵌入向量的距离,以确定成对的角点是否属于同一对象。如果距离小于阈值,则生成对象边界框。边界框被分配等于角点对的平均得分的置信度得分。在表1中,我们提供了角网的详细分析.我们在MS-COCO验证数据集上计算Cor- nerNet的FD1定量结果表明,即使在低IoU阈值,例如,CornerNet获得32分。IoU = 0时的FD率为7%。05.这意味着,32。每100个对象边界框中有7个的IoU低于0。用地面实况。小的错误绑定框的FD率,值为60。3%,甚至更高,1个FD=1−AP,其中AP表示IoU=[0. 05:0。05:0。5]在MS-COCO数据集上。此 外 ,FDi=1−APi,其中APi表示IoU=i/100时的平均精度 ,FDscale=1 − APscale,其中scale ={small,medium,large}表示对象的比例。非常昂贵。在 本 文 中 , 我 们 提 出 了 一 个 高 效 的 替 代 称 为CenterNet探索每个边界框内的视觉模式。对于对象检测,我们的方法使用三个关键点,而不是一对关键点。通过这样做,我们的方法仍然保持了一个阶段的检测器,但部分继承了ROI池的功能。我们的方法只考虑中心信息,成本是最小的。此外,我们进一步引入视觉模式内的对象到关键点检测过程中,通过使用中心池和级联角池。3.2. 作为关键点三元组的目标检测整体网络架构如图2所示。我们用一个中心关键点和 一 对 角 点 来 表 示 每 个 对 象 具 体 来 说 , 我 们 在CornerNet的基础上为中心关键点嵌入了一个热图,并预测了偏离的关键点。中心关键点集。然后,我们使用CornerNet [21]中提出的方法来生成前k个边界框。然而,为了有效地过滤掉不正确的边界框,我们利用检测到的中心关键点并执行以下过程:(1)选择前k个中心关键点ac-根据他们的分数,(2)使用相应的偏移量,将这些中心关键点重新映射到输入图像;(3)为每个边界框定义中心区域,并检查中心区域是否包含中心关键点。请注意,选中的中心关键点的类标签应与边界框的类标签相同;(4)如果在中心区域中检测到中心关键点,则保留边界框。边界框的分数被三重点的平均分数代替,即,左上6572埃什基阿克斯n=3n=5y(一)(b)第(1)款(a)(b)(c)第(1)款图4:(a)中心合并在水平和垂直方向上取最大值。(b)角落池化图3:(a)n=3时的中心区域。 (b)Cen-当n=5时,实心矩形表示预测的边界框,阴影区域表示预测的边界框。可扩展的中心区域。角、右下角和中心关键点。如果在中心区域中没有检测到中心关键点,则将移除边界框。边界框中中心区域的大小影响检测结果。例如,小的中心区域导致小边界框的低召回率,而大的中心区域导致大边界框的低精度因此,我们提出了一个尺度感知的中心区域,以适应边界框的大小尺度感知的中心区域倾向于为小的边界框生成相对大的 让tlx和tly去-注意i和brx的左上角的坐标,bry表示i的右下角的坐标。定义中心区域j。设ctlx和ctly表示j的左上角的坐标,cbrx和cbry表示j的右下角的坐标。则tlx、tly、brx、bry、ctlx、ctly、cbrx和cbry应满足以下关系:仅取边界方向上的最大值。(c)级联角点池在对象的边界方向和内部方向上都取最大值。中心集中原则中心合并的详细过程如下:主干输出特征图,并且为了确定特征图中的像素是否是中心关键点,我们需要找到水平和垂直方向上的最大值,并且将这些值加在一起。通过这样做,中心池化有助于改进中心关键点的检测。级联角点池化。角点通常是外部对象,缺乏局部外观特征。CornerNet [21]使用角池来解决这个问题。角落汇集的原理如图4(b)所示。角点池化旨在找到边界方向上的最大值以确定角点。然而,这使得拐角对边缘敏感。为了解决这个问题,我们需要使角落,从对象的中心区域提取功能。图4(c)中给出了级联角池的原理级联角池首先沿着边界元查找最大边界值,然后沿着边界最大值的位置查找框内。ctlx=ctl=cbr=cbry=(n+ 1)tlx+(n−1)brx2n(n+ 1)tly+(n−1)bry2N(n−1)tlx+(n+1)brx2n(n−1)tly+(n+1)br y2N(一)mum值2,以找到内部最大值;最后将两个最大值相加。通过级联角点池化,角点同时获得物体的边界信息和视觉模式。中心池化和级联角池化都可以通过在不同方向上应用角池化[21]来容易地实现。图5(a)示出了其中n是奇数并且确定中心区域j的比例。在本文中,n被设置为3和5的边界框的规模小于和大于150,分别。图3分别示出了当n=3和n=5时的两个中心区域。根据等式(1),我们可以确定尺度感知中心区域,然后检查中心区域是否包含中心关键点。3.3. 丰富中心和角落信息中心合并。对象的几何中心并不总是传达非常可识别的视觉图案(例如,人的头部包含强烈的视觉图案,但是中心关键点通常在人体的中间)。为了解决这个问题,我们提出了中心池,以捕捉更丰富和更可识别的视觉模式。图4(a)示出了中心汇集模块。取一个最大值-具体方向,例如,在水平方向上,我们只需要依次连接左池和右池。图5(b)显示了级联顶角池化模块的结构,其中白色矩形表示3×3卷积,然后进行批量归一化。 相比对于CornerNet [21]中的顶角池,在顶角池之前添加了一个左上角池。3.4. 训练和推理训练我们的方法在Pytorch中实现[31],网络从头开始训练的分辨率2对于最上、最左、最下和最右的边界,分别垂直向下、水平向右、垂直向上和水平向左观察。MaxMaxMaxMax(tlx,tly)(ctlx,ctly)(cbrx, cbry)(brx,bry)(tlx,tl)(ctlx,ctly)(cbrx,cbry)(brx,bry)6573det拉det推det拉推关闭关闭中心合并模块级联顶角池模块lion对象实例。大量的小对象使其成为一个非常具有挑战性的数据集。我们使用80K训练图像和35K验证图像),用于在测试开发集上训练和测试结果。我们在验证集中使用另外5K图像来执行消融研究和可视化实验。MS-COCO数据集[26]使用AP和AR指标来图5:中心合并模块的结构(a)以及级联顶角池化模块(b)。通过将不同方向的角点池合并,实现了中心池和级联角点池。输入图像为511 ×511,导致大小为128×128的热图。我们 使 用 [21] 中 提 出 的 数 据 增 强 策 略 [19] 亚 当(Adam),计算训练损失:表征探测器的性能。AP表示平均精确率,其是在十个不同的IoU阈值上计算的(即,0的情况。五比零05:0。95)和所有的猫- egories。AR表示最大召回率,其是在固定数量的检测上计算的(即,1、10和100),并在所有类别和十个不同的IoU阈值上取平均值。此外,AP和AR可以用来评估不同目标尺度,包括小物体(区域322),中等物体,962)。<<其中LωLcedet 表示焦点损失,我们的基线是CornerNet [21]。我们利用堆积的时间-为了训练网络检测角点和中心关键点,玻璃网络[30],以52层和104层为骨架分别LCO是一个–以最小化嵌入向量的距离,该距离仅为一个。所有对沙漏结构的修改渴望着同样的目标 LCO是一种[21]故有“保”字。 此外,为了表明我们的用于最大化嵌入距离的参数属于不同对象的向量Lco和Lce是101-方法推广到其他网络架构,我们在-研究另一个名为HRNet的骨干网[40,41],熄灭熄灭损失[11],用于训练网络以分别预测角点和中心关键点的偏移α、β和γ表示对应损失的权重,并设置为0。1,0。1和1,尊重我。Ldett、Lpull、Lpush和Loff都在CornerNet中定义,我们建议重新定义。[21]详细内容我们在8个Tesla V100(32GB)GPU上训练CenterNet,并使用48个批量大小。最大迭代次数为480K。我们使用2的学习率。前450K次迭代为5×10−4,然后继续以2的速率训练30K次迭代。5 ×10−5。推理。根据[21],对于单尺度测试,我们将原始和水平翻转的图像与原始分辨率输入到网络中。对于多尺度测试,我们输入原始图像和分辨率为0的水平翻转图像。六一一二一5和1. 8.我们从热图中选择前70个中心关键点、前70个左上角和前70个右下角来检测边界框我们翻转水平翻转图像中检测到的边界框,并将它们混合到原始边界框中。Soft-nms [2]用于移除冗余边界框。最后,我们根据分数选择前100个边界框作为最终检测结果。4. 实验4.1. 数据集、指标和基线我们在MS-COCO数据集上评估了我们的方法[26]。该数据集包含80个类别和1个以上。5密耳-拥有保持高分辨率表现的能力在整个特征提取过程中。4.2. 与最先进探测器的表2显示了与MS-COCO测试开发套件上最先进检测器 的 比 较 。 与 基 线 CornerNet [21] 相 比 , 提 出 的CenterNet实现了显着的改进。例如,CenterNet 511 -52(这意味着输入图像的分辨率为511 × 511,主干为沙漏-52)报告单标度测试AP为41。6%,改善3. 8%超过37岁。8%,多尺度测试AP为43。5%,提高了4. 1%超过39。4%,由CornerNet在相同设置下实现。当使用更深的脊椎时(即,沙漏-104),AP比CornerNet提高4。4%(从40。 5%至 44 。9% ) 和4 。 9%( 从42 。 1%至 47。0%)。我们还用HRNet-W 64 [40,41]替换了骨干网,它报告了44个AP。0%,45。在单尺度和多尺度设置下分别为6%。这些重新-结果证明了CenterNet的有效性。此外,最大的是来自于小物体。例如,CenterNet511 -52提高了AP为小型ob-batch 5。5%(单尺度)和6。4%(多尺度)。为骨干沙漏-104,改进6. 百分之二(单级)和8。1%(多尺度)。这一好处源于由中心关键点:不正确的边界框的尺度越小,中心键-3x3 Conv-BN右侧合并左侧合并底部合并顶部合并3x3 Conv-BN-ReLU和6574方法骨干串输入测试输入APAP50AP75APSAPMAPLAR1AR10AR100ARSARMARL两阶段:[43]第四十三话ResNet-101 [15]512×512512×51233.853.436.112.336.150.829.642.643.519.246.964.3CoupleNet [52]ResNet-101ori。ori。34.454.837.213.438.150.830.045.046.420.753.168.5G-RMI的更快R-CNN [17]Inception-ResNet-v2 [4]∼1000×600∼1000×60034.755.536.713.538.152.0------更快的R-CNN +[15]ResNet-101∼1000×600∼1000×60034.955.737.415.638.750.9------更快的R-CNN w/ FPN [24]ResNet-101∼1000×600∼1000×60036.259.139.018.239.048.2------更快的R-CNN w/ TDM [38]inception-ResNet-v2--36.857.739.216.239.852.131.649.351.928.156.671.1D-FCN [7]对齐-初始-ResNet∼1000×600∼1000×60037.558.0-19.440.152.5------[46]第四十六话ResNet-101∼1000×600∼1000×60039.359.8-21.743.750.9------软件NMS [2]对齐-初始-ResNet∼1300×800∼1300×80040.962.8-23.343.653.3------[44]第四十四话ResNet-101512×5121024×102441.860.944.921.545.057.5------Grid R-CNN w/ FPNResNeXt-101∼1300×800∼1300×80043.263.046.625.146.555.2------D-RFCN + SNIP(多尺度)[39]DPN-98 [5]∼2000×1200∼2000×120045.767.351.129.348.857.1------PANet(多尺度)[27]ResNeXt-101∼1400×840∼1400×84047.467.251.830.151.760.0------一阶段:[33]第三十三话暗网-19544×544544×54421.644.019.25.022.435.520.731.633.39.836.554.4DSOD300 [35]DS/64-192-48-1300×300300×30029.347.330.69.431.547.027.340.743.016.747.165.0GRP-DSOD 320 [36]DS/64-192-48-1320×320320×32030.047.931.810.933.646.328.042.144.518.849.165.0SSD513 [28]ResNet-101513×513513×51331.250.433.310.234.549.828.342.144.417.649.265.8DSSD513 [9]ResNet-101513×513513×51333.253.335.213.035.451.128.943.546.221.849.166.4[48]第四十八话:我的世界ResNet-101512×512512×51236.457.539.516.639.951.4------CornerNet511(单尺度)[21]沙漏-52511×511ori。37.853.740.117.039.050.533.952.357.035.059.374.7[25]第二十五话ResNet-101800×800800×80039.159.142.321.842.750.2------CornerNet511(多尺度)[21]沙漏-52511×511≤1.5×39.454.942.318.941.252.735.053.557.736.160.175.1CornerNet511(单尺度)[21]沙漏-104511×511ori。40.556.543.119.442.753.935.354.359.137.461.976.9[48]第四十八话:一个女人ResNet-101512×512≤2.25×41.862.945.725.645.154.1CornerNet511(多尺度)[21]沙漏-104511×511≤1.5×42.157.845.320.844.856.736.455.760.038.562.777.4CenterNet511(单标度)沙漏-52511×511ori。41.659.444.222.543.154.134.855.760.138.663.376.9CenterNet511(单标度)HRNet-W64 [41]511×511ori。44.062.647.123.047.357.835.456.961.738.366.279.6CenterNet511(单标度)沙漏-104511×511ori。44.962.448.125.647.457.436.158.463.341.367.180.2CenterNet511(多尺度)沙漏-52511×511≤1.8×43.561.346.725.345.355.036.057.261.341.464.076.3CenterNet511(多尺度)HRNet-W64511×511≤1.8×46.364.749.826.649.659.336.858.662.942.166.979.0CenterNet511(多尺度)沙漏-104511×511≤1.8×47.064.550.728.949.958.937.560.364.845.168.379.7表2:与MS-COCO测试开发数据集上最先进方法的性能比较(%)。CenterNet的性能远远优于所有现有的一级检测器,并在最先进的两级检测器中名列前茅可以在中心区域检测到点。图6(a)和图6(b)显示了定性比较,证明了CenterNet在减少小的错误边界框方面的有效性。CenterNet还导致在减少中型和大型不正确的边界框方面有很大的改进。如表2所示,CenterNet 511 -104将单标度测试AP提高了4。7%(从42。7%至47。4%)和3。5%(从五十三9%至57。4%)对于中型和大型边界框,分别 图6(c)和图6(d)显示了定性中、大型不正确边界框减少的比较。值得注意的是,AR也得到了显著改善,多尺度测试获得了最佳性能。这是因为我们的方法删除了许多不正确的边界框,这相当于提高了那些位置准确但得分相对较低的边界框的置信度。与其他单阶段方法相比,CenterNet 511 - 52报告了41. 6%的单尺度测试AP。该值已经优于更深模型的AP( 例 如 , Reti-naNet 800 [25] 和 Refinedet [48] ) 。CenterNet的最佳性能是AP47.0%,大大超过了我们所知的所有已发布的单阶段方法。最后,CenterNet的性能也与两阶段方法的性能具有竞争力,例如,CenterNet 511 -52的单尺度测试AP与Fitness R-CNN [44](41. 6%vs. 41岁CenterNet 511 -104与D-RFCN具有可比性+ [39]第四十四章:我的天9% vs. 45. 7%)。然而,两阶段方法通常使用高分辨率输入图像(例如,1000× 600),显著提高了检测精度,尤其是对小物体。CenterNet 511 -104实现的47.0%的多尺度测试-ING AP与最先进的47. 通过两级检测器PANet实现4%[27]。 我们提出了定性分析-检测结果见图7。4.3. 边界框减少不正确AP [26]指标反映了有多少高质量的对象边界框(通常IoU> 0)。5)网络可以预测,但不能直接反映有多少不正确的对象边界框(通常是IoU = 0)。5)网络生成。FD率是反映比例错误的边界框。表3显示了CornerNet和CenterNet的FD率。CornerNet即使在IoU = 0时也会生成许多不正确的边界框。阈值,即,CornerNet 511 -52和CornerNet 511-104获得35分。2%,32。7%的FD率。另一方面,在一项研究中,CornerNet生成更多小的错误边界框中型和大型不正确的边界框,FD值为62。CornerNet511 -52和60的5%。CornerNet 511 -104分别为3%。我们的CenterNet通过探索中心区域,降低了所有标准下的FD率。具体而言,小边界框的FD率下降最多,下降了9。CenterNet 511 -52占5%,9 .第九条。6%,CenterNet511-104。这也是为什么小物体的AP改善比对于中型和大型物体。6575人人人人人椅板凳运 动 球交 通 灯交 通 信 号 灯红 绿 灯车汽 车消 防栓车红绿灯红绿灯红绿灯红绿灯卡车牛车人椅子人人perrspoenrson人摩托车摩托车自行车摩托车冰 箱微 波水 槽chsainirk餐 桌酒 杯椅 子碗人人运动球人棒球棒棒球手套人人person 人person人人perrpseornsopnersonp epresnonnPEpers opnepresorsnonpperrssonpersonpersonpepr人人人体 育 球 类 运 动 员人对peprseornp人人人铁人人人我 的儿 子人person perrssonnn人人人人人person人对seornsonpers每儿 子pers人esrosnonrpseornson佩 尔 索猫猫盆栽长 颈 鹿牛鸟人人人phersoen每 一个人personrhsoerse哈哈哈哈哈哈hhororssrese马pppeeerrrssssooonnhhhohororrrseee马hpoerppeerssonn n人seon马马马马卡车tratffaicflicghltt手袋红绿灯个人伞pperrssonnn人我的儿子手袋背包背包卡车行李箱伞伞ppppresrosnonp奥普内peppeer sronnn人ncneper spoenrpseornsonppeerprspesoeornsrnsoponenrsonpersonrs opnerpsehorannsnodnbag ghndHndmotorcypcelerson椅 子mpeortsornc账 本餐 桌dbbagdbbag g哈一哈一PErsonrson埃埃尔普ers细胞 磷循 环(一)(b)第(1)款(c)第(1)款(d)其他事项(e)(f)第(1)款图6:(a)和(b)显示了建模中心信息显著减少了小的错误边界框。(c)以及(d)示出了中心信息用于减少中等和大的不正确的边界框。(e)显示了在没有/有中心池化的情况下检测中心关键点的结果。(f)显示了使用角点合并和级联角点合并检测角点的结果。上面的蓝色方框表示地面实况。红色框和点分别表示预测的边界框和关键点。图7:MS-COCO验证数据集的定性检测结果。仅检测分数高于0的检测。5显示。方法FDFD5FD25FD50FDSFDMFDLCornerNet511-5240.435.239.446.762.536.928.0公司简介35.130.734.240.853.031.324.4CornerNet511-10437.832.736.843.860.333.225.1公司简介32.428.231.637.550.727.123.0表3:Cor- nerNet和CenterNet在MS-COCO验证数据集上的错误发现率(%)比较结果表明,CenterNet避免了大量的不正确的边界框,特别是对于小的不正确的边界框。4.4. 推理速度拟议的CenterNet以最小的成本探索每个拟议区域内的视觉模式。为了确保公平的比较,我们在NVIDIATesla P100 GPU上测试了CornerNet [21]和CenterNet的推理速度。我们确定了CornerNet 511 -104的平均推理时间为每幅图像300 ms,CenterNet 511 -104的平均推理时间为每幅图像340 ms。同时,使用Hourglass-52骨干网可以加快推理速度。我们的CenterNet 511 -52平均需要270 ms来处理每张图像,这比CornerNet 511 -104更快、更准确。4.5. 消融研究我们的工作贡献了三个组成部分的目标检测,即中心区域探索,中心池,级联角池。分析每个人的贡献单独部件,这里给出烧蚀研究。基线是CornerNet 511 -52 [21]。我们将这三个组件逐一添加到基线中,并遵循第4.1节中详述的默认参数设置。结果在表4中给出。中部地区勘探。为了理解中心区域探索的重要性(参见表中的CRE),我们向基线添加了中心热图分支,并使用三个关键点来检测边界框。对于中心关键点检测,我们只使用传统的卷积. 如表4中的第三行所示,我们改进了AP了2. 3%(从37。6%至39。9%)。然而,我们发现,对于小对象(即4。6%),比其他目标尺度更显著对于大型物体的改进几乎可以忽略不计(从52。2%至52。3%)。这并不奇怪,因为与大型物体相比,较小的对象更有可能受益于通过中心关键点进行过滤。中心合并。为了证明所提出的中心池的有效性,我们将中心池模块添加表4中的第四行显示中心池化将AP提高0。百分之九(from 39岁9%到40。8%)。值得注意的是,在中心的帮助池化,我们将大对象的AP增加1。4%(从52。2%至53。6%),这是比传统卷积高得多的改进(即,1.一、4%vs. 0的情况。1%)。这表明我们的中心池在检测中是有效的,人人人person人人物佩赫萨昂德巴格书ttr vafficlight伞人person人背包人人人HSpperrssonnnee马S马pppeeerrrssssooonn马HORSRn俄色佩尔 索hhorosre盆栽长 颈 鹿牛鸟猫猫6576CRECTP中共APAP50AP75APSAPMAPLAR1AR10AR100ARSARMARL37.653.340.018.539.652.233.752.256.737.260.074.0C38.354.240.518.640.552.234.053.057.936.660.875.8C39.957.742.323.142.352.333.854.258.538.762.474.4CC40.858.643.623.643.653.633.954.559.039.063.274.7CCC41.359.243.923.643.855.834.555.059.239.163.575.1表4:MS-COCO确认数据集上CenterNet 511 -52主要组件的消融研究CRE表示中心区域探索,CTP表示中心池化,CCP表示级联角池化。方法APAP50AP75APSAPMAPLCenterNet 511 -52不带GT41.359.243.923.643.855.8CenterNet 511 -52,带GT56.578.361.439.160.370.3CenterNet 511 -104不带GT44.862.448.225.948.958.8CenterNet 511 -104,带GT58.178.463.940.463.072.1表5:使用地面实况值的中心关键点的误差分析。我们将预测的中心关键点替换为地面实况,结果表明中心关键点的检测仍有改进的空间。绘制对象的中心关键点,特别是对于大型对象。我们对这个结果的解释是,中心池可以提取丰富的内部视觉模式,较大的对象比较小的对象包含更多的可访问的内部视觉模式图6(e)示出了在没有/有中心池化的情况下检测中心关键点的结果。我们可以看到,传统的卷积无法定位奶牛的中心关键点,但使用中心池,中心关键点被成功定位。级联角点池化。我们用级联角点池代替角点池[21]来检测角点(见表中的CCP)。表4中的第二行显示了基于CornerNet 511 -52的测试结果。我们发现,级联角落池提高AP 0。7%(从37。占6%到38. 3%)。最后一行显示了对在CenterNet 511 -52的基础上,将AP提高了0. 5%(从40。8%至41。3%)。第二行的结果显示对于大物体AP几乎没有变化(即,52岁2% vs. 52. 2%),但AR提高了1. 8%(74
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ASP.NET数据库高级操作:SQLHelper与数据源控件
- Windows98/2000驱动程序开发指南
- FreeMarker入门到精通教程
- 1800mm冷轧机板形控制性能仿真分析
- 经验模式分解:非平稳信号处理的新突破
- Spring框架3.0官方参考文档:依赖注入与核心模块解析
- 电阻器与电位器详解:类型、命名与应用
- Office技巧大揭秘:Word、Excel、PPT高效操作
- TCS3200D: 可编程色彩光频转换器解析
- 基于TCS230的精准便携式调色仪系统设计详解
- WiMAX与LTE:谁将引领移动宽带互联网?
- SAS-2.1规范草案:串行连接SCSI技术标准
- C#编程学习:手机电子书TXT版
- SQL全效操作指南:数据、控制与程序化
- 单片机复位电路设计与电源干扰处理
- CS5460A单相功率电能芯片:原理、应用与精度分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功