没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文ObjectBox:从中心到框,用于无锚对象检测Mohsen Zand、Ali Etemad和Michael Greenspan部加拿大安大略省金斯顿皇后大学电子和计算机工程学院抽象的。我们提出了ObjectBox,一种新的单级无锚和高度概括的对象检测方法。相对于基于锚点和无锚点的检测器,它们在标签分配中更偏向于特定的对象尺度,我们只使用对象中心位置作为正样本,并在不同的特征级别平等对待所有对象,而不管对象特别是,我们的标签分配策略认为对象中心位置的形状和大小不可知的锚在锚自由的方式,并允许学习发生在所有尺度的每个对象。为了支持这一点,我们将新的回归目标定义为从中心单元位置的两个角到边界框的四个边的距离。此外,为了处理尺度变化的对象,我们提出了一个量身定制的IoU损失来处理不同大小的盒子。因此,我们提出的对象检测器不需要任何依赖于数据集的超参数在数据集上进行调整。我们在MS-COCO 2017和PAS-CAL VOC 2012数据集上评估了我们的方法,并将我们的结果与最先进的方法进行了比较。我们观察到,ObjectBox表现良好,与以前的作品相比。此外,我们进行严格的消融实验,以评估我们 的 方 法 的 不 同 组 成 部 分 。 我 们 的 代 码 可 在 :https://github.com/MohsenZand/ObjectBox关 键 词 : 目 标 检 测 , 无 锚 , 目 标 中 心 , MS-COCO 2017 ,PASCAL VOC 20121介绍当前最先进的对象检测方法,无论它们是两阶段[7],[8],[2]还是一阶段方法[24],[38],[29],都假设边界框,提取每个框的特征,并标记对象类。它们都在共享的局部特征上执行边界框定位和分类任务。一种常见的策略是在卷积特征图上使用手工制作的密集锚点,以生成共享局部特征的丰富候选[12],[32]。这些锚点生成边界框大小和纵横比的一致分布,这些分布是基于对象和锚点之间的交集(IoU)指定的。基于锚点的方法[18],[24]由于其巨大的成功而主导了对象检测然而,他们患有一些常见和严重的疾病,arXiv:2207.06985v1 [cs.CV] 2022年7月+v:mala2255获取更多论文2M. Zand等人CornerNetCenterNetExtremeNet∆���∆���∆���∆���RetinaNet FCOS ObjectBoxFig. 1. 第一行显示了基于关键点的无锚方法,这些方法使用关键点的不同组合,然后将它们分组用于边界框预测。分别使用对象上的一对角点、三重关键点和极值点在CornerNet [16]、CenterNet [4]和ExtremeNet [41]中。第二行显示了基于中心的方法,可以是基于锚点的(如RetinaNet [18])或无锚点的(如FCOS [29])。与使用边界框内所有位置的FCOS相反,ObjectBox仅使用中心像元位置的两个角进行边界框回归缺点.首先,使用预定义的锚点引入了额外的超参数来指定它们的大小和纵横比,这损害了对其他数据集的泛化其次,锚点必须密集地覆盖图像,以最大限度地提高召回率。然而,少数锚点与大多数地面实况框重叠,导致正锚点框和负锚点框之间的巨大不平衡,并增加了额外的计算成本,从而减慢了训练和推理[16],[3]。第三,锚箱必须在其数量、规模和纵横比方面仔细设计,因为改变这些参数会影响性能。为了应对这些挑战,最近开发了许多无锚对象检测器[22],[29],[16],[41],[40],[11],[35],它们可以是cate。[22],[29]。在基于关键点的方法中,使用标准关键点估计网络(例如,HourglassNet [21]),并分组以限制对象的空间范围。然而,它们在关键点检测之后需要复杂的组合分组算法相比之下,基于中心的方法更类似于基于锚点的方法,因为它们使用感兴趣的对象区域或中心位置来定义阳性样本。而基于锚的方法使用锚框作为预定义的基于中心基于关键点+v:mala2255获取更多论文ObjectBox:从中心到框,实现无锚对象检测3中国(和)在(阈值范围1)?没有0≤max(���,)≤64否���������没有条件!是的中国(和)在(阈值范围2)?没有中国(和)在(阈值范围3)?是的64≤max(���,)≤128���������128≤max(,) ≤256������������没有是的没有条件!没有条件!是的是的YoloFCOSObjectBox图二. ObjectBox将所有尺度下的目标框视为正样本(橙色),而在其他方法(基于锚点和无锚点)中,某些尺度下的目标框将被视为负样本(灰色)。例如,YOLO使用IoU分数来阈值化阴性样本,FCOS使用范围约束来选择阳性样本参考框在这些中心位置上,无锚方法直接回归这些位置的边界框(见图1)。在[37]中示出了基于中心的方法中基于锚点的方法和无锚点的方法之间的主要区别是正训练样本和负训练样本的定义,这导致性能差距。为了区分阳性和阴性样本,基于锚点的方法使用IoU同时在空间和尺度维度上选择阳性样本,而无锚点方法使用一些空间和尺度约束首先在空间维度上找到候选阳性样本,然后在尺度维度上选择最终阳性样本。然而,这两种静态策略都施加了约束阈值来确定正样本和负样本之间的边界,忽略了对于具有不同大小、形状或遮挡条件的对象,最佳边界可能会有所不同的事实[6]。许多动态分配机制已被开发,以应对这个问题[37],[6],[13]。例如,在[37]中,提出了基于一些统计准则为每个目标设置划分边界在本文中,我们建议放松所有的静态或动态分配策略所施加的限制,从而平等对待所有尺度的所有对象。学习分类标签和回归偏移与对象形状或大小无关,我们仅从被视为形状的对象中心位置回归。和大小不可知的锚[40]。为了支持这一点,我们将新的回归目标定义为从包含对象中心的网格单元的两个角到边界框边界(图1中的L、R、B和T)的距离。如图所示等级23级比额1级比额表+v:mala2255获取更多论文4米Zand等人在图2中,与不同尺度级别的其他方法相比,我们没有使用任何标准。因此,我们扩大了阳性样本,没有任何花哨。为了从所有尺度中学习这些正样本,我们提出了一个新的尺度不变标准作为IoU度量,该度量在不同尺度级别上惩罚具有不同大小的目标和预测对象框之间的误差总之,我们的贡献是一种新的锚无对象检测器,ObjectBox,这是更好地装备来处理标签分配问题的建议,并表现良好,相比最先进的。此外,我们的方法是即插即用,可以很容易地应用于各种数据集,而不需要任何超参数调整。因此,我们的方法是更强大的和可推广的,并实现国家的最先进的结果。最后,我们将在本文发布时公开我们的代码实现2相关工作2.1基于锚点的目标检测器为了以不同的比例和不同的长宽比定位对象,Faster R-CNN引入了锚框作为固定大小的边界框提案。锚框背后的基本原理是使用一组预定义的形状(即大小和纵横比)作为边界框建议,这一想法在其他领域已经变得普遍。[24],[1],[18],[20].早期的基于锚点的方法包括区域建议生成和目标检测两个阶段,这使得它们不适合实时应用。为了实现实时性能,单次检测器[18],[20],[24],[34]使用锚点而不依赖RPN。他们在一次评估中直接预测整个图像的边界框和类概率。最具代表性的单次检测器是SSD [20]、RetinaNet [18]和YOLO [24]、[1]。其他几种技术使用不同的锚箱变体例如,在[12]中提出了一种多锚点学习方法来构建锚点袋并从每个袋中选择最具代表性的锚点。2.2无锚物体探测器基于锚的方法的限制在于它们需要预定义的超级参数来指定锚框的大小和纵横比。对这些超参数进行优化需要启发式调整和一些经验技巧,并且依赖于数据集,因此缺乏通用性。最近提出了无锚它们可以分为基于关键点的方法和基于中心的方法。基于关键点的方法检测特定的对象点,如中心点和角点,并将它们分组用于边界框预测。虽然它们比基于锚点的方法表现出更好的性能,但分组过程很耗时,并且它们通常会导致低召回率。一些代表性的例子包括CornerNet [16]、ExtremeNet [41]、CenterNet [40]、[4]和CentripetalNet.+v:mala2255获取更多论文i=1ObjectBox:从中心到框,实现无锚对象检测5基于中心的方法使用感兴趣的对象区域或中心位置来确定阳性样本,这使得它们与基于锚点的方法更具可比性。例如,FCOS [29]认为对象边界框内的所有位置都是候选正片,并在每个尺度维度中找到最终正片。它计算了从这些正位置到到边界框的四边。然而,它从远离对象中心的位置生成了许多低质量的预测边界框。为了抑制这些预测,它使用中心度分数来降低低质量边界框的分数。此外,它利用5级FPN(特征金字塔网络)[17]来检测不同级别特征图上不同大小的物体。FoveaBox [14]预测了对象中心可能存在的位置,以及每个正位置的边界框。FSAF(特征选择性无锚)[42]将无锚分支附加到RetinaNet [18]中特征金字塔的每个级别。2.3标签分配在[37]中表明,如果基于锚点的方法和无锚点的方法使用相同的标签分配策略,则它们可以获得类似的结果。在标签分配中,每个特征图点基于对象地面实况和分配策略被标记为正或负。 一些无锚方法,如FCOS [29],利用静态约束来定义正,而适当的约束可能会根据对象的大小和形状而变化。最近提出了许多其他标签分配策略。例如,ATSS [37](自适应训练样本选择)提出了一种动态策略,EGY基于对象的统计特征。在[13]中,锚分配通过从检测器模型计算锚点得分并最大化这些得分对于概率分布的似然性,将其建模为概率过程。OTA [6](最优运输分配)提出将标签分配问题表述为最优运输问题,这是最优化理论中线性规划的一种变体。它将每个地面实况描述为特定数量标签的供应商,并将每个锚定义为需要一个单位标签的需求。如果锚点从给定的地面实况中获得足够多的正标签,则将其视为该地面实况的一个正锚点。然而,这些策略并不保持不同对象之间的相等性,他们倾向于为更大的物体分配更多的阳性样本。这可以通过分配相同数量的阳性样本来实现,并允许学习在所有尺度下发生,而不管其大小。3ObjectBox设训练图像X∈RW×H×3中不含具有地面真值{bi,ci}n的节点 、其中bi和ci分别表示第i个对象的边界对象x和对象类标签。每个边界框b={x,y,w,h}由其中心表示+v:mala2255获取更多论文--11221122L(i)∗=(⌊x⌋+1)−(x(i)/si)(一)∗SI(一)12SI6米。Zand等人(a)(b)第(1)款图三. ObjectBox计算从中心单元的两个角到边界框边界的距离。(a)和(b)中分别示出了大对象和小对象。在(b)中,小物体完全位于单元内,这通常以较大的步幅发生(例如,si=32)。然而,ObjectBox并没有放弃这些情况,因为它会为具有不同比例的所有对象回归到边界框的四边(x,y),宽度w和高度h。我们的目标是在图像中定位这些盒子并为其分配类别标签。3.1基于对象中心位置的标注指定输入图像中具有中心(x,y)的边界框b可以使用其角点定义为{(x(i),y(i)),(x(i),y(i))},其中(x(i),y(i))和(x(i),y(i))表示左上角和右下角在比例尺i处的相应坐标。我们的方法预测边界框在3个不同的尺度来处理对象的尺度变化。因此,可以在对应于这些尺度的3个特征图上检测不同尺寸的对象。我们特别选择步幅s=8,16,32,并将每个边界框中心映射到这些嵌入的某些位置。我们将中心(x,y)映射到中心位置(即,图3(a)中的橙色单元),并分别计算从其左上角和右下角(红色圆圈)到边界框的两个边界具体来说,如图3所示,我们计算从右下角到左边界和上边界的距离(L和T),以及从左上角到右边界和下边界的距离(R和B),如下所示:si1∗(i)=(y+1)−(y(i)/si)R=(x2/si)−siB(i)X(一)+v:mala2255获取更多论文×0∗SIRSISISIT(i)=(2×σ(p1))2<$2ixyxyObjectBox:从中心到框,实现无锚对象检测7其中(L(i),T(i),R(i),B(i))表示尺度i处的回归目标,并且(,)和(+1,+1)表示顶部的相应坐标中心位置的左下角和右下角 应当注意,L(i)n+R(i)n=w(i)+1和T(i)n+B (i)n=h(i)+1,wherew(i)=w/si和hi=h/si分别表示边界框b在尺度i处的宽度和高度。对应于这些距离的预测如下:L(i)=(2σ(p))22i(一) =(2×σ(p2))22012年1月(二更)B(i)=(2×σ(p3))2<$2i其中,σ代表logisticsigmoid函数,(p0,p1,p2,p3)表示距离值的网络预测,我们通过sigmoid强制执行,范围为0和1。乘以2允许检测值覆盖稍大的使用()2,输出稳定地初始化为零梯度。 我们通过乘以一个恒定的比例增益来区分不同的比例,即,2 i,i = 1,2,4。整个网络输出包括每个尺度每个位置的一个预测,每个预测包括上述距离值,以及每个边界框的对象分数和类别标签我们的公式确保了所有回归的距离在不同的条件下保持正性。如图3(b)所示,即使对于以较大步幅完全包含在单元内的小对象,也可以将4个距离计算为正值。更重要的是,我们将所有对象视为不同尺度下的正样本。这与现有的基于中心的方法(即,基于锚点的方法和无锚点的方法)。在基于锚点的方法中,例如,在一定尺度中的每个中心位置被视为多个锚点框的中心,并且如果目标框和这些锚点框的IoU不在阈值范围内,则其被视为负样本。类似地,无锚点方法基于不同的空间和尺度约束将一些目标框丢弃为负样本例如,FCOS [29]定义了一组最大距离值,限制了在每个特征级别可以检测到的对象大小的范围。作为另一个例子,FoveaBox [14]通过一个学习参数控制每个金字塔级别的比例范围,而在[42]中,一组恒定的比例因子用于定义正框和负如图2所示,ObjectBox将所有尺度下的所有目标框都视为阳性样本。因此,它从所有尺度学习,而不管对象大小如何,以实现多个级别的更可靠的回归由于ObjectBox只考虑每个对象的中心位置,因此每个对象的正样本数与对象大小无关。因为盒子的几何中心可能位于中心的边界附近细胞,我们用它的相邻细胞来增加中心。例如,当边界框的中心位于单元格的上半部分时,除了中心单元格之外,还使用上面的位置。我们的方法从它们的中心区域检测对象如果两个盒子重叠,它们的中心不太可能重叠,因为两个盒子重叠的情况很少见。+v:mala2255获取更多论文--地面实况预测框8米Zand等人最小覆盖盒(C)第1001章交集(一)非重叠区域(S)对象中心中心位置见图4。 框回归中心位于同一地点。在MS-COCO [19]和PASCAL VOC 2012 [5]中,我们没有发现重叠对象的中心重叠的情况。然而,我们增强的中心位置在处理这些盒子时可能很有用。在我们的实验(第4.2节)中,我们表明除了中心位置之外添加更多的点会损害检测性能。我们的策略隐含地利用了锚框背后的直觉,锚框通常是通过对数据集中地面真值框的维度进行聚类而创建的[23]。它们的尺寸是作为不同大小的最常见形状的估计而获得的。例如,Faster R-CNN [25]和YOLO [24,1]使用三个尺度和三个纵横比,每个位置产生9个锚点然而,我们的方法使用每个尺度下边界框的中心位置来为每个对象生成多个预测我们的方法也比其他无锚方法更有效,如FCOS [29],其利用了额外水平的FPN(即,总共5层)来处理重叠的边界框。3.2框回归作为L(i)、T(i)、R(i)、B(i)是距离,它们可以被单独处理,并且均方误差(MSE)可以用于对这些值单独执行回归。然而,这样的策 略 将 忽 略 对 象 边 界 框 的 完 整 性 。 IoU ( Intersection over Union 或Jaccard index)损失已经被提出来考虑预测和地面实况边界框区域的覆盖范围。IoU是两个形状之间广泛使用的相似性度量,由于其吸引人的可微特征,可以直接用作优化的目标函数[35,26,39,31]。在对象检测中,IoU可以将每个绑定框的宽度、高度和位置编码为归一化度量。因此,IoU损失(LIoU= 1 − IoU)允许+v:mala2255获取更多论文联系我们≥关于我们ObjectBox:从中心到框,实现无锚对象检测9边界框被识别为单个实体,并联合回归边界框的四个坐标点。IoU损失最近通过考虑不同的情况得到了改进例如,GIoU(广义IoU)损失[26]除了覆盖区域外,还包括物体的形状和方向它可以找到可以同时覆盖预测和地面实况边界框的最小区域,并将其用作分母来替换IoU损失中使用的原始分母。DIoU(距离IoU)损失[39]还强调了预测和地面实况框中心之间的距离CIoU(完全IoU)损失[39]同时包括重叠面积,中心点之间的距离和纵横比。在我们的例子中,我们感兴趣的是最小化两个盒子之间的距离,每个盒子由四个距离值给出 当我们从不同大小的物体的不同尺度(即,,我们不区分尺度级别),我们的边界框回归损失函数应该是尺度不变的。 尽管如此,基于网络的损失随着边界框的规模变大而增长[27]。与原始IoU损失及其变体相反,我们的损失不需要匹配边界框位置,因为本地化任务已经嵌入到该过程中。此外,预测框和地面实况框在最坏情况下共享至少一个点(即,重叠0)。这是因为L(i),T(i),R(i),B(i)0为eachhbox。 在这项工作中,我们提出了一个基于IoU的损失量身定制的对象检测方法,它可以用来改善其他锚无检测器以及(实验中提供的教材)。 我们提出的损失,称为SDIOU,代表基于尺度不变距离的IoU,直接应用于网络输出,即从对象中心到左上角和右下角的距离值。然而,其他基于IoU的损失对对象中心和对象宽度和高度起作用由于SDIOU基于预测框和地面实况框的相应偏移之间的欧几里得距离,因此它可以保持框的完整性并在所有4个方向上对重叠区域进行评分。与CIoU [39]和规模平衡损失[27]类似,我们考虑非重叠区域,重叠或交叉区域以及覆盖两个盒子的最小盒子我们首先通过对相应距离值之间的所有欧几里德距离的平方求和来计算非重叠区域S,如下所示:S=(L−L)2+(T−T)2+(R−R)2+(B−B)2,(3)其中,L、T、R、B和L、T、R、B分别为预测距离和真实距离。(为了更好的可读性,我们在这里省略了标度i直观地说,计算不同距离值之间的平方欧几里德距离可以有效地考虑4个方向上的预测距离和地面真实距离。我们通过计算长度的平方来获得相交面积I,交叉区域I=(wI)2+(hI)2,(4)+v:mala2255获取更多论文−L−10米Zand等人其中wI和hI分别是相交区域的宽度和高度,并且计算为:wI=min(L,L)+min(R,R)−1h I= min(T,T)+min(B,B)− 1。(五)覆盖预测框和地面实况框的最小面积C由其长度的平方计算为:C=(wC)2+(hC)2,(6)其中,wC和hC分别表示CwC=max(L,L)+max(R,R)−1h C= max(T,T)+max(B,B)− 1。(七)通过最小化C,预测框可以在4个方向上朝向地面实况框移动。最后,我们将SDIOU计算为:SDIOU=(I−ρS),(8)C其中ρ表示有利于重叠区域的正折衷值(我们在所有实验中都设置ρ我们在分子中使用I和(S)来对交叉区域进行评分,并对非重叠区域进行处罚因此,强制预测的4个距离值以更快地匹配地面实况距离。SDIOU损失最终定义为IoU= 1IoU。图4显示了我们在SDIOU损失中考虑的领域。4实验数据集。选择了两个常见的具有挑战性的数据集MS-COCO [19]和PASCAL VOC 2012 [5],这两个数据集是广泛使用的自然场景对象检测基准,用于评估所提出的ObjectBox方法,并将其与当前最先进的方法进行比较。MS-COCO是一个具有挑战性的数据集,其中包括大量标记在80个对象类别中的对象我们使用包含115 k图像的trainval 35 k分割来训练我们的网络,并使用20 k图像报告了测试-开发分割的结果PASCAL VOC 2012数据集由20个不同对象类的复杂场景图像组成我们使用VOC 2012和VOC 2007训练分割(17k图像)训练我们的模型,并在VOC 2012测试分割(16k图像)上进行测试。关于PASCAL VOC2012 [5]的实验结果可以在补充材料中找到(第12节)。(见S. 2)。实施细节。 我们在两个不同的脊椎上实现了我们的方法,即。,ResNet-101和CSPDarknet [33],[10],[1]。我们使用ResNet-101,它是许多对象检测器中广泛使用的主干,以提供与其他最先进方法的公平我们还利用了CSPDarknet并添加了SPP+v:mala2255获取更多论文=CLS框ΣObjectBox:从中心到框,实现无锚对象检测11表1.在单模型和单尺度结果中,与MS-COCO数据集上最先进方法的性能比较。粗体和下划线数字分别表示每列中Avg. 普雷西西on,IoU平均值普雷奇西奥n,面积平均值Recall,#DetsAvg.召回,区域方法骨干APAP50AP75APSAP MAPLAR1AR 10AR100公司简介SSD513 [20] ResNet-10131.250.433.310.2三十四点五49.828.342.144.417.6四十九点二65.8[30]第三十话33.8五十三点四36.112.336.150.829.6四十二点六43.519.2四十六点九64.3F-RCNN w/ FPN [17] ResNet-10136.259.139.018.2三十九点零48.2- --- --[23]第二十三话暗网-1921.6 44.019.25.022.435.520.731.633.39.836.554.4[第18话]ResNet-10139.1 59.142.321.8四十二点七50.2- -----[24]第二十四话暗网-5333.0五十七点九34.418.3三十五点四41.9- -----[第16话]沙漏-10440.6五十六点四43.219.1四十二点八54.335.354.759.437.4 62.477.2美国[4]沙漏-5241.6五十九点四44.222.543.154.134.8五十五点七60.138.6 63.376.9[41]第四十一话沙漏-10440.2五十五点五43.220.443.253.1- -----[29]第二十九话ResNeXt-10142.162.145.225.6四十四点九52.0- -----ASSD 513 [34]ResNet10134.5五十五点五36.615.439.251.029.9四十五点六47.622.8 52.267.9SaccadeNet [15] DLA-34-DCN 40.4 57.643.520.4四十三点八52.8- -美国[1]43.5六十五点七47.326.7四十六点七53.3- -美国[14]43.9六十三点五47.726.846.955.6- -视网膜网+CBAF[28]第二十八话43.0 63.246.325.9四十五点六51.4- -[37]第三十七话43.6 62.147.426.1四十七点零53.6- -美国[13]44.8 63.348.726.5四十八点八56.3- -美国[6]45.3 63.549.326.9四十八点八56.1- -[36]第三十六话46.0 64.250.027.549.456.9- -ObjectBoxResNet-10146.165.048.326.0四十八点七57.335.357.160.539.265.076.9ObjectBoxCSPDarknet46.8 65.949.526.849.557.636.0 57.560.739.4 65.277.0(空间金字塔池化)[9],[24],[1]在主干上增加提取特征的接收场。CSPDarknet有潜力提高CNN的学习能力,并降低内存成本[1]。训 练 超 参 数 被 设 置 为 初 始 学 习 率0.01 , 动 量 0.937, 权 重 衰 减0.0005,预热时期3,预热动量0.8。初始学习率在40万步时乘以0.1,然后在45万步时再次乘以0.1。我们将批处理大小设置为24,并使用SGD优化。我们将模型训练到最多300个epoch,早期停止耐心为30个epoch。实验在单个Titan RTX GPU上执行。NMS(非最大抑制)阈值也设置为0。6在所有实验中我们在训练过程中使用了CutMix和Mosaic数据增强[1]。它们都混合了不同的上下文,以便于检测正常上下文之外的对象CutMix混合2个输入图像,而Mosaic混合4个训练图像。对于每个尺度水平s,我们使用多任务损失:S sCLS奥布杰s盒(九)在那里,奥布杰,以及分别表示分类损失,二进制交叉熵损失和尺度s下框偏移的回归损失。我们使用二进制目标类别和预测概率之间的交叉熵作为我们的分类损失和二进制置信度得分。我们采用SDIOU损失作为建议目标和预测目标之间的回归损失。计算每个尺度的损失,并将其相加为L=s×s。公司简介公司简介,+v:mala2255获取更多论文12米。Zand等人4.1MS-COCO目标检测表 1 显 示 了 MS-COCO 数 据 集 的 评 价 结 果 与 基 准 方 法 相 比 ,ObjectBox的准确性要高得多,达到了46的最佳AP性能。8%,有CSPDarknet主干。 我们的方法也达到了第二好的性能46。1%,具有ResNet-101主干。AP的相对改善(在10个IoU阈值0. 五比零。95)表明ObjectBox生成的框更精确,本地化程度更高使用CSPDarknet主干,还实现了其他8个指标的改进,包括AP50,APM,APL,AR1,AR10,AR100,ARS和ARM。值得注意的是,带有ResNet-101的ObjectBox在7个不同的指标中获得了第二好的性能。 与基于锚和无锚方法相比,这些改进主要是由于我们的策略可以公平地学习不同尺度的对象特征。尽管如此,如果不从对象中心位置进行回归,这是不可能的,对象中心位置可以被视为形状和大小不可知的锚。ARS的相对改善表明,我们的方法可以检测到更多的小对象(更有可能重叠,通常更难检测)。当较大对象的检测可以受益于3个尺度级别的所有特征图时,性能提升对于APL这是与其他探测器的另一个主要区别,其他探测器从物体的所有点学习为了保持不同对象之间的相对相等性,他们认为较大的对象仅对于具有较大步幅的嵌入是正样本。第二种性能最好的方法,VarifocalNet [36],用新的IoU感知分类得分取代了地面实况类的分类得分它建立在FCOS的ATSS [37]版本上[29]。在ATSS中,自适应训练样本选择(ATSS)机制用于在训练期间定义特征金字塔上的正点和FoveaBox [14]也是一种无锚检测器,专注于对象中心,实现AP = 43。9.然而,它在每个尺度上将样本分为阳性和阴性。对FCOS [29](+4%)的改进表明,如果我们考虑来自所有尺度的正样本,则对象的中心区域包括足够的可识别视觉模式来检测对象,因此,学习边界框内的所有像素对于一般对象检测方法来说是不需要的。有趣的是,ObjectBox没有使用任何依赖于数据的超参数。其他倾向于解决泛化问题的无锚方法通常使用许多这样的超参数。例如,FCOS [29]定义了一个超参数,用于在不同尺度下对对象大小进行阈值处理,而FoveaBox [14]定义了一个超参数来控制尺度范围。4.2消融研究为了验证我们的方法的有效性,我们在MS-COCO数据集上进行了几次不同设置的实验。我们在所有消融实验中使用了带有CSPDarknet主干的ObjectBox。+v:mala2255获取更多论文ObjectBox:从中心到框,实现无锚对象检测13表2.在MS-COCO上使用CSPDarknet对ObjectBox进行烧蚀研究。我们研究了不同位置(A)的箱回归的影响,每个位置每个尺度的预测数量(B),以及基于对象大小(C)施加约束实验方法Avg.精度,IoU平均值精密度,面积AP AP50AP75APS APMAPL(1)中心33.1 56.836.017.5 35.242.1(2)aug. center(ObjectBox)46.8 65.949.526.8 49.557.6一回归位置(3) h心(4) 八月中心+h中心42.341.756.958.246.545.224.123.645.343.354.254.5(5)4个角28.2 51.535.616.0 33.941.3(6)4个角+中心37.4 57.843.020.4 39.745.5B #Pred.1预测(ObjectBox)46.8 65.949.526.8 49.557.64预测37.3 58.341.919.5 41.648.0C缩放约束m={0, 32, 64,∞}m={0, 64, 128,∞}m={0, 128, 256,∞}29.635.830.445.858.049.230.436.832.017.019.216.831.839.133.540.646.543.5m={0, 256, 512,∞}27.3 43.529.614.7 30.438.1框回归位置。表2 A部分通过选择不同位置的回归框显示了不同位置的回归影响。我们定义了6种情况:(1)只有一个位置在中心(称为“中心”),(2)中心位置与其相邻位置扩大(如在ObjectBox中所做的,由“aug.center”表示),(3)框中心与两个左上角和右下角框角点之间的连接线的中心(称为“h-中心”),(4)(2)中的中心位置加上(3)中的所有位置(由“aug. center + h-centers”表示),(5)边界框的四个角,以及(6)(5)中的角点加上中心位置。结果表明,只使用中心单元是不够的盒回归。另一个重点是(3)优于(1),这意味着选择其他两个点接近到中心比只有中心点好。删除这两个位置并且在(2)中仅考虑中心位置甚至带来了进一步的改进。有趣的是,在(4)中,没有看到超过(3)的改善。这不仅表明考虑中心位置以外的位置不会增加有价值的信息,而且这样做实际上会降低检测性能。最坏的情况发生在我们只使用边界框的角点时。虽然通过将一个中心位置添加到(5)中的点来改善性能,但是结果仍然与(2)、(3)和(4)中的结果相差甚远,其中仅从更靠近中心位置的点获得预测的箱子数量 我们分析了每个位置的预测数量的影响,并在表2 B部分中报告了结果。在这个实验中,我们根据物体中心在该位置的偏移量为每个位置分配了4个预测具体来说,每个位置被分成四个相等的更精细的位置,每个位置都有一个预测当我们在每个位置预测4个盒子时,令人惊讶的是,性能会下降,这证实了我们在每个尺度级别只返回一个预测的策略确实是有益的。+v:mala2255获取更多论文--关于我们14米。Zand等人表3. 不同损失函数对ObjectBox的影响Avg.精度,IoU平均值精密度,面积方法AP AP50AP75APSAP MAPLMSE22.6 44.119.412.5十八点三35.7采用GIoU27.4 46.928.223.830.241.8采用的CIoU27.1 46.528.124.0三十点五41.0SDIOU46.8 65.949.526.8四十九点五57.6专门的特征地图。为了显示在不同尺度下对特征图施加约束的影响,我们选择了四组阈值:{0, 32, 64,∞},(2)m={0, 64, 128,∞},(3)m={0, 128, 256,∞},以及(4)m={0,256,512,∞}。如果w,h m i(i=1,2,3),则尺度i上的物体被认为是负样本。因此,负框不会回归。这类似于基于锚的检测器和无锚检测器。具体而言,无锚方法(如YOLO [24],[1])将不同大小的锚框分配给不同的特征级别,而无锚方法(如FCOS [29])直接限制每个级别的框回归范围。表2C部分中的结果显示了性能对这些阈值的高灵敏度。此外,委员会认为,该实验验证了我们的选择,即考虑所有对象的所有尺度级别的嵌入,因为对特征图进行阈值化会极大地损害结果。损失函数。 为了证明我们的SDIOU损失对箱回归的有效性,我们在三个不同的实验中用其他三个常见的损失代替了它。我们首先分别在所有4个距离上使用MSE(均方误差)损失。在第二个和第三个实验中,我们将4个距离转换为x,y,w,h,并使用GIoU [26]和CIoU损失[39]。如表3所示,这些损失不适合像ObjectBox这样的无锚检测器。更重要的是,我们失去IoU的好处从这些实验中显而易见我们在补充材料中提供了更多的实验(第二节)。S.4)以验证SDIOU在其他无锚方法(如FCOS)中的有效性[29]。5结论ObjectBox是一个无锚点的对象检测器,不需要任何超参数调整。它使用对象的中心位置,并采用一个新的回归目标的边界框回归。此外,通过放松标签分配约束,它平等地对待所有特征级别中的所有对象定制的IoU损失还可以最大限度地减少新回归目标与预测目标之间的距离它被证明,使用现有的骨干架构,如CSPDarknet和ResNet-101,ObjectBox优于其他基于锚和无锚的方法。致谢。 感谢Geotab Inc.,金斯顿市和加拿大自然科学和工程研究委员会(NSERC)对这项工作的支持。+v:mala2255获取更多论文ObjectBox:从中心到框,实现无锚对象检测15引用1. Bochkovskiy,A.,Wang,C.Y.,Liao,H.Y.M.:Yolov4:最佳的物体检测速度和准确性。arXiv预印本arXiv:2004.10934(2020)2. 蔡志,Vasconcelos,N.:Cascade r-cnn:深入研究高质量的对象检测。在:IEEE计算机视觉和模式识别会议论文集。pp. 61543. 董,Z. Li,G.,廖,Y.,王福,Ren,P.,Qian,C.:Centripetalnet:追求高质量的关键点对进行对象检测。在:IEEE/CVF计算机视觉和模式识别会议论文集pp. 105194. Duan,K.,Bai,S.,谢,L.,Qi,H.,黄,Q,Tian,Q.:Centernet:用于对象检测的关键点三元组。在:IEEE计算机视觉国际会议论文集。pp.65695. Everingham,M.,Eslami,S.A.,凡古尔湖,威廉姆斯,C.K.,Winn,J.,Zisserman,A.:Pascal Visual Object Classes Challenge:A Retrospective.国际计算机视觉杂志111(1),986. Ge,Z.,Liu,S.,Li,Z.,Yoshie,O.,Sun,J.:Ota:最佳运输分配用于物体检测。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 3037. Girshick,R.:快速R-CNN。在:IEEE计算机视觉国际会议论文集。pp.14408. H e,K., Gki oxari,G., 多尔拉尔山口, Girshi ck,R.: 面具R-CNN。In:IEEE计算机视觉国际会议主席。pp. 29619. 他,K.,张,X.,Ren,S.,Sun,J.:用于视觉识别的深度卷积网络中的空 间 金 字 塔 池 。 IEEE transactions on pattern analysis and machineintelligence37(9),190410. Huang,G.,刘志,范德马滕湖,Weinberger,K.Q.:密
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功