没有合适的资源?快使用搜索试试~ 我知道了~
3510TOOD:任务对齐的单阶段目标检测冯成建 *Intellifusion Inc.feng. intellif.com钟玉洁*美团网zhongyujie@meituan.comYu Gao字节跳动bytedance.com马修河Scott MalongLLCmscott@malongtech.com黄伟林†阿里巴巴集团weilin. alibaba-inc.com摘要一阶段对象检测通常通过优化两个子任务来实现:对象分类和定位,使用具有两个平行分支的头部,这可能导致两个任务之间的预测中的一定水平的空间未对准。在这项工作中,我们提出了一个任务对齐的一阶段对象检测(TOOD),明确地对齐的两个任务,在一个基于学习的方式。首先,我们设计了一个新的任务对齐头(T-头),它提供了一个更好的平衡学习任务交互和任务特定的功能,以及更大的灵活性,通过任务对齐预测器学习对齐。其次,我们提出任务对齐学习(TAL)明确地拉更近(甚至统一)的最佳锚为两个任务在训练期间通过一个设计的样本分配方案和任务对齐损失。在MS-COCO上进行了广泛的实验,其中TOOD在单模型单尺度测试中达到51.1 AP。这大大超过了最近的一级检测器,例如ATSS [30](47.7AP),GFL [14](48.2 AP)和PAA [9](49.0 AP)。更少的参数和FLOP。定性的结果也证明了TOOD的有效性,更好地对齐的对象分类和定位的任务。代码可在https://github.com/fcjian/TOOD上获得。1. 介绍目标检测是从自然图像中定位和识别感兴趣的目标,是计算机视觉中一项基础性而又具有挑战性的任务它通常被公式化为通过联合优化对象分类和定位的多任务学习问题分类任务被设计为学习集中在对象的关键或显著部分的*同等缴款。†通讯作者。结果评分IoU图1.由ATSS [30](顶行)和所提出的TOOD(底行)预测的检测结果(“结果”)和分类得分(“得分”)和定位得分(“IoU”)的空间分布的图示地面实况由黄色框表示,白色箭头表示最佳锚点远离对象中心的主方向。在“结果”列中而定位任务则致力于精确地定位具有其边界的整个对象。 由于用于分类和定位的学习机制的分歧,通过两个任务学习的特征的空间分布可以是不同的,当通过使用两个单独的分支进行预测最近的一级对象检测器试图通过聚焦于对象的中心来预测两个单独任务的一致输出[3,10,27,30]。他们假设锚(即,用于无锚检测器的锚点,或用于基于锚的检测器的锚盒)在对象的中心可能给出用于分类和定位的更精确的预测。例如,最近的FCOS [27]和ATSS [30]都使用中心分支3511以增强从对象中心附近的锚预测的分类分数,并且为对应锚的定位损失分配更大的此外,FoveaBox [10]将对象的预定义中心区域内的锚点这样的启发式设计已经取得了很好的结果,但是这些方法可能受到两个限制:(1) 分类和定位的独立性。最近的一级检测器通过使用并行的两个独立分支(即,头)。这样的双分支设计可能会导致两个任务之间缺乏交互,导致执行它们时预测的不一致。如图1中的“结果”列所(2) 任务无关的样本分配。大多数无锚点检测器使用基于几何的分配方案来选择对象中心附近的锚点以进行分类和定位[3,10,30],而基于锚点的检测器通常通过计算锚框和地面实况之间的IoU来分配锚框[22,23,30]。然而,用于分类和定位的最佳锚点通常是不一致的,并且可以根据对象的形状和特性而显著变化。广泛使用的样本分配方案是任务不可知的,因此可能难以对两个任务进行准确而一致的预测,如图1中ATSS的“得分”和“IoU”分布所示“结果”列还示出了最佳定位锚(绿色块)的空间位置可能不在对象的中心,并且它没有与最佳分类锚(红色块)很好地对准。因此,在非最大值抑制(NMS)期间,精确的边界框可被较不精确的边界框抑制为了解决这些限制,我们提出了一种任务对齐的一阶段对象检测(TOOD),其目的是通过设计具有对齐导向学习方法的新头部结构来更准确地对齐两个任务:任务一致的头。在对比传统的头在一个阶段的对象检测分类和本地化分别实施,通过使用两个分支并行,我们设计了一个任务对齐的头(T头),以增强两个任务之间的互动这使得这两个任务能够更加协作地工作,从而使它们的预测更加准确。T-head概念上很简单:它计算任务交互特征,并通过一个新的任务对齐预测器(TAP)进行预测。然后,它根据由任务对准学习提供的学习信号来对准两个预测的空间分布,如下所述。任务对齐学习。为了进一步克服错误对齐问题,我们提出了一个任务对齐学习(TAL)明确拉近两个任务的最佳锚。它是通过设计一个样本分配方案和任务对齐的损失。样本分配收集训练样本(即,正或负),而任务对准损失逐渐统一用于在训练期间预测分类和定位因此,在推断时,可以保留具有最高分类分数并且共同具有最精确定位的边界框。所提出的T头和学习策略可以协同工作,以在分类和本地化方面做出高质量的预测。本文的主要贡献可以概括如下:(1)设计了一个新的T形头,在保持分类和本地化各自特点的同时,加强了两者之间的互动,并在预测上进一步协调了两个任务(2)我们提出TAL在识别的任务对齐锚点处显式对齐两个任务,并为所提出的预测器提供学习信号;(3)我们在MSCOCO [17]上进行了广泛的实验,其中我们的TOOD达到了51.1 AP,大大超过了最近的一级检测器,如ATSS [30],GFL [14]和PAA [9]。定性结果进一步验证了我们的任务对齐方法的有效性。2. 相关工作一级探测器。OverFeat [25]是最早的基于CNN的一级检测器之一。之后,YOLO [22]被开发用于直接预测边界框和分类得分,而无需额外的阶段来生成区域建议。SSD [18]引入了具有来自多层卷积特征的多尺度预 测 的 锚 点 , 并 且 提 出 了 Focal loss [16]来 解 决 像RetinaNet这样的一级检测器的类别不平衡问题。基于关键点的检测方法,例如[3,11,33],通过识别和分组边界框的多个关键点来解决检测问题。最近,FCOS[27]和FoveaBox [10]被开发用于通过锚点和点到边界距离定位感兴趣的对象。大多数主流的一级检测器由用于分类和局部化的两个基于FCN的分支组成,这可能导致两个任务之间的不对准在本文中,我们通过一种新的头部结构和一种面向对齐的学习方法来增强两个任务之间的对齐培训样本分配。大多数基于锚点的检测器,如[22,30],通过计算建议和地面实况之间的IoU来收集训练样本,而无锚点检测器将锚点视为中心区域内的锚点3512∈X内部=对齐度分类概率定位精度prob偏移预测对齐(概率)预测对齐(偏移)t字头TALFPN功能:用于分类或定位的最佳锚点的位置:所提议的度量中最对齐的锚点的位置:前向传播:反向传播图2.TOOD的整体学习机制首先,通过T-头对FPN特征进行预测。第二,预测用于计算每个锚点处的任务对准度量,TAL基于该度量产生T头的学习信号。最后,T-head相应地调整分类和定位的分布。具体地,最对齐的锚通过“prob”(概率图)获得更高的分类分数作为阳性样本的对象[3,10,27]。最近的研究试图通过使用输出结果收集更多信息的训练样本来更有效地训练检测器。例如,FSAF [35]基于计算的损失从特征金字塔中选择有意义的样本,并且类似地,SAPD [34]通 过 设 计 元 选 择 网 络 提 供 FSAF 的 软 选 择 版 本FreeAnchor [31]和MAL [8]通过计算损失来识别最佳锚盒,以改善锚和对象之间的匹配。PAA [9]通过将概率分布拟合到锚得分,自适应地将锚分为与正负样本分配不同,PISA [1]根据输出的精度等级对训练样本重新加权。Noisy Anchor [12]将软标签分配给训练样本,并使用干净的锚框重新加权Ness分数以减轻由二进制标签引起的噪声为了方便和简单,TOOD在每个位置使用单个锚点(与ATSS [30]相同),其中“锚点”表示无锚点检测器的锚点,或基于锚点的检测器的锚盒。如所讨论的,现有的一级检测器具有分类和定位之间的任务未对准的限制,这是由于通常使用两个单独的头部分支来实现的两个任务的发散。 在这项工作中,我们建议使用一个设计的任务对齐头(T-头)与一个新的任务对齐学习(TAL)更明确地对齐这两个任务如图2所示,T-head和TAL可以协同工作以改善两个任务的对齐。具体地,T-head首先对FPN特征的分类和定位进行预测。然后,TAL基于新的任务对准度量来计算任务对准信号,该新的任务对准度量测量两个预测之间的对准程度最后,T-head自动调整其分类概率和定位预测使用学习信号计算TAL在反向传播。3.1. 任务一致的主管我们的目标是设计一种有效的头部结构,以改进单级检测器中头部的传统设计(如图3(a)所示)。在这项工作中,我们通过考虑两个方面来实现这一点:(1)增加两个任务之间的交互;(2)增强检测器学习对齐的能力。所提出的T型头如图3(b)所示,其中它具有带有两个任务对齐预测器(TAP)的简单特征提取器。为了增强分类和局部化之间的交互,我们使用特征提取器从多个卷积层学习一堆任务交互该设计不仅方便了任务交互,而且为两个任务提供了多层次特征和多尺度有效感受野。 形式上,设XfpnRH×W×C表示FPN特征,其中H、W和C分别表示通道的高度、宽度和数量。特征提取器使用具有激活函数的N个连续卷积层来计算任务交互特征:.δ(convk(Xfpn)),k=1Kδ(conv(Xinter)),k >1GFL [14]将二元分类标签替换为IoU评分将本地化质量整合到分类中。这些优秀的方法启发了当前的工作,从任务对齐的角度来开发一种新的分配机制3. 面向任务的一阶段目标检测概况. 类似于最近的一级检测器,例如[14,30],所提出的TOOD具有“骨干-FPN-头”的整体流水线。此外,考虑到效率...kk−1其中conv_k和δ分别指第k个conv层和relu函数因此,我们使用头部中的单个分支从FPN特征中提取丰富的多尺度然后,计算出的任务交互特征将被馈送到两个TAP中,用于对齐分类和定位。任务对齐预测器(TAP)。我们在计算的任务交互特征上执行对象分类和定位,其中两个任务可以很好地感知彼此的状态。 但是,由于单支,k ∈ {1,2,…N},(1)3513H×W×个4H Conv×N×个W×CXfpn抽头C除其他K∈∈K∈1×个P×个×个HWWCC41NConv ×4H×个ConvH×个 分类H×分类HCat Conv×W×SigmoidW×个监督80W×个监督80W(/8XclsPH任务-W比对CCatGAPH×WFC乙状wx内部M/OH H×个Cat&Conv×× ××A×Conv ×4H×个Conv定位X间1NH×个定位×C分层关注×个(乙状结肠)八零八零/4/4W监督W监督任务对齐对齐××X内部∼X特遣队1NZ(P/B)P/BX法规BA:用于分类B用于定位的(a) 平行磁头(b) 任务对齐头(T型头)(c) 任务对齐预测器图3.传统平行头与拟议T型头的比较在设计中,任务交互特征不可避免地在两个不同任务之间引入一定程度的特征冲突直观地说,对象分类和定位的任务具有不同的目标,因此集中于不同类型的特征(例如,特征,我们通过使用计算的任务交互特征共同考虑两个任务来对齐两个预测。值得注意的是,我们分别对这两项任务。如图3(c)所示,我们使用一个空间概率图M∈RH×W×1来调整分类不同水平或感受野)。 因此,我们亲-提出分层注意机制,鼓励任务分解-预测:Palign=P×M,(5)通过在层级别动态地计算这样的任务特定特征来定位。如图3(c)所示,针对分类或定位的每个任务分别计算任务特定特征:其中M是根据交互特征计算的,允许其学习每个空间位置处的两个任务之间的一致性程度同时,对国产化前的定位进行了调整X任务=wk·Xk,k ∈ {1,2,… N},(2)我们进一步学习了空间偏移映射ORH×W×8从交互式功能,用于调整其中,wk是学习层注意力wRN的第k个元素。w是从跨层任务交互特征计算的,并且能够捕获层之间的w=σ ( fc2 ( δ ( fc1 ( x 整 数 ) ,(3)其中fc1和fc2指的是两个全连接层。标准差是S形函数,并且通过应用到X_inter的平均池化,其是X_inter的级联特征。最后,从每个X任务预测分类或定位的结果:Z任 务 =conv2 ( δ ( conv1 ( X任 务 k ) ,(4)在每个位置预测边界框。具体地,所学习的空间偏移使得最对齐的锚点能够识别其周围的最佳边界预测:Balign(i,j,c)=B(i+O(i,j,2×c),j+O(i,j,2×c+1),c),(6)其中索引(i,j,c)表示张量中第c个通道处的第(i,j)个空间当量(6)通过双线性插值实现,并且由于B的非常小的信道维度,其计算开销是可忽略的。值得注意的是,每个通道的偏移量是独立学习的,这意味着对象的每个边界都有自己的学习偏移量。这允许对四个边界进行更准确的预测因此,我们认为,转换器1是1×K1个用于降维的conv层。Z任务我们的方法不仅使这两个任务一致,而且提高了通过识别精确的锚点来提高定位精度然后被转换成密集分类得分PRH×W×80使用sigmoid函数或对象边界盒B∈RH×W×4与距离到b盒的转换每一方的点。自动学习对准图M和O如[27,30]所示。预测对齐。在预测步骤,我们通过调整两个预测的空间分布来进一步明确地对齐两个任务:P和B。不同于使用中心分支[27]或IoU分支[9]的先前作品,其只能基于分类特征或定位来从交互式功能堆栈中:M=σ(conv2(δ(conv1(X整数)(7)0=conv4(δ(conv3(Xinte)(8)其中conv1和conv3是用于降维的两个11卷积层。M和O的学H×W×CXfpn抽头W√3514习通过使用所提出的任务对齐学习(TAL)来执行,该TAL3515ΣCLS我我我 我JJ将在下面描述。请注意,我们的T型头是一个独立的模块,可以在没有TAL的情况下正常工作。它可以容易地以即插即用的方式应用于各种单级物体检测器,以提高检测性能。3.2. 任务对齐学习我们还引入了任务对齐学习(TAL),进一步指导我们的T头,使任务对齐的预测。TAL在两个方面不同于先前的方法[1,8,9,12,14,31]。首先,它是从任务对齐的角度设计的。其次,它同时考虑锚点分配和加权。它包括一个样本分配策略和新的损失专门设计的对齐两个任务。3.2.1与任务一致的样本分配为了应对NMS,训练实例的锚分配应满足以下规则:(1)良好对准的锚应当能够联合精确定位预测高分类分数;(2)未对准的锚应该具有低分类分数并且随后被抑制。基于这两个目标,我们设计了一个新的锚对齐度量来明确地度量3.2.2任务相关损失分类目标。为 了 明确地增加对齐锚点的分类分数,同时,减少未对齐锚点的分数(即,具有小的t),我们在训练期间使用t来替换正锚的二进制标记。然而,我们发现当标签(即,随着α和β的增加,正锚的α和β的增加而变小。因此,我们使用归一化的t,即t,来替换正锚点的二进制标签,其中t通过以下两个属性进行归一化:(1)确保对困难实例的有效学习(其通常对于所有对应的正锚具有小的t);(2)基于预测的边界框的精度来保持实例之间的等级。因此,我们采用一个简单的实例级归一化来调整t的尺度:t的最大值等于每个实例中的最大IoU值(u然后,在用于分类任务的正锚上计算的二进制交叉熵(BCE)可以被重写为,N阳性Lclspos=BCE(si,ti),(10)i=1锚点级别的任务对齐。对齐度量为集成到样本分配和损失函数中其中i表示从N个锚点到第i个锚点,POS阳性和动态地细化每个锚点处的预测锚定对齐度量。考虑到分类得分和预测边界框与地面实况之间的IoU指示两个任务的预测质量,我们使用分类得分的高阶组合来对应于一个实例的和弦。在[16]之后,我们采用焦点损失进行分类,以减轻训练期间负样本和正样本之间的不平衡。在正锚点上计算的焦点损失可以由等式(1)重新表示。(10),并且分类任务的最终损失函数定义如下:N阳性N阴性还有借据具体来说,我们设计了以下度量要计算每个实例的锚点级对齐,请执行以下操作L= Σ。t− s。γBCE(s,t)+Σsγ BCE(s,0),(11)t=sα×uβ,(9)其中s和u分别表示分类得分和IoU值。 α和β用于控制冲击其中,j表示来自N个锚的第j个锚。锚,并且γ是聚焦参数[16]。neg 负在锚对准度量中的两个任务中。 值得注意的是,t在两个任务的联合优化朝着任务对齐的目标发挥关键作用。它鼓励网络动态地集中于高质量(即,任务对齐的)锚。培训样本分配。如[30,31]中所讨论的,训练样本分配对于对象检测器的训练至关重要。为了提高两个任务的对齐度,我们专注于任务对齐的锚点,并采用简单的分配规则来选择训练样本:对于每个实例,我们选择具有最大t值的m个锚作为正样本,而使用剩余的锚作为负样本。再次,通过计算专门设计用于对准分类和定位任务的新损失函数本地化目标。 预 测 的边界框对准良好的锚(即,具有大的t)通常具有大的分类得分和精确的定位,并且这种边界框更可能在NMS期间被保留。另外,t可以被应用于通过更仔细地对损失进行加权来选择高质量的边界框以改进训练。如[21]中所讨论的,从高质量的边界框中学习有利于模型的性能,而低质量的边界框通常会产生大量信息量较少和冗余的信号来更新模型,从而对训练产生负面影响在我们的例子中,我们应用t值来测量边界框的质量。因此,我们通过关注对齐良好的锚点(具有大t)来提高任务对齐和回归精度,同时减少绑定期间未对齐的锚点(具有小ti=1j=13516Σreg×个我我 我表1.各种探测器中不同头部结构之间的比较FLOP在1280× 800的输入图像尺寸上测量箱回归类似于分类目标,我们基于t重新加权为每个锚点计算的边界框回归的损失,并且GIoU损失(LGIoU)[24]可以重新表示如下:N阳性L=tL(b,b′),(12)i=1其中b和tb表示预测的边界框和对应的TAL的总训练损失是Lcls和Lreg之和。4. 实验和结果数据集和评价方案。所有实验均在大规模检测基准MS-COCO2017上实施 [17]。根据标准实践[15,16],我们使用trainval135k集(115K图像)进行训练,并使用minival集(5K图像)进行消融研究的验证。我们报告我们的主要结果的测试开发集比较与国家的最先进的探测器。通过COCO平均精度(AP)[17]测量性能实作详细数据。与大多数一级检测器[10,16,27]一样,我们使用“backbone-FPN-head”的检测流水线类似于ATSS [30],TOOD每个位置平铺一个锚点。除非另有说明,否则我们报告无锚TOOD的实验结果(基于锚的TOOD可以实现类似的性能,如表3所示)。交互层的数量N被设置为6以使T头具有与常规平行头类似的参数数量,并且聚焦参数γ被设置为2,如在[14,16]中所使用的更多实施和培训详情见补充材料(SM)。(a)消融研究对于消融研究,我们使用ResNet-50主干并训练模型12个时期,除非另有说明。报告了COCOminival套件的性能。表2.不同训练样本作业方案的比较。'Pos/neg':正/负锚点分配。“权重”:锚点权重分配。'fixed':固定赋值。‘ada’:在这里,TAP基于来自最后一个头部的分类和定位特征来对齐预测塔*表示模型训练了18个epochs。头部结构。我们在表1中比较了我们的T型头与传统的平行头。 它可以以即插即用的方式被采用在各种一级探测器中,并且始终优于传统头0.7至1.9AP,具有更少的参数和FLOP。这验证了我们的设计的有效性,并表明T头可以更有效地工作,更高的性能,通过引入任务交互和预测对齐。样本分配。为了证明TAL的有效性,我们使用不同的样本分配方法将TAL与其他学习方法进行比较,如表2所示。训练样本的分配按是否为基于学习的方法分为固定分配和自适应分配。与现有的锚点分配方法不同,TAL算法自适应地分配正锚点和负锚点,同时对正锚点的权重进行了更细致的计算,从而提高了性能.与PAA(+IoU预测)进行比较它有一个额外的预测结构,我们inte-GIoU方法头头部/全参数(M)水头/全FLOP(G)APAP50AP75FoveaBox [10]平行磁头4.92/36.20104.87/206.2837.356.239.7t字头4.82/36.10100.79/202.2038.056.840.5FCOS w/ imprv [27]平行磁头4.92/32.02104.91/200.5038.657.241.7t字头4.82/31.92100.79/196.3840.558.543.8ATSS(基于锚点)[30]平行磁头4.92/32.07104.87/205.2139.357.542.8t字头4.82/31.98100.79/201.1341.158.644.5ATSS(无锚)[30]平行磁头4.92/32.07104.87/205.2139.257.442.2t字头4.82/31.98100.79/201.1341.158.444.5锚点分配POS/neg重量APAP50 AP75基于IoU [16]固定固定36.555.538.7中心抽样[10]固定固定37.356.239.3中心[27]固定固定37.456.140.3ATSS [30]固定固定39.257.442.2PISA [1]固定ada37.356.540.3NoisyAnchor [12]固定ada38.056.940.6ATSS+QFL [14]固定ada39.958.543.0免费锚[31]ada固定39.158.242.1《仲裁示范法》[8]ada固定39.258.042.3临时机场管理局[9]*ada固定39.959.142.8PAA+IoU预测[9]ada固定40.959.443.9TALadaada40.358.543.8TAL*adaada40.959.344.3TAL+TAP*adaada42.560.346.43517∼∼∼×个×个∼∼转转平行磁头+ATSSt字头+ATSS平行磁头+TALt字头+TAL图4.从用于分类(红色)和定位(绿色)的最佳锚点预测的几个检测结果的图示。所示的贴片和边界框对应于图1中的贴片和边界框。将TAP排到TAL中,导致42.5的较高AP更多关于TAL和以前的方法之间的差异的讨论在SM中给出。太好了。我们评估了完整的TOOD(T型头+ TAL)的性能。如表3所示,无锚TOOD和基于锚的TOOD可以实现类似的功能。类型方法AP AP50 AP75无锚ATSS [30] 39.2 57.4 42.2TOOD 42.5 59.8 46.4基于锚点的ATSS [30] 39.3 57.5 42.8TOOD 42.4 59.8 46.1表3.完整TOOD(T形头+TAL)的性能性能,即,42.5 AP和42.4 AP。较ATSS、TOOD提高了3.2AP的性能。更具体地说,对AP75的改进是显著的,这在TOOD中产生了3.8个点的高AP。这验证了对齐两个任务可以提高检测性能。值得注意的是,TOOD带来的改善(+3.3 AP)高于T型头+ATSS(+1.9 AP)和平行头+ TAL(+1.1 AP),如表6所示。这表明T型头和TAL之间有很强的互补性.超参数。我们首先使用不同的α和β值来研究TAL的性能,其通过t控制分类置信度和局部化精度对锚对齐度量的影响。通过表4所示的粗略搜索,我们采用α= 1和β= 6作为TAL。然后,我们进行了几个实验,以研究的鲁棒性的超参数m,这是用来选择积极的锚。我们在[5,9,13,17,21]中使用不同的m42.0 42.5 AP,这表明性能对m不敏感。因此,我们在所有实验中采用m= 13(b)与最新技术水平的我们将我们的TOOD与表5中的COCO测试-dev上的其他单级检测器进行比较。模型用尺度抖动(480-800)和2×学习时间表(24)α βAP AP50AP750.5 2 42.460.046.10.5 4 42.3 59.3 45.80.5 6 41.7 58.1 45.11.0 642.559.846.41.0 8 42.2 59.0 46.01.5 8 41.5 59.4 44.7表4.不同超参数的t。作为最新的方法[14]。为了公平的比较,我们报告的结果,单一的模型和单一的测试规模。使用ResNet-101和ResNeXt-101-64 4d,TOOD达到46.7 AP和48.3AP,优于最新的一级检测器,如ATSS [30](3 AP)和GFL [14](2 AP)。此外,与其他检测器相比,使用 ResNet- 101-DCN 和 ResNeXt-101-64 4d-DCN ,TOOD带来了更大的改进。例如,其获得2.8 AP(48.351.1 AP ) 的 改 善 , 而 ATSS 具 有 2.1 AP ( 45.6 47.7AP)的改善。这验证了TOOD可以通过自适应地调整学习特征的空间分布以进行任务对齐来更有效地与可变形卷积网络(DCN)[36]合作。请注意,在TOOD中,DCN应用于头塔中的前两层。如表5所示,TOOD在一级对象检测中使用51.1 AP实现了新的最先进3518方法参考主干AP AP50 AP75APSAPMAPLRetinaNet [16] ICCV 17 ResNet-101 39.1 59.1 42.3 21.9 42.750.2FoveaBox [10]-ResNet-101 40.6 60.1 43.5 23.3 45.2 54.5FCOS w/imprv [27] ICCV19 ResNet-101 43.0 61.7 46.3 26.0 46.8 55.0噪声锚[12] CVPR 20 ResNet-101 41.8 61.1 44.9 23.4 44.9 52.9MAL [8] CVPR20 ResNet-101 43.6 62.8 47.1 25.0 46.9 55.8SAPD [34] CVPR20 ResNet-101 43.5 63.6 46.5 24.9 46.8 54.6ATSS [30] CVPR20 ResNet-101 43.6 62.1 47.4 26.1 47.0 53.6PAA [9] ECCV20 ResNet-101 44.8 63.3 48.7 26.5 48.8 56.3GFL [14] NeurIPS20 ResNet-101 45.0 63.7 48.9 27.2 48.8 54.5TOOD(我们的)-ResNet-10146.7 64.6 50.7 28.9 49.6 57.0SAPD [34] CVPR20 ResNeXt-101-64× 4d 45.4 65.6 48.9 27.3 48.7 56.8ATSS [30] CVPR20 ResNeXt-101-64× 4d 45.6 64.6 49.7 28.5 48.9 55.6PAA [9] ECCV20 ResNeXt-101-64× 4d 46.6 65.6 50.8 28.8 50.4 57.9GFL [14] NeurIPS20 ResNeXt-101-32× 4d 46.0 65.1 50.1 28.2 49.6 56.0TOOD(我们的)-ResNeXt-101-64× 4d48.3 66.5 52.4 30.7 51.3 58.6SAPD [34] CVPR20 ResNet-101-DCN 46.0 65.9 49.6 26.3 49.2 59.6ATSS [30] CVPR20 ResNet-101-DCN 46.3 64.7 50.4 27.7 49.8 58.4PAA [9] ECCV20 ResNet-101-DCN 47.4 65.7 51.6 27.9 51.3 60.6GFL [14] NeurIPS20 ResNet-101-DCN 47.3 66.3 51.4 28.0 51.1 59.2TOOD(我们的)-ResNet-101-DCN49.6 67.4 54.1 30.5 52.7 62.4SAPD [34] CVPR20 ResNeXt-101-64× 4d-DCN 47.4 67.4 51.1 28.1 50.3 61.5ATSS [30] CVPR20 ResNeXt-101-64× 4d-DCN 47.7 66.5 51.9 29.7 50.8 59.4PAA [9] ECCV20 ResNeXt-101-64× 4d-DCN 49.0 67.8 53.3 30.2 52.8 62.2GFL [14] NeurIPS20 ResNeXt-101-32× 4d-DCN 48.2 67.4 52.6 29.2 51.7 60.2GFLV2 [13]†CVPR21 ResNeXt-101-32× 4d-DCN 49.0 67.6 53.5 29.7 52.4 61.4OTA [5]†CVPR21 ResNeXt-101-64× 4d-DCN 49.2 67.6 53.5 30.0 52.5 62.3IQDet [19]†CVPR21 ResNeXt-101-64× 4d-DCN 49.0 67.5 53.1 30.0 52.3 62.0VFNet [29]†CVPR21 ResNeXt-101-64× 4d-DCN 49.9 68.5 54.3 30.7 53.1 62.8TOOD(我们的)-ResNeXt-101-64× 4d-DCN51.1 69.4 55.5 31.9 54.1 63.7表5.COCO测试开发套件上的检测结果†表示并行工作。方法APPCC(前50名)IoU(前10名)#正确的盒子#冗余框#错误框平行头+ ATSS [30]39.20.4080.63730,26125,42892,677T型头+ ATSS [30]41.10.4400.64430,60121,83879,189平行头+TAL40.30.4150.64330,50615,92772,320T形头+TAL42.50.4520.66130,73415,24269,013表6.分析TOOD与主干ResNet-50的任务对齐(c)任务匹配的定量分析我们定量分析所提出的方法对两个任务的对齐效果。在没有NMS的情况下,我们通过选择每个实例的前50个置信预测以及前10个置信预测的平均IoU来计算分 类 和 定 位 的 排 名 [20] 之 间 的 Pearson 相 关 系 数(PCC)。如表6中所示,通过使用T-头和TAL改善了平均PCC和IoU。同时,在NMS中,当应用T-head和TAL时,正确盒(IoU>= 0.5)的数量增加,而冗余盒( IoU >=0.5 ) 和 错 误 盒 ( 0.1IoU统 计 数 据 表 明 ,TOOD是更兼容的NMS,通过保留更多的正确的盒子,并抑制冗余/错误的盒子显着。在最后,检测性能总共提高了3.3个AP。图4中示出了若干检测示例。5. 结论在这项工作中,我们说明了在现有的一个阶段的检测器的分类和本地化之间的错位,并提出TOOD对齐这两个任务。特别地,我们设计了一个任务对齐的头,以增强两个任务的交互作用,从而提高其学习对齐的能力。此外,一个新的任务对齐的学习策略,通过引入一个样本分配方案和新的损失函数,这两个都是通过锚对齐度量计算。通过这些改进,TOOD在MS-COCO上实现了51.1 AP,大大超过了最先进的一级探测器。3519引用[1] Yuhang Cao,Kai Chen,Chen Change Loy,and DahuaLin.目标检测中的主要样本注意力。在IEEE计算机视觉和模式识别会议论文集,第11583-11591页[2] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第248[3] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:用于对象检测的关键点三元组。在IEEE计算机视觉国际会议论文集,第6569-6578页[4] Chengjian Feng,Yujie Zhong,and Weilin Huang.探索长尾目标检测中的分类平衡arXiv预印本arXiv:2108.07507,2021。[5] Zheng Ge,Songtao Liu,Zeming Li,Osamu Yoshie,andJian Sun. Ota:用于对象检测的最优传输分配。在IEEE计算机视觉和模式识别会议论文集,第303-312页[6] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第580-587页[7] 蒋博瑞,罗瑞轩,毛嘉源,肖特特,蒋云英获取用于精确对象检测的定位置信度在欧洲计算机视觉会议论文集,第784-799页[8] Wei Ke,Tianliang Zhang,Zeyi Huang,Qixiang Ye,Jianzhuang Liu,and Dong Huang.多锚点学习用于视觉对象检测。在IEEE计算机视觉和模式识别会议论文集,第10206-10215页[9] Kang Kim和Hee Seok Lee用于对象检测的具有IOU预测的概率锚点分配在欧洲计算机视觉会议论文集,2020年。[10] Tao Kong,Fuchun Sun,Huaping Liu,Yunning Jiang,Lei Li,and Jianbo Shi.Foveabox:基于锚点的对象检测。IEEE Transactions on Image Processing,29:7389[11] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在欧洲计算机视觉会议论文集,第734-750页[12] Hengduo Li,Zuxuan Wu,Chen Zhu,Caiming Xiong,Richard Socher,and Larry S Davis.从噪声锚点学习用于一阶段对象检测。在IEEE计算机视觉和模式识别会议论文集,第10588-10597页[13] 李翔、王文海、胡晓林、李俊、唐金辉、杨健。广义焦点损失v2:学习可靠的定位质量估计密集对象检测。在IEEE计算机视觉和模式识别集,第11632[14] Xiang Li,Wenhai Wang,Lijun Wu,Shuo Chen,Xiaolin Hu,Jun Li,Jinhui Tang,and Jian Yang.广义焦点丢失:学习密集的合格和分布式边界框目标检测在神经信息处理系统的进展,2020年。[15] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页[16] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在Proceedings of the European Conference onComputerVi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功