没有合适的资源?快使用搜索试试~ 我知道了~
9705分层镜头检测器曹家乐1,庞彦伟1,韩俊功2,李雪龙31天津大学2华威大学3西北工业大学connor@tju.edu.cn,pyw@tju.edu.cn,jungong. warwick.ac.uk,li@nwpu.edu.cn摘要单镜头检测器同时预测对象类别和默认框的回归偏移。该结构虽然效率高,但也存在一些设计不当的地方:(1)在推理过程中,将缺省框的分类结果不恰当地分配给回归框的分类结果为了解决第一个问题,提出了一种新的reg-offset-cls(ROC)模块。它包括三个层次的步骤:盒回归,特征采样位置预测,回归盒分类与偏移位置的特征。为了进一步解决第二个问题,提出了分层镜头检测器(HSD),分类2采样偏移2回归2传奇其堆叠两个ROC模块和一个特征增强模块。第二ROC将第一ROC中的特征的回归框和特征采样位置作为输入。同时,在两个ROC之间注入的特征增强模块旨在提取本地和非本地上下文。在MS COCO和PAS- CALVOC数据集上的实验证明了所提出的HSD的优越性没有花里胡哨的东西,HSD在实时速度上优于所有一阶段方法。1. 介绍基于深度卷积神经网络的对象检测可以主要分为两类:两阶段方法[15,40,16]和一阶段方法[39,31,28]。两阶段方法首先提取候选对象建议,然后对这些建议进行分类和回归。单阶段方法直接预测密集默认框(锚)的对象类别和回归偏移。与两阶段法相比,一阶段法效率更高,但准确性较差。在一阶段方法中,正样本和负样本之间的类别不平衡问题被认为是一个主要挑战,OHEM [42]和焦点损失[28]在一定程度上解决了这个问题。除了阶级不平衡的问题,彭彦伟为通讯作者。代码将在https://github.com/JialeCao001/HSD网站。图1.检测管道。HSD由两个堆叠的reg-offset-cls(ROC)模块。每个ROC首先对盒子进行回归用于第一分类和第二回归的特征采样位置是相同的。为了简化,未示出两个R0C之间的特征增强模块。有两个不适当的设计可以进一步改进:(1)大多数一阶段方法在训练过程中同时进行默认框的分类和回归。结果,在推理期间,默认框的分类结果被不正确地分配给回归框的分类结果。事实上,我们希望输出回归框的真实分类结果。同时,使用默认框训练分类任务忽略了一些准确回归的框,这些框有助于对象检测。(2)仅对默认框进行一次回归不足以准确检测对象。最近,级联结构已被提出用于两阶段方法和一阶段方法中的精确检测[54,2]。然而,级联结构中的每一级仍然遭受上述分类不一致的问题。为了更好地解决上述问题,一种新的分层镜头检测器(HSD)提出的图。1分层次地进行回归和分类。在HSD中,关键和新颖的结构是reg-offset-cls(ROC)模块。代替同时分类和回归,ROC首先默认框(b0)回归框(b1)框回归采样偏移1分类1回归框(b2)注册表1的功能cls1的偏移特征reg2的偏移特征cls2的偏移特征9706O1R1O2R2B0b0C1b0C1B1C2b0C1B1B1C1C2b2输入R1输入b0R2b0b1输入R2b0b1输入B1H1转换H1H2转换H1H2convH1FEH2(a) SSD(b)Refinedet(c)ConRetinaNet(d)我们提出的HSD图2.一些单阶段方法的结构。“conv”表示骨干网。“H”是卷积头。C是分类分支的谓语。'R'是回归分支的谓词。‘(d)中的‘0’是用于通过框回归输出来计算特征采样偏移的卷积模块。(d)中的“卷积”表示通过考虑特征采样偏移进行分类或回归的卷积运算。预测缺省盒(b0)的回归偏移量,然后生成特征采样偏移量,最后根据偏移位置的特征对回归盒(b1)进行基于ROC模型,可以使用用于分类的准确采样位置和更准确的回归盒的特征为了进一步提高检测,HSD分层堆叠两个ROC模块。回归框(bl)和由第一ROC生成的特征采样偏移被用作输入。同时,为了增强特征区分度,在第二ROC之前注入特征增强(FE)模块以利用更多的本地和非本地上下文信息。本文的主要贡献可以概括如下:(1) 提出了一种新的reg-offset-cls(ROC)模块。它通过三个分层步骤重建同时分类和回归:缺省盒回归、特征采样偏移预测和具有偏移特征的回归盒分类。此外,它重量轻。(2) 基于所提出的ROC模块,提出了分层镜头检测器(HSD),其分层堆叠两个ROC模块和一个特征增强(FE)模块。建议的HSD可以被看作是一个泛化的一阶段的方法,准确的对象检测。(3) 对MS COCO [29]和PAS-CAL VOC [11]的实验结果此外,所提出的HSD在实时速度下实现了最先进的性能。2. 相关作品在过去的几年中,基于深度卷积神经网络的对象检测取得了巨大成功[24,43,18,46,37]。取决于是否可以提出建议(即,ROI),这些方法被分成两阶段方法[15,40,27,16]和一阶段方法[15,40,27,16]。阶段方法[39,31,28,49]。两阶段方法是基于建议的方法,其首先产生一些候选对象建议,然后使用ROI头网络对这些建议进行分类和回归。RCNN [15]及其扩展(Fast RCNN [14]和Faster RCNN [40])是最具代表性的两阶段方法.在此之后,已经提出了许多变体。为了对位置信息进行编码并降低Faster RCNN的计算成本,R-FCN [8]用位置敏感ROI(PSROI)池化代替了ROI池化。 GA-RPN[48]利用语义特征来指导锚点生成。为了解决尺度方差问题,一些特征金字塔方法(例如,MSCNN [1]、MCF [3]和FPN [27])和图像金字塔方法(例如,SNIP[44]和SNIPER [45])通过多尺度特征图或多尺度图像来检测对象。Mask R-CNN [16]通过额外的分割分支将对象检测扩展到实例分割。单阶段方法是无建议的方法,它同时输出密集默认框的分类得分和回归偏移(见图2)。第2(a)段)。YOLO [39]和SSD [31]是两种代表性方法。YOLO [39]将原始图像分割成N×N个网格,并预测每个网格中存在的对象概率。SSD [31]使用骨干的不同层来检测不同的对象。多鳞与两阶段方法不同,一阶段方法需要处理大量的正样本和为了解决这个问题,OHEM [42]和焦点损失[28]更加关注硬样品。近年来,许多工作已经提出,以促进一阶段方法的进展。一些方法[12,23,20,57]旨在增强预测层的特征语义。一些方法[55,10,34,4,7]添加分段监督以提高检测性能。为了避免手工制作的锚,最近提出了一些无锚方法[25,59,47]。与两步法相比,一步法效率高,精度低。因此,我们的目标是提高检测精度的一个阶段的方法具有高效率。级联结构对于准确的目标检测非常有用[2,19,54,32,60,35]。具体地说,两级检测器CascadeRCNN [2]和IoU-Net [19]具有一系列ROI检测器,而一级检测器Refinedet [54]和ALFNet [32]使用多个全卷积头部网络进行预测(见图11)。第2段(b)分段)。在每个阶段,这些方法同时进行分类和重新分类。R1R1conv9707regregCLSCLS输入图像磁头磁头磁头头(a) HSD的整体架构(b) 头部网络(c) FE模块图3.(a)中的HSD的总体架构,其通过多个头部网络在多个层处检测对象中的头网络(b)由两个堆叠的ROC模块和(c)中的一个特征增强(FE)模块组成 ‘N’ means the number of格雷辛因此,他们并不认为默认框和回归框之间存在分类不一致性最近,ConRetinaNet [22]使用默认框和回归框进行分类(见图11)。2(c))在训练阶段,这是解决不一致性的初步尝试 与ConRetinaNet相比,我们的方法(见图1)。2(d))进一步考虑了两个重要的不一致性:默认框和回归框之间的特征不一致性,以及用于回归和分类的正/负样本的阈值不一致性。上下文信息已经被证明是有助于对象检测和语义分割。一方面,一些方法[21,27,26,51,50])使用编码器-解码器结构组合不同尺度的特征图。另一方面,一些方法[17,5,56,38,36,6])采用具有多个分支的空间金字塔结构来提取多尺度上下文信息。同时,非局部上下文信息对两个ROCs进行结构化堆叠,以及如何通过特征增强(FE)模块提取局部和非局部上下文。3.1. reg offset cls(ROC)模块通常,一阶段方法在训练过程中同时预测对象类别和默认框b 0的回归偏移量,其缺点是:(1)在推理过程中将默认框b 0的分类得分错误地分配给回归框b1的分类得分;(2)在训练期间,可以将准确检测对象的一些回归框标记为负样本,这可以用于提高检测性能。为了解决上述问题,提出了一种新的reg-offset-cls(ROC)模型,该模型通过三个分层步骤来重构回归和分类:首先预测缺省盒b0的回归偏移量,然后根据回归输出计算特征采样偏移量,最后利用偏移量位置特征对回归盒b1进行分类由自我注意模块[52,13]提取的信息也是有用的。回归损失(即,L1)的ROC模块是因此,一个自然的想法是结合本地和非本地的con-与SSD相同[31]:用于对象检测文本信息。在我们的级联中结构,本地和非本地上下文信息是L1=1 Σ Lreg(vb0,tb0(wb0,x1)),(1)在第二ROC之前添加,第二ROC需要更多的区分特征以用于更准确的对象检测。reg1reg我i i reg3. 我们提出的方法其中vb0和tb0分别是真实回归。默认框的预测回归偏移wb0reg 和x1分别是回归卷积。在本节中,我们将详细描述我们的方法(HSD)。图3(a)示出了总体架构。 给定图像,骨干网络(例如,函数权重和ROC的输入特征n1是箱回归的样本数。基于回归的框b1,分类损失VGG16 [43])和两个额外的卷积块以生成不同分辨率的特征图。然后,(即,L1)可以表示如下:头部网络,包含两个cls-offset-reg(ROC)1ΣL1=L(ub1,pb1(wb1,x1(∆b1),(2)一个特征增强(FE)模块和一个特征增强(FE)模块分别附接在这些特征图处。最后,detec-CLS1CLS我clsi iCLS每个头网络的测试结果由非其中ub1和pb1分别是真标签和最大抑制回归框B1的预测得分。N1这是一个数量-在接下来的部分中,我们首先介绍了核心reg-offset-cls(ROC)模块。然后,我们解释如何在这里-箱分类的样本的BER。利用可变形卷积[9]的技术,预测得分pb1可以ROC1cls1(b0→b1)cls2ROC2(b1→b2)3x3(d)、1x1、3x3(d)、1x1、2N 18N(C+1)N 18NREG1reg2三乘三4N3x3(d),4N三乘三256三乘三256Fe3x3,256猫3x3(2),非64个地方三乘三128一乘一,一乘一,64 64三乘三256Nb0.N9708CLSregCLSreg12regCLS通过对分类权重Wb1进行具有偏移位置的特征x1(∆b1)第一ROC模块。 类似地,可变形卷积[9]用于通过下式预测框b1的回归偏移tb1:回归框b1的特征采样偏移Δb1为卷积回归权重wb1的特征18-d,其从回归输出tb0学习(即,∆x0,∆y0,∆w0,∆h0)的值,如下所示:∆b1=w1(w1tb0),(3)x2(b1)偏移位置。对于第二模块,分类损失(即,L2)可以表示为:1 2其中w1和w1分别表示两1ΣL2=L(ub2,pb2(wb2,x2(nb1+b2),(5)1 2clsN2clsiiCLS1×1卷积层。ROC模块的结构如图10的左侧所示。图3(b)。来自主网络的特征图被馈送到3×3卷积层,以生成第一个ROC的输入特征图(F1)之后,回归分支使用3×3卷积来预测回归偏移。回归输出的通道数为4N,其中NCLS 我其中ub2和pb2是真实标签和回归框b2的预测得分。框b2的特征采样偏移Δb1+b2为Δb1+b2= Δb1+ Δb2,其中Δb1由等式3计算,Δb2由下式计算b2=w2是锚的数量。基于回归偏移,通过两个1×1的特征采样偏移(O1)来计算特征采样偏移(其中TB1是回归输出(即, ∆x1,∆y1,∆w1,∆h1)。类似于卷积权重(即,w1回旋 为了简化,示出了一个卷积。12 21采样偏移的通道数为18N。利用F1和O1,分类分支使用组N的3×3可变形卷积来输出分类结果。如果HSD仅使用一个ROC模块,则分类的通道数输出等于(C+ 1)N,其中C是对象类别的数量。如果HSD使用两个堆叠的ROC模块,则第一个ROC中的分类输出的通道数等于2N,这旨在过滤许多负盒。与同时回归和分类的默认框相比,我们的ROC可以使用更准确的回归框进行更好的训练,并使用更准确的采样位置的特征进行更好的分类。此外,该方法只增加了两个1×1卷积,具有较轻的计算量。3.2. 两个分层ROC模块对于准确的对象检测,具有级联结构的多个连续回归和分类已被证明是有效的[54,2]。在本文中,两个ROC模块分层堆叠,以进一步提高检测精度。基于由第一ROC模块生成的回归框和特征采样偏移,第二ROC模块进一步预测框回归并通过偏移位置的特征对回归框进行分类。在训练阶段,训练损失等于两个ROC模块的损失之和。对于第一ROC模块,回归损失(即,L1)和分类损失(即,L1)的情况见第3. 1节。对于第二ROC模块,回归损失(即,L2)可以写成如下:和w2),在等式3中,权重(即,W1和W2)也在训练阶段被学习。两个堆叠的ROC模块的详细结构可以在图1中看到。3(b)款。 两个ROC的检测流水线是第一回归›→第一采样偏移›→第一分类›→第二回归›→第二采样偏移›→第二分类。第一种分类使用3×3可变形卷积来考虑特征采样偏移第二种分类方法采用3×3可变形卷积来考虑第一次回归和第二次回归所引起的特征采样偏移3.3. 功能增强模块在HSD中,第二ROC模块旨在生成更准确的分类和位置。为了进一步提高特征鉴别能力,在两个ROC模块之间引入特征增强(FE)模块,提取更多的局部和非局部上下文信息,丰富第二个ROC模块的输入特征。图3(c)示出了FE模块的结构。具体而言,它由三个不同的分支组成:卷积分支、局部上下文分支和非局部上下文分支。卷积分支具有3×3卷积。为了减少计算量,局部上下文分支和非局部上下文分支首先经过1 ×1卷积层,以减少特征映射的通道数在此之后,局部上下文分支经历具有3的膨胀率的3X3卷积,并且非局部上下文分支经历[52]中使用的非局部模块。之后,三个分支的输出映射为1 ΣL2=L(vb1,tb1(wb1,x2(∆b1))),(4)连接在一起并馈送到3×3卷积层reg2reg我reg我我reg以生成用于第二ROC的输入来实现一点当输入尺寸为512×512,FE时,性能较好其中vb1和tb1分别是框b1模块将当前比例的特征图和下一比例的上采样图连接起来作为输入。N9709方法骨干输入大小#注册#cls上下文APAP@0.5AP@0.75APsAPmAPl(a)基线(类SSD)VGG16320×32011’27.846.728.410.327.843.1(b)一个ROCVGG16320×32011’30.351.231.013.132.246.4(c)两个ROCVGG16320×32022’32.651.534.715.034.949.1(d)两个ROC +FEVGG16320×32022✓33.352.836.116.135.349.3(e)两个ROC +FEVGG16512×51222✓38.557.842.222.242.352.3表1. COCOminival套件上申报HSD的消融研究[29]。'#reg'和'#cls'表示分类和回归的数量。‘context’ means the local and non-localcontext extracted by the proposed FE4. 实验在本节中,对具有挑战性的MS COCO [29]和经典PASCAL VOC [11]进行实验,以证明所提出方法的有效性,并与一些最先进的方法进行比较。4.1. 数据集和评价指标MS COCO[29]是用于对象检测和实例分割的著名且具有挑战性的计算机视觉基准,其包含约115k个用于训练的图像(即,TrainVal35K),用于消融实验的5K图像(即,Minival),以及用于与其它方法比较的大约20K图像test-dev)。有80个对象类别。不同IoU阈值(0.5:0.95)下的平均精度用于性能评估。PASCAL VOC[11]是经典的目标检测数据集,主要包含VOC 2007和VOC 2012。VOC2007有5011张图像用于训练,4952张图像用于测试,而VOC2012有5717张图像用于训练,5823张图像用于验证,10991张图像用于测试。有20个对象类别。本文使用VOC2007中的训练集和VOC2012中的训练集和验证集进行训练,使用VOC2007中的测试集进行测试。IoU阈值为0.5的平均精度用于性能评估。4.2. 实现细节所 提 出 的 HSD 采 用 在 ImageNet [41] 上 预 训 练 的VGG16 [43],ResNet101 [18]或ResNext101 [53]作为骨干,并进一步微调特定对象检测数据集上的预训练网络。对于COCO基准[29],在训练阶段有160个时期。初始学习率为0.004。对于小输入大小,它对于PAS-CAL VOC数据集[11],在训练阶段有250个时期。初始学习率为0.004,在150和200个历元时下降10倍。在COCO和PASCAL VOC数据集上,每个小批量都有32个图像用于训练。在测试阶段,非最大抑制(NMS)的阈值为0.45,并且在NMS之后保存每个图像的前200个最大评分框。4.3. 消融实验所提出的HSD的有效性表1(a)中的基线(类SSD)同时预测默认框的对象与SSD [31]相比,SSD类删除了L2-Norm层,并在每个预测头网络之前添加了3×3卷积层。与基线相比,HSD首先回归默认框,然后对回归框进行分类具有偏移位置的特征在第二ROC之前注入由特征增强(FE)模块提取的本地和表1(b)-(e) 给出了所提出的HSD的检测结果。为了公平比较,它们使用类似的参数设置来实现表1的分析给出如下:(1) 表1(b)中的HSD和表1(a)中的基线通过比较表1(a)和1(b),可以看出具有一个ROC模块的HSD优于基线2.5%。同时,具有一个ROC模块的HSD在所有尺度上都优于基线(参见APs、APm和APl)。可以得出结论,所提出的ROC比基线更有效同时分类和回归)。与基线相比,建议的ROC仅增加了两个1×1卷积来预测特征采样偏移。因此,它不添加许多网络参数。(2) 当两个ROC模块堆叠在一起时,HSD的性能可以显著提高。通过比较表1(c)和表1(b),具有两个ROC的HSD比具有一个ROC的HSD表现出2.3%。进一步发现,AP@0.75的改善具有大的改善。这意味着两个堆叠的ROC模块可以提供比一个ROC模块更精确的检测。(3) 当将特征增强(FE)模块注入到两个堆叠的ROC模块中时,性能可以进一步改善,这主要来自于小尺度对象检测的改善。原因可能是检测小尺度物体更困难,需要更多的上下文信息。(4) 在训练和推理期间,由于512×512的大输入大小,HSD实现了更好的准确性(即,38.5%)。为了进一步证明所提出的方法的有效性,一些相关的一阶段方法(即,[31]第31话:9710方法骨干级联AP AP@05 AP@075T(ms)(a)SSD [31]VGG16’25.342.026.210(b)我们的HSDVGG16’30.351.231.012(c)Refinedet [54]VGG16✓29.950.231.113方法取样偏移APAP@0.5AP@0.75(a)一个ROC’29.950.231.0(b)一个ROC✓30.351.231.0(c)两个ROC’31.149.433.2(d)两个ROC✓32.651.534.7表2.与两种相关的一步法(即,[31]和RefineDet [54])。“T”表示向前时间。为了进行公平比较,我们的HSD中未使用FE模块。方法盒偏移AP AP@0.5 AP@0.75(a)基线’’27.846.728.4(b) 基线θ=0。4’’28.448.228.8(c) 基线θ=0。6’’27.145.827.4(d) ROC θ=0。5✓’28.049.127.9(e) ROC θ=0。6✓’29.950.231.0(f) ROC θ=0。7✓’29.849.031.3(g) ROC θ=0。8✓’28.245.530.9(h)ROC1转换器✓✓30.250.831.0(i)ROC两个转换器✓✓30.351.231.0表3.ROC模块的消融研究箱偏移是指先进行箱回归,再进行回归后的箱分类。采样偏移量是指由于盒回归而考虑用于分类的fineDet [54])与表2中的HSD进行了比较。它们使用类似的参数设置重新实现(1) SSD和我们的具有一个ROC的HSD都是一个回归/分类。通过比较表2(a)和(b),具有一个R0C的HSD优于SSD 5.0%。(2)Re- fineDet和我们的具有两个ROC的HSD都是两个回归/分类。通过比较表2(c)和(d),具有两个ROC的HSD比Refinedet好2.7%。表4.特征采样偏移量的影响,即偏移量特征是否用于分类。(a)(b)(c)第(1)款图4.箱回归的进展和特征采样位置。绿色矩形表示检测框,红色点表示3×3卷积的特征采样中心,红色点表示3×3卷积的其他采样位置(a) 默认框B0和第一次回归的特征位置(b) 回归的框B1和用于第一分类和第二回归的特征采样位置(c)回归的框B2和用于第二分类的特征采样位置。更不准确的回归框(仅高于0.5 IoU与GT)干扰训练。随着用于分类的更严格的IoU阈值,性能变得更好。当表2(e)中的阈值θ为0.6时,性能比基线好2.0%。这意味着通过ROC精确回归的盒子的分类是同时,与SSD和Refinedet相比,我们的HSD大大提高了检测精度几乎没有额外的计算成本。例如,我们的HSD比SSD的性能高5.0%,而仅仅需要额外的2ms转发时间。同时,HSD几乎不增加网络参数。基于上述分析,所提出的HSD优于其他经典和现有技术的一阶段方法(即,SSD和Refinedet)。ROC模块的消融研究由于ROC模块将回归和分类重建为三个分层步骤,因此在一阶段方法中使用原始设计对于所提出的ROC是不够的。详细的区别是以下两个折叠:(1) 第一个问题是如何设置回归后分类的正负样本的IoU阈值θ一个自然的想法是使用与大多数一阶段方法一样的回归相同的阈值(0.5)[31,22]。通过比较表3(d)和(a),可以看出,使用相同的θ=0.5)的改善非常有限。AP@0.75的精度甚至下降。原因可能是比按基线默认框的分类更好。此外,基线使用0.4和0.6的IoU阈值的检测结果如表3(b)和(c)所示,其劣于我们的ROC。这意味着ROC的改善不能简单地通过具有更多阳性或更严格阈值θ的基线。(2) 第二个问题是如何根据回归输出预测采样偏移。表3(h)使用一个1×1卷积,表3(i)使用两个1×1卷积。通过比较表3(h)和(i),可以看出具有两个卷积的ROC具有稍好的性能。采样偏移的影响表4比较了特征采样偏移对所提出的HSD的影响。可以看出,通过使用偏移特征,一个ROC和两个ROC的性能分别提高了0.4%和1.5%。可以解释的是,使用特征采样偏移可以提取更准确的特征来分类回归框。框回归和采样位置的可视化图4显示了回归框和特征9711(a) 默认框(b0)(b)回归框(b1)(c)回归框(b2)(d)采样位置0(e)采样位置1(f)采样位置2图5.在NMS之前识别为对象的检测框和特征的采样位置。绿色矩形表示检测框,绿色点表示3×3卷积的特征采样中心,红色点表示3×3卷积的其他采样位置(a)-(c)显示了箱回归的进展(b0›→b1›→b2)。(d)-(f)示出特征采样位置的变化方法AP(a)第二个ROC33.3(b)首台ROC32.7(c)没有第二ROC的非本地上下文的FE33.0表5. HSD中特征增强(FE)模块的烧蚀研究。建议HSD的采样位置可以看出,框(绿色矩形)在两次回归之后可以准确地检测对象。同时,特征的采样位置与回归框一致,这意味着可以通过回归输出准确地预测采样偏移。图5进一步给出了在NMS之前的框回归和特征采样位置的可以看出,在两次回归之后,许多框变为围绕对象。结果,准确地提取了对象周围的框分类的特征。特征增强(FE)模块为了证明所提出的FE模块的重要性,表5给出了如下一些实验:(1)FE模块仅被添加到第一ROC。通过比较表5(a)和(b),可以看出FE模块对第二ROC更重要。原因是第二ROC需要更多的区分特征来处理对象周围的许多硬盒。(2)在没有非局部上下文的情况下(表5(c)),性能降低0.3%。图6给出了所提出的HSD的一些检测结果(表1(e))。可以看出,亲图6.所提出的HSD在COCOminival集上的检测结果。可以看出,所提出的HSD对小尺度对象和遮挡对象具有良好的该方法对复杂场景中的小尺度目标和遮挡目标都有较好的识别效果。4.4. COCO基准比较在本节中,将所提出的HSD与表6中的COCO基准测试开发集上的一些最先进的方法进行比较。在相同的VGG16 和 512×512 的 输 入 大 小 下 , HSD 分 别 比Refinedet [54]和RFBNet [30]高5.8%和4.4%。在相同的ResNet101和512×512的输入大小下,HSD分别比DFPR [21]高出5.6%。基于9712方法骨干输入大小时间APAP@0.5AP@0.75APsAPmAPl两阶段法FPN [27]ResNet101∼1000×600172毫秒36.259.139.018.239.048.2Cascade RCNN [2]ResNet101∼1333×800140Ms42.862.146.323.745.555.2一步法SSD [31]VGG16300× 30012ms25.143.125.86.625.941.4DSSD [12]ResNet101321× 321-28.046.129.27.428.147.6STDN [58]DenseNet169300× 300-28.045.629.47.929.745.1DES [55]VGG16300× 300-28.347.329.48.529.945.2Refinedet [54]VGG16320× 32019毫秒†29.449.231.310.032.044.4RFBNet [30]VGG16300× 30015ms30.349.331.811.831.945.9SSD [31]VGG16512× 51228ms28.848.530.310.931.843.5DSSD [12]ResNet101512× 512-33.253.335.213.035.451.1STDN [58]DenseNet169512× 512-31.851.033.614.436.143.4DES [55]VGG16512× 512-32.853.234.613.936.047.6Refinedet [54]VGG16512× 51240毫秒†33.054.535.516.336.344.3RFBNet [30]VGG16512× 51233Ms34.455.736.417.637.047.6DFPR [21]ResNet101512× 512-34.654.337.314.738.151.9TripleNet [4]ResNet101512× 512-37.459.339.618.539.052.7CornerNet [25]中国人104511× 511244ms40.556.543.119.442.753.9[59]第五十九话中国人104511× 511322毫秒40.255.543.220.443.253.1[28]第二十八话ResNet101∼1333×800198ms39.159.142.321.842.750.2[22]第二十二话ResNet101∼1333×800-40.159.643.523.444.253.3FSAF [60]ResNet101∼1333×800-40.961.544.024.044.251.3我们的HSDVGG16320× 32025毫秒†33.553.236.115.035.047.8我们的HSDVGG16512× 51243毫秒†38.858.242.521.841.950.2我们的HSDResNet101512× 51248毫秒†40.259.444.020.044.454.9我们的HSDResNext101512× 51266毫秒†41.961.146.221.846.657.0我们的HSDResNet101768× 76892毫秒†42.361.246.922.847.355.9表6.COCOtest-dev set上一些最先进方法的检测结果和检测时间报告的所有结果均基于单尺度测试。†表示我们在NVIDIATitan Xp上使用Pytorch0.40测试的检测时间,包括转发时间和NMS时间4.5. VOC2007数据集的比较在本节中,将所提出的HSD与表7中的VOC2007测试集上的一些最先进的方法进行比较。对于300×300或320×320的小输入大小,HSD分别比RFBNet [30]和Refinedet [54]高1.2%和1.7%。512×512的大输入尺寸,HSD的性能分别优于RFBNet和Refinedet0.8%和1.2%。表7.单阶段方法在没有COCO预训练和多尺度测试的VOC2007测试集上的检测结果强大的骨干沙漏[33],CornerNet [25]与我们的HSD和骨干ResNet101相比具有通过使用强大的主干ResNext101 [53],我们的HSD也可以超过CornerNet [25]和Ex-tremeNet [59] 1.4%和1.7%。同时,该方法具有更快的检测速度。输入大小为768×768,我们的HSD可以优于RetinaNet [28],Con-RetinaNet [22]和FSAF [60]。方法骨干输入大小地图SSD [31]VGG16300× 30077.5DES [55]VGG16300× 30079.7DSSD [12]ResNet101321× 32178.6STDN [58]DenseNet169300× 30079.3BlitzNet [10]ResNet50300× 30079.1DFPR [21]VGG16300× 30079.6RFBNet [30]VGG16300× 30080.5Refinedet [54]VGG16320× 32080.0SSD [31]VGG16512× 51279.5DES [55]VGG16512× 51281.7DSSD [12]ResNet101512× 51281.5STDN [58]DenseNet169512× 51280.9BlitzNet [10]ResNet50512× 51281.5DFPR [21]VGG16512× 51281.1RFBNet [30]VGG16512× 51282.2Refinedet [54]VGG16512× 51281.8我们的HSDVGG16320× 32081.7我们的HSDVGG16512× 51283.097135. 结论在本文中,我们提出了一种新的流水线的准确率对象检测(称为ROC)。该方法不同时进行分类和回归,而是先进行盒回归,然后预测用于盒分类的特征采样位置,最后用偏移位置的特征对回归后的为了达到更好的检测精度,分层镜头检测器提出了堆叠两个ROC模块。同时,上下文信息也被并入以丰富第二ROC模块的特征HSD在COCO和PASCAL VOC数据集上都达到了最先进的性能。致 谢 本 工 作 得 到 了 国 家 自 然 科 学 基 金 ( Nos. 61632018 、61876140)、博士后创新人才培养计划(No. BX20180214)和中国博士后科学基金(编号:2018M641647)。9714引用[1] 蔡兆伟,范全福,Rogerio S. Feris和Nuno Vas- concelos.用于快速目标检测的统一多尺度深度卷积神经网络。Proc. European Conf.计算机视觉,2016年。[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。Proc. IEEE Conf.计算机视觉与模式识别,2018。[3] 曹佳乐,庞彦伟,李雪龙。学习多层通道特征用于行人检测。IEEE Trans. Image Processing,26(7):3210[4] 曹佳乐,庞彦伟,李雪龙。用于联合检测和分割的三重监督解码器网络Proc.IEEE Conf. 计算机视觉与模式识别,2019。[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Trans. Pattern Analysis and Machine Intelligence,40(4):834[6] Hisham Cholakkal,Jubin Johnson和Deepu Rajan。基于反向跟踪空间金字塔池的弱监督自上而下显著对象检测图像分类器。IEEE Trans.图像处理,27(12):6064[7] Hisham Cholakkal、Guolei Sun、Fahad Shahbaz Khan和Ling Shao。具有图像级监控的对象计数和实例分割。Proc. IEEE会议 计算机视觉与模式识别,2019。[8] 戴纪峰,易力,何开明,孙建。R-fcn:经由基于区域的全卷积网络的对象检测神经信息处理系统进展,2016。[9] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。IEEE国际会议论文集计算机视觉,2017年。[10] Nikita Dvornik,Konstantin Shmelkov,Julien Mairal,and Cordelia Schmid. Blitznet:用于场景理解的实时深度网络。IEEE国际会议论文集Computer Vision,2017.[11] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I. Williams , John Winn , and AndrewZisserman. pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision,88(2):303[12] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C.伯格。Dssd:解卷积单次激发探测器。arXiv:1701.06659,2017。[13] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络Proc. IEEE Conf.计算机视觉与模式识别,2019。[14] 罗斯·格希克。快速R-CNN。IEEE国际会议论文集计算机视
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功