没有合适的资源?快使用搜索试试~ 我知道了~
12645基于上下文感知组合网的王昂天(Angtian Wang)孙怡红(Yihong Sun) AdamKortylewski约翰霍普金斯大学摘要检测部分被遮挡的物体是一项困难的任务。我们的实验结果表明,深度学习方法,如Faster R-CNN,在遮挡下的对象检测方面并不稳健。组合卷积神经网络(CompositionalNets)已被证明在通过将对象显式表示为部件的组合来在这项工作中,我们提出克服组合网络的两个限制,这将使它们能够检测部分被遮挡的对象:1)组合网络以及其他DCNN架构,没有明确地将上下文的表示在强目标遮挡下,上下文的影响被放大,这可能对测试时的检测产生严重的负面影响。为了克服这一点,我们建议在训练过程中通过边界框注释来分割上下文然后,我们使用分割来学习上下文感知的CompositionalNet,该CompositionalNet将上下文和对象的表示分开。2)我们扩展了Compo- sitionalNets中基于部分的投票方案,以投票对象边界框的角我们广泛的实验表明,我们提出的模型可以鲁棒地检测物体,相对于Faster R-CNN,PASCAL 3D+和MS-COCO的强遮挡车辆的检测性能1. 介绍在自然图像中,物体被其他物体包围和部分遮挡。由于遮挡物的外观和形状是高度可变的,因此识别部分遮挡物体是一项困难的任务。最近的工作[42,21]表明,深度学习方法在对部分遮挡的物体进行分类时明显不如人类联合第一作者†联合资深作者图1:MS-COCO数据集图像的自行车检测结果.蓝框:地面实况;红框:Faster R-CNN的检测结果;绿框:上下文感知CompositionalNet的检测结果。三点检测的概率图在右边。本文提出的上下文感知合成网能够鲁棒地检测部分遮挡对象.对象。我们的实验结果表明,深度学习方法的这种局限性甚至在对象检测中被放大。特别是,我们发现FasterR-CNN在部分遮挡下不鲁棒,即使在部分遮挡的情况下使用强大的数据增强进行训练。我们的实验表明,这是由两个因素造成的:1)建议网络在强遮挡下无法准确定位对象。2)分类网络不能对部分遮挡对象进行鲁棒分类。因此,我们的工作突出了深度学习方法在部分遮挡下进行对象检测的关键限制,需要加以解决。与深度卷积神经网络(DC-NN)相比,组合模型可以从固定的视角[11,19]对部分遮挡的对象进行鲁棒性分类,并检测部分遮挡对象的语义部分[34,40]。这些模型受到人类认知的组合性的启发[2,33,10,3],并与生物视觉系统具有相似的特征,例如腹侧流中发现的自下而上的稀疏组合编码和自上而下的注意力调制[30,29,5]。最近的工作[20]提出了组合卷积神经网络12646(CompositionalNet),一种神经特征激活的生成合成模型,可以对部分遮挡对象的图像进行鲁棒分类。该模型显式地将对象表示为部件的组合物,该组合物与投票方案相结合,该投票方案能够基于一些可见部件的空间配置进行鲁棒的分类。然而,我们发现,[20] 由于两个主要限制,不适合于对象检测:1)CompositionalNet以及其他DCNN架构没有明确地将上下文的表示与对象的表示分开。我们的实验表明,这对检测性能有负面影响,因为训练数据中的上下文往往是有偏见的(例如,飞机经常被发现在蓝色背景中)。如果物体被强烈遮挡,则必须降低检测阈值这又增加了对象上下文的影响,并导致在没有对象的区域(例如,如果必须检测到强烈遮挡的汽车,则可能在 天 空 中 检 测 到 假 飞 机 , 如 图 4 所 示 ) 。2)CompositionalNets缺乏鲁棒地估计对象的边界框此外,我们的实验表明,区域建议网络不估计边界框鲁棒对象部分遮挡。在 这 项 工 作 中 , 我 们 建 议 建 立 并 显 着 扩 展CompositionalNets,以使它们能够鲁棒地检测部分遮挡对象。特别是,我们引入了一个检测层,并建议将图像表示分解我们通过边界框注释概括训练数据中的上下文特征来获得这种分解。这种上下文感知的图像表示使我们能够控制上下文对检测结果的影响。此外,我们引入了一个强大的投票机制来估计对象的包围盒特别是,我们扩展了CompositionalNets中基于部分的投票方案,除了对象中心之外,还可以投票给边界框的两个对角我们广泛的实验表明,即使在严重遮挡的情况下,具有鲁棒边界框估计的上下文感知CompositionalNets也能鲁棒地检测对象(图1),相对于Faster R-CNN,PASCAL 3D + [38]和MS-COCO [26]的强遮挡车辆的检测性能分别提高了41%和35%。总之,我们在这项工作中做出了几项重要贡献:1. 我们建议将CompositionalNets中的图像表示分解为上下文和对象表示的混合模型。我们证明,这样的上下文感知CompositionalNets允许精确控制对象的上下文对检测结果的影响2. 我们提出了一个强大的基于部分的投票机制,使准确估计的对象的边界框,即使在严重的遮挡边界框估计。3. 我们的实验表明,上下文感知CompositionalNets与基于部分的边界框估计相结合,在部分遮挡下的对象检测方面优于Faster R-CNN网络。2. 相关工作遮挡下的区域选择。 目标的检测涉及到目标的位置、类别和边界框的估计。 虽然可以有效地实现对图像的搜索,例如,使用扫描窗口[24],潜在边界框的数量与像素的数量组合。解决这个问题的最广泛应用的方法是使用区域建议网络(RPN)[13],它可以学习快速的目标检测方法[12,28,4]。然而,我们的实验表明,RPN不正确估计对象的边界框下闭塞。遮挡下的图像分类。 深度对象检测方法中的分类网络通常选择为DCNN,例如ResNet [14]或VGG[32 ]第32段。然而,最近的工作[42,21]表明,与人类相比,标准DCNN对部分闭塞的鲁棒性明显较差。克服DCNN的这种限制的一种潜在方法是使用具有部分遮挡的数据增强[8,39]或自上而下的线索[36]。然而,我们的实验表明,数据增强方法对遮挡下DCNN的泛化影响有限与深度学习方法相比,生成组成模型[17,43,9,6,23]已被证明在检测对象部分[34,19,40]和从固定视点[11,22]识别对象的上下文中对部分遮挡具有鲁棒性。此外,CompositionalNets [20]将组成模型与DCNN架构集成在一起,显示出在遮挡下的图像分类更加稳健。遮挡下的目标检测。Sheng [37]等人提出了一种用于检测部分可见对象的增强级联框架然而,他们的方法使用手工制作的功能,只能应用于通过剪切图像补丁人为遮挡对象的图像。此外,已经提出了许多深度学习方法来检测被遮挡对象[31,27];然而,这些方法需要详细的部分级注释来重建被遮挡对象。Xiang和Savarese [35]建议使用3D模型并将遮挡视为多标签分类任务。然而,在现实世界的场景中,遮挡物的类别可能难以在3D中建模,12647p,yp,K,ypKKyyp,yK通常不是先验已知的(例如,图1中的特定类型的栅栏)。此外,其他方法基于视频或立体图像[25,16],然而,我们专注于静止图像中的对象检测。与我们的工作最相关的是基于部分的投票方法[41,15],已证明其可可靠地用于遮挡下的语义部分检测。然而,这些方法假定了固定大小的边界框,这限制了它们在对象检测的上下文中的适用性。在这项工作中,我们将CompositionalNets扩展到上下文感知的对象检测器,该检测器具有基于部分的投票机制,即使在非常强的部分遮挡下也可以鲁棒地估计对象3. 基于组合网络的在3.1节中我们讨论了先前关于合成网的工作. 在3.2节中,我们提出了一种将CompositionalNets推广到检测的方法,引入了一个检测层和一个鲁棒的边界框估计机制。最后,我们在3.3节中介绍了上下文感知的CompositionalNets,使模型能够将上下文与对象表示分离,使其对训练数据中的上下文偏差具有鲁棒性,同时仍然能够在强遮挡下利用上下文信息。记法。DCNN中的层1的输出是参考。定义为特征映射Fl=<$(I,<$)∈RH×W×D,其中I图2:使用RPN和建议的鲁棒边界框投票进行遮挡下的对象检测。蓝框:地面实况;红框:更快的R-CNN( RPN+VGG ) ; 黄 色 框 : RPN+CompositionalNet; 绿框 : 具 有 鲁 棒 边 界 框 投 票 的 上 下 文 感 知CompositionalNet。请注意,基于RPN的方法无法定位对象,而我们提出的方法可以准确地定位对象。总体组成模型参数和Am={Am}是混合物各组分的参数,在特征映射F的二维格上的位置p ∈P。在是输入图像,并且是特征的参数特别是,Ammp,0,y,的。-是的-是的,αm|k=0mp,k,y= 1}萃取器 特征向量是特征图中在位置p处的向量,其中p被定义在Fl的2D网格上,D是层中的通道的数量。为了方便起见,我们在下面省略下标l,因为在我们的实验中该层是先验固定的。3.1. 先前工作:CompositionalNetsCompositionalNets [20]是对部分遮挡具有固有鲁棒性的DCNN它们的架构类似于VGG-16网络[32],其中完全连接的头部被可微分生成复合物取代特征激活p(F)的概念模型|y),y是对象的范畴。定义了组合模型作为von-Mises-Fisher(vMF)分布的混合:ΣM是vMF混合系数,K是混合的数量。真分量和Λ ={λ k={σ k,μ k}|k = 1,. - 是的- 是的 ,K}是vMF混合分布的参数:eσkµTfpp(fp|λk)=Z(σ),如果p=1,则λμk=1,(4)其中Z(σk)是归一化常数。 模型参数{θ y,{Θy}}可以如[20]中所述进行端到端训练。遮挡建模。遵循[19]中提出的方法,可以使用阻塞模型来增强CompositionalNets。直观地,遮挡模型定义了鲁棒似然,其中在图像中的每个位置p处,则对象模型p(fp|Am,Λ)或遮挡物模型p(F|Θy)=p(F |θm)=ν m p(F |θy),(1)MYp(fp|Ap,y,A),(2)p(fp|β,Λ)是行为:Yp,yM mpp(F|Θm,β)=p(f,zm=0)1−zpp(f,zm=1)zp,(5)p(fp|Ap,y,Λ)=Σαp,k,y p(fp|λk),(3)={αα12648pypppppkp(fp,zm=1)=p(fp|β,Λ)p(zm=1),(6)p pMp(fp,zm=0)=p(fp|Am,Λ)(1-p(zm=1)).(七)其中{vm∈ {0,1},m=1ν m= 1}。这里M是数字pp,y p的混合物组成的模型和νm是一个二元作为-指定变量,指示混合物组分是活跃的。Θy={θ m={Am,Λ}|m= 1,. . .,M}是二元变量Zm={z m∈ {0,1}|p ∈ P}表示如果物体在位置p处被遮挡y y12649yyy图3:健壮边界框投票结果示例。蓝框:地面实况;红色框:Faster R-CNN的边界框;绿框:通过稳健地组合投票结果而生成的边界框。我们提出的基于部分的投票机制为对象中心(青色点),左上角(紫色点)和右下角(黄色点)的边界框生成概率图(右)M.遮挡物模型被定义为混合模型:图4:背景对遮挡下飞机检测的影响。蓝框:地面实况;橙色框:边界框由CompositionalNets(ω= 0. 5);绿框 : 使 用 Context-Aware CompositionalNets ( ω= 0.2)。物体中心的概率图在右边。注意减少上下文的影响如何改善本地化响应。从对象的部件模型中累积投票,Yp(f |β,Λ)= p(f |β,Λ)τn(8)在地图的中心。p pnY.Σ=nknβn,kp(fp|σk,µk)Στn、(9)基于这种直觉,我们推广了组合-通过引入一个检测层来进行对象检测,该检测层在特征图F中的所有位置p上累积对象中心的投票。为了实现这一目标,我们建议其中,Σ∈{0,1},nτn= 1}表示哪种成分-通过扫描计算对象似然性。 因此,我们转移特征图w.r.t.沿着所有点P的对象模型封堵器模型的有效性最好地解释了数据。 这页-可以以无监督的方式从不包含任何感兴趣对象的随机自然图像的聚类特征中学习遮挡模型βn3.2. 鲁棒包围盒投票将CompositionalNets推广到对象检测的一种自然方法是将它们与RPN相结合。然而,我们在4.1节中的实验表明,RPN不能可靠地定位强遮挡对象。图2通过描绘使用CutOut [8](红色框)和RPN+CompositionalNet(黄色框)的组合训练的Faster R-CNN的检测结果来说明这种限制。我们建议通过引入一个强大的基于部分的投票机制来解决这个限制,以预测基于可见对象部分(绿框)的对象的边界框。具 有 检 测 层 的 CompositionalNets 。 [20] 中 介 绍 的Composi-tionalNet是基于部件的对象表示。具体地,对象模型p(F| Θy)被分解为组成模型p(F|其中每个混合分量表示来自不同姿态的对象类y [20]。在推理过程中,每个混合成分累积来自部分模型p(fp) 的 投 票|Ap,y)在 特征图F的不同 空间 位置p上的位置 。请注意,CompositionalNets是从基于对象的边界框裁剪的图像中学习的[20]。 通过使对象在图像中居中(参见图5),每个混合分量p(F |θ m)可以认为从特征图的2D点阵中。该过程将生成空间似然图:R={p(Fp|Θy)|其中F p表示以位置为中心的特征图p.使用这种泛化,我们可以通过在非最大值抑制之后选择R中高于阈值t的所有最大值来执行对象局部化。我们提出的检测层可以有效地实现与现代硬件使用卷积类操作。强大的边界框投票。虽然组合网络可以推广到本地化部分遮挡对象使用我们提出的检测层,估计在遮挡下的对象的边界框更困难,因为对象的显著量可 能 不 可 见 ( 图 3 ) 。 我 们 建 议 通 过 推 广 Compo-sitionalNets中基于部分的投票机制来解决这个问题,以便在对象中心之外对边界框角进行投票。特别是,我们学习了额外的混合成分,这些成分对预期的特征活动进行建模包围盒角点p周围的顶点F(F p|其中c={ct,bl,tr}是对象中心ct和两个相对的边界框角{bl,tr}。图3显示了所有三种模型的空间似然图Rc我们生成一个边界框使用具有最大相似性的两个点。请注意,尽管对象的大部分被遮挡,边界框如何准确定位。12650Qp,yp,yp,yyy图5:上下文分割结果。标准的CompositionalNet学习图像的联合表示,包括上下文。我们的上下文感知CompositionalNet将根据所示的分割掩码将上下文的表示与对象的表示分开。我们在3.4节中讨论了如何以端到端的方式联合学习所有模型的参数。上下文分段。因此,我们建议将训练图像分割为基于上下文和基于对象的图像在可用的边界框注释上。在这里,我们的假设是,任何具有边界框范围之外的感受野的特征都将被视为上下文的一部分。我们首先在训练过程中随机提取被认为是上下文的特征。然后,我们使用K-means++算法[1]对人口进行聚类,并得到一个字典,上下文特征中心E={e q∈RD|q= 1,. . .,Q}。我们对 余 弦 相 似 度 s ( E , f p ) =maxq[ ( eTfp ) /(eqfp)]应用阈值,以分割任何给定训练图像中的对象和对象(图5)。3.4.训练上下文感知的组合网络我们训练我们提出的CA-CompositionalNet,包括使用反向传播联合端到端的强大边界框投票机制。 总的来说,可训练参数-我们的模型的参数是Tc={θ,Λ,{θc},{χc}},其中y y3.3.上下文感知组合网络CompositionalNets和标准DCNN一样,不会将上下文的表示与对象分开。上下文对于由于偏差而识别对象可能是有用的,例如,飞机常被蓝天包围。当对象被强烈遮挡时,过于依赖上下文可能会产生误导(图4),因为在强烈遮挡下必须降低检测阈值。这反过来又增加了对象上下文的影响,并导致在没有对象的区域中的误报检测。因此,重要的是要控制上下文线索对检测结果的影响。为了控制上下文的影响,我们提出了一个上下文感知的组合网(CA- CompositionalNets),它将上下文的表示与上下文的表示分开,c∈ {ct,bl,tr}。损失函数有三个主要目标:优化所述生成成分模型的参数,使得其能够以最大相似性解释所述数据,lihood(Lg),同时还在训练图像中准确地定位(Ldetect)和分类(Lcls虽然从具有以c∈ {c,bl,tr}为中心的特征图Fc的图像Ikc学习Lg,但是从具有特征图F的未对准训练图像I学习其他损失。训练分类与正规化。我们使用SGD联合优化参数Lcls(y,y′)=Lclass(y,y′)+Lweight(x)(13)其中Lclass(y,y′)是网络输出y′=(I,)和真实类别标签y之间的交叉熵损失。我们在softmax分类器中使用温度T:从原始组合中的对象的上下文eyi·TΣieyi·T2. Lweight=2是一个权重正则化,通过将特征图F表示为两个模型的混合来进行网:p(fp|Am,χm,Λ)=ωp(fp|(Xm,N)+(11)DCNN参数。训练生成式上下文感知Composition- alNet。 用于训练生成式上下文感知模型的参数的总体损失函数由两个组成p,yp,yp,y(1−ω)p(fp|Am,Λ)。(十二)条款:Lg(Fc,T)=Lvmf(Fc,A)(14)这里,Xm是上下文模型的参数,Σ Σ+L(fc,Ac,χc)(15)被定义为vMF似然的混合(等式3)。参数ω是控制上下文和对象之间的权衡的先验,其在测试时先验地固定注意,设置ω = 0。5保留了[20]中提出的原始Composition- alNet图4示出了在部分遮挡下减少上下文对检测结果的影响的益处上下文参数χmconPYYC P为了避免计算归一化常数{Z[σ k]},我们假设vMF方差{σ k}是常数。在此假设下,vMF参数{µk}可以通过损耗Lvmf(F,Λ)=CminµTf,其中C是常数因子[20]。这页-并且可以使用最大似然估计从训练数据中学习对象参数Am然而,在这方面,PKKP通过优化上下文丢失来学习上下文感知模型Ac和χc的参数这假定特征向量fp在L(f,Ac,χc)=πL(f,Ac))(16)将数据训练到上下文或对象。conPYYp混合pp,y12651p,yypp,k,yp,ypp↑pcls1g其中,π p∈ {0,1}是上下文分配变量,其指示特征向量f p属于上下文还是对象模型。我们先验地估计上下文分配使用第3.3节中描述的分割。 鉴于我们可以优化模型参数Ac,最小化[21]:ΣΣΣΣLmix(F,Ac)= -(1-z↑)logαm,cp(fp|λk) (十七)PK上下文参数χc可以相应地学习。这里,z↑和m↑表示在前向过程中推断的变量。注意,阻塞器模型的参数是先验学习的,然后是固定的。训练定位和边界框定位。我们将地面真值类的归一化响应映射表示为X c∈ RH× W,地面真值注释表示为X<$c∈RH×W。响应映射的元素计算如下:图 6 : OccludedVehiclesDetection 数 据 集 中 的 图 像 示例。每一行显示增加的上下文遮挡量,而每一列显示增加的对象遮挡量。[15]中提出的分类数据集,其中包含6个cxp,mm m类车辆在一个固定的比例(224像素)和各种xp=0,mx=argm ax m ax p(fp|Ap,y,Xp,y,A)。pxp,mmp(十八)闭塞程度。 包括人类在内的封闭者,从MS-COCO数据集中裁剪动物和植物地面实况映射X<$c是一个二进制映射,其中地面实况位置被设置为X c(c)= 1,所有其他条目被设置为零。检测损失定义为:2·(xc·x<$c)[26]第10段。为了准确地描绘真实世界的遮挡,我们将遮挡物放置在对象上,使得遮挡物不仅放置在对象的边界框内,而且放置在背景上我们生成Ldetect(Xc,X<$c,F,T c)=1−1pp ppxc+px<$c(十九)数据集沿着两个维度总共9个遮挡水平。我们定义了三个层次的对象遮挡:FG-L1:20- 40%,FG-L2:40-60%和FG-L3:物体的60-80%端到端培训。 我们训练我们端到端反向传播模型整体亏损功能是:封闭区域。此外,我们在对象周围定义了三个层次的上下文遮挡:BG-L1:0- 20%,BG-L2:20-40%和BG-L3:40-60%的上下文区域被遮挡。L= L(y,y ′)+π。(Fc,Tc)(20)cΣ图6中示出了闭塞水平的示例。为了评估测试模型在现实世界的occlusion,我们测试他们的一个子集的MS-COCO数据集。+2Ldetect(Xc,X<$c,F,T c)(二十一)特别是,我们提取相同的对象类,R1、R2控制损失项之间的权衡。在第4节中更详细地讨论了优化过程。4. 实验我们在人工生成和真实世界的遮挡下进行对象检测实验。数据集。虽然在部分遮挡对象的真实图像上评估算法很重要,但模拟遮挡使我们能够更准确地量化部分遮挡的影响。受数据集成功的启发,人工生成的遮挡在图像分类[15],我们建议生成一个类似的数据集的对象检测。特别是,我们建立在PASCAL 3D+数据集,其中包含12类未被遮挡的对象。我们合成了一个类似于12652在MS-COCO 数据集中的OccludedVehiclesDetection数据集中进行缩放我们选择被遮挡的图像并手动将其分为两组:轻度闭塞(2个亚级)和重度闭塞(3个亚级),闭塞水平逐渐增加。由于MS-COCO数据集中严重遮挡的对象数量有限,因此该数据集是根据MS-COCO的Training 2017和Val 2017集中的图像构建的。轻度遮挡集合包含2890个图像,重度遮挡集 合 包 含 788 个 图 像 。 我 们 将 这 个 数 据 集 称 为OccludedCOCO。评价为了专门观察前景和背景遮挡对各种模型的影响,我们只考虑图像中被遮挡的对象进行评估。显然,对于大多数数据集,图像中通常只有一个特定类别的对象。这使我们能够量化前景和背景中遮挡水平对12653方法FG L0FG L1FG L2FG L3是说–BG L0 BG L1 BG L2 BG L3 BG L1 BG L2 BG L3 BG L1 BG L2 BG L3Faster R-CNN98.088.885.883.672.966.060.746.336.127.066.5更快的R-CNN与reg.97.489.586.389.276.770.667.854.245.037.571.1通过RPNω = 0的CA-CompNet。574.268.267.667.261.460.359.646.248.046.960.0通过RPNω =0的73.167.066.366.159.460.658.647.949.946.559.6CA-CompNet通过BBVω =0。591.785.886.586.578.077.277.961.861.259.876.6CA-CompNet通过BBVω =0。292.687.988.588.682.282.281.171.569.968.281.3CA-CompNet通过BBVω =094.089.289.088.482.581.680.772.069.866.881.4表1:在不同遮挡水平下对OccludedVehiclesDetection数据集的检测结果(BBV,如Bound-ing Box Voting中所有模型都在PASCAL 3D+未遮挡数据集上训练,除了具有reg.是用CutOut训练的 结果由正确的AP(%)@IoU0.5测量,这意味着仅校正了IoU> 0的分类图像。5的第一预测边界框被视为真阳性。注意ω= 0。5,上下文感知模型简化为[20]中提出的Compo- sitionalNet。表2: OccludedCOCO数据集上的检测结果,lr decay= 0。1 .一、具体来说,ImageNet数据集[ 7 ]上的预训练VGG-16 [32]在其完全连接层中进行了修改,以适应实验设置。在OccludedCOCO的实验中,我们将Faster R-CNN的阈值设置为0,防止由于低置信度而忽略被遮挡的目标,并保证在所需的类中至少4.1. 模拟遮挡条件下的目标检测表1显示了Oc- cludedVehiclesDetection数据集上的测试模型的结果(有关质量,请参见图7通过AP(%)@IoU0.5测量所有模型都在PASCAL 3D+数据集,更快的R-CNN与reg.使用CutOut和更快的R-CNN与occ进行训练。用同一数据集中的图像训练,但是用同一组遮挡器被所有遮挡级别遮挡。模型预测的准确性。因此,必须针对我们提出的遮挡数据集改变对象检测评估的方法。对于任何模型,我们只评估具有最高置信度的边界框建议,该置信度由分类器通过IoU以50%给出。运行时间。卷积类检测层的推理时间为每幅图像0.3s。培 训 设 置 。 我 们 使 用 以 下 参 数 设 置 实 现 CA-CompositionalNet的端到端训练:训练使等式20中描述的损失最小化,其中R1= 0。2,且x2= 0。4.第一章我们应用亚当优化器[18],具有不同的学习率lr vgg=2·10−6,lr vc= 2·10−5,lr mixturemodel= 5·10−5,lr角模型= 5·10−5在复合材料的不同部分上,网络。该模型总共训练了2个epoch,每个时期10600次迭代。在配备4颗NVIDIA TITAN XpGPU的机器上进行的培训总共花费3小时。更快的R-CNN训练了30000次迭代,学习率为lr=1·10−3,学习率衰减,的结果)。这些模型是在原始PASCAL 3D+数据集的图像上训练的,其中包含未被遮挡的对象。更快的R-CNN。当我们评估Faster R-CNN的性能时,我们观察到在低闭合水平下,神经网络表现良好。在中等偏高的水平,然而,如果存在遮挡,则神经网络不能鲁棒地检测对象。当使用CutOut [8]在部分遮挡方面使用强数据增强进行训练时,检测性能在强遮挡下增加。然而,该模型仍然受到59。与非遮挡设置相比,强遮挡时的性能下降9%。我们怀疑,不准确的预测是由于两个主要因素:1)Faster R-CNN中的区域建议网络(RPN)无法预测严重遮挡的对象的准确建议。2)VGG-16分类器在严重遮挡下无法成功分类有效对象区域。我们继续调查的区域提案的特别是,我们用标准的CompositionalNet分类器[20]替换了Faster R-CNN中的VGG-16分类器,预计该分类器对遮挡更鲁棒。从表1中的结果,我们观察到两个现象:1)在高遮挡率下,性能优于Faster R-CNN。因此,CompositionalNet 比VGG-16分类器更好地推广到重度遮挡。(2)在低水平的occlu-方法光发生率严重事故L0L1L2L3L4Faster R-CNN81.7 66.1 59.0 40.8 24.6更快的R-CNN与reg.84.3 71.8 63.3 45.0 33.3更快的R-CNN与occ。85.1 76.1 66.0 50.7 45.6通过RPNω =0的62.0 55.0 49.7 45.4 38.6CA-CompNet通过BBVω =0。583.5 77.1 70.8 51.7 40.4CA-CompNet通过BBVω =0。288.7 82.2 77.8 65.4 59.612654图7:Oc- cludedVehiclesDetection数据集上检测结果的选定示例。所有这6幅图像都是最严重的遮挡图像(前景3级,背景3级)。蓝框:地面实况;绿框:通过BBVoting的CA-CompositionalNet提案;黄框:通过RPN的CA-CompositionalNet提案;红框:Faster R-CNN的支持者。因此,性能比Faster R-CNN差。RPN生成的建议似乎不够准确,无法正确分类,因为CompositionalNets是高精度模型,需要将边界框精确对齐到对象中心。鲁棒边界框投票的效果。 我们的方法估计的边界框的角落,大大提高了CompositionalNets的性能,在COM 的 RPN 。 这 进 一 步 验 证 了 我 们 的 结 论 , 即CompositionalNet分类器需要精确的预测来正确地对具有部分遮挡的对象进行分类。上下文感知表示的效果。其中ω= 0。5,我们观察到检测精度下降。此外,ω = 0. 5和ω= 0在前景遮挡的所有三个级别上遵循类似的趋势:随着背景遮挡的级别从BG-L1增加到BG-L3,性能降低这进一步证实了我们对背景作为对象检测中有价值的信息来源的影响的理解4.2. 真实遮挡在下文中,我们在Oc- cludedCOCO数据集上评估我们 的 模 型 。 如 表 2 和 图 8 所 示 , 我 们 的 CA-CompositionalNet具有强大的边界框搜索功能,其性能明显优于Faster R-CNN和CompNet+RPN。特别地,与原始模型(ω = 0)相比,完全停用上下文(ω = 0)提高了性能。5),表明标准CompNet中的上下文信息权重过大。进一步地,将上下文模型的先验控制为ω=0的情况。2在强遮挡其中上下文是有帮助的,但是在低遮挡下确实稍微降低了性能。图8:Occlud-edCOCO数据集上检测结果的选定示例蓝框 : 地 面 实 况 ; 绿 框 : 通 过 BB Voting 的 CA-CompositionalNet 提 案 ; 黄 框 : 通 过 RPN 的 CA-CompositionalNet提案;红框:Faster R-CNN的支持者。5. 结论在这项工作中,我们研究的问题,部分被遮挡的物体在遮挡。我们发现,将建议网络与分类网络相结合的标准深度学习方法不能鲁棒地检测部分遮挡的对象。 我们的实验结果表明,这个问题有两个原因:1)提议网络被更强烈地误导,越多的上下文被遮挡物占据。2)分类网络不能对部分遮挡的对象进行鲁棒分类。我们为解决这些问题作出了以下贡献:用于对象检测的CompositionalNets。组合- alNets已被证明可以对部分遮挡的对象进行鲁棒分类。我们概括CompositionalNets的对象检测,通过扩展他们的体系结构与检测层。强大的边界框投票。我们提出了一种鲁棒的基于部分的投票机制,通过利用对象的未被遮挡的部分进行边界框估计,即使在严重遮挡的情况下也能够准确地估计对象Context-aware CompositionalNets. 组合-网络和其他基于DCNN的分类器不会将上下文的表示与对象的表示分开。我们建议使用边界框注释将对象从其上下文中分割出来,并展示了如何使用分割来以端到端的方式学习表示,从而将上下文从对象中分离出来。谢 谢 。 这 项 工 作 得 到 了 瑞 士 国 家 科 学 基 金 会(P2BSP2.181713)和海军研究办公室(N 00014 -18-1-2119)的部分支持。12655引用[1] D. Arthur和S.瓦西里茨基k-means++:小心播种的优点。在第十八届年度ACM-SIAM离散算法研讨会论文集,2007年。5[2] 埃利·比南斯托克和斯图尔特·杰曼。神经系统中的组合性。在《脑理论和神经网络手册》中,第223-226页。1998. 1[3] Elie Bienenstock Stuart Geman和Daniel Potter 复合性、mdl先验和对象识别。神经信息处理系统进展,第838-844页,1997年。1[4] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:深入研究高质量的目标检测。IEEE计算机视觉与模式识别会议,2018年。2[5] Rasquinha R.J.张凯康纳卡尔森,E.T.v4区域中的当代生物学,2011年。1[6] Jifeng Dai,Yi Hong,Wenze Hu,Song-Chun Zhu,andYing Nian Wu. 分 层 组 合 模 型 字 典 的 无 监 督 学 习 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第2505-2512页2[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 IEEE Conference on Computer Vision andPattern Recognition,第248-255页,2009年。7[8] 作者声明:Dr.Taylor.改进的卷积神经网络的正则化。arXiv预印本arXiv:1708.04552,2017。二四七[9] Sanja Fidler,Marko Boben,and Ales Leonardis.学习一个多类对象表示的层次组合形状词汇表arXiv预印本arXiv:1408.5516,2014年。2[10] Jerry A Fodor,Zenon W Pylyshyn,等.连接主义和认知架构:批判性的分析。Cognition,28(1- 2):3-71,1988. 1[11] Dileep George , Wolfgang Lehrach , Ken Kansky ,MiguelLa' zaro-Gredilla ,克 里 斯 托 弗 · 兰 ,BhaskaraMarti,Xinghua Lou,Zhaoshi Meng,Yi Liu,Huayan Wang,et al.生成式视觉模型,以高数据效率进行训练,并打破基于文本的验证码。Science,358(6368):eaag2612,2017。一、二[12] 罗斯·格希克。快速R-CNN。2015年IEEE计算机视觉国际会议。2[13] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference onComputer Vision and Pattern Recognition,第580-587页2[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on Computer Vision and PatternRecognition,第770-778页,2016中。2[15] Z. Zhang J. Xie J. Wang,C. Xie和A.尤尔。在部分遮挡的物体上检测语义部分。2017年英国机器视觉会议。三、六[16] Yin Li Jian Sun和Sing Bing Kang。用于遮挡处理的对称立体匹配IEEE计算机视觉和模式识别会议,2018年。3[17] 雅金和斯图尔特·格曼。概率图像模型中的上下文和层次 结 构 。 在 IEEE Computer Society Conference onComputer Vision and Pattern Recognition , 第 2 卷 , 第2145-2152页中IEEE,2006年。2[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。7[19] 亚当·科蒂莱夫斯基基于模型的图像分析在外国人鞋印识别中的应用。博士论文,巴塞尔大学,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功