没有合适的资源?快使用搜索试试~ 我知道了~
3437通过估计输入图像的边界盒分布柳在英1HojunLee1,*Inseop Chung1,*Geonseok Seo2NojunKwak11首尔国立大学2三星高等技术{yoojy31,hojun815,jis3613,nojunk} @ snu.ac.krgunsuk. samsung.com摘要在使用神经网络的多目标检测中,基本问题是,“网络应该如何学习不同输入图像中可变数量的边界框?“.先前的方法通过将地面实况边界框直接分配给网络输出的特定位置的过程来训练多对象检测网络。然而,该过程使得多目标检测网络的训练过于启发式和复杂。在本文中,我们将多目标检测任务重新表述为包围盒的密度估计问题。我们不是将每个地面实况分配给网络输出的特定位置,而是通过使用混合模型估计输入图像中边界框的概率密度来训练网络。为此,我们提出了一种新的网络的目标检测称为混合密度目标检测器(MDOD),和相应的目标函数的密度估计为基础的训练。我们将MDOD应用于MS COCO数据集。我们提出的方法不仅处理多目标检测问题的一种新的方法,但也提高了检测性能,通过MDOD。代码可用:https://github.com/yoojy31/MDOD。1. 介绍多目标检测是通过具有类别信息的包围盒来发现多个目标的任务自深度神经网络取得突破以来,多目标检测在计算效率和性能方面得到了广泛的发展,现在已经达到了可以在现实生活和工业中使用的水平。与图像分类和语义分割任务不同,多目标检测具有可变数量的H. 李和我钟同样对这项工作作出了贡献这项工作得到了NRF资助(2021 R1 A2 C3006659)和IITP资助(No.2021-0-01343),均由韩国政府资助。作者也得到了三星电子的资助。边界框作为目标。在这方面,训练多目标检测网络的基本问题是,“网络应该如何学习不同输入图像中可变数量的边界框?”作为对该问题的回答,代替直接对可变数量的边界框进行建模,已经开发了通过离散化边界框空间并直接将地面实况分配给网络的输出来学习可变数量的边界框的方法。这些方法已经成为训练多目标检测网络的主流。图1示出了这些方法的训练过程。首先,匹配算法将每个地面实况边界框与每个参考点(例如,锚框或中心)进行比较,并确定它们是否匹配。第二,作为匹配算法的结果,提取对应于与地面实况边界框匹配的参考点位置的网络输出作为分配位置。第三,目标(如生成输出的每个分配位置的位移、类)。最后,通过目标函数用生成的目标训练指定的位置这里,未分配的位置被认为是背景区域,并且不由地面实况边界框的坐标训练。然而,为了通过该过程成功地训练多目标首先,在定位和分类中,需要将每个地面实况分配给网络的输出的步骤来学习地面实况边界框的坐标。在这些步骤中,匹配算法和诸如Anchor框的参考点是重要的,因为地面实况仅被分配给由匹配结果确定的位置第二,在分类中,前景和背景之间存在严重的不平衡。通过匹配结果,将分配的位置训练为被视为前景的对应的地面实况类,而将未分配的位置训练为背景类。通常,未分配的位置数量多于已分配的位置。这种前景-背景不平衡的问题使得训练3438启发式采样或焦点丢失目标函数匹配指定地点网络输出参考点(例如,锚箱)地面实况包围盒目标RoI采样概率密度函数网络输出地面实况包围盒混合模型(a)(b)第(1)款图1:(a)传统的训练过程,直接将地面实况分配给网络输出的特定位置(b)我们提出的基于密度估计的训练,学习边界框分布。难为了缓解这个问题,需要单独的过程,例如启发式采样[17,25]或焦点损失[15第三,一些超参数和手工制作的组件使检测性能敏感。例如,锚箱[24,22]、匹配算法[28]和焦点损失[15]的超参数的设计敏感地影响检测性能。这种灵敏度增加了训练多目标检测网络的成本。在本文中,我们的目标是提出一种新的方法,以减少复杂的处理和启发式训练多目标检测网络。为此,我们将多目标检测任务重新定义为边界框的密度估计(见图11)。①的人。我们提出的多目标检测网络,混合密度为基础的对象检测器(MDOD),预测的边界框的输入图像使用的组件组成的连续(柯西)和离散(分类)概率分布的混合模型的分布。对于混合模型的每个分量,连续柯西分布用于表示边界框坐标(左、上、右和下)的分布,并且分类分布用于表示该框的类别概率。对于定位,MDOD被训练以在给定输入图像的真实边界框的情况下最大化柯西混合(MoC)的估计参数的对于分类,为了将背景类包括到学习过程中,我们建议使用感兴趣区域(ROI)采样来获得ROI,但是,ROI是从估计的MoC中随机采样的,而不是以图解方式获得的。采样的ROI的对数似然所提出的方法的贡献如下:1. 与以前的方法不同,我们将多目标检测任务重新表述为输入图像的边界框的密度估计。通过这种新的方法,可以减少多目标检测训练中的复杂处理和启发式操作2. 我们估计边界框的密度使用的混合模型组成的连续(位置)和离散(类)的概率分布。为此,我们提出了一种新的网络架构,MDOD,和它的目标函数。3. 我们在MS COCO上测量了我们所提出的方法的检测性能和速度在一些初步的评估结果中,MDOD在检测性能和速度方面都优于以前的检测器。2. 相关作品在大多数现代多对象检测方法中,必须基于诸如锚框或中心位置的参考点将地面实况边界框分配给网络的输出。 更快的R-CNN [24]试图通过使用大量具有各种尺度和纵横比的锚框来尽可能多地表示图像上可以存在框的空间。将地面实况边界框指定给锚框如果该锚框与地面实况边界框之间的交集大于并集(IoU)高于阈值。在后来的研究中,锚盒的使用成为标准。[17、7、21]。为了设计锚框,大多数方法继承了以前研究中启发式发现的形状。YOLOv2 [22]和YOLOv3[23]通过K均值聚类找到最佳锚框。然而,大量的锚恶化了所谓的前景-背景不平衡问题,因为未分配的背景锚框的数量超过分配的前景锚框的数量,这使得训练困难。此外,需要仔细设计锚,因为锚的尺度和纵横比对检测性能影响很大。为了缓解前景-背景不平衡问题,Hard negative mining [17]和OHEM [25]对具有高损失的负ROI(感兴趣区域)进行焦点损失[15]通过关注硬例子的损失来解决这个问题。然而,它具有应该启发式搜索的超参数。最近,研究没有使用-3439| |Σ||pπ(x−22µ)+γL不 RB已经进行了合唱。[27]基于中心位置而不是锚框来学习地面实况边界框。[12,5,32]使用姿势估计中使用的基于关键点的方法。它们以热图的形式然而,这些方法仍然直接将地面实况分配给网络输出的特定位置另一方面,有研究处理匹配算法。[28]认为重要的是如何指定真实边界框,而不是锚框形状,并提出了一种自动划分正样本和负样本的自适应方法。[30]指出,基于IoU的手工作业是一个问题。它通过最大似然估计学习地面实况边界框和锚点之间的匹配。然而,这只学习匹配的权重,它仍然需要基于IoU构建手工制作的锚包在以往的研究中,多目标检测中概率分布的概念主要用于表示包围盒坐标的不确定性。 对于每个预测的RoI(roik),[9]建模了一个边界框坐标预测(bi)作为高斯分布-图2:高斯分布和柯西分布的pdf。由于浮点的有限精度,对于高斯,对于x > 7,p(x)= 0。202,即对数似然计算中的下溢。分类分布是离散分布。该混合模型的概率密度函数(pdf)定义如下:Kp(b|image)= π kF(b p;μ k,γ k)P(b c; pk).(一)k=1这里,F表示柯西1的pdf,并且P表示柯西1的pdf。估计p(bi)的尝试coord分类分布的概率质量函数(PMF)。坐标roik,图像)。[4]估计了特定边界框坐标的密度作为高斯分布的特定锚点(锚点k参数μk、γk和πk是第k个分量的位置、尺度和混合系数。C-i坐标 |anchor k, image) ∼N.维向量pk是C类的概率。的柯西分布代表了四个坐标的在本文中,我们执行多目标检测学习-确定图像用户的边界框(b)的分布;边界框b={b,b,b,b}。为了提供模型,混合模型,即我们估计p(b图像)。与前面提到的方法不同,我们的MDOD不需要直接将地面实况边界框分配给网络输出的特定位置我们假设每一个维度-边界框坐标的大小与其他坐标无关。因此,边界框坐标的柯西的pdf可以被因式分解如下:3. 问题表述:基于混合模型的目标检测F(b p|image)=F(b l; µ k,l,γ k,l)× F(b t; µ k,t,γ k,t)×F(b r; µ k,r,γ k,r)× F(b b;µ k,b,γ k,b)。(二)边界框b可以被表示为由用于位置(左上角和右下角)的四个坐标(位置)bp和用于对象类的独热向量bc在多对象检测的问题中,取决于图像中的对象的数量,图像的b因此,我们的目标检测网络必须能够捕获多模态分布。我们提出了一种新的模型MDOD,它可以通过扩展混合密度网络[1]来估计多模态分布,用于目标检测。MDOD使用由连续和离散概率分布组成的混合模型对图像的b的条件分布进行MDOD的目的是通过最大化地面实况边界框b的对数似然来准确地估计混合模型的参数,如下所示:θ=argmaxEbp 数 据 ( b| 图 像 ) logp ( b| 图 像 ;θ ) 。( 三)这里,pdata(b image)是给定输入图像的b的经验分布,θ是包括混合参数(μk,γk,πk)和类别概率pk的参数向量。柯西与高斯:高斯分布是一种典型的连续概率分布。但是,高斯分布的可能性呈指数下降其分别表示边界框坐标和类别概率。在本文中,我们使用柯西分布作为连续分布,1F(x;μ,γ)=1γ,其中μ是位置参数,并且γ是标度参数。p(bθ3440∈ΣΣhΣw∈--MDOD44类数+11解码器中心偏移(x,y)ltrbHF5wf5hf4wf4氟化氢wf3HMμγpπWM+中心极限氟化氢242wf2译码器电平标度水平标尺softplussoftmax轴:通softmax轴:h x w网络hf1o1O2O3O4(dx',dy')WF1(宽度、图3:MDOD的架构。混合模型的参数(μ、γ、p和π)通过MDOD预测。网络从特征金字塔的每个特征图产生其中间输出(o1-o4)随着离μ的距离增加。因此,即使预测的坐标稍微远离地面实况,也可能由于实际实现中有限的浮点精度而出现它导致的问题是,可能性变为零,损失不能反向传播。另一方面,如图所示。2,与高斯分布相比,柯西分布具有较重的(二次递减的)尾部。因此,出现下溢问题的可能性要小得多。到y方向。o′1的最后两个通道用作宽度和高度。ltrb变换将由中心、宽度和高度(xywh)表示的坐标转换为左上角和右下角(ltrb)。通过将softplus [6]激活应用于o2,然后乘以电平标度,获得γ图 p-映射是通过将softmax函数沿信道轴应用于 o3Rhm×wm× ( C+1 ) 而 获 得 的,π-映射是通过将softmax应用于en-定义了五个空间映射o4∈Rhm×wm×1使得4. 混合密度目标检测器(MDOD)5l=1Lmh=1Lmw=1L(h,w)=1时。这里,C表示数量。4.1. 架构图3示出了MD0D的架构。网络从输入特征图输出〇、〇、〇和〇。的对象类的BER,并且O3的最后一个通道用于背景类。MDOD的网络由一个3×3的核卷积器组成。1 2 3 4层和三个1×1核卷积层。Swish分别从o1,o2,o3和o4得到了混合模型的参数映射,μ映射,γ映射,p映射和π映射.混合物组分在参数图的空间轴上的每个位置处表示。µ图由o1Rhm×wm×4计算得出。首先,o1的每个元素被缩放因子s= 2l−5depend-在FEA中的特征图的水平l∈ {1,···,5}上执行[20]用于除输出层之外的这些层的激活函数。我们使用5级特征金字塔网络(FPN)作为特征提取器[14]。MDOD从所有级别的特征图中仅估计一个混合模型。因此,分量的数量K是每个参数图的分量数(hm×wm)正金字塔为:o′1=s×o1。然后,输入o′1对应于特征图。在这里,每个特征图(o1−o4)和相应的参数映射(µ,γ,p,π)到解码器块。在解码器块中,中心偏移(x’,y’)是空间对齐的混合分量的默认中心位置此外,图1中所示的中心限制操作4限制输出不偏离中心偏移太多。这防止了μk的空间错位。它通过应用tanh并乘以限制因子slim来实现。在本文中,我们设置s lim等于相邻中心偏移 之间 的 间距 ( 见图 1 ) 。4 ) . o′1 的 前两 个 通道(dx′,dy′),其对应于-响应于与中心偏移的偏差而被输入到中心限制操作。然后,中心偏移被添加到中心限制操作的输出在x方向上的中心坐标的全部计算如下:x=x¯+slim×tanh(dx′)。这同样适用于在同一层具有相同的尺寸。4.2. 培训RoI采样:为了考虑负预测的概率,考虑背景的类概率通常用作预测的边界框的置信度得分。但是,虽然输入图像具有背景区域,但该组真实边界框通常不包括背景类。为了获得前景和背景类的边界框,我们使用π从μ随机采样边界框,π表示混合成分的概率如果一个抽样的糖果之间的借据-π3441--------×----ΣGTgt,pgt,pROIJROI联系我们Σ图4:中心限位操作示意图。圆圈表示中心偏移。此操作将µk限制在灰色区域内。日期并且基础事实高于阈值,则我们将其标记为具有最高IoU的基础事实的类,否则,我们将其标记为背景。通过这个过程,我们创建了roi集。b_roi从估计的MoC的μ和π中采样,所述估计的MoC被训练以表示输入的地面实况边界框坐标分布。因此,如果MoC很好地估计边界框的分布,则不会发生前景-背景不平衡问题。broi中的背景边界框可以被视为硬负样本。在ROI采样中,这些背景样本是随机获取的,与之前的启发式否定挖掘方法不同[17,25]。此外,由于RoI采样与网络结构完全分离,因此不需要考虑网络输出的结构。我们只需要应用背景的常用标准(IoU> 0.5)。损失函数:为了训练MDOD以使用broi表示背景概率,我们将MDOD的损失函数定义为两项。第一项是MoC的负对数似然估计MoC。此外,它被训练成使得MoC自身不被重新学习。为此,除了类概率pk之外,误差不传播到混合模型的其他参数。最终损失函数定义为:L=LMoC+αLMM(6)这里,α控制两项之间的平衡。在我们的实验中,我们设置α=2。4.3. 推理在推断阶段,我们选择μ我们假设这些μ很在基于混合模型的聚类方面,我们将μ视为在执行非最大值抑制(NMS)之前,我们可以过滤掉具有相对低的pc或π值的混合物组分。由于π的尺度取决于输入图像,因此我们通过归一化- π(π’)来过滤混合分量,该归一化-π(π’)通过将π向量与其最大元素归一化而获得,即,π′=π/max(π)。5. 实验5.1. MDOD分析为 了 分 析 MDOD , 我 们 使 用 MS COCO[16]'train2017'和'val2017'进行训练和评估。输入图像的大小调整为320 320。带有FPN的ResNet50 [8]用作特征提取器。培训详情见补充材料。前景-背景平衡:由于我们从估计的MoC执行采样,因此采样的b roi包含前景和背景样本。为了检查BROI中前景和背景的平衡,我们测量了LMoC= −Ngt1日志.ΣKπkF(bi;µk,γk)Σ.( 四){broi{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}在图5中,前景比率暂时较低,为0.5%。Ngt i=1k=1gt,p但是随着训练的进行而快速增加,并且收敛到某个值。这说明这里,(π k,µ k,γ k)取决于包含第i个真实边界框bi的图像。请注意,方程式(4)仅学习地面实况的坐标的分布边界框bgt,p=b1、,bNgt,e使用MoC参数(π,μ,γ)排除类别概率。第二个损失项是我们的混合模型的完整形式,包括类别概率,并计算为:1N投资回报率L=−logp(b|图像)。(五)前景-背景不平衡问题随着训练的进行而自然地解决(#前景:#back-ground = 1.7:1在最后一个时期)。高斯和柯西分布:在实践中,高斯分布和柯西分布的相似度可能由于由有限的浮点精度引起的下溢而为零。为了在训练过程中显示这个问题,我们测量了由于与地面真实边界框坐标的距离很大而发生下溢的MMNroi j=1ROI如可见于图6,在柯西分布中,下溢很少发生,而在高斯分布中,下溢发生LMM用于学习估计混合模型的类概率。请注意,LMM的计算公式为{br〇i}={bl,···,bNr〇 i},从在整个训练过程中以高比率(约0.9比率)。采用高斯分布和柯西分布的MDOD的AP分别为32.7和33.8。slim中心偏移3442----1.00.051.00.0训练时期0.0训练时期0.6图5:在每个训练时期从柯西分布的混合物采样的集合broiRoI的数量:表1示出了AP根据N roi(broi的大小)的 变 化 。我们将Nroi设置为与Ngt成比例,N gt是真实边界框的数量作为实验的结果,性能对Nroi不敏感。在本文中,Nroi被设置为Ngt的三倍。消融研究:MDOD具有在中间特征图中起特定作用的组件。 在本实验中,我们逐个更改MDOD架构中的以下组件以查看效果:LTRB变换(LTRB)、中心限制和电平缩放操作。表2示出了结果。使用所有组件的MDOD显示出最好的性能。删除中心限制和电平缩放操作会导致性能略有下降。中心极限和电平刻度操作似乎对检测结果有积极的影响。如果不使用ltrb变换,则在xywh坐标中学习边界框。在我们的方法中,通过ltrb坐标学习显示了周围1.0比通过xywh学习更好的AP。5.2. 评价结果比较我 们 比 较 了 MDOD 与 其 他 目 标 检 测 方 法 。 MSCOCO“train 2017”数据集用作训练集,“test-dev 2017”用于评估。MDOD的每秒帧数(FPS)使用单个nvidiaGeforce 1080Ti测量,包括在不使用tensorRT的情况下使用批量大小1的后处理。同样地,其他比较方法的FPS也由具有Nvidia Pascal架构的GPU测量。培训详情见补充材料。与基线比较:我们建立了一个简单的基线,通过传统的训练方法学习边界框。为了尽可能公平地比较此基线和MDOD,我们使用完全相同的批量大小、增强策略和网络架构(不包括基线和MDOD的输出层)。基线网络采用光滑l1和交叉熵进行训练,并采用硬负挖掘.并且,基线对每个输出单元格使用九个锚框如可以图6:在每个训练时期,柯西和高斯分布的下溢分量的比率NROIAP AP50Ngt×1Ngt×3Ngt×533.8 53.333.8 53.433.9 53.3表1:{b_r〇i}(N_r〇i)和AP的大小MDODltrb中心极限水准标尺✓✓✓✓✓✓✓✓AP33.832.932.332.8AP5053.452.951.652.5表2:MDOD的组分的有效性从表3中可以看出,MDOD优于基线。此外,在表4中,MDOD显示出比基线更快的推理速度。原因如下:MDOD的预测值仅为1,用于输出中的每个单元。因此,输出层的滤波器的数量变得小于基线的数量(MDOD:90,基线:765)。此外,MDOD预测的箱子比基线少(MDOD:2134,基线:19206)。预测的数量可以影响使用NMS的后处理的速度。与EfficientDet的比较:我们将MDOD的检测性能与EfficientDet [ 26 ]的检测性能进行了比较,EfficientDet[26]是一种使用传统训练方法的最先进方法。为了公平起见,在EfficientDet中使用的特征提取器也被应用于MDOD。在表3中,在使用相同特征提取器和输入大小的所有情况下,采用EfficientDet的特征提取器的结构优势的MDOD的该版本特别地,具有Efficient-Dl的MD 0 D在该表中实现了最高的AP(40.5)。这些结果的显著之处在于,这种改进不是由结构变化、启发式或复杂处理引起的,而是由一种新的学习多目标检测网络中边界框分布的方法引起的。0.63高斯0.90630.0125前景比底流比Cauchy3443方法特征提取器输入大小APAP50AP75APSAPMAPL基线ResNet50-FPN320x32030.145.932.46.434.750.8MDODResNet50-FPN320x32033.953.835.514.735.149.6基线ResNet101-FPN320x32031.146.833.66.736.152.3MDODResNet101-FPN320x32035.054.836.814.436.551.8基线ResNet50-FPN512x51235.053.238.115.040.250.7MDODResNet50-FPN512x51237.959.140.219.840.750.5基线ResNet101-FPN512x51236.654.539.815.642.053.2MDODResNet101-FPN512x51240.060.742.620.743.153.8[26]第二十六话有效-D 0512x51233.852.235.812.038.351.2MDOD有效-D 0512x51235.256.536.816.937.348.7[26]第二十六话高效-D1640x64039.658.642.317.944.356.0MDOD高效-D1640x64040.562.042.821.542.855.3表3:基线和EfficientDet与MDOD的评价结果比较方法特征提取器输入大小净时间PP-时间总时间FPS基线ResNet50-FPN320x3201742147.6MDODResNet50-FPN320x3201621855.6基线ResNet50-FPN512x5122262837.5MDODResNet50-FPN512x5122122343.5表4:基线和MD0D的推断时间(ms)比较与其他方法的比较:选项卡. 图5和图7示出了对象检测器的AP和FPS我们使用基于ResNet的相似特征提取器将为了与更多的多对象检测方法进行比较,我们不仅使用静态大小的输入图像(320 x320、512 x512)而且使用可变大小的输入(短-800)来执行评估。在这里,在RetinaNet、FCOS等中使用的相同增强被应用于训练short-800模型。在与使用静态大小的输入的方法的比较中,MDOD在检测性能和速度方面明显优于没有任何花里胡哨的。MDOD不是为了加快推理时间或减少计算而设计的。然而,由于MDOD具有“与基线的比较”中提到的优点与采用变尺寸输入的方法相比,MDOD作为一种新的检测方法显示出良好的效果。但与使用静态大小输入的情况不同,它并没有优于其他最先进的检测器。在使用短800图像的训练中,混合分量的数量K很大并且根据输入的大小而改变。因此,我们推测在训练期间改变的大K可能会干扰优化。然而,作为新的在混合模型密度估计方法的基础上,通过对混合模型和密度估计的进一步研究,我们的方法还有很大的改进空间。6. 结论在本文中,我们把多目标检测任务作为一个输入图像的边界框的密度估计。我们提出了一种新的多目标检测器称为MDOD和目标函数来训练它。MDOD使用混合模型捕获边界框的分布,该混合模型的组件由柯西分布和分类分布组成。通过这种基于密度估计的方法和一种新的MDOD结构,我们可以减少训练多目标检测网络的复杂过程和启发式。此外,我们验证了前景-背景不平衡问题随着我们方法中训练的进展而自然解决。我们在MS COCO上测试了MDOD的检测性能和速度。在使用静态尺寸输入的评估中,MDOD在检测性能和速度方面优于其他最先进的多目标检测方法。值得注意的是,这种性能不是通过结构变化或启发式和复杂的处理来实现的,而是通过多目标检测的新方法来我们相信MDOD为多目标检测的新方向迈出了第一步,该方向有很大的改进空间,可以通过进一步的研究和开发来实现。3444CascadeRCNNLibraRCNNRetinaNetM2Det512EFGRNetPASSD512M2Det320PASSD320MDOD 320MDOD 512MDOD短-800◦方法特征提取器输入大小APAP50 AP75APSAPMAPLFPS静态大小输入图像:SSD321 [17,7]ResNet-101321x32128.045.429.36.228.349.3-[29]第二十九话ResNet-101 TCB320x32032.051.434.210.534.750.4-M2Det [31]ResNet-101 MLFPN320x32034.353.536.514.838.847.921.7PASSD认证[10]MDODResNet-101 FPNResNet-101 FPN320x320320x32032.735.052.154.835.336.810.814.436.536.550.251.834.537.0SSD513 [17,7]ResNet-101513x51331.250.433.310.234.549.8-[29]第二十九话ResNet-101 TCB512x51236.457.539.516.639.951.4-M2Det [31]ResNet-101 MLFPN512x51238.859.441.720.543.953.415.8PASSD认证[10]EFGRNet [18]ResNet-101 FPNResNet-101512x512512×51237.839.059.158.841.442.319.317.842.643.651.054.522.221.7NETNet [13]ResNet-101 NNFM512×51238.558.641.319.042.353.927.0MDODResNet-101 FPN512x51240.060.742.620.743.153.829.4可变大小输入图像:更快的R-CNN [24]ResNet-101 FPN短-80036.259.139.018.239.048.2-[19]第十九话ResNet-101 FPN短-80041.162.144.723.443.752.59.5Cascade R-CNN [3]ResNet-101 FPN+短-80042.862.146.323.745.555.27.1RetinaNet [15]ResNet-101 FPN短-80039.159.142.321.842.750.29.6FoveaBox [11]ResNet-101 FPN短-80040.861.444.024.145.353.2-FSAF [33]ResNet-101 FPN短-80040.961.544.024.044.251.3-FCOS [27]ResNet-101 FPN短-80041.560.745.024.444.851.6-ATSS [28]ResNet-101 FPN短-80043.662.147.426.147.053.6-MDODResNet-101 FPN短-80042.261.645.125.344.651.710.5表5:使用MD0D的各种方法的评价结果45 6540 6035 55300 10 20 30FPS5040 0 10 20 30 40FPS图7:速度(FPS)和AP的比较圆圈和矩形分别表示静态和可变大小的输入CascadeRCNNLibraRCNNMDOD短-800MDOD 512M2Det512RetinaNetPASSD512EFGRNet净网M2Det320PASSD320MDOD 320AP50AP3445引用[1] 克里斯托弗·M·毕晓普。混合密度网络技术报告,Citeseer,1994年。3[2] Navaneeth Bodla,Bharat Singh,Rama Chellappa,andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集,第5561-5569页,2017年。8[3] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集,第6154-6162页,2018年。8[4] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯yolov 3:一个准确和快速的对象detector- tor使用定位不确定性的自动驾驶。在IEEE计算机视觉国际会议论文集,第502-511页,2019年。3[5] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:使用关键点三元组的对象检测。arXiv预印本arXiv:1904.08189,2019。3[6] CharlesDug as , YoshuaBengio , Franc oisBelisle ,ClaudeNadeau,and Rene Garcia.结合二阶函数知识以获得更好的期权定价。In Advances神经信息处理系统,第472-478页,2001。4[7] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C Berg. Dssd:解卷积单次激发探测器。arXiv预印本arXiv:1701.06659,2017。二、八[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。5[9] Yihui He , Chenchen Zhu , Jianren Wang , MariosSavvides,and Xiangyu Zhang.具有不确定性的边界盒回归用于精确的对象检测。在IEEE计算机视觉和模式识别会议集,第2888-2897页,2019年。3[10] Ho-Deok Jang,Sanghyun Woo,Philipp Benz,JinsunPark,and In So Kweon.建议并参加单发探测器。arXiv预印本arXiv:1907.12736,2019。8[11] Tao Kong,Fuchun Sun,Huaping Liu,Yunning Jiang,Lei Li,and Jianbo Shi.Foveabox:基于锚点的对象检测。IEEE Transactions on Image Processing,29:7389-7398,2020。8[12] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在欧洲计算机视觉会议论文集(ECCV)中,第734-750页,2018年。3[13] 李亚钊,庞彦伟,沈建兵,曹佳乐,邵凌。Netnet:邻居擦除和传输网络,用于更好的单次物体检测,2020年。8[14] 林宗义、多拉尔、葛希克、何凯明、哈里哈兰、贝隆吉.用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。4[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年二、八[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得·多尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 5[17] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。二、五、八[18] 聂晶、拉奥·穆罕默德·安瓦尔、希沙姆·乔拉卡尔、法哈德·沙赫巴兹·汗、庞彦伟和邵令。用于目标检测的增强特征引导精化网络。2019. 8[19] Jiangmiao Pang , Kai Chen , Jianping Shi , HuajunFeng,Wanli Ouyang,and Dahua Lin.天秤座r-cnn:目标检测的平衡学习。在IEEE计算机视觉和模式识别会议集,第821-830页,2019年。8[20] Prajit Ramachandran,Barret Zoph,and Quoc V.乐搜索-ing激活函数,2017年。4[21] Joseph Redmon,Santosh Divvala,Ross Girshick,andAli Farhadi.你只看一次:统一的实时对象检测。在IEEE计算机视觉和模式识别集,第779-788页,2016年。2[22] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000:更好,更快,更强。在IEEE计算机视觉和模式识别会议论文集,第7263-7271页2[23] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3:一个渐进的改进。arXiv预印本arXiv:1804.02767,2018。2[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。在NIPS,第91-99页,2015中。二、八[25] Abhinav Shrivastava,Abhinav Gupta和Ross Girshick。训练基于区域的对象检测器与在线硬示例挖掘。在IEEE计算机视觉和模式识别会议论文集,第761-769页,2016年。二、五[26] Mingxing Tan,Ruoming Pang,and Quoc V Le.有效日期:可扩展且高效的对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第10781-10790页,2020年。六、七[27] Zhi Tian , ChunhuaShen , Hao Chen , and Tong He.Fcos: 完 全 卷 积 的 一 阶 段 对 象 检 测 。 arXiv 预 印 本arXiv:1904.01355,2019。三、八[28] Shifeng Zhang , Cheng Chi , Yongqiang Yao , ZhenLei,and Stan Z Li.通过自适应训练样本选择弥合基于锚点和无锚点检测之间的差距。在IEEE/CVF计算机视觉和模式识别会议论文集,第9759-9768页,2020年。二、三、八[29] 张世峰,文龙吟,小编,甄磊,李斯坦。用于目标检测的单次细化神经网络。在IEEE计算机视觉和模式识别会议论文集,第4203-4212页,2018年。83446[30] 张晓松,方婉,刘畅,姬蓉蓉,叶启祥。Freeanchor:学习匹配锚点进行视觉对象检测。在神经信息处理系统的进展,第147-155页,2019年。3[31] Qijie Zhao ,Tao Sheng ,Yongtao Wang ,Zhi Tang ,Ying Chen,Ling Cai,and Haibin Ling.M2det:基于多级特征金字塔网络的单次目标检测器。在AAAI人工智能会议论文集,第33卷,第9259-9266页8[32] Xingyi Zhou,Jiacheng Zhou,and Philipp Krahenbuhl.通过分组极端点和中心点实现自下而上的对象检测。在IEEE计算机视觉和模式识别会议论文集,第850-859页3[33] Chenchen Zhu,Yihui He,and Marios Savvides.用于单次拍摄对象检测的功能选择性无锚模块。在IEEE/CVF计算机视觉和模式识别会议论文集,第840-849页,2019年。8
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功