基于概率建模的深度目标检测主动学习

16 浏览量更新于2023-09-26 收藏 877KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10264基于概率建模的深度目标检测主动学习Jiwoong Choi1，3，Ismail Elezi2，3，Hyuk-Jae Lee1，Clement Farabet3和Jose M. 阿尔瓦雷斯31首尔国立大学、2慕尼黑工业大学、3NVIDIA{jwchoi，hjlee}@ capp.snu.ac.kr，ismail. tum.de，{cfarabet，josea}@ nvidia.com摘要主动学习的目的是通过只选择数据集上信息量最大的样本来降低标记成本。很少有现有的工作已经解决了主动学习的对象检测。这些方法大多基于多个模型或者是分类方法的直接扩展混合密度网络分类头。在本文中，我们提出了一种新的深度主动学习方法用于对象检测。我们标记训练集注释器信息能力得分该方法依赖于混合密度网络，该混合密度网络估计每个定位和分类头的输出的概率分布我们明确估计的任意性和认知的不确定性，在一个单一的前向通过一个单一的模型。我们的方法使用一个评分函数，aggre-门这两种类型的不确定性，为双方的头，以获得每个图像的信息得分。我们证明了我们的方法在PASCALVOC和MS- COCO数据集的有效性。我们的方法优于基于单模型的方法，并执行与基于多模型代码可在https://github.com/NVlabs/AL-MDN获得。1. 介绍深度检测网络的性能取决于标记数据的大小[31，32]。受此启发，研究人员探索了智能策略来选择数据集中信息量最大的样本进行标记，称为主动学习[35]。通常，这是通过设计一个计算网络不确定性的评分函数来完成的一般来说，预测的不确定性被分解为任意和认知的不确定性[15，20]。前者是指数据中的固有噪声，例如传感器噪声，并且可以归因于遮挡或缺乏视觉特征[10，24]。后者是指由于缺乏模型知识而导致的不确定性，并且与训练数据的密度成反比[38]。建模和区分这两种类型的不确定性是非常重要的。图1：我们的方法预测任意和认识论的非-在单个模型的单个前向传递中，定位和分类头两者的确定性我们提出了一个评分函数，聚合认知和任意的不确定性，从两个头到单一的价值。然后，发送具有前K个得分的那些数据点以用于标记。在主动学习中，因为它允许深度学习模型了解它们的局限性[21，38]，即，识别样本中的可疑预测（任意不确定性），并识别与训练集不相似的样本（认知不确定性）。为了计算这些类型的不确定性，研究人员使用基于多模型的方法，例如集成[2]或蒙特卡罗（MC）dropout [13]。这些方法达到了良好的结果，但有几个限制[11，16]。特别地，由于是多模型，它们需要高得多的计算成本，并且在集合的情况下，它们还增加了网络参数的数量此外，它们仅依赖于分类不确定性，完全忽略了定位不确定性。在本文中，我们提出了一种新的主动学习方法用于深度对象检测。我们的方法使用一个单一的模型，一个单一的向前通过，显着减少计算成本相比，多个基于模型的方法。尽管如此，我们的方法达到了很高的精度。为了管理，我们的方法利用本地化和基于分类的任意和认知的不确定性。如图1，我们将我们的方法基于混合密度网络[3]，该网络为每个网络的输出学习高斯混合模型（GMM），即，本地化和分类，以计算任意和定位头定位不确定深度神经网络分类头评分函数未标记样本池注释top-数据点分类不确定性...10265K KK认识上的不确定性为了有效地训练网络，我们提出了一个损失函数，作为不一致数据的正则化器，从而产生更鲁棒的模型。我们的方法估计每个图像我们的经验表明，利用这两种类型的不确定性来自分类和定位头是提高准确性的关键因素。我们在单级架构（如SSD [31]）中展示了我们在PASCAL VOC [9]和MS-COCO [30]上的方法的好处，并在两级架构（如Faster-RCNN [32]）中显示了一般性能我们的方法始终优于基于单模型的方法，并与使用多模型的方法相比，我们的方法产生了类似的精度，同时显着降低了计算成本。总之，我们的贡献如下：• 我们提出了一种用于对象检测的新型深度主动学习方法，该方法通过考虑定位和分类信息来利用随机和epistemic不确定性。我们的方法是有效的，并在一个单一的模型中使用一个单一的向前通过。• 我们提出了一种新的损失来训练基于GMM的对象检测网络，从而提高网络的整体性能。• 我们证明了我们的方法的有效性，使用不同的模型在两个不同的数据集。2. 相关工作用于对象检测的深度主动学习最近引起了人们的兴趣。[16]的工作训练神经网络的集合[2]，然后选择具有由某些获取函数定义的最高得分的样本，即，熵[36]或互信息[5]。并行工作[11]探索了类似的方向，但通过MC-退出[12，26]近似不确定性。[1]的工作提出了一种计算像素分数并使用它们来选择信息样本的方法。另一种方法[33]提出了一种委员会查询范式，以选择要查询的图像集。[34]的工作使用特征空间来选择数据集中的代表性样本，在对象检测中达到良好的性能[40]。[ 23 ]给出了一个不同的解决方案，其中作者定义了两个不同的分数：定位紧密度，即区域建议与最终预测之间的重叠率;以及基于当输入图像被优于其他基于单一模型的方法。在训练期间，该方法学习预测每个样本的目标损失。在主动学习阶段，它选择标记具有最高预测损失的样本。大多数上述方法[11，16，23]需要多个模型或多个前向传递来计算图像的信息性分数，导致高计算成本。此外，所有这些研究，尽管专注于对象检测的主动学习，但要么依赖启发式方法来估计定位不确定性[23，40]，要么根本无法估计[1，11，16，33，34]。因此，虽然给出了有前途的方向，但它们在精度和计算成本方面不太令人满意。与这些方法相比，我们的方法估计并利用定位和分类不确定性来达到高精度，同时使用单个模型的单个前向传递，显著降低了计算成本。混合密度网络最近已被用于几个深度学习任务。[8]的方法集中于转向角的回归任务[18，39]的工作试图解决多模态回归任务。[41]的工作集中在密度估计上，而[7]的工作然而，以前的研究没有考虑分类任务，这是对象检测的重要组成部分[8，18，39]。此外，所有这些研究都没有考虑来自边界框回归和分类任务的两种类型的不确定性[7，8，18，39，41]。此外，这些研究都没有解决对象检测的主动学习问题。相比之下，我们的方法估计和利用这两个任务的随机和认知的不确定性的背景下，主动学习的对象检测。3. 主动学习的目标检测我们的方法的关键新颖性是设计神经网络的输出层来预测概率分布，而不是为网络的每个输出预测单个值（见图1）。2 a）。为此，我们建议使用混合密度网络，其中网络的输出由GMM的参数组成：GMM的第k个分量的均值μ k、方差Σk和混合权重π k。给定这些参数，我们可以估计任意ual和认知uep不确定性[8]：ual=ΣπkΣk，uep=Σπkµk−Σπi µi2，（1）被噪音破坏了在所有情况下，选择具有最高分数的图像进行标记。最新技术水平（SOTA）k=1k=1i=1[40]的方法提供了一种启发式但优雅的解决方案，其中K是GMM中的分量的数量。10266Loc. 头（GMM）11b1bB伊伊BB伊B特征图错误）xes、y、w、h）Cls. ：（��0，1，��={��Δ（x.：Loc博（一输入NKDDDDBGBBΣGBBBBλij=，gj=Xx，gj=yyBBB k=1BWck=µk+√Σkγ，γN（0，1），（4）.Hπ=jbb b bb目标检测网络结构深度神经网络Loc.头Cls.头输入（一）=（b）第（1）款=图2：所提出的对象检测网络的概述与常规对象检测器[31，32]的主要区别a）代替具有确定性输出，我们的方法针对每个输出学习K分量GMM的参数：定位头中的边界框的坐标和分类（置信度）头中的类密度分布（参见第3.1节）。b）分类头，其通过从GMM的分类头中消除方差参数来提高效率3.1. 基于概率建模的为了介绍我们的方法，我们首先专注于本地化任务，然后将其扩展到分类任务。正如我们我们的损失将GMM的参数回归到正匹配的锚（默认）框（d）的中心（x，y）、宽度（w）和高度（h）的偏移将在稍后的实验中显示，我们的方法适用于单级和两级对象检测器。本地化：在对象检测中，边界框b是Llo c（λ，l，g）=−ΣΣλi jlo g（Σπi kN（gj|µi k，Σik）+ε），i∈PosBk=1由其中心坐标（x和y）、其宽度（w）和其高度（h）。在我们的工作中，我们的混合模型不是预测一个确定性的值，而是为每个边界框预测3组参数：平均值（μx，μy，μ1，如果I〇 U>0。五、（gj−di）（gj−di）0，否则。xiyigjgjgj=log（w），gj=log（h），联系我们，和h ），thevariance（Σx，Σy，Σw，和Σ h），以及wihiwh（三）混合物的重量（πx，πy，πw和πh）。其中，l是边界框的GMM参数（πik，μik，和设{πk，µk，Σk}K，b∈ {x，y，w，h}是有界的Σik），NB b位置，位置使用我们的网络获得的框输出。对于边界框的每个坐标，具有K个模型的GMM的参数如下获得：eπ k是混合数λij是用于将第i个锚盒di匹配到第j个GT盒的指示符G的第j个GT盒，gj是第j个GT盒。在实验中，为了对数的数值稳定性，我们设置ε=10−9KBKj=1，µk=µk，Σk=σ（Σ k），（2）eπ功能产品类别：我们现在关注分类头其中，π是每个分量的混合权重，μ是每个边界框坐标的预测值，Σ物体探测器的。我们将每个类的输出建模为GMM（见图1）。2 a）。我们的方法估计平均值每一个人，都有一个属于自己的，属于自己的，属于自己的。是表示任意pp不确定性如[8]中所建议的，我们使用softmax函数将π保持在概率空间中，并使用sigmoid函数来满足方差的正性约束Σk>=0。GMM的每个分量的混合物我们处理GMM的参数如下Eq.2，并通过使用获得第k局部化损失：B传统的包围盒重-应用高斯噪声的重新参数化技巧[25][24]和方差Σk至μk回归损失，平滑L1损失[14]，仅考虑pp预测边界框和地面实况的坐标Cls. 磁头11p1p伊伊伊ppCls. 头部（有11p22p伊伊pB、是匹配的锚框（称为10267(GT)盒子因此，它不能考虑边界框的模糊性（任意不确定性）为了训练用于定位的混合密度网络，我们提出了基于负对数似然损失的定位损失P P P其中γ是辅助噪声变量，大小与µk和Σk相同。p p10268NKΣc−loge）CLΣ0×个pNKCpK--Σ×个{uCL联系我们CLNCLCLpCpΣKµkK分类损失：为了训练用于分类的混合密度网络，我们提出了一个损失函数，该函数考虑了锚盒与GT盒相比的IoU，并考虑了硬负挖掘。更确切地说，我们将分类损失公式化为表示pos的贡献的两个项LP_os和L_Neg的组合在本节中，我们将重点关注通过减少分类头中的参数数量来提高算法的效率。为此，如图所示。2b，我们放松估计方差Σ p的问题，以便减少F×F×D×的参数数量（C×K+K）。相反，我们得到类概率为itiv e和neg ativ e匹配：ck=Softmax（µk），并使用它们来估计任意p pLPos（λ，c）=−ΣλijΣπik（cjik不确定性如下：CLi∈PosGGk=1Kp=0Cc（五）ual=Σπk（diag（ck）−（ck）2），（8）LNeg（c）=−M×N Σπik（ci−logikep），p pk=1i∈Neg k=1p=0其中diag（q）是对角矩阵，其中其中N是正匹配的数量，K是混合物的数量，C是类的数量，0表示背景类c≡i，c≡j是GT类，用于向量q和q2=qqT。在这种情况下，ual是C C矩阵其中每个对角元素的值可以被解释为作为一个特定类别的任意不确定性[27]。最后，我们修改了训练分类器的分类损失。第j个GT盒，cik是通过等式计算的结果。4，λG具有改进的参数效率的模型如下：与Eq中使用的相同。3，M是硬负开采比。而不是使用所有的负匹配，我们LPos（λ，c）=−ΣλijΣπik（cj-logΣeik）使用建议的混合分类损失和cl对它们进行选择前M×N个作为最终的负匹配用于训练。在i∈PosM×NGk=1KpGp=0C（九）在实验中，我们将M设置为3，如[31]中所建议的。LNeg（c）=−ΣΣπik（ci−logΣeµik），最终损失：我们将使用混合密度网络训练对象检测器的总体损失定义为：氯0i∈Neg k=1p=01（Lloc（λ，l，g）/n + LPos（λ，c）+LNeg（c）），如果N> 0。0，否则。（六）其中N是正匹配的数量在实验中，我们将η设为2，如[6]中所建议的。在推理时，我们可以计算通过如下对混合模型的分量求和来确定每个类别Pi的边界框Rb和置信度得分：定位：Rb=Σπk µk，其中所有参数与Eq. 5，除了类概率i k。3.3.评分函数主动学习中的评分功能为每个图像提供指示其信息量的我们的评分函数估计的信息量的图像通过聚集所有的任意和认知的不确定性值的图像中的每个检测到的对象。具体地，令U=uij是一组图像的不确定性值（任意的或认识的）的集合，其中uij分类：PB bk=1=Σπ ke i.Cµ（七）是第i个图像中第j个对象的不确定性。对于定位，uij是4边界上的最大值箱输出。我们首先使用z-score我k=1Kj=0ej归一化（u~ij=（uij -µU）/σU ）来补偿3.2.提高参数效率为了预测输出值的概率分布，我们的方法涉及修改网络的最后一层，因此会增加参数的数量，特别是更确切地说，对于大小为F的输出特征图F，具有C个类、D个锚框，并且每个边界框使用4个坐标定义，新层中的参数的数量被添加以估计具有3个参数的K分量GMM。边界坐标的值框是无界的，并且图像的每个不确定性可能具有不同的值范围。然后，我们将检测到的对象上的最大不确定性ui=maxju~i j 分配给每个图像。我们根据经验发现，在坐标和对象上取最大值比取平均值执行得更好。使用上述算法，我们获得每个图像的四个不同的归一化不确定性值：分类和定位的表位和任意性，u =定位参数为F×F×D×（4×3×K我EPC我阿尔c我EPB我AlB }，分别。剩余部分和FFD（C2K+K）进行分类。我们看到分类头中的参数数量与类的数量成正比就是把这些分数汇总成一个我们探讨了不同的组合的评分功能，汇总这些不确定性，包括总和或采取最大值，，u，u，uL=.10269UEP B：1。06 uep c：−0. 19uep b：11.45 uep c：-0。38(a)VOC07(b)MS-Coco方法头IoU> 0.5IoU> 0.75IoU> 0.5IoU> 0.75SSD-69.29±0.5143.36±1.2425.63±0.4011.93±0.60SGMLoc70.20±0.2770.09±0.2269.95±0.4170.47±0.1745.39±0.2346.01±0.2744.25±0.2644.47±0.0627.20±0.0827.67±0.1227.23±0.1227.33±0.0912.70±0.1613.53±0.0512.50±0.0812.67±0.09MDNLocSGMCLMDNCL我们的GMMOurrseffLoc+ClLoc+Cl70.19±0.3670.45±0.0646.11±0.3846.18±0.2627.70±0.0827.33±0.0413.57±0.1913.33±0.12表1：与原始SSD网络相比，我们的方法的不同实例的mAP（以%计）。SGM和MDN是指单个和多个高斯模型，并且我们将其应用于定位（Loc）、分类（Cl）以及它们的组合（Loc+Cl）。像其他主动学习研究[16，33]。正如我们将在实验中展示的那样，对它们取最大值可以获得最高的结果。UAlB：3.60UAlC：0.96u alb：−1. 09 u alc：8.80uep b：-0。38UEP C：1。35Ualb：1. 71u alc：−0. 50Ualb：0。74 μ lC：1。06uep b：0。80 uepc：7.144. 实验在本节中，我们将展示我们的方法的优势。我们首先研究使用概率建模的对象检测器的影响，然后分析提出的评分函数和相关的SOTA方法在主动学习的背景下。数据集：我们使用PASCAL VOC [9]和MS-COCO [30]数据集。对于包含20个对象类别的PASCAL VOC，我们使用VOC07（VOC2007）trainval和VOC07+12trainval（VOC2007和VOC2012的联合）进行训练，并对VOC07测试结果进行评估。对于包含80个对象类别的MS-COCO，我们使用MS-COCOtrain2014进行训练，并在val 2017上评估我们的结果。实验设置：我们采用单次激发多盒检测器（SSD）[31]，其广泛用于主动学习研究[33，40]，具有VGG-16主干[37]。我们使用SGD训练模型120，000次迭代，批量大小为32，最大学习率为0。001。我们对前1000次迭代使用学习率预热策略，并在80000次和100000次迭代后将学习率除以10我们将高斯混合数设置为4，并且在补充材料中，我们提供了关于混合数的烧蚀研究。除非另有说明，否则我们使用三次独立试验的mAP的平均值和标准差报告性能4.1. 基于概率建模的我们首先分析使用我们提出的概率模型对PASCALVOC 和 MS-COCO 的对象检测的影响。对于 MS-COCO，我们使用来自train 2014的5000个训练图像的随机子集。我们将我们的GMMOursgmm和具有改进的参数eficienyOurseff的模型的准确性与SSD[31]和使用单个或多个高斯用于分类或定位头的几种网络配置进行比较。图3：不准确检测的任意和认知不确定性示例，参见补充材料中的从左上角开始，顺时针方向：人是假阳性;人物边界框不正确;羊被误归为鸟;羊被误认为牛。在选项卡中。la和Tab. 在图lb中，我们总结了分别对V0 C 07和MS-C 0 C 0进行的该实验的结果。如图所示，包括概率建模的所有网络在两个数据集上都优于SSD。这是所提出的损失函数的正则化效应的原因，所述损失函数由于任意不确定性而具有损失衰减[6]。因此，我们得到的模型是强大的噪声数据。考虑到正常（ IoU> 0.5 ）和严格度量（ IoU>0.75 ）两者，Our_s_g_m 和Our_s_e_f在V0C07上胜过所有其他变化。在MS-COCO上，我们的gmm优于所有其他实例和基线，而我们的ef f达到了有竞争力的结果。我们希望MS-COCO中的噪声数据量大于PASCAL VOC，因为MS-COCO具有更多样化的数据。如等式1所示。9，在Ourseff的分类损失中不存在任意不确定性在图3中，我们呈现了检测器未能检测到对象的若干图像的不确定性分数的代表性示例。如图所示，每个不确定性值（图1B中的粗体数字）都是不确定性值。3）对某些特定的失败提供了不同的见解。定位不确定性与边界框预测的准确性相关，而分类不确定性与分类预测的准确性相关有趣的是，在这些示例中，即使预测是错误的，不确定性值似乎是不相关的，这表明每个不确定性可以独立地预测不准确的结果。从这些结果中，我们可以10270定位阿莱托里奇认知ualbuepb分类阿莱托里奇认知ualcuepc阿拉伯联盟10048611uepb48100714ualc6710033uepc111433100表3：作为所使用的不确定性类型的函数的所选图像的重叠比率（以%计）。表2：V0C07：基于每个任务的任意不确定性、认知不确定性及其组合的主动学习的评分聚合函数的比较结论是所提出的方法不仅在单个模型的单个前向传递中计算不确定性，而且还提高了检测网络的性能如下一个实验所示，组合这些值将改善主动学习期间的数据选择过程。4.2. 主动学习评价我们现在专注于评估我们在PASCAL VOC和MS-COCO数据集上的主动学习的性能。如[40]所建议的，我们使用初始组2，000用于V0 C 07，1，000用于V0 C07 +12，并且如[23]所建议的，在MS-C 0 C 0中使用5，000个样品。然后，在主动学习阶段，对于每个未标记的图像，我们应用非最大值抑制，并计算每个幸存对象的不确定性。评分函数使用最大值或总和来聚集这些不确定性，以提供图像的最终信息性分数。我们对未标记的图像集进行评分，并选择得分最高的1，000张图像[40然后，我们将它们添加到标记的训练集，并重复这个过程几个主动学习周期。对于每个主动学习迭代，我们使用ImageNet预训练的权重从头开始训练模型。评分汇总功能：我们比较了使用不同的功能，聚集任意和认知的不确定性的分类和本地化头的主动学习性能。特别是，我们比较了我们的方法与随机抽样的七个不同实例：1）仅每个任务上的任意或认知不确定性;2）定位或分类头上的任意和认知不确定性的总和; 3）任意性或认识性的不确定性在定位和分类上的总和;4）定位和分类的任意和认识不确定性的总和; 5）定位和分类的任意和认识不确定性的最大值;表4：V0C07：主动学习与最相关方法的mAP和计算成本Para.和sec分别指参数和秒分级或分类头; 6）定位和分类的任意或认识不确定性的最大值; 7）这四个不确定性的最大值。该比较的结果显示在表1中。二、我们的方法使用本地化和分类任务的任意和认知不确定性的最大值，在每次主动学习迭代中始终优于所有其他聚合更具体地说，所有不确定性的最大值为两个任务显示更好的数据选择性能比其他主动学习。基于这些结果，我们使用所有不确定性的最大值作为评分函数在主动学习，ING与其他主动学习研究进行比较。在选项卡中。3，我们总结了选择中的重叠作为不确定性度量的函数。使用这两种不确定度的重叠率为48%的定位和33%的分类。更重要的是，当我们同时考虑定位和分类的不确定性时，重叠率降至14%。这表明针对定位和分类获得的不确定性度量是多样化的，并且它们的组合改进了图像选择过程。VOC07与SOTA的比较：在选项卡中。4、通过与文献中相关主动学习方法的比较，总结了该方法的主动学习效果和计算代价。为了比较计算成本，我们提供了参数的数量和每种方法的前向时间。一般来说，快速前进（后退）步骤和小模型大小导致主动学习期间的训练成本和数据采样时间较低[19，22]。为了专注于主动学习，我们通过将每个采样方法应用于建议的GMM架构来再现所有数字，其中输出是混合分布。聚集功能mAP（%）（图像数量）第一名（2k）第二名（3k）第三名（4k）随机抽样62.43±0.1066.36±0.1368.47±0.09阿拉伯联盟62.43±0.1067.06±0.1868.84±0.18uepb62.43±0.1066.75±0.2669.01±0.17ualc62.43±0.1067.09±0.0968.75±0.08uepc62.43±0.1066.51±0.1268.95±0.13j∈{alb，epb}ujΣj∈{alc，epc}uj62.43±0.1062.43±0.1067.01±0.1067.07±0.2768.58±0.2969.03±0.20j∈{alb，alc}ujΣΣj∈{epb，epc}uj62.43±0.1062.43±0.1066.96±0.0866.49±0.1468.92±0.2368.62±0.24j∈{alb，epb，alc，epc}uj62.43±0.1067.04±0.2869.09±0.30maxj∈{alb，epb}ujmaxj∈{alc，epc}uj62.43±0.1062.43±0.1066.82±0.2166.87±0.1468.95±0.2268.99±0.31maxj∈{alb，alc}ujmaxj∈{epb，epc}uj62.43±0.1062.43±0.1067.18±0.1066.72±0.1069.06±0.2568.99±0.21maxj∈{alb，epb，alc，epc}uj62.43±0.1067.32±0.1269.43±0.11mAP（%）（图像数量）第一名（2k）第二名（3k）第三名（4k）数量段（×106）向前时间（秒）随机[31]熵[33]核心集[34]LLAL [40]62.43±0.1066.36±0.1368.47±0.0962.43±0.1066.85±0.1268.70±0.1862.43±0.1066.57±0.2068.57±0.2662.47±0.1667.02±0.1168.90±0.1552.3552.3552.3552.710.0310.0310.0310.036MC-脱落[11]乐队[16]62.43±0.1967.10±0.0769.39±0.0962.43±0.1067.11±0.2669.26±0.1452.35157.050.6890.093OursgmmOurseffect62.43±0.1067.32±0.1269.43±0.1162.91±0.1667.61±0.1769.66±0.1752.3541.120.0310.02910271(a)（b）第（1）款图4：VOC07+12：a）使用单个评分模型与已发表作品进行比较数字取自[40]; b）与多个基于模型的方法、集成和MC-退出的比较。复制该图的数字的细节在补充材料中。图5：V0 C 07 +12：使用多个模型与基线和方法的计算成本比较;以百万（M）为单位的模型有关数字详细信息，请参见补充材料。与SOTA在VOC07+12上的比较：我们现在将我们的方法与现有的基于VOC07+12的单模型方法进行比较。在这里，我们考虑[40]中报道的SOTA结果，包括LLAL [40]和核心集[34]，以及熵[33]和随机采样。我们使用[40]中使用的相同开源和设置进行公平比较。为了只关注主动学习，我们将基于相同基线的性能与[40]进行比较，即、SSD。要做到这一点，我们训练SSD使用数据集采样我们提出的评分函数在建议的GMM架构和架构与改进的参数效率。为了验证用于比较的初始训练集的影响，我们用不同的方法运行了5次独立试验（即，和我们的型号一样GMM）.对于合奏，我们用于标记集合的初始选择的种子。然后，我们将保持平均mAP为0。5246，标准差为[2]，构建三个独立模型的集合对于MC-dropout，我们添加p = 0的dropout层。1到构成SSD中的额外特征层的六个卷积层。我们使用25个for-ward通道计算图像分数[2]。对于这两种方法和基于熵的方法，我们遵循文献中最常见的方法，并将最终图像得分估计为分类头上的平均熵[16]。对于核心集[34]，我们遵循[40]，使用VGG-16中的全连接层7的特征。对于LLAL [40]，我们在所提出的GMM架构上实现了学习损失预测模块。作为基线，我们在GMM架构上使用随机抽样。注意，我们使用与实验设置中提到的完全相同的超参数来训练所有方法。如Tab.所示。4，我们的方法的两个实例在每次主动学习迭代中一致优于所有其他基于单模型的方法[31，33，34，40]与基于多模型的方法[11，16]相比，我们提出的方法显示出更高的准确性，同时需要显著降低的计算成本。这些结果表明，尽管具有较低的计算成本，我们提出的方法提高了主动学习采样性能相比，以前的作品。0的情况。这表明当实验使用不同的初始图像子集时变化很小。如图4a，我们的方法优于所有其他基于单模型的方法。在最后一次主动学习迭代中，我们的方法达到了0。7598 mAP，即2。比LLAL的得分高6个百分点[40]（0. 7338mAP），从而显示出基于单个模型的主动学习的高性能改进。最后，我们比较了我们的方法与使用多个模型的方法，即，[16]和MC-脱落[11]。对于合奏和MC辍学，我们遵循表中提到4并将其应用于SSD。图图4b和图5，我们提出了这些方法的准确性和计算成本比较如图4b ，在准确性方面，我们的方法与MC- dropout和ensembles表现相当。然而，我们的方法使用单个模型的单个前向传递来估计不确定性，这比基于集成和MC- 丢弃的方法更有效。关于参数的数量， MC-dropout具有与SSD相同数量的参数，因为dropout层不添加任何新参数，但它需要多个前向传递。我们的方法增加了额外的10272模型骨干随机选择mAP（%）OursgmmOurs effect选择SSD [31]VGG-16 [37]Resnet-34 [17]Resnet-50 [17]67.77±0.1265.53±0.1764.28±0.3968.71±0.1868.48±0.3167.00±0.1467.20±0.1365.73±0.3265.81±0.21[32]第三十二话Resnet-50-FPN72.93±0.4173.60±0.1875.45±0.30表5：MS-C 0 C 0：使用最相关方法的主动学习的mAP和计算成本的比较。Para.和sec分别指参数和秒基线[32]我们的GMMOurrseff地图（%）IoU> 0.5IoU> 0.7575.31±0.2248.70±0.1175.90±0.0949.36±0.0775.80±0.1549.83±0.30参数数量（M）41.1742.2341.61转发时间（秒）0.0590.0620.060表6：V0 C 07：基于Faster-RCNN和原始Faster-RCNN作为基线的混合模型的性能比较[32]。参数用于估计每个头的最后一层的两种类型的不确定性，因此，参数的数量大于SSD中的参数。在基于系综的方法中，参数的数量与系综中SSD模型的数量成比例[28]。如图5、与MC-dropout和基于集成的方法相比，我们的方法需要更少的计算成本。总之，我们的方法为主动学习提供了准确性和计算成本之间的最佳权衡。与MS-COCO上SOTA的比较在表中。5、与文献中的主动学习方法相比，我们总结了我们的方法的主动学习性能和计算为了仅关注主动学习，我们通过将每种采样方法应用于所提出的GMM架构来再现所有数字（即，，与我们的gmm型号相同）。对于所有方法，我们遵循与Tab上相同的设置。4.第一章如图所示，我们的方法的两个实例在每个主动学习周期中始终优于所有其他基于单模型的方法[31，33，34，40]特别是，LLAL [40]显示出与MS-COCO上的随机采样相似的准确性然而，我们的方法在MS-COCO上也显示出很高的准确性与多个基于模型的方法[11，16]相比，我们的方法的两个实例都需要更少的计算成本，而我们的gmm优于这些方法，并且我们的f显示出具有竞争力的结果，计算成本低得多。这些结果表明，我们的方法可以推广到具有大量类的较大数据集。4.3. 可扩展性和数据集可传输性我们的方法不限于单级检测器。在这里，在第一个实验中，我们展示了我们的方法是如何表7：V0C07：使用所提出的评分函数和基于混合物的密度模型创建的数据集的可转移性如图所示，使用我们的方法获得的数据集不仅提高了使用不同主干的模型的性能，而且提高了两阶段检测器（如 Faster-RCNN）的性能应用于两级检测器，如Faster-RCNN [32]和FPN [29]。对于本实验，我们使用与表1中相同的PAS-CAL VOC数据集。凌晨1在选项卡中。6，我们展示了基于Faster-RCNN和原始Faster-RCNN作为基线的混合模型的准确性和计算成本的总结。如图所示，我们的方法的两个版本都优于原始模型，最多为1。13mAP改善。重要的是，在这种情况下，我们的方法在Faster-RCNN中的区域提议之后被应用于检测网络的输出层，因此计算成本和延迟存在可忽略的增加，因为计算不包括锚框的数量。最后，我们研究了主动获取的数据集的可转移性。我们比较了使用不同主干（如Resnet-34和Resnet-50[17]）的SSD的性能，以及使用我们的主动采样数据集训练的Faster-RCNN [32我们在Tab中的最后一个主动学习周期的主动采样数据集中4.第一章为了完整性，我们还报告了使用随机抽样获得的准确性。我们总结了这个实验的结果表。7 .第一次会议。如图所示，使用主动采样数据集训练的网络优于使用随机采样训练的网络，最多为2。52mAP改善。结论是，我们的方法不仅可以扩展到其他对象检测网络，而且使用我们的方法积极获取的数据集可以用于训练其他架构。5. 结论我们提出了一种用于对象检测的新型深度主动学习我们的方法依赖于混合密度网络来估计，在一个单一的正向通过一个单一的模型，两种类型的不确定性的定位和分类任务，并利用他们的评分功能。我们提出的概率建模和scor- ing功能实现了突出的性能收益的准确性和计算成本。我们提出了广泛的实验两个公开的数据集，PASCAL VOC和MS-COCO。此外，我们的研究结果表明，我们的方法可扩展到具有不同架构的新模型。mAP（%）（图像数量）第一名（5k）第二名（6k）第三名（7k）数量段（×106）向前时间（秒）随机[31]熵[33]核心集[34]LLAL [40]27.70±0.0828.70±0.1329.83±0.0427.70±0.0828.93±0.1129.89±0.0927.70±0.0828.99±0.0129.93±0.0627.71±0.0328.71±0.0629.53±0.15116.51116.51116.51116.870.1520.1520.1520.194MC-脱落[11]乐队[16]27.70±0.1029.20±0.0930.30±0.0827.70±0.0829.03±0.0730.02±0.06116.51349.533.7180.456OursgmmOurseffect27.70±0.0829.28±0.0530.51±0.1227.33±0.0429.06±0.0830.02±0.05116.5173.200.1520.14110273×个引用[1] 放大图片作者：Hamed Habibi Aghdam，Abel Gonzalez-Garcia，Antonio M.L o'pez，andJoostvandeWeije r. 深度检测神经网络的行为学习在2019年计算机视觉国际会议（ICCV）[2] 威廉 ·H Beluch ， TimGen e wein ， AndreasNuürnberge r ，andJanM. 科勒河集成在行为学习图像分类中的作用在计算机视觉和模式识别会议（CVPR），2018年。[3] 克里斯托弗·M·毕晓普。混合密度网络一九九四年[4] 何塞·卡什亚普·奇塔Alvarez，Elmar Haussmann，andClement Farabet.少即是多：主动数据集二次抽样的数据冗余探索。arXiv预印本arXiv：1811.03542，2019。[5] 何塞·卡什亚普·奇塔Alvarez和Adam Lesnikowski大规模视觉主动学习与深度概率集成。arXiv预印本arXiv：1811.03575，2018。[6] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯yolov 3：一个准确和快速的对象detector- tor使用定位不确定性的自动驾驶。在2019年计算机视觉国际会议（ICCV）[7] 崔成俊，洪尚勋，李京载，林成斌.相关引导混合密度网络对损坏输出的任务不可知鲁棒学习在计算机视觉和模式识别会议（CVPR），2020年。[8] Sungjoon Choi ， Kyungjae Lee ， Sungbin Lim ， andSonghwai Oh.不确定性感知学习从示范使用混合密度网络与采样自由方差建模。2018年国际机器人与自动化会议[9] 放大图片作者： Mark Everingham ， L

下载后可阅读完整内容，剩余1页未读，立即下载