没有合适的资源?快使用搜索试试~ 我知道了~
1一次也不要看:用于零炮检测的综合特征Pengkai Zhu<$Hanxiao Wang<$,Venkatesh Saligrama<$波士顿大学电气与计算机工程系Onfido ltd,London,UK†{zpk,hxw,srv}@ www.example.com,邮箱www.example.com bu.eduhanxiao.wang @ onfido.com摘要零炮检测,即定位可见和不可见对象,对于具有大量对象类别的大规模应用越来越重要,因为收集具有地面实况边界框的足够注释数据虽然普通深度神经网络在训练期间为可用对象提供了高性能,但不可见对象的检测却显著下降。在基本层面上,虽然香草检测器能够提出边界框,其中包括看不见的对象,但由于需要拒绝背景对象的固有精度/召回权衡,它们通常不能为看不见的对象分配高置信度我们提出了一种新的检 测 算 法 我 们 提 出 的 计 划 进 行 评 估 PascalVOC 和MSCOCO,我们demonstrate显着改善香草和其他国家的最先进的零拍检测器的测试精度1. 介绍虽然基于深度学习的对象检测方法在过去五年中取得了令人印象深刻的平均精度[13,35,32,27,14,33],但这些收益可以归功于训练数据的可用性,这些训练数据以完全注释的地面实况对象边界框的形式存在。零触发检测(ZSD):需要。 正如我们规模在检测到大规模应用和“野外”场景时,对跨越大量对象类的边界框级注释的需求是根本不可缩放的。因此,随着对象检测向大规模1移动,我们必须朝着一个框架移动,该框架具有检测训练期间看到的对象以及检测在测试时出现的不可见类的双重作用1虽然注释在常见的检测数据集中有所增加(例如,PASCALVOC [8]提供的20个类; MSCOCO [26]提供的80个类),其大小相对于图像分类[ 7 ]要小得多。重新使用现有的检测器。Vanilla DNN检测器将看不见的对象重新分配到背景中,从而导致错过对看不见的对象的检测。为了理解这个问题的根源,我们注意到,大多数检测器将它们的检测基于三个组件:(a)提出对象边界框;(b)输出对象性分数以提供对可识别边界框的置信度,并过滤掉具有低置信度的边界框;(c)用于识别高置信度边界框中的对象的分类分数客观性评分。显然,我们的经验结果表明,在三个不同的组成部分中,香草DNN检测器对不可见对象的高误检率可以归因于(b)。事实上,(a)不是一个问题,因为现有的检测器通常会为每个图像提出数百个边界框,其中还包括看不见的对象,但后来由于对象性得分差而被过滤掉最后,(c)也不是一个重要的问题,因为以具有良好的边界框为条件,即使对于速率接近零触发识别精度的未看见的对象,分类组件也足够好地执行(即,具有地面实况边界框的分类)。因此,性能损失主要源于向不包含可见对象的边界框分配较差的置信度。另一方面,天真地修改置信度惩罚,同时提高召回率,导致精度差,因为系统倾向于将更高的置信度分配给也主要是背景的一部分的边界框。新奇。我们寻求改进对具有与可见和不可见对象的充分重叠的边界框的置信度预测,同时仍然确保对主要包含背景的边界框的低置信度我们的困境是,我们在训练过程中没有观察到看不见的物体,甚至可能是未注释的图像。考虑到这一点,我们建议利用语义向量的看不见的对象,并构建合成看不见的功能的基础上的条件变分自动编码器(CVAE)。为了训练置信度预测器,我们建议增强当前的训练管道,该管道由上面列出的三个组件以及看不见的合成视觉特征组成。这导致了一个修改后的经验目标的信心1169311694预测,其寻求将较高置信度分配给具有与合成的未看见特征以及真实看见特征的相似性的边界框,同时确保主要包含背景的边界框的低置信度。此外,我们提出了一个采样方案,在训练过程中,建议的边界框被重新采样,以保持背景和前景对象之间的平衡我们的方案受到焦点丢失的启发[25],并试图克服显著的前景-背景不平衡,这往往会降低召回率,特别是对看不见的分类产生不利影响。评价必须仔细评估ZSD算法,以正确地将增益归因于不同的系统组件。因此,我们列出了在此背景下验证性能所必需的四个主要属性:(a) 数据集复杂性。 ImageNet [7]等数据集通常包含一个对象/图像;[44]而在另一个地方,F-MNIST也有一个黑暗的背景。因此,检测是一些-什么直接避免需要使用DNN。出于这个原因,我们只考虑那些每个图像包含 多 个 对 象 的 数 据 集 , 例 如 MSCOCO [26] 和 Pas-calVOC [8],其中DNN检测器需要实现高精度。(b) 议定书在训练过程中,我们接受只包含可见类对象的图像,并过滤掉任何包含不可见对象的图像(因此在我们的比较)。我们遵循[48]并考虑三组评估:测试可 见 ( TS ) , 测 试 不 可 见 ( TU ) 和 测 试 混 合(TM)。测试的目标是基准性能的建议方法对香草检测器,这是最佳的这项任务。测试-未见过评估的目标是在仅存在未见过对象时评估性能,这类似于识别上下文中的纯零射击评估[41]。测试混合包含通常在同一图像中的可见和不可见对象的混合是最具挑战性的,并且可以类似于广义零拍摄设置来查看。(c) 高与低的看不见的分裂。训练期间看到的对象数量与测试时间决定了检测算法的有效性。在高可见/不可见的对象类比率,显然,增益主要是一个函数,识别算法的改进,不需要改进未见过对象的对象边界框。出于这个原因,我们尝试了一些不同的分裂。(d) AP和mAP。一旦一个边界框被放置在一个有效的对象周围,识别的任务通常可以通过将边界框通过任何一个可识别算法来执行。正确因此,mAP性能增益可以归功于将高置信度边界框(如AP所反映的)放置在正确位置的改进以及WAR算法的改进。例如,正如我们上面提到的,高的可见/不可见比率可以归因于改进的识别。出于这个原因,我们将不同分割的AP列表。2. 相关工作传统vs广义广义线性映射(GALML)。零镜头学习(Zero Shot Learning,简称ZML)旨在识别训练数据中未注释的新视觉类别[21,40,22,45]。因此,GALML表现出对不可见类的偏见,GALML评估试图通过在测试时评估可见和不可见对象来纠正它[3,43,12,17,15,46,37,47]。我们对ZSD的评估遵循GALML,专注于可见和不可见的对象。生成的方法。Semantic information is a key ingredientfor transferring knowledge from seen to unseen classes. 这可以是属性的形式[10,21,28,29,2,5],单词短语[38,11]等。这样的语义数据非常容易收集,并且许多语义学习方法的前提是用难以收集的视觉样本代替语义数据。然而,通常存在很大的视觉语义差距,这会导致显着的性能下降。出于这些担忧,最近的工作提出了通过生成模型(如自动编码器[4,19],GAN和对抗方法[49,20,42,16,23,36])合成看不见的示例,这些方法将语义向量作为输入和输出图像。按照他们的方法,我们建议通过合成看不见的对象的视觉特征(因为视觉图像有点嘈杂)来类似地弥合ZSD中的视觉语义差距。零射击检测。最近,一些论文开始关注零炮检测[1,31,24,30,48]。不幸的是,方法、数据集、协议和分割都有些不同,并且软件代码不能公开用于对所有方法进行全面验证。尽管如此,我们将在这里强调我们的评估指标(a-d)背景下首先,[31,24]评估测试未知(TU)问题。类似于BRL vs.因此,对TU进行优化可能会导致不可见的类偏差,从而导致可见的性能较差。此外,[1]仅将GZSD性能(据称是因为mAP较低)作为根据置信度评分排名的前100个边界框的召回率制表因此,每个图像有少于10个前景对象[30]提出了一种转换方法,该方法在评估可见和不可见对象的同时,在训练期间利用不可见图像的外观与这些作品相反,像[48]一样,我们在完整的GZSD设置中评估了我们的方法。其次,从方法论上讲,这些工作[1,31,24,30]可以被视为有助于检测边界框的后处理,利用零射击识别系统的扩展。从本质上讲,这些方法将现有的香草检测器(区域建议网络(RPN)[31,30,24]或边缘盒[1])取出,并将其边界框与置信度分数一起作为系统的输入这意味着他们的收益主要来自11695CNN骨干网边界框提案置信预测器人,椅子,汽车,飞机,猫,...摩托车:'金属','有轮子','有玻璃','闪亮',... ……狗:'有头','有腿','毛茸茸',“有尾巴”"没有翅膀“... ……火车+见义条件性VAE视觉一致性合成+隐形语义(一)(b)第(1)款看到看不见输入图像对象检测器检测可见物体真正的看见真实背景合成看不见更新的置信度预测值重新训练重新采样的真实视觉特征视觉特征生成器真实/合成视觉特征检测可见/不可见对象图1. (a)可见/不可见类的说明和语义描述;(b)仅使用可见物体训练的普通检测器倾向于降低不可见物体的置信度得分;(c)拟议办法。我们首先通过以平衡的比例获取前景/背景对象的视觉特征及其语义来训练视觉特征生成器。然后,我们使用它来合成不可见对象的视觉特征;最后,我们将合成的视觉特征添加回池中,并重新训练香草检测器的置信度预测器模块重新训练的置信度预测器可以插回检测器并检测未见过的对象。从改进的识别,而不是在放置高置信度的边界框。相比之下,像[48]一样,我们试图通过为看不见的对象输出高置信度的边界框然而,与[48]不同的是,他们主要利用可见类的语义和视觉向量来提高绑定框的置信度因此,我们在各种评估中表现优于[48第三,数据集的复杂性以及如何评估数据集的问题[6] 列 出 了 具 有 清 晰 黑 色 背 景 的 F-MNIST , [31]ImageNet只有单个对象/图像,从检测的角度来看,两者都没有信息。其次是分裂的问题这些方法中的许多方法专门考虑了高可见/不可见对象类比率分裂([6]中的16/4,[31,30]中的177/23,以及[32,33]中的177 /23)。48/17和478/130[1])。 如此高的分流比没有信息,因为我们可能在一个情况下,VI-可见类的视觉特征可能与不可见类非常相似,导致在不可见对象上放置足够多的边界框。这与recall@100度量或TU评估相结合,可能会显示出异常高的增益。最后,AP分数很少被制成表格,从我们的角度来看,这将是关于本地化性能的信息。相比之下,在[48]之后,我们考虑了几个分割,不同的指标(AP,mAP,re-call @ 100 ) 并 在 检 测 数 据 集 ( 如 MSCOCO 和PascalVOC)上列出性能。3. 方法问题定义。我们正式定义了零炮检测(ZSD)。M个图像的训练数据集,响应对象标签Dtr={Im,{Obj(i)}Nm}MB={x,y,w,h}是边界框的位置和大小,c∈C是类标签(清除时省略)。对于测试,包含对象两人见了面,又见了面。任务是预测每个前景对象的边界框。此外,为了训练,还提供了所有类的语义表示Sc(c∈Call=Cseen<$Cunseen)。主干架构。我们使用YOLOv2[34]作为基线。然而,我们提出的方法可以很容易地incorporate单级检测器(SSD)或区域建议网络(RPN)。我们在下面简要描述YOLOv2。YOLOv2是一个完全卷积的网络,由两个模块组成 : 特 征 提 取器 F 和 对 象 预 测 器。 特 征 提 取 器 由Darknet-19实现[32],它采用416×416的输入图像大小并输出con-map。演化特征图F(Im),大小为13×13×1024。对象预测器由1×1卷积层实现,该卷积层包含分配的5个边界框预测器具有用于预测分集的具有预定义纵横比的5个锚框。每个边界框预测器包括对象定位器,其输出绑定框位置和大小B_conf ;f上的置信度预测器C,其输出边界框的对象性得分p_conf对象性得分在[0,1]中,表示边界框是否包含前景对象(1)或背景(0)。边界框预测器对F(Im)的每个单元进行卷积,并对整个图像进行3.1. 系统概述Mi=1m=1被提供, 其中Nm 是对象的数量,在我们的上下文中,这三个目标是:(1)改善不良{Obj(i)}Nm中所有对象标签的集合对于不可见对象的精确-召回,mi=1图像Im.每个对象被标记为Obj={B,c},其中被用可见类训练的检测器抑制;(2)(c)第(1)款11696resres处理妨碍精度的背景/前景不平衡;以及(3)考虑测试集中存在可见/不可见对象的广义ZSD性能。关键思想。所有这些目标都可以通过改进置信度预测器组件来实现,由此可见和不可见对象边界框都接收更高的置信度,同时背景对象仍然被抑制。为了做到这一点,我们重新训练信心预测,利用真正的vi-可见和背景对象的视觉特征,以及不可见对象的合成特征。我们重新采样边界框来纠正背景/前景的不平衡。图1描述了拟议管道的四个阶段:1. 训练前。在训练数据上训练独立检测器后提取置信度预测器分量。2. 重新取样。在训练集中重新采样前景(看到的对象)和背景边界框,以便它们被相等地填充;3. 视觉特征生成。使用(2)中边界框的视觉特征训练生成器。和语义数据来合成不可见类的视觉特征;4. Confidence Predictor Re-training使用真实和合成视觉特征重新训练Confidence Predictor,并将其插回原始检测器。在[34]之后,我们为第1步训练YOLOv2。我们将在续集中描述其他步骤。3.2. 前景/背景重新采样我们的目标是从训练集中构建(看到的)前景对象和背景对象的视觉特征的集合,以反映前地/背景对象的平衡比率。注意,单元卷积特征F(Im)是由当前单元预测的边界框提议的廉价但有效的视觉表示。然而,并非所有单元都适合于表示边界框,因为单元可能仅部分地与对象重叠,因此不足以表示期望的边界框。因此,重新采样的视觉fea-真实集合Dα,β(其中α是指单元位置,β是边界框索引)构造如下:前景。对于每个图像Im,如果单元特征f的相关联的边界框预测Bm具有大于0.5对地面实况对象集合{Obj(i)}Nm,以及属性预测类别预测调节VAE可信度预测视觉一致性图2.提出的视觉特征生成器模型。0.2并且相关联的置信度分数低于0.2。具有最大IoU最小值的前r×Km的特征将被选择为背景数据点(f,p_c_o_nf,c_b_g),其中Km是在im-i上提取的前景特征的数量。ageIm,r是前景/背景数据的比率,cbg是背景的类别标签,我们将其设置为-1。在我们的实验中,我们让r=1来平衡背景和前景对象。为了避免混乱,我们省略了Dα,β,并将重新采样的视觉特征集写为Dres。3.3. 视觉特征生成在构造Dres之后,下一步是训练视觉特征生成器以从它们的语义对应物合成这些特征,同时最小化信息损失。在特别地,我们基于条件变分自动编码器(CVAE)的概念构建我们的生成器[39],但是添加了额外的视觉一致性检查器组件D以提供更多的监督,如图所示二、CVAE以类语义表示Sc为条件,由编码器E和解码器G组成。编码器将输入作为所见特征f和语义属性Sc的级联,并输出潜在变量的分布表z:pE(z|f,Sc)。然后,解码器在给定潜在随机变量z和类别语义Sc 的情况下生成示例特征ff=G(z,Sc)。除了CVAE的重建损失之外,视觉一致性检查器D还提供对所生成的特征f的三个附加监督置信度一致性、属性一致性损失和分类一致性,如下所述。条件性VAE。具有参数θG的解码器G负责生成将被进一步用于重新训练置信度预测器的不可见的样本特征。θG与编码器的参数θE一起通过条件VAE损失函数训练,如下所示:θG,θE)=KL(pE(z|f,Sc)p(z))mi=1因为它的置信度预测P_∞_(NF)高于0.6。的特征f连同其置信度得分pconf和具有最大IoU的对象的地面真值类标签c将被视为数据点(f,pconf,c)2。背景如果像元要素在所有地面实况对象上的最大IoU小于2除了视觉特征,我们还记录了置信值和类别标签,原因见第3.3-E Dres [log pG(f |z,Sc)](1)其中右手侧的第一项是潜在变量z的编码器后验和先验之间的KL发散,并且第二项是重构误差。最小化KL发散将强制条件后验分布逼近真实先验。在[18]之后,我们利用各向同性多元高斯和重新参数化技巧来简化这些计算。11697视觉一致性该组件提供多个监督以鼓励所生成的视觉特征f与原始特征f一致:置信度一致性:重构特征f的置信度得分应该与原始特征相同,因此,置信度一致性损失被定义为重构特征和原始特征的置信度得分之间的均方误差(MSE):3.4. 置信度预测器再训练利用所收集的真实特征Dres和包含未见过类的所生成的视觉特征的合成视觉特征Dsyn,我们现在准备好在f(·)上重新训练置信度预测器C,以鼓励其对未见过对象的置信度预测,同时保留其置信度。隐藏可见和背景对象。具体地说,f(·)上的C然后在ex的组合上重新训练(θ)=E..p. 2-Conf(f).(二)合成和合成特征DresDsyn.后配置文件GDres.conf.原始YOLOv2[34],使用MSE损失,其中,f(·)上的C是指置信度预测模型函数定义为:其权重被冻结在这里用于训练视觉特征生成器.分类一致性:重构的特征向量1=|Dres|Σ|Conf(f)−pconf|2f∈Dres也应该有足够的辨别力,+1Σ|Conf(f)−1|第二章(六)原始类别。所以,我们把fin输入到类中,|Dsyn|f∈DsynsifierClf并用交叉熵损失:clf(θG)=EDres[CE(Clf(fθG),c)](3)其中c∈Cseen{−1}是f的基础真值类,Clf通过Dres上的交叉熵损失进行预训练,并且在训练生成器时不会更新A类加权交叉熵损失在这里也可以用于平衡数据。属性一致性:生成的特征也应该与其类语义一致。因此,我们添加了一个由c yloss_t_r组成的属性,该属性将在f_t上预测的属性和cont上预测的属性之间的误差反向传播到生成器。分类语义:.我们在第一步(参见第3.1节)中从预训练的YOLOv2加载权重作为热启动。使用损失、损失的训练鼓励置信度预测器针对不可见对象特征输出更高的分数,同时保留针对可见对象和背景的现有置信度。3.5. 实现细节在我们的CVAE模型中,编码器E和解码器G都是两个E的输入大小是Nfeat+Nattr,其中Nfeat=1024是特征大小,Nattr是类语义的长度E的输出大小也是潜在变量z的大小,Nlatent被设置为50。G的输入大小为Nlatent+Nattr,E和G的隐藏层具有128个节点。attr(θG)=ED. Sc−Attr(f).(四)对于可视化一致性检查器,分类器res..其中,S−1= 0背景的零矢量。预测器Attr也在Dres上进行预训练,并且在优化预测器Attr时冻结权重。不同的类权重也可以应用于数据平衡的目的,因为数量背景比其他类大得多。CVAE的参数可以通过最小化CVAE和视觉一致性检查器损失函数的加权和来Clf(·)和属性预测器Attr(·)由具有隐藏大小256的两个FC层网络参数化。 当在Dres 上 进 行 预 训 练 时,Clf(·)以学习率le-4训练5个时期,并且Attr(·)以学习率le-4训练10个时期。 设λc_(nf)=1、λc_(lf)=2和λa_(tt)=1。我们为每个可见的类生成N见过=50个示例,为未见过的类生成N未见过=1000个示例。4. 实验θ,θ=argminCVAE+λconf·conf+λclf·clf+λattr·attrGEθ G,θ E(五)为了评估我们的方法,DELO的性能,我们进行了广泛的定性和定量实验,其中λ[·]是相应损失项的权重CVAE训练好后,通过将从先验分布p(z)中随机抽取的相应类属性Sc和潜变量z输入到解码器中,G. 我们为每个可见类生成N个可见示例,对于每个不可见类,N不可见我们假设每个合成大小的数据都是地面实况对象,并将1指定为目标置信度得分,因此合成数据被构造为Dsyn={f∈,1,c},其中c∈Call。211698条款。我们将结果与其他最新的最先进的方法制成表格,然后进行烧蚀分析,以确定我们系统的重要组成部分。我们遵循[48]的协议,该协议强调在测试时需要评估可见和不可见的示例。 与[48]一样,我们在训练过程中只考虑可见的例子。总之,(1)考虑广义ZSD设置并省略[30]的转导广义设置的结果,并稍微不强调[1,31,24]的纯粹看不见的检测结果);(2)考虑具有各种不同的ZSD设置的多个分裂。11699图3.我们的ZSD结果的可视化示例。每个三重显示:(从左到右)DELO检测结果,与DELO相同置信度阈值下的香草YOLOv2检测结果,置信度阈值小得多的香草YOLOv2检测结果。可见的、不可见的和错误的颜色编码为红色、绿色和蓝色。请注意,与DELO相比,vanilla YOLOv2始终预测不可见对象的对象性得分极低,并且对于要检测的不可见对象存在显著的检测错误方法TUTSTMYOLOv256.471.654.3BS-159.5(3.1)73.2(1.6)58.5(4.2)BS-260.6(4.2)73.4(1.8)59.0(4.7)BS-361.0(4.6)73.4(1.8)59.4(5.1)DELO61.3(4.9)73.5(1.9)59.6(5.3)表1.对各种数据集和可见/不可见分割的零炮检测评估结果TU =未检测,TS=已检测,TM =混合检测代表不同的数据配置。报告总体平均精密度(AP)(%)。每个设置的最高AP以粗体显示。表2.基线模型Pascal VOC的10/10分割评价TU =未观察到的试验,TS =已观察到的试验,TM =混合试验。报告了总体平均精度(%)。原始YOLOv2之间的差异以(·)报告,最高差异以粗体显示。与[31,1]中对具有较大可见/不可见比率的单个分割的结果进行制表相比,可见/不可见比率;(3)考虑多对象图像数据集,以及其他数据集的结果,例如[6]中具有清晰黑色背景的F-MNIST或[31,30]中的ImageNet等单个对象/图像。更详细的讨论可以在Sec.1和Sec。二 、 数 据集 。 我 们选 择 Pascal VOC [9]和MSCOCO[26],这两个都是众所周知的检测基准,因此每个图像都会显示多个对象。PascalVOC只有20个班级。出于这个原因,我们的目标是主要了解性能如何随着可见对象与不可见对象的不同分割比(5/15,10/10和15/5)而变化。MSCOCO是一个更大的数据集,大约有80个类,其目的是随着可见类的数量增加(20,40到60),了解固定的不可见类集合的性能。设置. 对于每个可见/不可见的分割,我们在三种数据配置上评估我们的方法:测试-可见(TS),测试-不方法分裂PascalTUVOCTSTM分裂MS CocoTU TSTMYOLOv236.685.630.037.334.512.3- YOLO5/1537.385.030.920/2040.641.220.2DELO39.488.234.741.554.341.6YOLOv256.471.654.340.848.724.6- YOLO10/1060.171.053.940/2042.744.030.0DELO61.373.559.644.449.737.5YOLOv255.375.353.634.944.837.6- YOLO15/557.373.953.860/2043.840.633.6DELO58.176.358.248.947.739.411700可见11701(TU)和Test-Mix(TM)[48]。对于Test-seen,我们的测试图像只包含来自可见类的对象; test-unseen是只包含不可见对象的图像;和测试混合是那些既包含可见对象又包含不可见对象的混合。测试混合是广义ZSD设置,并且是最具挑战性的,其中模型需要同时检测可见和不可见对象。在[48]之后,我们还使用0.5-IoU和11点平均精度(AP)进行评估。语义信息。在[48]之后,我们使用aPY [10]中的attribute注释作为Pas- cal VOC的语义。语义向量是通过平均类中所有示例的对象级属性。我们使用PCA将维度减少到20以减轻噪声。在MSCOCO上,提出了一种25维词嵌入w2vR,[48]使用。对于Pascal和MSCOCO两者,语义在每个维度上被重新缩放为[0,1]对于Pascal VOC,CVAE由Adam优化器训练,学习率为1e−4。在10/10和15/5分割中,我们将训练时期设置为60,并将每15个时期学习率降低0.5。在5/15分割上,训练时期是200,并且学习率每60个时期缩放0.5。在MSCOCO上,学习率设置为1e−4。在20/20分割时,模型训练60个epoch,而在40/20和60/20分割时,模型训练40个epoch。时代学习率每15个epoch缩放0.5。4.1. 零炮检测评估AP 列 表 我 们 在 所 有 可 见 / 不 可 见 分 割 以 及 Test-Seen/Unseen/Mix配置(表1)上评估了DELO,这些配置针对以标准完全监督方式使用训练分区训练的vanilla YOLOv 2 [34],以及最先进的ZSD方法EST-YOLO[48]。讨论A部分。(1) Vanilla YOLOv2在测试中表现良好。 国家如 [34] 中 所 报 道 的 , 在 Pascal VOC 2012 上 的 artYOLOv2 为 73.4% mAP , 在 MSCOCO 上 为 44.0%mAP 。从表1观察到,在可见分割上训练的vanillaYOLOv 2在没有不可见对象的情况下在Test-Seen上实现 了 类 似 的 性 能 , 即 Pascal VOC 分 别 为 85.6% 、71.6%、75.3%(5/15。10/10. MS COCO分别为20/20、40/20、60/20,分别为34.5%、48.7%、44.8%。因此,YOLOv2是一个很强的基线,特别是对于测试可见。此外,当我们增加分割比时,可见类的数量增加,因此,测试混合倾向于支持可见类检测。出于这个原因,我们应该期待vanilla YOLOv2检测器在这种情况下也能表现得更好。(2) 使用合成视觉特征进行重新训练可以提高检测性能。DELO在所有测试配置上的性能始终优于vanillaYOLOv 2和VANTA-YOLO。EST-YOLO使用语义特征来训练置信度预测器,这可能是视觉上嘈杂的(属性,如“有用”)。因此,在改进YOLOv2的方法召回@100公司简介地图公司简介S-B [1]24.4-0.70-DSES[1]27.2 15.20.54-TD[24]34.3-- -YOLOv2 24.8(51.6) 30.8(52.8)5.4 9.6DELO33.5(55.7) 36.6(55.8)7.6 13.011702表 3. 在 MS COCO 上 使 用 Recall@100 和 mAP 评 估 ZSD 和GZSD性能,以与其他ZSD方法进行比较在D syn上训练的2-FC分类器被附加到YOLOv 2和DELO以进行完整的检测。括号中的数字是类不可知召回忽略分类。在Test-Unseen/-Mix上,其Test-seen性能较低,例如,MS COCO 40/20分裂,与YOLOv 2的48.7%相比,YLO-YOLO在Test-Seen上获得44.0%。相比之下,DELO此外,根据更平衡的前地/背景比率对特征池进行重新采样。因此,DELO也提高了测试可见性能, 例如 : MS COCO 所有 分裂 ,我 们看 到平 均DELO的AP分别是(2.53% / 8.63% / 11.53%)和(7.25%/7.90%/14.63%)优于ZS-YOLO和YOLOv2,测试-看不见/看不见/混合。(3) DELO对不同的可见/不可见配置具有鲁棒性。YOLOv 2和YU-YOLO可见类增加,不可见类保持不变,YOLOv 2在Test-Mix 上实现(12.3% / 24.6% /37.6%); ZS-YOLO实现(20.2% / 30.0% / 33.6%)。相比之下,DELO产生了更一致的检测性能(41.6% /37.5% / 39.4%)。在Pascal VOC上,对于Test-Mix的不同分割,所有三个模型的性能都有很大差异,因为数据集的规模较小,并且看不见的类的数量也在变化。但DELO将召回@100和mAP制表。按照[1]中的方案,我们对MS COCO进行了第二组实验,采用Recall@100和mAP作为评估指标,以对照[1,24]进行基线(更多细节见第12节)。2)。配置和ZSD性能报告于表3中。讨论B部分。ZSD本质上是Re下的分类问题在高可见/不可见比率下调用@100度量。观察到,香草检测器,例如YOLOv 2与BXR模型级联(我们选择了在D syn上训练的2-FC分类器)在Recall@100上实现了与现有ZSD方法相似的性能。ods,即24.8(YOLOv2 )与24.4(SB [1]),27.2(DSES [1]),34.3([24])相比。从根本上说,这个问题是双重的.首先,在大分流比11703PLE,因此不需要更好的检测。Vanilla检测器未针对不可见对象进行优化,但能够定位不可见对象。其次,Recall@100指标也有助于此过程,因为100个边界框通常包含高分割比的所有未看到的对象。一旦这得到保证,就可以基于使用零拍摄分类器的后处理来消除背景框,该零拍摄分类器在没有看不见的类被认为是有利的时拒绝背景出于这个原因,我们还呈现了其他度量,诸如表1中的AP以及(在表3中的括号内此外,我们看到mAP在ZSD和更重要的GZSD设置下都有所改善最后,虽然TD在ZSD上稍微好一点,但我们强调,当我们认识到不存在可见类的事实时,有可能将ZSR模型偏向于看不见的类[41]。请注意,我们的边界框中有很大一部分确实是正确的,因此我们的性能较低可以归因于我们没有微调我们的BPR模型。4.2. 消融分析视觉一致性检查器的贡献。我们的生成模型中的视觉一致性检查器D为解码器提供了更多的监督,以鼓励它生成更好的范例特征。为了测量视觉一致性检查器中每个组件的贡献,我们与三个基线进行比较:(1)BS-1:整个视觉一致性检查器D被移除,因此模型被简化为标准的C V AE,并且仅由CVAE 训练。(2)BS-2:在视觉一致性检查中只使用置信度预测器,并使用λCVAE+λconf·λconf训练模型。(3)BS-3:从视觉一致性检查中去除属性预测器,并使用λCVAE+λc onf·λ conf+λclf·λclf 训 练 模 型 。我们在Pascal VOC的10/10分割上评估基线模型,结果以及原始YOLOv2之间的差异列于表1二、很明显,通过包含所有可视化一致性检查器组件,DELO实现了最佳性能。在没有一致性检查器的任何监督的情况下,纯CVAE在TU上达到59.5,在TS上达到73.2,在TM(BS-1)上达到58.5。验证置信度预测器Conf在TU上增加1.1,在TM上增加0.5,分类器Clf在TU上贡献0.3,在TM上贡献0.4最后,通过属性预测器的集成,性能进一步提高了TU上0.3, TS上0.1和TM上0.2视觉一致性检查器提高了整体性能,特别是在TU和TM上,因为它鼓励生成的数据与原始特征和类信息更加一致。生成的示例数。我们还执行experiments来评估如何生成的例子的数量影响检测性能。实验中图4.在Paascal VOC的10/10分割上,各种可见N(左)和不可见N(右)的性能。TU =未观察到的试验,TS =已观察到的试验,TM =混合试验。首先改变在范围[20,50,100,200,500]中 看 到的N,同时保持N看不见=1000。然后,我们在[0,100,200,500,1000,2000]的范围内改变N,而设置N=50块实验是在Pascal VOC的10/10分割上进行的,并且最终检测性能在图4.第一章生成的不可见数据在该方法中起着重要的作用,因为我们可以看到,当训练Nunseen=0时,TU和TM的性能下降>2%。当不可见数据较多时,TU 和 TM 上 的每 平方 根数 增加 ,当 不可 见数 据N>1000时,每平方根数饱和。一些看不见的例子(例如,100)对于学习强置信度预测器是足够的另一方面,看到的生成数据的数量对整体性能的影响很小,因为它与Dres的分布类似5. 结论我们提出了DELO,一种新的零拍摄检测算法定位可见和不可见的对象。我们专注于广义ZSD问题,其中可见和不可见的对象都可以在测试时出现,但我们只提供了训练期间可见对象的我们的关键见解是,虽然vanilla DNN检测器能够在看不见的对象上产生边界框,但由于置信度低,这些边界框会被过滤掉。为了解决这个问题,DELO综合了不可见的类视觉特征,利用语义数据。然后,置信度预测器用用合成特征增强的训练数据来训练。我们采用了一个条件变分编码器,额外的损失功能,专门选择,以提高检测性能。我们还提出了一种重采样策略,以改善训练过程中的前景/背景。我们的结果表明,在一些指标上,在涉及多个对象/图像的复杂数据集上,DELO实现了最先进的性能。确认这项工作得到了美国国家科学基金会1527618号基金、海军研究办公室N 0014 -18-1- 2257号基金和ARM公司的部分资助。11704引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第384-400页,2018年。二三五六七[2] Gregory Castanon , Mohamed Elgharib , VenkateshSaligrama,and Pierre-Marc Jodoin.使用用户描述的运动和 对 象 属 性 在 长 监 控 视 频 中 进 行 检 索 。 IEEETransactionsonCircuitsandSystemsforVideoTechnology,26(12):2313-2327,2016。2[3] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha. 《对野外物体识别的广义零次学习》,第52-5968. Springer International Publishing,Cham,2016. 2[4] 陈龙,张汉旺,肖军,刘伟,张世福.基于语义保持对抗嵌入网络的零镜头视觉识别。在IEEE计算机视觉和模式识别会议论文集,第2卷,2018年。2[5] YutingChen,JosephWang ,YanannanBai,GregoryCastanBengo'n ,and Venkatesh Saligrama.基于活动图 的 监 控 视 频 概 率 语 义 检 索 IEEE Transactions onMultimedia,2018。2[6] Berkan Demirel 、 Ramazan Gokberk Cinbis 和 NazliIkizler-Cinbis。基于混合区域嵌入的零镜头目标检测。在BMVC,2018年。三、六[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。第248-255页。IEEE,2009年。一、二[8] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。88(2):303-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功