没有合适的资源?快使用搜索试试~ 我知道了~
6082用于零镜头目标检测的直推式学习沙芬·拉赫曼(Shafin Rahman)、萨尔曼·汗(Salman Khan)和尼克·巴恩斯(Nick Barnes)澳大利亚国立大学,†Data 61-CSIRO,firstname. anu.edu.au摘要与传统的零炮目标识别任务相比,零炮目标检测(ZSD)是一个相对未被探索的研究问题。ZSD的目标是在推理过程中检测以前看不见的对象。现有的ZSD工程存在两个关键问题:(a)源域(可见)和目标域(不可见)之间的大域偏移,因为两个分布高度失配。(b)学习的模型偏向于看不见的类,因此,在广义ZSD设置中,其中在推断期间看不见的对象和看不见的对象共同出现,学习的模型倾向于将看不见的类别错误分类为看不见的类别。这带来了一个重要的问题:如何有效地可以一个转导设置1解决上述问题?据我们所知,我们是第一个提出一个transductive zero-shot objectdetection的方法,令人信服地减少了对看不见的类的域移位和模型偏差。我们的方法是基于一个自学习机制,使用一种新的混合伪标记技术。它通过将未标记的数据样本与其相应的类相关联来逐步更新学习的模型参数在此过程中,我们的技术确保以前在源域上获得的知识不会被遗忘。我们报告了在MSCOCO数据集上,与以前最好的归纳模型相比,在mAP和召回率方面有34.9%和77.1%的显著1. 介绍大规模注释数据集和高容量深度网络的可用性为监督学习任务的快速发展铺平了道路。因此,深度CNN现在在视觉识别和细粒度分类的特殊任务上表现得与人类一样好[17,33]。然而,在若干领域中,由于对专家知识的要求或仅仅由于真实世界中的视觉样本的稀缺(例如,稀有物种)。零拍学习-1在转换ZSD设置中,未标记的测试示例在模型训练期间可用。固定伪标签动态伪标签图1:我们提出了一种基于伪标记的自学习方法用于转导ZSD。(1)未标记的数据被馈送到归纳模型以(2)生成固定的伪标签。(3)trans-ductive模型是用归纳模型初始化的。(4)未标记的数据被馈送到转导模型以生成(5)动态标记。(6)然后,固定和动态标签被馈送到transduc- tive模型以交互式地更新它(4-5-6)。归纳模型的初始决策边界(黑色实线)在转换学习后更新为修改后的决策边界(蓝色虚线)。ing(CNOL)解决了这样的场景,即我们在训练过程中没有任何可见的类的视觉示例[23,30]。传统的CNOL方法仅限于识别(分类)设置。零镜头目标检测(ZSD)是一个最近引入的问题,旨在同时定位和分类看不见的对象类。与识别任务相比,ZSD更具有挑战性,这是由于定位完全不可见的类别的不适定性质和固有的复杂性。当我们考虑一个广义的ZSD设置时,这个问题就复杂了,它假设在推理过程中可见和不可见的对象都可以同时出现。解决ZSD问题的现有措施[1,3,24,38,22]探讨未标记数据(目标域)14归纳模型3渗出模型6256083归纳设置,只考虑源域中的标记实际上,在源域(可见对象)和目标域(不可见)之间存在很大的域间隙。为了避免这个差距,用于CNOL的trans-ductive设置假设在训练期间未标记的目标域样本的一部分考虑到ZSD问题的挑战性,研究转导设置如何帮助处理域转移[4]和模型偏差[2]问题是非常有趣的在这项工作中,我们提供了第一个解决方案,transductiveZSD和广义ZSD问题。transduc- tive学习范式允许一种方法利用未标记的测试数据。在我们的方法中使用的主要见解是,在所看到的类上获得的学习可以用于解决未标记的目标区域图像中的模糊性。我们逐步为未标记的数据分配伪标签,然后将其用于更新模型参数,而不会忘记先前在源域上获得的学习图1示出了我们的方法的概述。我们的主要贡献如下:(1)我们提出了一个单阶段的目标检测器,用于转换零拍摄学习,学习最佳地结合语义和视觉领域的线索。(2)为了利用未标记的目标域数据,我们的解决方案引入了一种新的伪标记策略,该策略动态地将未标记的样本与它们各自的类相关联。(3)为了保留先前在源域上学习的概念,我们提出了一个固定的伪标记目标。(4)我们的实验表明,新的伪标记策略有效地减少了针对未见过类的域移位和模型偏差,从而导致ZSD的新的技术状态。在具有挑战性的MSCOCO数据集上,我们获得了3.77%和20.9%的mAP和召回率的绝对提升,分别转化为34.9%和77.1%的相对增益2. 相关工作Transductive zero-shot learning:为了缓解在英语学习中的主转换问题,人们提出了转换设置. Rohrbach等人[27]通过基于图的标签传播探索了不可见类的流形结构[5]用多视图超图扩展了标签传播。几种方法采用联合学习框架来分别对标记和未标记的数据进行训练[7,11,36,32]。 这样的训练可以在语义空间中[7] 、视觉空间[11]或潜在空间[36,32]。很少有其他努力尝试用未标记的未见数据迭代地改进视觉语义嵌入[35,12]。在[37]中学习了一种域不变投影,它将视觉特征映射到语义嵌入,然后重建回相同的视觉特征。最近,[28]描述了一个trans-ductive无偏嵌入,以提高广义的CNOL性能。翻译文学中所有过去的作品只处理在本文中,我们研究了具有挑战性的“零杆检测”问题的转导设置用于WML的伪注释:在文献中,伪注释已经被用于两种不同场景的语义标注。首先,给定训练期间不可见的类名,这些方法尝试学习聚类结构看不见的世界。通常情况下,这是通过从可见图像中选择伪样本[6]或通过生成伪实例[31,19,20]来构建未见过类的分类器来实现的其主要目标是将机器学习问题转化为传统的监督学习问题。其次,伪标签在transductive设置期间被分配给未标记的目标数据。我们的目标是转换为一个域适应的问题。这些方法试图匹配训练数据和测试数据的分布。由于我们考虑的是一个转换设置,目前的工作遵循第二种情况,但在ZSD任务的背景下。不同于以往的工作,我们采用了一种混合伪标记的方法,结合固定和动态更新,以获得更准确的检测在一个transductive设置。零拍摄目标检测(ZSD):传统的对象检测任务已经被很好地探索,例如,两级检测器,如FasterRCNN[26],RFCN [10]和单级检测器,阶 段 检 测 器 , 如 SSD [18] , YOLO [25] 和 RetinaNet[15])。相比之下,ZSD已经成为一个相对较新的研究领域[1,3,24,38,22]。其中,[3,38]在YOLO上构建他们的架构,[24]在FasterRCNN上[22]在RetinaNet上。[1]提出了一种基于EdgeBox风格的对象建议的ZSD背景感知方法,而不依赖于任何端到端框架。然而,没有一个ZSD方法考虑过这个问题的转换设置。在这篇文章中,我们试图在一个完全可训练的管道中解 决 这 个 问 题 。 我 们 构 建 在 [22] 中 提 出 的 ZSD 的RetinaNet架构之上,因为它报告了该领域的最佳性能。3. 感应式零触发检测给定有限的可见数据量,CNOL旨在生成高度多样化的不可见对象集。实际上,看不见的(目标)的数据分布与看得到的(源)的数据分布显著不同。这个问题被称为为了解决这一问题,我们采用了转换设置为pathL,即,在训练过程中使用在训练阶段,一个CNOL模型只观察到可见的实例,这使得训练的模型偏向于只看到的类。在广义零触发学习(GSTOL)中,在推理阶段出现可见和不可见的示例,这种行为会导致严重的问题[28]。在大多数情况下,一个有偏见的训练有素的人6084i=1模型预测只看到的类别,而不管输入。为了解决这个问题,我们提出了一个伪标签方案,不仅最大化的伪地面真值类的预测得分,但也最大化在转导设置看不见的值得注意的是,虽然以前的工作对CNOL只解决零杆识别(CNOR)的任务,以解决上述问题,我们专注于一个更复杂的零杆检测(ZSD)任务。接下来,我们将详细说明我们的设置和以前考虑的设置0.150.10.050类似异种并强调它所带来的挑战。Transductive Wavelet R vs. ZSD:这两个任务在本质上是不同的。首先,在使用无标记数据进行训练的过程中,由于每个图像只存在一个对象,因此模型知道哪些图像来自可见数据,哪些来自不可见数据。这在训练期间提供了重要的监督信号。然而,在ZSD中,一个图像可以包含多个可见或不可见的对象。例如,MSCOCO [16]包含7。每个图像7个对象实例。因此,在转换ZSD中,我们知道测试图像可能包含一个或多个不可见对象,但在训练期间,测试数据的可见和不可见对象注释(标签和边界框)都不存在。其次,通过单独考虑可见和不可见数据,转导式BRR的训练通常遵循迭代联合学习[7,11,36,32]。这种方法通常在固定的深度特征之上工作,并且不是端到端可训练的。相比之下,对于转换ZSD,我们认为端到端模型可以提高性能,因为联合分类和定位的复杂性。转导性甘精胰岛素受体vs GZSD:在训练过程中使用未标记的看不见的数据会给转换设置中的广义GARRR(GARRR)带来问题。这是因为GWAR方法具有高级监督信号,显示哪些对象不可见(每个图像中存在单个类别)。因此,GWAR方法精确地知道哪些是可见对象,哪些示例属于不可见分布。由于这个原因,现有的trans-ductive-banderR方法不能扩展到GZSD设置-ting。Song等人[28]识别这个问题,并通过将未标记的数据分为两半来解决它通过这种方式,尽管可见/不可见水平监督可用于前半部分,但模型并不确切地知道测试集的可见/不可见标签。在本文中,我们以一种在训练过程中没有可见/不可见水平监督的方式处理转导GZSD。 此外,ZSD的一个关键挑战是如何以在训练期间区分背景边界框和看不见的边界框。正如我们接下来解释的那样,我们的方法使用混合伪标记策略来解决这个问题。图2:相似和相似的平均预测得分统计不同的看不见的类。与归纳学习相比,归纳学习为相似和不相似的类提供了更高和更低的投射分数。此外,相似和不相似投射分数之间的差距从诱导学习到转导学习增加。3.1. 我们的方法问题表述:假设我们有S个可见类和U个不可见类,总共有C=S+U个类。对于每个类,我们具有以监督(手动属性)或无监督方式(例如,word2vec 、GloVe)。 我们用W =[WS,WU]∈Rd×C表示所有语义向量的集合,其中WS∈Rd×S和WU∈Rd×U是已知和看不见的语义向量。我们有一个由Ntr个训练图像组成的集合Xtr 每一个被看见的物体都有地面实况标签ytr和边界框坐标btr。类似地,我们在测试集Xts中有Nts个图像,其中每个图像都可以有一个或多个对象看不见的分类对于测试集中的每个对象,我们将地面实况标签表示为yts,将真实边界框表示为bts。给定语义W、集合Xtr以及地面真值标签Ytr和测试图像集合Xts,我们解决以下两个问题:(a)传导性ZSD:dict类别标签yts和对象位置bts,仅用于集合X ts中存在的(b)Transductive GZSD:预测集合X ts中存在的“可见和不可见”类的类别标签yts和对象位置bts下面,我们首先概述感应ZSD设置(第二节)3.1.1),作为我们的转导ZSD方法的前体3.1.2)。3.1.1感应ZSD给定输入图像I,对象检测器模型生成K个锚定块{bi}K。e表示每个盒子的D维视觉特征向量,b表示f∈RD.检测器的分类分支生成预测分数,P如下:p=σ(fTUW)(1)归纳学习评分6085Dd d d dd d其 中 , U∈RD×d 是 可 学 习 的 参 数 , σ 表 示sigmoid/softmax激活。 上述关系将语义信息(词向量)整合到深度语义信息中。这是执行零射击学习所必需的网络。学习的投影U有助于将特征向量f与其对应的可见类的词向量wy∈WS对齐。这种预测评分的另一个优点是它以相同的方式处理视觉到语义(fTU到W)和语义到视觉(UW到f)域投影 我们将分数可视化在Fig.2. 人们可以使用这些分数,同时计算标准焦点损失,以端到端的方式训练探测器[15]:.(a) 固定伪标签:基于第二节中描述的归纳学习。3.1.1,我们将训练好的检测器应用于未标记的测试数据,以检测可见对象。我们使用检测到的可见标签和边界框作为伪标签,并在整个转导训练中保持这种标签固定由于我们提出的转换ZSD设置不考虑标记的可见数据(在未标记的测试集中),因此这种伪标记可以在转换训练期间用作地面实况标签有人可能会认为,固定的伪标记将阻碍训练过程,并且最佳伪标记应该在训练期间是自适应的,即,它必须在学习过程中不断更新。虽然我们的方法的动态子组件将被介绍-FL(p,y)=−αt(1−pt)γlogpt,pt=p,如果y=11-p,否则。在下一节中,我们注意到,它本身并不工作和固定的伪标记是我们的转导公式的重要组成部分事实上,我们的固定伪标签其中,p∈p表示个体得分,α和γ是焦点损失超参数 取决于骗局-在Sideed设置中,在训练期间可能存在或可能不存在未看见的词向量。因此,为了清楚起见,我们将可见和不可见的预测得分分别表示为s=σ(fTUWS)和u =σ(fTUWU)。对于后面的讨论,s和u分别代表以s和u表示的个体分数3.1.2转导ZSD上述方案涉及常规的零激发检测。在转换学习中,不可见类的数据是可用的,没有任何相应的注释。因此,在检测器在所有可用的可见数据上进行训练后,我们提出了一种智能伪标记方案,方案帮助我们保留模型在已知地面事实的可见示例上获得的初始学习因此,这种标记方案旨在实现不忘记的学习[13],并且固定的标签作为替代项[9]。如上所述,在完成学习的归纳阶段之后(第二节)。3.1.1),我们对未标记的测试数据执行固定的伪标记,以改进我们的学习模型。然后,我们用预训练归纳模型的权重初始化我们的转换模型。在每次迭代中,我们计算固定的伪标记损失。假设y是所见边界框的固定伪标签。在转导训练期间,我们可以如下计算基于固定伪标记的焦点损失:.额外的未标记样本可以提供有价值的超级L=−α(1−s)γlogs,s=s,如果y=1(二)为适当的模型训练提供信号。我们提出的方法有两个免费的组成部分-ft tt t1,否则。元素,即固定和动态伪标记。第一个组件的目的是保留以前获得的知识,边缘看到的类,并使用它来解开为此,它只分配看到的类伪标签。第二个组件的目的是动态更新的特征和分类器的基础上未标记的数据集。在这种追求中,它分配了“看到”和“看不见”的对象标签,这些标签随着学习的进展而不断更新。以这种方式,模型从容易分类的样本开始,以更新其关于不可见的知识,并逐渐建立在初始概念上,以提高其性能。我们的未标记集合可以包含可见和不可见类的示例,这使得我们的集合更具挑战性,因为我们不明确知道哪些样本是不可见的。为了解决这个具有挑战性的问题,我们提出了固定和动态的伪标记技术,因为训练已经在只看到的数据上完成。接下来,我们详细解释这两种伪标记方法。固定的伪标签只为图像分配可见的伪标签,因为归纳训练没有观察到任何不可见的信息(图像和词向量)。因此,在转换训练期间,我们希望以动态方式更新固定的可见伪标签以及分配新可用的不可见伪标签在这种追求中,我们提出了动态伪标记,这是下面介绍的。(b) 动态伪标记:我们提出了一种基于可见和不可见预测分数的动态伪标记技术,该技术在不同的迭代中不断更新。它有三个分量,分别用于可见预测(Ld(s))、不可见预测(Ld(u))和不可见预测最大化(L′(u)),L=L(s)+L(u)+L′(u)。(三)在每次迭代中,如果所见预测s的得分高于预定义阈值(th),则我们将动态伪标签分配给相应的所见类。损失作为-6086输入图像FPN分类子网+X4WxHWxHx256x256xdXCAWxH WxH修复伪标签丢失回归分析X4WxHWxH WxHx256xdxCx4ADdtt动态伪标记损失()下一页()下一页()图3:网络架构。 绿色和红色层代表Eq.的U和W1.一、与所看到的伪标签相关联的值由下式给出.算法1:感应式零触发检测输入:Ntr,Nts,Xtr,ytr,btr,Xts,WS,WU输出:一个训练好的模型Mtns找到所有的yts,btsXTS入职培训阶段1Mind←仅使用可见数据训练归纳模型:Ntr,Xtr,ytr,btr,WS传导训练阶段初始化归纳模型,Mtns←Mind使用Mind将固定的伪标签分配给看不见的测试图像,Xts重复f或I∈Xtsdo3计算固定伪标记损失Lf4计算动态伪标记损失Ld5使用66反向传播和更新Mtns直到收敛;L(s)=−α(1−s)γlogs,s=s,如果s> thdt tt t1,否则。返回:使用Mtns查找所有Xts的yts,bts类似地,在相同的迭代中,如果看不见的预测u得到高于th的分数,则我们将动态伪标签分配给对应的看不见的类。与看不见的伪标签相关联的损失由下式给出,.(Ld)伪标记损失项。 超参数λ∈[0,1]控制两个损失项之间的权衡L= λL f+(1 − λ)L d。(六)L(u)=−β(1−u)ηlogu,u=u,如果u>th方程中的L d和L f6由Eq.5和Eq。二、dt tt t1-u,否则。分别注意,我们使用相同的超参数α和γ用于基于所见预测分数的动态伪标记背后的基本直觉是以利用迄今为止的训练来稳定地改进未标记数据的检测。请注意,我们的转换训练始于对可见数据的预训练模型。因此,这样的伪标记不是随机的,而是对于进一步训练重要的。此外,由于预训练是基于纯粹的可见数据,预测分数变得偏向于可见类,即可见分数相对高于未可见分数。为了避免这种有偏差的预测,我们在损失函数中提出了一个正则化项,旨在直接最大化看不见的预测。L′(u)=−β(1−u)ηlogu(4)我们注意到,将看不见的预测推向更高的值实际上避免了看不见的类被映射到可见的类[28]。我们将这三个部分加在一起来计算基于动态伪标签的损失。我们将Ld(u)和L′(u)合并在方程中。5,因为两者都对相同的预测得分u起作用。L d= −α t(1 − s t)γlog s t− β t(1 − u t)ηlog(uu t)。( 五)总转导损失:我们对于传导训练的最终损失是固定(L f)和动态的组合6087而β和η则是看不见的分数。我们在算法1中说明了整个过程。3.2. 训练和推理网络架构:我们选择流行的RetinaNet架构[15,22]的变体,以特征金字塔网络(FPN)[14]作为骨干,保留ResNet50[8] 作为一个特征生成器,来执行我们的转换训练。总体架构如图所示。3.输入图像通过ResNet50 [8]生成卷积特征金字塔。然后FPN进行自底向上和自顶向下的处理,以构建一个丰富的和多尺度的区别性特征空间。然后,每个金字塔级别连接到两个分支:分类和框重新-格雷西翁与最初的建议类似,我们的锚具有{1:2,1:1,2:1}长宽比和大小{20,21/3,22/3},每层共计A=9个锚点 如果锚框得到一个重叠>0。5在与地面实况绑定框的交集-联合(IoU)方面,我们将其视为有效的对象框预测。将语义插入RetinaNet:我们修改了所有分支的倒数第二层,以纳入方程中提到的词向量。1.在分类子网中,最初应用了四个具有ReLU的3×3卷积层6088uu此操作后的输出是一组图像特征{fi∈Rd},其中W和H表示卷积特征映射的高度和宽度。然后,我们添加另一个带有d×A滤波器的3 ×3该层的可训练权重实现等式U1.之后,我们放置一个不可训练的自定义层,该层具有单词向量作为固定权重,然后是一个S形激活来产生预测分数。最后两层可以总结为Eq. 1.在回归子网中,我们再次应用类似的策略将语义插入管道。在生成卷积特征图之后,我们添加一个带有d个滤波器的3×3卷积层。然后,使用具有不可训练词向量作为权重的自定义层来产生S+ U维输出。最后,使用具有4A滤波器的另一个卷积层来在每个空间位置正如[15]中所建议的,分类和回归模型不共享任何参数。在归纳训练过程中,我们使用分类和回归的损失之和来学习网络。回归子网分支使用标准的L1平滑损失进行训练。在转换训练期间,我们计算分类子网的损失,因为我们为锚框分数的预测我们通过固定和动态伪标记期间的阳性框的总数来规范化损失的每个部分。推断:在用测试图像Iu向前传递之后,分类和回归模型分别为所有锚框产生类别标签和边界框假设fu是锚框的图像特征。我们使用以下公式计算可见分数,s =σ(f TUWS)。(七)对于看不见的分数,我们应用以下等式:p =σ(f TUW), u = p′W′T WUT(8)其中,p′表示top-T(例如T =5)预测得分,而W′是最高预测值对应的词向量。选项。我们选择100个得分最高的边界框,在所选框上应用IoU=0.5的非最大抑制(NMS)最后,得分高于指定阈值的盒子被选为最终检测。与归纳解决方案相比,我们提出的转导解决方案没有额外的在完成归纳训练之后,我们使用未标记的测试数据进行了几次训练。因此,总体训练时间相对较高,但推理时间性能与归纳情况相同。4. 实验4.1. 设置数据集:我们使用具有挑战性的MSCOCO-2014数据集来测试我们的方法。在ZSD文献中,有两种不同类型的可见/不可见分离设置可用:Bansal等人[1]和Rahman等人[22]分别将48/17和65/15分为可见/不可见。在本文中,我们选择了Rahman等人。[22]第22话因为它考虑MSCOCO的所有80个对象类。训练集包括62,300个图像,其中包含来自65个可见类的51,782个边界框ZSD和GZSD的测试集包括10,098个图像,具有16,388个边界框。此外,为了测试传统的检测任务,它提供了一个38,096张图像的列表。为了关联可见和不可见的类,我们使用300维的word2vec向量[21]。评价:为了评价ZSD,[1]和[22]建议使用召回@100和平均精密度(mAP),IoU= 0。5的比例。我们报告这两个评估指标的总体结果。然而,对于验证和消融研究,我们使用mAP只是因为召回不会惩罚错误的边界框预测。对于GZSD,我们报告了可见和不可见性能的谐波平均值(HM)。实施详情:我们重新缩放每个图像,使其最小边为800 px。在 训练过程中,我们忽略了在[]内带有IOU的边界框。4、. 5),我们考虑那些IOU在[0,0。(4)作为背景。我们首先训练传统的RetinaNet架构50个epoch(10 K迭代/epoch),只有65个可见的类和相应的注释。 使用这个预先训练的模型,我们对相同的数据进行了50个epoch(10 K迭代/epoch)的归纳训练。最后,我们进行了三个时期(30K迭代)的转导学习在每次迭代中,我们一次只处理一个图像。当我们使用10,098个未标记的图像时,转导学习会观察每个未标记的图像三次。在trans-ductive训练期间,我们只通过冻结网络的其余部分来训练分类分支我们还报告了当网络的其余部分也被调优时的比较,这导致了较低的性能。 我们使用Adam优化器,学习率为10−5,β1=0。9和β2=0。999我们在Keras库中实现我们的方法。验证实验:我们的方法的超参数是α,γ,β,η,λ和t h。其中,α和γ是焦点损失[15]超参数。 我们使用α=0。25和γ=2,如[15]中对我们所有实验的建议。为了调整其余的超参数,我们使用了验证包括用于传统检测任务的具有可见对象的图像的集合。我们在补充材料中报告了验证性能。4.2. 主要结果比较方法:我们将结果与-6089DD15105.1 .2 .3 .5 .7 .9 115105.2.3.40.5.6图5 : ( a )使用我们的方法改变λ的影响,(b)不同IoU的mAP评分。表1:mAP和回忆(RE)的总体表现。为了公平比较,我们将我们的方法与病灶丢失进行比较,并且在[22]的情况下没有使用外部信息。我们得到了34的“相对”改善。9%,77。1%的mAP和RE超过最佳归纳模型。图4:ZSD(顶行)和GZSD(底行)的定性结果。红色和绿色边界框分别表示不可见和可见的类。诱导方法(SB、DSES、FL-48、FL-65和FL-80)和转导基线。SB和DSES不是端到端可训练的,因为它们使用来自EdgeBox的建议[39]对于ZSD。FL-48、FL-65和FL-80是归纳法。FL-80观察看不见的词向量(除了看到的),但FL-48/FL-65只观察48/65看到的向量的基础上分裂设置。转换基线方法使用FL-65作为预训练模型,并在不考虑未见过的词向量的情况下继续进行转换学习,即L d(u)= 0和L′(u)= 0。分析:我们在表1中列出了总体结果在48/17分离设置,FL-48 [22]优于SB/DSES [1]在 mAP 上 有 很 大 的 优 势 。 由 于 依 赖 外 部 建 议 ,SB/DSES受到严重影响。然而,SB/DSES实现了高召回率,因为召回率度量不会对错误的边界框预测进行惩罚。这表明[22]中的端到端模型优于[1]中的基于特征的模型。在65/15分离设置中,FL- 65在ZSD和GZSD任务中的mAP表现略好于FL-80。原因是FL-80在最后一层中考虑未看到的向量来计算预测分数这使得模型偏向于所看到的类,从而导致mAP的减少然而,对于基于召回的度量,我们注意到相反的情况,因为它忽略了误报的影响。我们的转换基线击败了所有的归纳方法,因为它使用未标记的数据,只考虑固定和动态的伪标记上看到的类。最后,我们提出的模型在ZSD和GZSD任务中的表现优于转导基线,因为它在损失函数中使用了可见和不可见的伪标签。由于召回率是一个比mAP更不全面的衡量标准,因此召回率的改善然而,人们可以注意到转导方法在GZSD中失去了一些性能-看到了实现可见和不可见分数之间的平衡。图在图5(a)中,我们改变λ以查看固定和动态伪标记的影响我们注意到,我们的实验验证了λ=。2在两种伪标记方法之间实现了理想的平衡。在图5(b)中,我们展示了基线和我们的方法在不同IoU设置下的比较。对于更严格的IOU阈值,这两种方法的在表2中,我们比较了归纳和我们提出的转导方法之间的不可见类的每类AP在这里,我们注意到我们提出的方法在大多数看不见的类中实现了比归纳方法更高的mAP。我们还在图中显示了一些定性结果。4.第一章4.3. 消融研究动态伪标记:我们提出的转导ZSD方法与固定和动态伪标记技术。我们认为,固定的部分是最重要的,在这种方法,因为它试图保留从归纳培训获得的动态伪标记的加入试图提高归纳性能,并减少利用未标记数据的域移位。它有三个组成部分:L d(s),L d(u)和L′(u).对于表3中的消融研究,我们探索了不同的地图基线我们地图度量方法见/看不见ZSDGZSD看到看不见HMS-B [1]48/170.70---DSES [1]48/170.54---[22]第二十二话48/175.9136.572.644.93地图[22]第二十二话65/1510.8037.5610.8016.77FL-80战斗机[22]65/1510.7340.6010.2816.40基线65/1512.4029.5211.9116.97我们65/1514.5728.7914.0518.89S-B [1]48/1724.39---DSES [1]48/1727.1915.0215.3215.17[22]第二十二话48/1718.6742.2117.6024.84RE[22]第二十二话65/1522.1840.2922.1428.576090DDDDDD表2:MSCOCO中不可见类别的每个类别数据集。表4:GloVe载体的结果。表3:使用不同动态假标记的mAP。表5:使用[3]中的拆分的PASCAL VOC 实验。冷冻重量15105是否图6:冷冻效果:当训练分类子网时,保持网络的其余部分固定,我们的方法性能更好。我们的整个学习都是基于伪标签的。因此,允许整个网络更新其权重可能会错误地引导学习过程(因为伪标签可能有噪声),从而导致性能降低。GloVe 嵌 入 : 我 们 的 方 法 可 以 与 其 他 语 义 除 了word2vec。在表4中,我们用GloVe作为语义嵌入进行了实验。我们的方法这些组件保持相同的固定标记。之间这些分量,Ld(s)作用于可见的,而Ld(u)和L′(u)作用于不可见的预测分数。作为一个单独的组件,Ld(s)不使用任何看不见的预测,因此它实现了对归纳学习的改进(10.8到10.8)。ZSD为12.4)。然而,Ld(u)或L′(u)不能单独作为一个动态组件工作,因为Ld(u)仍然受到归纳学习的模型偏差问题的困扰,而L′(u)试图解决偏差问题,但不能伪标记锚点.因此,组合L d(s)+L d(u)共同将性能提高到L d(s)的水平。一般来说,我们注意到,当动态标记仅基于可见(Ld(s))或不可见(Ld(u)/L′(u))预测时,我们的转导学习实现的mAP相对较少相反,当使用可见和不可见的预测时,我们注意到性能有明显的改善例如,Ld(s)+L′(u)和Ld(s)+Ld(u)在ZSD任务上分别得到12.60和13.22,在GZSD任务上分别得到16.96和17.73。 我们的最终模型优于所有其他模型,因为它利用了所有三个提出的分量L d(s),L d(u)和L′(u)。冰冻效果:如前所述,SEC。3.2,在我们的转换训练中,我们只微调分类,阳离子子网,因为我们的伪标记过程只作为-符号类标签。在图6中,我们报告了冻结网络其余部分的效果(即,除分类分支外)。我们注意到,在基线和我们的方法的情况下,这个想法有助于提高性能显着。与许多传统的转导方法不同,在ZSD和GZSD任务中,使用基于mAP和召回(RE)的评估指标,成功地优于归纳版本(FL-80)和转导基线超越MSCOCO:使用[3]中的设置,我们使用PascalVOC 2007/2012数据集进行了额外的实验。在表5中,我 们 报 告 了 具 有 标 准 16/4 分 裂 的 不 可 见 类 的 ZSDmAP。我们的转换解决方案完全优于最近的方法[3]和[22]。5. 结论最近,零炮检测受到了研究界的极大关注。针对归纳学习模型中存在的域偏移和偏差问题,本文提出了一种ZSD的直推解决方案我们利用未标记的测试数据在转导学习,ING采用固定和动态伪标记的损失函数。与传统的转换方法不同,我们不对未标记的数据使用可见/不可见的标签监督。此外,大多数基于转换学习的识别方法缺乏端到端的可训练解决方案。然而,我们的方法是端到端的训练与拟议的损失函数。在我们的实验中,我们的MSCOCO数据集,我们表明,我们的方法提供了性能增益的ZSD和GZSD问题。谢谢。这项工作得到了NH MRC项目资助#1082358的部分支持。基线我们地图方法整体飞机火车停车米猫熊行李箱飞盘滑雪板叉砂-威治热狗厕所鼠标面包机头发干燥器感应我们10.8014.576.2319.7550.0163.402.613.6534.5843.180.03.6810.9313.7813.6212.8120.9124.2410.9612.619.579.650.775.990.641.540.142.261.042.030.00.0LdZSDGZSD看到看不见HM基线,Ld(s)Ld(u)L′(u)L(u)dL′(u)D+dLd(s)+L′(u)DLd(s)+Ld(u)Ld(s)+Ld(u)+L′(u)D12.4010.979.4712.4112.6013.2214.5729.5229.6930.6529.3228.6528.9428.7911.919.777.9810.9712.0512.7814.0516.9714.7012.6715.9616.9617.7318.89方法ZSD(mAP/RE)GZSD看到(mAP/RE)看不见(mAP/RE)HM(mAP/RE)FL-8010.36/34.2936.69/39.5310.33/36.6216.12/36.34基线我们11.05/43.2012.87/47.4629.82/55.0529.93/55.9811.09/30.3112.19/31.2216.17/39.0917.32/40.09方法Avg.车狗沙发火车[3]第一章54.555.082.055.026.0[22日]62.163.787.253.244.1我们66.664.477.970.553.66091引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。 零镜头物体检测。在欧洲计算机视觉会议(ECCV),2018年9月。[2] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别中的实证研究与分析。 在Bas- tian Leibe,Jiri Matas,Nicu Sebe和MaxWelling,编辑,计算机视觉施普林格国际出版社.[3] Berkan Demirel 、 Ramazan Gokberk Cinbis 和 NazliIkizler-Cinbis。基于混合区域嵌入的零镜头目标检测。在英国机器视觉会议(BMVC),9月。2018年。[4] Yanwei Fu , Timothy M Hospedales , Tao Xiang ,Zhenyong Fu,and Shaogang Gong.用于零炮识别和注释的直推式多视图嵌入。欧洲计算机视觉会议,第584-599页。Springer,2014.[5] 放大图片作者:Timothy M.作者简介:王晓刚,陶翔,龚绍刚. Transductive multi-view zero-shot learning. IEEETransactionsonPatternAnalysisandMachineInteligence,37(11):2332-2345,Nov. 2015年。[6] 郭雨辰、丁贵光、韩俊功、高跃。使用转移样本的零触发 学 习 。 IEEE Transactions on Image Processing , 26(7):3277[7] 郭宇晨,丁桂光,金晓明,王建民。通过共享模型空间学习的直推零射击识别。在第三十届AAAI人工智能会议论文集,AAAI中国科学院出版社,2016.[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。[9] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[10] 开明何建孙继峰戴毅立。R-FCN:通过基于区域的全卷积 网 络 进 行 对 象 检 测 。 arXiv 预 印 本 arXiv :1605.06409,2016.[11] Elyor Kodirov,Tao Xiang,Zhenyong Fu,and ShaogangGong。无监督域自适应零射击学习。在IEEE国际计算机视觉会议(ICCV)上,2015年12月。[12] Yanan Li,Donghui Wang,Huanhang Hu,Yuetan Lin,and Yueting Zhuang.使用双重视觉-语义映射路径的零射击识别。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年7月[13] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson Pattern Analysis and Machine Intelligence , 40(12):2935[14] Tsung-Yi Lin , Piotr Dollar , Ross Girshick , KaimingHe,Bharath Hariharan,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功