没有合适的资源?快使用搜索试试~ 我知道了~
75910平衡和分层关系学习用于单次目标检测0Hanqing Yang 1, 2 Sijia Cai 2 Hualian Sheng 2, 3 Bing Deng 20Jianqiang Huang 2 Xian-Sheng Hua 2 Yong Tang 4 Yu Zhang 1 *01. 工业控制技术国家重点实验室,控制科学与工程学院,浙江大学 2.阿里巴巴集团达摩院 3. 信息科学与电子工程学院,浙江大学 4.树道投资集团有限公司0{hanqing.yang, hlsheng, zhangyu80}@zju.edu.cn, jianqiang.jqh@gmail.com, ty640106@163.com0{stephen.csj, dengbing.db, xiansheng.hxs}@alibaba-inc.com0摘要0实例级特征匹配对于现代单次目标检测器的成功至关重要。最近,基于度量学习范式的方法取得了令人印象深刻的进展。这些方法大多仅在单一级别上测量查询和目标对象之间的关系,导致整体性能不佳。本文介绍了用于我们的检测器的平衡和分层学习。贡献有两个方面:首先,提出了一种新颖的实例级分层关系(IHR)模块,同时编码对比级别、显著级别和注意级别的关系,以增强查询相关的相似度表示。其次,我们注意到在单次场景中,IHR模块的批量训练受到正负样本不平衡的严重阻碍。因此,我们引入了一种简单而有效的保持比例损失(RPL),以保护稀有正样本的学习并抑制负样本的影响。我们的损失可以自适应地调整每个样本的权重,确保所需的正负样本比例一致性,并提升查询相关的IHR学习。大量实验证明,我们的方法在PASCAL VOC和MSCOCO数据集上对于未见类别分别比现有方法提高了1.6%和1.3%。代码将在https://github.com/hero-y/BHRL上提供。01. 引言0现代深度学习架构的发展为通用目标检测带来了巨大的进步0*通讯作者。0[10, 19, 24,33]。然而,深度检测器需要大量的高质量且昂贵的标注数据才能达到性能饱和,这对于实际应用来说非常困难。受到人类在极少监督下学习新概念的能力的启发,一些最近的工作[23, 25, 29, 30,34]尝试应用少样本学习技术从极少的新概念数据中检测新类别的对象。然而,大多数方法都集中在通过调整预训练检测器来适应有限的未见类别样本的微调策略上。这种深度检测器通常受到泛化限制,例如基类遗忘、新数据的低利用率和数据分布的严重偏移。0无微调的单次目标检测(OSOD)[2, 12,22]旨在通过单个查询图像补丁检测目标图像中的所有有趣对象,这些对象属于同一种新颖类别。已经做出了值得注意的努力,以利用实例匹配技术并建立查询-目标区域提议的语义关系。一些早期的方法[12,22]将有效的度量学习解决方案与通用目标检测器(例如Faster R-CNN[24])集成在一起,以学习相似度度量。例如,SiamMask[22]使用匹配模块来关联查询图像和目标图像。CoAE[12]提出应用非局部方案[28]来探索关系特征。尽管这些方法能够通过单个查询图像补丁实现对新颖类别的快速和有效的适应,但它们缺乏对查询-目标对的多层次语义关系的准确建模。直观地说,单一的关系度量可能会导致某种相似性偏差,从而降低学习检测器的泛化能力。一些现代方法[2, 8,30]提出通过更细粒度的关系学习来捕捉已见-未见语义结构。例如,[8]引入了三个关系75920用于利用不同匹配关系的头部。然而,它忽略了不同关系特征融合的重要性,并采用了导致关系特征的空间信息丢失的全局关系特征。AIT[2]采用变压器架构来探索每个提议-查询对中的视觉特征,但它没有以组合方式明确地将视觉语义与查询和目标表示关联起来。为此,我们首先引入了一种新颖的实例级层次关系(IHR)模块,可以推断生成查询-目标相似性特征的多级语义关系。具体而言,我们首先使用区域提议网络提取实例级特征图。然后,IHR模块将查询-目标特征匹配分解为三个层次的语义级别,分别负责捕捉全局差异、局部显著区域和局部区分部分。全局差异揭示了目标对象在与查询对象进行比较时应使用其对比特征来描述。局部显著区域通过深度卷积架构提取,以更好地包含不同的激活模式和推断实例级显著性语义。局部区分部分通过注意机制学习,以捕捉影响匹配的不同特征。不同层次的语义覆盖可以引导查询-目标匹配的多样化和层次化特征学习,以聚合全局和局部细节。对于每个关系分支,我们保持输出关系特征和输入区域特征的分辨率一致性,以避免上下文信息的丢失。随后,这三种关系特征被集成以提升其区分和定位能力。此外,我们声称在处理OSOD任务中的样本不平衡时,诸如随机采样方案[24]之类的普遍智慧并不高效,因为正负样本比例很小。这导致了不平衡的训练和上述IHR模块的次优性能。因此,我们提出了一种简单但有效的比例保持损失(RPL)方法,在训练过程中重新加权样本,实现平衡的IHR学习。我们自适应地调整样本权重,以保持适当且稳定的正负采样比例。通过这种一次性的样本重新加权方案,可以识别出稀有的正样本关系,并更多地为最终的区分性检测做出贡献。因此,我们学到的检测器具有检测具有复杂语义相似性和差异的新类别的巨大潜力。我们的主要贡献总结如下:0•我们为OSOD任务设计了一个强大的多级关系模块,名为IHR。它同时利用对比级别、显著级别和注意级别上的语义相似性,旨在找到更多的0查询图像块和目标图像之间的全面关系。0•我们提出了一种简单但有效的RPL方法,以解决正负样本不平衡问题,实现IHR模块的平衡和有效学习。0• 大量实验证明,我们的检测器在PASCAL VOC和MSCOCO数据集上分别比最先进的方法提高了1.6%和1.3%,验证了其有效性。02. 相关工作0Few-shot目标检测。在Few-shot目标检测中,大多数方法首先使用丰富的基类数据训练模型,然后在新类和基类数据上对模型进行微调。他们将这个任务视为多分类和定位问题,旨在通过少量数据实现增量检测。主要有两个流派:基于元学习的方法[13, 30, 31]和基于迁移学习的方法[25,29]。基于元学习的方法提取元级知识,帮助模型适应新的类别。Meta R-CNN[31]预测每类通道注意力向量,以重新加权相应的特征图。FS-DetView [30]提出了一个联合特征嵌入模块。FSOD[8]引入了注意力-RPN和多关系检测器来检测新类别。对于基于迁移学习的方法,TFA[29]提出仅微调检测器的最后几层,并冻结其他参数。FSCE[25]引入了对比提议编码损失,以促进检测到的对象的分类。在极少的新类数据的情况下,这种微调方法很容易过拟合新类别,并降低基类的性能。此外,对微调过程的依赖在一定程度上限制了实用性。一次性目标检测。一次性目标检测是Few-shot目标检测的一个特殊情况。与大多数Few-shot目标检测器不同,一次性目标检测器只使用基类数据进行训练,并直接在模板匹配方案下检测新类对象。它们将OSOD任务视为二分类和定位问题,旨在直接检测新类对象。SiamMask [22]将匹配模块插入到Mask R-CNN[10]中,生成查询图像块和整个目标图像之间的相似性特征图。CoAE[12]使用非局部方案[28]和压缩激励方案[14]来关联查询图像块和目标图像。FOC OSOD[32]引入了分类特征变形和注意力模块以及分割迭代头来提高分类能力。AIT[2]开发了一种基于注意力的编码器-解码器架构,使用变压器[27]评估关系。Rr = Conv75930目标图像0查询图像补丁区域提议网络0输出图像0随机采样RP重新加权0���0输入对0平衡学习IHR模块0显著关系0对比关系0注意力关系0融合0R-CNN头0L10RPL0图1.提出的BHRL用于单次目标检测的整体架构。0查询-目标对。相比之下,我们的方法以分层结构全面提取实例级关系特征。此外,我们提出了一种由软采样引起的保持比例的损失,以确保我们的关系模块的平衡和有效学习。03.我们的方法03.1.问题定义0在OSOD任务中,对象类别被分为已见类别S和未见类别U,其中S∩U=�。给定任意查询图像补丁q,单次目标检测器的目标是检测与该查询补丁类别一致的目标图像I中的所有实例。单次目标检测器是使用已见类别S的数据进行训练的。一旦检测器训练完成,它就可以直接用一个查询补丁来检测未见类别U。03.2.整体架构0图1显示了我们的BHRL(平衡和层次关系学习)的整体架构。它主要由三个部分组成:生成区域提议的过程,用于多级关系建模的IHR模块,以及增强IHR学习的检测头的平衡设计。(1)在提议生成中,采用具有特征金字塔网络(FPN)[18]的共享权重孪生ResNet-50[11]来提取查询图像补丁和目标图像的视觉特征。然后,我们按照SiamMask[22]的方法使用匹配模块计算查询向量与整个目标特征的每个位置之间的相似性特征。相似性特征使得标准的RPN[24]能够生成一组与查询补丁相关的潜在区域提议。基于这些区域提议,我们使用RoI池化运算符在整个目标特征中检索提议特征。查询特征被池化到与目标提议特征相同的大小。(2)然后,提出的IHR模块以分层方式学习关系表示,以突出查询和目标对之间的复杂相互依赖关系。(3)最后,使用R-CNN头[24]来检测与查询相关的实例,并引入了提出的RPL。0为了重新平衡涉及的样本,我们提出了一种有效的保持比例损失,从而实现了具有准确的判别和定位能力的IHR模块的更平衡的训练。03.3. 实例级层次关系模块0大多数现有研究[2, 12,22]使用单个关系模块(例如,关系网络[26])来衡量查询图像补丁和目标图像之间的语义关系。关系网络[26]提取实例级查询特征Fq∈RC×K×K和实例级目标特征Ft∈RC×K×K之间的相似性特征。0通过连接操作。这里,C是通道数,K是特征图的高度或宽度。输出关系特征如下:02 ([Fq, Ft]), (1)02 ( ∙ ) 是一个输出通道为3的1×1卷积层02。然而,当面对难以区分的干扰因素时,这种方法可能不起作用。[8]提出了一种多关系检测器来建模不同的关系。然而,这种多关系检测器有两个缺点。1)对于每个关系头,它获取关系特征的全局表示,导致关系特征的空间信息丢失。2)它仅仅将不同关系头生成的分类分数相加,而不是融合关系特征。因此,这种方法对于分类任务是有用的,但对于定位任务不适用。与之不同的是,提出的IHR模块消除了上述缺点,并采用分层方式全面描述语义关系。图2概述了IHR模块的架构。它同时编码对比级别、显著级别和注意力级别的关系。对于每个关系分支,我们生成与输入特征相同大小的关系特征,以保持全局上下文一致性和空间一致性关系。然后,将这些语义关系线索集成到增强查询相关的相似性表示中,从而促进后续的分类和定位任务。对比级别关系。我们引入了一个对比级别关系分支来计算查询特征Fq和目标特征Ft之间的关系。!"#$%&&'!(!) !"!"!*+,!,$-&.",!,$-&."!" !"!"!!,!,!!#!#!!"!",!,$-&.",!,$-&."""!"#$%&'!*+!!!"!$ !"!"!$ !"!",!,$-&."!$ !"!"! ,!,$-&."""#"$"%!!"!"!!"!"!$ !"!"!!"!"!"+/*01!-02&.$&%31!02&.-&.-!03.!02&. &%31!02&.4!0125$4/'02%'2-!02&.$#$%&'()&*+,-.,+,./0,.(&*$%1&&,%&*$%-.,+,./0,.(&*$%2(.*,%&-.,+,./0,.(&*$%!!!!#!#!"!!"!"!"#$%&&'!!#!#!!"!"!!!" ,!,$-&."!" !"!"63%0782+363%0782+363%0782+3""#!""!!#!#3,(&4',)/34)*$%!!"!"!!,!,%!13%3!0Rc = ConvRs = ConvQuery Image PatchContrastive LevelSalient LevelAttention LevelFusion LevelWs = softmax((Conv C8 (Ft))T ConvRa = ConvR = Conv 3C2 ([Conv75940图2. 所提出的实例级分层关系(IHR)模块的示意图。0全局查询特征和局部目标特征。我们通过减法操作将查询向量与目标特征的每个位置进行比较。与先前的研究[22]不同,该研究计算查询块与整个目标图像之间的关系,我们更直接地描述了实例级对象之间的关系。输出的关系特征如下所示:02(|R(P(Fq))−Ft|),(2)0其中|∙|表示绝对值运算符。R(∙)是一个重复运算符,使RC×1×1→RC×K×K。P(∙)表示平均池化操作。显著级别关系。我们建立了一个显著级别关系分支来学习实例级显著关系[21]。查询向量被视为卷积核,以深度方式提取与局部目标特征的关系特征[16]。与多关系检测器[8]相比,我们使用全局查询特征而不是局部查询特征,以确保生成的关系特征具有与输入特征相同的分辨率。这种方式可以保留丰富的语义信息,从而提高建模关系的能力。输出的关系特征可以表示如下:02(φ(P(Fq),Ft)),(3)0其中φ(∙,∙)表示深度卷积操作。注意级别关系。为了学习更详细的局部关系,我们应用了一个注意级别关系分支。查询特征和目标特征之间的局部比较可能会遇到空间错位问题[3]。为了缓解这个问题,我们采用交叉注意力生成空间感知的查询特征。首先,通过卷积生成查询特征和目标特征的两个嵌入特征0图3.IHR模块中每个层级的提议关系特征的可视化,用于未知类别。08[13]。在空间级别上,查询-目标相似性可以基于两个嵌入之间的矩阵乘法来计算。空间注意力矩阵Ws通过对查询-目标相似性应用softmax来获得。上述过程可以总结如下:08(Fq))。(4)0接下来,注意力矩阵Ws被视为一个软权重,用于生成空间感知的查询特征。与[3,13]不同,我们通过减法操作提取空间感知的查询特征和目标特征之间的局部语义关系,这更加有效。输出的关系特征如下所示:02(|WsFq−Ft|)。 (5)0融合级别关系。在获得这三个关系特征之后,我们首先整合全局查询特征产生的Rc和Rs(使用平均池化运算符),然后将局部查询特征产生的Ra与之连接,得到维度为C的关系特征。最后,将其与目标特征Ft融合,得到最终的关系特征。02([Rs,Rc]),Ra,Ft),(6)0最终关系特征的二维表示,并使用C02维度用于减少计算成本的Rc,Rs和Ra。讨论。在图3中,我们分别可视化了IHR模块中对比级别关系特征、显著级别关系特征、注意级别关系特征和融合级别关系特征的热图。可以看出,对比级别关系模块更加关注对象的全局特征,如对象的轮廓边界信息。显著级别关系模块更注重对象的中间显著区域,而对比级别关系模块则忽略了这一点。注意级别关系模块可以捕捉到丰富而微妙的区域,如鼻子、嘴巴和眼睛,这是由于空间注意机制。融合关系特征能够充分利用三种不同类型关系模块生成的互补优势,从而全面提供具有区分性的语义线索。24.525.025.526.026.527.027.528.0AP50CELRPLLCE = 1N (�i∈RpLiSCE +�i∈RnLiSCE),(7)LBCE = 1N (α�i∈RpLiSCE + (1−α)�i∈RnLiSCE),(8)LRP = 1N (u(9)759500 64 128 256 512 提议数量0图4. CEL和提出的RPL在不同提议数量下的性能。03.4. IHR模块的平衡学习0我们观察到,在常见的采样方案下,负查询-目标对的数量过多会压倒IHR模块的有效性。我们的目标是通过仅使用轻量级损失设计来减少训练过程中存在的不平衡程度,从而尽可能地发挥IHR驱动的检测器的潜力。OSOD任务中的不平衡问题。现有的OSOD方法[2, 12,22]遵循流行的两阶段检测器FasterR-CNN[24]应用随机采样方案,旨在在第二阶段保持合理的正负样本比例。交叉熵损失(CEL)适用于这种设置。其对所有N个提议的公式可以表示为:0其中Rp和Rn分别表示正样本和负样本的集合。LiSCE表示第i个提议的softmax交叉熵损失值。然而,在OSOD任务中,这种采样方案无法在默认的提议数量下达到期望的效果。原因是OSOD模型只对与查询补丁具有相同类别的稀有提议进行采样作为正样本。与查询类别不一致的大量提议被视为负样本。过小的正负比例使得模型难以从正样本中学习。作为替代,我们可以采样少量的提议来缓解正负不平衡。如图4所示(绿色折线),在提议数量较少的情况下,性能优于默认的提议数量(即512)。这是因为在提议数量较少时更容易保持所需的正负比例。这表明0确保所需的正负比例一致性的重要性。然而,显著的样本减少也会牺牲有利于学习语义关系的关键提议。比例保持损失。解决正负不平衡的常见方法是为正样本引入一个权重因子α ∈ [0, 1],对于负样本为1-α。平衡的交叉熵损失可以表示为:0上述方法不适用于OSOD任务的直接使用。原因是它采用了静态平衡参数α适用于所有图像。然而,这对于具有挑战性的OSOD任务来说是次优的。为了解决上述问题,我们提出了一种有效的保持比例(RP)重新加权策略及其引发的RPL,以确保合理稳定的正负比例,而不过滤重要的提议。也就是说,我们动态增加正样本的权重并减小负样本的权重,以保持适当的特定数量加权比例(既不太大也不太小)。过小的比例使得模型难以从正样本中学习,而过大的比例会导致过拟合。此外,为了增强对假阳性的学习,我们将假阳性与负样本分开。然后,我们将假阳性和正样本作为一个整体增加它们的权重并减小真阴性的权重,这可以看作是OSOD任务的一种特殊的硬负样本挖掘策略。上述过程可以总结为:0i ∈ R p ∪ R fp L i S+ v �0i ∈ R tn L iSCE),0u = 0N p + N fp,v = N α)0N tn,0其中R fp表示假阳性集(通过比较预测和真实值决定),Rtn表示真阴性集。N p表示正样本数,Nfp表示假阳性数,Ntn表示真阴性数。如图4所示,我们的RPL在不同数量的采样提议下始终优于CEL,这验证了保持比例机制在提升关系学习中的有效性。04. 实验04.1. 数据集和设置075960方法 已见类 未见类0植物 沙发 电视 车 瓶子 船 椅子 人 公共汽车 火车 马 自行车 狗 鸟 摩托车 桌子 平均 牛 羊 猫 飞机 平均0SiamFC(ECCV2016)[1] 3.2 22.8 5.0 16.7 0.5 8.1 1.2 4.2 22.2 22.6 35.4 14.2 25.8 11.7 19.7 27.8 15.1 6.8 2.28 31.6 12.4 13.3 SiamRPN(CVPR2018)[15] 1.9 15.7 4.5 12.8 1.0 1.1 6.1 8.7 7.9 6.9 17.4 17.8 20.5 7.2 18.5 5.1 9.615.9 15.7 21.7 3.5 14.2 OSCD(Neurocomputing2020)[9] 28.4 41.5 65.0 66.4 37.1 49.8 16.2 31.7 69.7 73.1 75.6 71.6 61.4 52.3 63.4 39.8 52.7 75.3 60.0 47.9 25.3 52.1 CoAE(NIPS2019)[12] 24.9 50.1 58.8 64.3 32.9 48.914.2 53.2 71.5 74.7 74.0 66.3 75.7 61.5 68.5 42.7 55.1 78.0 61.9 72.0 43.5 63.8 AIT(CVPR2021)[2] 46.4 60.5 68.0 73.6 49.0 65.1 26.6 68.2 82.6 85.4 82.9 77.1 82.7 71.8 75.1 60.0 67.2 85.5 72.8 80.4 50.2 72.20BHRL(我们的方法)57.5 49.4 76.8 80.4 61.2 58.4 48.1 83.3 74.3 87.3 80.1 81.0 87.2 73.0 78.8 38.8 69.7 (+2.5) 81.0 67.9 86.9 59.3 73.8 (+1.6)0表1. 在PASCAL VOC数据集上与最先进方法的性能比较,以AP 50为指标。0方法 已见类 未见类0split-1 split-2 split-3 split-4 平均 split-1 split-2 split-3 split-4 平均0SiamMask(Arxiv2018)[22] 38.9 37.1 37.8 36.6 37.6 15.3 17.6 17.4 17.0 16.8 CoAE(NIPS2019)[12] 42.2 40.2 39.9 41.3 40.9 23.4 23.6 20.520.4 22.0 AIT(CVPR2021)[2] 50.1 47.2 45.8 46.9 47.5 26.0 26.4 22.3 22.6 24.30BHRL(我们的方法)56.0 52.1 52.6 53.4 53.5 (+6.0) 26.1 29.0 22.7 24.5 25.6 (+1.3)0表2. 在COCO数据集上与最先进方法的性能比较,以AP 50为指标。0将16个类划分为16个已见类和4个未见类。对于COCO数据集[20],80个类被平均分为4个部分(P1,P2,P3,P4),交替选择3个部分(60个类)作为已见类,1个部分(20个类)作为未见类。对于评估指标,我们遵循[2,12]在PASCAL VOC数据集和COCO数据集上报告AP50。实现细节。我们使用SGD优化器在8个GPU上以批量大小16进行9个时期的模型训练。学习率从0.02开始,在第7个时期以10的倍数衰减。我们使用ResNet-50作为我们的主干网络,该网络在减少的ImageNet[6]上进行了预训练,其中删除了与COCO相关的ImageNet类别[12]。这确保模型不会预见到未见类对象。我们使用可变形RoI池化[5]在PASCALVOC数据集上生成目标提议,并使用RoIAlign[10]在COCO数据集上生成目标提议。目标-查询对。我们遵循[2,12]生成目标-查询图像对。在训练阶段,对于包含已见类对象的给定目标图像,我们随机选择一个具有相同已见类的查询补丁。在测试阶段,对于目标图像中的每个类别,将相同类别的查询补丁与目标图像ID的随机种子进行洗牌,然后选择前五个查询补丁进行五次测试,并将指标得分平均作为报告结果。04.2.与最先进的方法比较0在PASCALVOC数据集上的评估。在表1中,我们将我们的BHRL与PASCALVOC数据集上的最先进方法进行了比较,包括已见类和未见类。可以看出,我们的BHRL在大多数情况下都取得了最佳性能,无论是对于已见类还是未见类。对于已见类,BHRL的性能优于最先进的AIT [2] 2.5%的AP50。对于未见类,我们的方法显著优于之前流行的CoAE[12],提高了10.0%的AP 50,并且优于之前的SOTA AIT1.6%的AP 50。这一显著改进主要来自于BHRL能够0全面探索查询补丁和目标图像之间的关系,并实现平衡的关系学习。在COCO数据集上的评估。为了进一步验证我们提出的BHRL的有效性,我们评估了BHRL在具有挑战性的COCO数据集上的性能,包括所有四个分割。表2显示了结果。可以看出,尽管COCO比PASCALVOC更具挑战性,具有更高的复杂性,如遮挡和更多类别,但BHRL在所有分割中仍然表现出优越的性能。如表2的“平均”列所示,BHRL在已见类上实现了53.5%的AP50,在未见类上实现了25.6%的AP50。它在已见类和未见类上分别比第二好的AIT[2]高出6.0%的AP 50和1.3%的AP 5004.3.消融研究0在本节中,我们进行了大量的消融实验,以分析我们提出的BHRL的每个组成部分。按组件分析。我们进行实验验证了所提出的IHR模块和RPL的有效性,并总结了在COCOsplit-2数据集和PASCALVOC数据集上对未见类的结果。第一行的方法采用了广泛使用的关系网络[26]来提取关系特征,并使用softmax CEL来监督分类。如第一行所示0在第2行和第4行中,IHR模块在COCO数据集和PASCALVOC数据集上分别提高了2.9%的AP 50和4.2%的AP50。这得益于IHR模块能够生成全面且具有区分性的关系特征。如第2行和第4行所示,RPL在COCO数据集和PASCALVOC数据集上分别提高了1.1%的AP 50和2.1%的AP50。这表明RPL可以通过解决正负不平衡来提升IHR模块的有效学习。IHR模块中关系级别的影响。在表中759704,我们研究了IHR模块中每个关系级别的重要性。为了公平比较,我们融合了Ft并使用相同的通道维度。前四行显示了仅使用每个关系模块的性能是有效但有限的,因为单个关系模块可能导致某些相似性偏差。如第5到第7行所示0行,融合不同级别的任意两个关系特征都可以带来性能提升。最佳性能是通过融合所有三个关系特征实现的,如最后一行所示。这表明全面衡量关系特征是有益的。与其他关系提取方法的性能比较。我们进一步通过与其他流行的关系提取方法在表5中进行比较,验证了IHR模块的有效性。我们重新实现了[8, 13, 28, 30]中的关系模块,以进行公平比较。0•多关系检测器[8]:它包含三个关系头,用于生成三个分类分数,将其作为输出分数相加。0•特征聚合模块[30]:它使用通道级乘法和减法运算来处理查询向量和目标向量。0•非局部注意力[28]:它利用注意力机制生成基于注意力的查询特征,然后与目标特征进行求和整合。0•密集关系蒸馏[13]:它以非局部方式提取像素级相似性,将其与目标值图作为关系特征进行连接。0讨论.多关系检测器[8]和特征聚合模块[30]将关系编码为向量格式,导致破坏关系特征的空间信息。此外,这两种方法提取的关系无法以明确的方式呈现。非局部注意力[28]和密集关系蒸馏[13]采用类似的方式生成加权查询特征,然后通过求和或连接与目标特征进行整合。但这种方式无法直接和全面地进行差异化信息。与这些方法不同,我们的IHR模块采用分层和明确的方式来全面描述语义关系。如表5所示,IHR模块的性能明显优于其他方法,这证明了IHR模块的有效性。RPL中超参数α的影响。如表6所示,具有合理超参数α的RPL可以显著优于交叉熵损失,这表明适当和稳定的正负比例可以带来更好的性能。我们在所有实验中选择α等于1/4。与其他平衡损失的性能比较。在表7中,我们将我们的RPL与一些流行的平衡损失进行比较。我们重点讨论聚焦损失[19]。0IHR RPL coco voc0AP AP 50 AP 50015.2 25.0 67.5 � 16.9 27.9 71.7 � 16.5 27.5 70.9 � �17.4 29.0 73.80表3. 我们设计中每个组件对COCO split-2数据集和PASCALVOC数据集上未见类别的影响。0C.R. S.R. A.R. F t Level Fusion AP 500- 25.0 � � - 26.4 � � - 26.6 � � - 26.7 � � �特征融合27.1 � ��特征融合27.0 � � �特征融合27.0 � � �分数相加27.2 � ��特征融合27.6 � � � �特征融合27.90表4. 对COCOsplit-2数据集上未见类别的IHR模块进行消融研究。“C.R.”、“S.R.”和“A.R.”分别表示对比级别关系、显著级别关系和注意级别关系。0关系抽取方法AP 500多关系检测器[8] 20.4 特征聚合模块[30] 21.0非局部注意力[28] 23.7 密集关系蒸馏[13] 25.40IHR(我们的方法)27.90表5. 与其他流行的关系抽取方法在COCOsplit-2数据集上未见类别的性能比较。0当分类任务的权重为默认值1时,聚焦损失会降低模型的性能(27.9% AP 50 vs. 25.8% AP50)。这是因为它导致了分类任务和定位任务之间的不平衡。这对于分类任务更具挑战性的OSOD任务是有害的。随着分类任务权重的增加,性能稳步增长,并最终达到饱和。GHM损失[17]也存在类似的问题。对于我们提出的RPL,不需要改变分类任务的权重,因为它不会破坏分类任务和定位任务之间的平衡。表7显示,我们的RPL在默认权重值下可以获得比精心调整的聚焦损失更好的性能。这得益于我们的RPL能够自适应地调整正负权重,确保适当和稳定的正负比例。已见类别的性能比较。我们以FasterR-CNN作为基准来验证我们的模型对于已见类别的有效性。我们使用与我们相同的设置来训练FasterR-CNN(例如训练轮数和骨干网络的权重)。如表8所示,我们的BHRL可以实现...1/51/61/7125.8227.0528.21027.8bearCoAEOursGround TruthQuery Image PatchhorsebusIn this paper, we present a novel BHRL to tackle theOSOD task by improving instance-level semantic relationlearning. Firstly, we propose the IHR module to compre-hensively explore the semantic relation between instance-level target-query pairs in a hierarchical manner.Sec-ondly, we propose the RPL to effectively solve the positive-negative imbalance, thus boosting the IHR learning process.Our BHRL achieves new state-of-the-art on two benchmarkdatasets. We hope that our work can offer good insights andinspire more research regarding the OSOD task.Limitations. Although the proposed model can achieve su-perior performance compared with previous models, it stillgenerates some false detections in complex scenes.75980方法 CEL α 在 RPL 中0AP 50 27.9 28.3 28.7 28.9 29.0 28.9 28.4 28.00表6. COCO分割2数据集上不同 α 的RPL的实验结果。0方法 W.C.T AP 500CEL 1 27.90Class-Balanced Loss [4] 1 22.30GHM Loss [17] 1 26.50Focal Loss [19]0RPL (我们的) 1 29.00表7.与其他流行的平衡损失在COCO分割2数据集上对未知类别的性能比较。“W.C.T”表示分类任务的权重。0方法 AP 500Faster R-CNN 56.60AIT [2] (一次性) 50.1 BHRL (一次性)56.0 BHRL (两次性) 57.80表8. COCO分割1数据集上已知类别的比较。0查询图像块 正样本提议 负样本提议0图5. 正样本提议关系特征和负样本提议关系特征的可视化热图。0与FasterR-CNN相比,我们的BHRL在COCO分割1数据集上具有竞争性能,并且在推理过程中,在颈部之后使用更多的查询块(例如2个)来聚合它们的特征将带来进一步的改进。04.4. 定性结果0图5可视化了IHR模块提取的正样本提议关系特征和负样本提议关系特征的热图。与负样本提议相比,正样本提议具有更明显的激活区域,这表明IHR模块可以为正样本和负样本构建不同的强度相似性特征。在图6中,我们可视化了CoAE(我们重新实现的)和我们的BHRL对于未知类别的检测结果。白色框表示正确检测,红色框表示错误检测。可以观察到我们的BHRL可以有效地检测到未知类别的对象。与CoAE相比,我们提出的BHRL生成的错误检测更少。0图6.CoAE和我们的BHRL在未知类别上的可视化比较。白色框表示正确检测,红色框表示错误检测。0在本文中,我们提出了一种新颖的BHRL来解决OSOD任务,通过改进实例级语义关系学习。首先,我们提出了IHR模块,以分层方式全面探索实例级目标-查询对之间的语义关系。其次,我们提出了RPL来有效解决正负样本不平衡,从而提升IHR学习过程。我们的BHRL在两个基准数据集上取得了新的最优结果。我们希望我们的工作能够提供有关OSOD任务的良好见解,并激发更多的研究。限制。尽管与先前的模型相比,所提出的模型在性能上表现出色,但在复杂场景中仍会产生一些错误检测。05. 结论0致谢0本工作得到了中国国家重点研发计划(2021ZD0201400),中国国家自然科学基金(GrantNo.62088101,61673341),浙江大学工业控制技术国家重点实验室项目(No.ICT2021A10),中央高校基本科研业务费(No.2021FZZX003-01-06),双一流大学计划(CN)的支持。[3] Tung-I Chen, Yueh-Cheng Liu, Hung-Ting Su, Yu-Cheng Chang, Yu-Hsiang Lin, Jia-Fong Yeh, and Win-ston H Hsu.Should i look at the head or the tail?dual-awareness attention for few-shot object detec-tion. ArXiv, 2021. 4[4] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, andSerge Belongie. Class-balanced loss based on effec-tive number of samples. CVPR, 2019. 8[5] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu, and Yichen Wei. Deformable convo-lutional networks. ICCV, 2017. 6[6] Jia Deng, W. Dong, R. Socher, L. Li, K. Li, andLi Fei-Fei. Imagenet: A large-scale hierarchical im-age database. CVPR, 2009. 6[7] M. Everingham, L. Gool, C. K. Williams, J. Winn, andAndrew Zisserman. The pascal visual object classes(voc) challenge. IJCV, 2009. 5[8] Qi Fan, Wei Zhuo, Chi-Keung Tang, and Yu-WingTai. Few-shot object detection with attention-rpn andmulti-relation detector. CVPR, 2020. 1, 2, 3, 4, 7[9] Kun Fu, T. Zhang, Yue Zhang, and Xian Sun. O
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功