鲁棒零拍无约束目标检测区域合成器

193 浏览量更新于2023-10-25 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7622一种鲁棒的零拍目标检测区域特征合成器黄培良1，韩俊伟1*，德成2，张定文1*1西北工业大学自动化学院脑与人工智能实验室2西安电子科技大学电信工程学院综合业务网络国家重点实验室{peilianghuang2017，junweihan2010，zhangdingwen2006yyy} @ gmail.com，dcheng@xidian.edu.cn摘要零镜头目标检测的目的是将类语义向量，以实现检测（可见的和）看不见的类给定的无约束的测试图像。在这项研究中，我们揭示了这一研究领域的核心挑战：如何合成鲁棒的区域特征（对于看不见的物体），这些特征与真实样本一样具有类内多样性和类间可分离性，以便可以在这些特征上训练强大的看不见的物体检测器。为了解决这些问题，我们建立了一个新的零镜头目标检测框架，其中包含一个类内语义发散组件和一个类间结构保持组件。前者用于实现一对多的映射，从各类语义向量中获取不同的视觉特征后者用于避免合成特征过于分散而混淆类间关系和前景背景关系。为了证明所提出的方法的有效性，PASCAL VOC，COCO，和DIOR数据集上进行了全面的实验。值得注意的是，我们的方法实现了新的国家的最先进的性能PASCAL VOC和COCO，这是第一个研究进行零拍摄对象检测遥感图像。1. 介绍随着CNN [14，34，48]和Transformer [6，26]等深度学习技术的快速发展，在目标检测的研究领域取得了很大的虽然现有的检测方法所取得的检测性能看起来很有前途和令人鼓舞，但将它们应用于现实世界的网络中存在一个隐藏的缺点-主流的一旦模型经过训练，它就只能识别训练数据中出现的对象，而出现在测试图像中但在训练过程中看不到的其他对象则会造成混淆*通讯作者。该模型显着，导致不可避免的错误，在检测结果。为了解决这个问题，近年来提出了零炮目标检测（ZSD）[4，17，33，51]的任务。目标是使检测模型能够预测在训练期间没有任何可用样本的未见过对象早期对零镜头对象检测（ZSD）的努力[4，33]集中在基于映射函数的方法上，该方法学习从视觉空间到语义空间的映射函数。利用学习的映射函数，可以通过将其视觉特征映射到语义空间中，然后在语义空间中执行最近邻搜索来预测未看到的对象类别。然而，由于映射函数都是在训练数据提供的可见类别上学习的，因此当处理测试中的视觉特征时，模型会明显偏向于可见类别[17]。最近，基于生成模型的方法[17，51]被提出作为替代解决方案。通常，这些方法利用生成模型来从对应于每个对象类别的所提供的语义嵌入[2，30]中合成视觉特征。然后，合成的视觉特征可以用于训练未见过类的标准检测器。基于生成模型的方法在解决偏差问题时显示出与基于映射函数的方法更强的性能兼容性，因为尽管与未看见的对象相对应的样本仍然不存在，但是检测器是用未看见的对象的合成视觉特征来训练的然而，当前基于生成模型的方法主要遵循零短分类框架中提出的思想，例如[31，41]，其中合成的视觉特征在不太复杂的分类场景中可能表现良好，但在复杂的检测场景中不足以获得令人满意的结果。据我们所知，为检测场景合成视觉特征存在两方面的挑战：• 类内多样性：真实世界检测场景中的对象在姿态、形状、纹理等方面呈现高度变化，并且一个对象实例可以由7623(a) 真实样本(b) 合成的视觉特征的分布（情况I）超类内分集(c) 合成视觉特征的分布（情况II）猫类真实样本的特征分布狗类真实样本的特征分布图像背景猫类狗类图1.在这项工作中研究的问题的插图在实际情况下，由样本构建的特征空间显示出高的类内多样性，但仍具有类间可分离性，如（a）所示，而通过现有方法学习的合成视觉特征的空间要么具有不足的类内多样性，如（b）所示，要么具有过多的类内多样性，使类间不可分离，如（c）所示具有不同大小和位置的几个边界框。这导致其特征表示的高度多样性。• 类间可分性：尽管具有这样的变化，每个对象类别仍然具有与其他对象类别以及图像背景不同的易于识别的特征，使得来自不同类别（包括背景类别）的特征表示高度可分离。尽管一些现有的方法已经认识到类内多样性的重要性[17，49]，但在没有联合考虑类间可分性的情况下，这些方法要么会对合成的视觉特征施加不充分的多样性，导致将真实的不可见物体误分类为图像背景（参见图1（b）），要么会过分地使针对不同类别语义合成的视觉特征混合在一起，从而使学习的检测模型获得不准确的前景区域的物体类别或在处理图像背景时出错（参见图1（c））。为了克服面向真实世界检测场景的特征合成问题，我们构建了一个新的零拍摄对象检测框架，如图2所示。具体来说，我们设计了两个组件来学习鲁棒的区域特征。为了使模型能够合成不同的视觉特征，我们提出了一个类内语义发散（IntraSD）组件，它可以将单个类的语义向量发散为一组视觉特征。为了防止合成特征的类内差异过大而混淆类间关系，我们进一步提出了一种类间结构保持（ Inter-class StructurePreserving，InterSP）组件，该组件利用来自不同对象类别的真实视觉样本来约束合成视觉特征的可分性。另外值得一提的是，在InterSP的设计中，我们充分利用了从真实图像场景中采样的区域特征进行检测，而不是在综合视觉特征。这使得我们的模型能够像在真实情况下一样合成可分离的视觉特征，并且与上述对应物相比，获得了更好的性能（参见第4.2节中的实验）。综上所述，本文主要有以下三方面的贡献：• 我们揭示了关键的挑战，即，类内多样性和类间可分离性，用于真实世界对象检测场景中的特征合成。• 为了合成ZSD的鲁棒区域特征，我们构建了一个新的框架，该框架包含类内语义发散组件和类间结构保持组件。• 在PASCAL VOC、COCO和DIOR三个数据集上的实验结果值得注意的是，这也是首次尝试在遥感图像中实现2. 相关工作零射击学习（Zero-Shot Learning，简称ZRL）。CNOL的目标是使用可见的示例来训练网络，并通过利用语义标签嵌入（例如词向量[30]或语义属性[2]）作为辅助信息[15，39]来推理看不见的类。早期的语义描述语言研究工作集中在基于嵌入函数的方法上，该方法将视觉特征嵌入到语义描述符空间中，反之亦然[1，5，12，21]。因此，视觉特征和语义特征将位于相同的嵌入空间中，并且可以通过在嵌入空间中搜索最近的语义描述符来完成MML分类[16]。基于嵌入式函数的方法在传统的GML场景中工作良好[1，5，13，42]，但在更具挑战性的GML场景中往往高度过拟合所见的类[7，16，37，43]。为了解决这个过度拟合问题，类内多样性区域误分类为图像背景类内多样性类内分集类内多样性7624Y Y Y YW {W W}不可见特征合成不可见分类器培训更新积极关系消极关系（拉）（推）综合地域特征真正的提案特点图2.拟议总体框架的说明。我们的方法包含一个对象检测模块和一个看不见的分类器学习模块。其基本思想是首先根据标记的可见类别数据学习目标检测器，然后利用合成的不可见区域特征训练不可见分类器。为了保持框架的简单和易于理解，我们不显示学习过程中使用的语法。一些研究人员已经引入了基于生成的方法[7，16，20，35]，其通过使用条件生成模型来学习补充未见过的类的训练样本，例如。变分自动编码器（VAE）[20]和生成对抗网络（GAN）[44]。通过合成大小的不可见类示例，他们可以将零射击分类问题转换为一般的全监督问题，并缓解过拟合问题[47]。在本文中，我们还采用了生成模型来合成不可见的视觉特征，以将CNOL转换为完全监督的方式[38]。然而，由于我们的目标是解决更具挑战性的ZSD问题，我们需要在模型设计中处理更重的类内多样性和类间可分性零镜头物体检测。ZSD近年来受到了广泛的研究兴趣[4，8，17，23，32，33，49一些研究集中在基于嵌入函数的方法[4，8，23，32，33，50]。不幸的是，这些方法会受到过拟合问题的困扰，就像在CNOL中一样，其中看不见的对象明显偏向于看到的类或背景[11，17，46]。基于生成模型的方法[17，49，51]在解决偏差问题[33，40，45]方面表现出强大的性能 Zhu等人 [51]从语义信息中合成未见过对象的视觉特征，并增强现有的训练算法以结合未见过对象检测。Zhao等人。 [49]提出了一种用于零拍摄对象检测的生成传输网络。Hayat等人 [17]提出了一种用于零炮目标检测的特征合成方法，并使用模式搜索正则化[28]以增强合成特征的多样性。然而，这些方法没有足够的学习能力来合成像真实样本一样具有类内多样性和类间可分离性的区域特征，是本文研究的核心问题。3. 方法3.1. 问题定义和框架概述在ZSD中，我们有两个不相交的类集合：s中的可见类和u中的不可见类，其中su= u。训练集包含可见对象，其中每个图像都提供有相应的类标签和边界框坐标。相反，测试集可以仅包含看不见的对象（即，ZSD设置）或可见和不可见对象（即，GZSD设置）。在学习和测试过程中，为可见类和不可见类提供语义词向量= s，u。ZSD的任务是学习检测器（由θ参数化），该检测器可以定位和识别与语义词向量相对应的不可见对象。图2显示了拟议的ZSD总体框架可以看出，它包含一个对象检测模块和一个看不见的分类器学习模块。目标检测模块是Faster-RCNN模型[34]，以ResNet-101为骨干[18]。首先，我们用看到的图像及其相应的地面实况注释训练一旦获得模型，我们就可以使用它来提取区域特征，使用RPN为所见的类。其次，我们训练区域特征合成器来学习语义词向量和视觉特征之间然后，我们使用学习的特征合成器来生成看不见的类的区域特征。有了这些合成大小的不可见区域特征及其对应的类标签，我们可以为不可见类训练不可见分类器最后，我们更新Faster-RCNN模型中的分类器，以实现ZSD任务的新检测器整体目标检测模块鲁棒区域特征合成器g-巴科内G-G...SD+RoI池G+g-输入图像GG+-隐形分类器学习zRRFSfu分类器（看不z-的z-z+布拉夫-Sp布拉夫+布拉wu-wsRPN分类器回归器GAN平均池化7625∈FN∈∈ WW × Z›→FXYWF←--LW← FYF←X← FYWF ←{X Y B}{}← {X Y BLF∈FLF F × W →N∈WN≻{|吴恩达|− |}S训练过程也在算法1中详述。注意我们方法的核心是如何学习一个统一的生成模型来学习视觉和语义域之间的关系。具体来说，我们设计了一个统一的区域特征合成器，用于实际检测场景中的特征合成，该合成器包含类内语义发散组件和类间结构保持组件。3.2. 鲁棒的区域特征合成器给定对象特征集合s、对应的标签集合s和语义向量局局长看到训练数据s，目标是学习一个条件生成器G：。也就是说，当我们将类嵌入w和从高斯分布采样的随机噪声向量z（0，1）Rd作为输入时，我们可以生成视觉特征对于属于这个类的对象区域。然后，使用未见过类的合成区域特征，我们可以学习未见过对象的分类器。换句话说，生成器G学习语义向量与对应的区域特征之间的映射。为了学习这样的区域特征合成器，我们提出以下学习目标函数：min maxLWGAN+λ1LCs+λ2LSd+λ3LSp，（1）算法1我们框架的训练过程。输入：训练图像集合对应的类和边界框标注s，s，s，语义词向量集合;输出：目标检测器参数θ=θp，θs，θu（θp表示RPN建议提取的参数）;一曰：θ p，θ s列车物体探测器开启s，sort};第二章：S基于RPN的区域特征提取3：G通过优化等式2中的损失函数，在s和s上训练区域特征合成器。1个;第四章：使用训练好的G和 u为看不见的类合成区域特征;5：θuT使用θu训练不可见对象分类器θu，u;6：θ用θu更新目标检测模块的分类器θ;7：返回θ;Mantic diverging loss，将一个对象范畴的语义词向量分化为一组区域视觉特征。Sp是提出的类间结构保持损失，其目标是约束合成的视觉特征的可分性λ1、λ2和λ3是平衡每个分量的加权超参数。3.3. 类内语义分歧G D为了使模型能够合成不同的视觉特征，其中WGAN是Wasserstein GAN损失[3]，用于强制生成器合成与真实区域特征的分布良好对齐的LWGAN=E[D（fs，ws）]−E[D（fs，ws）]−λE[（sD（fs，ws）<$2−1）2]，其中fs是来自所见类的对象区域的真实视觉特征，Δfs=G（ws，z）表示以类语义向量wss为条件的基因化视觉特征，Δfs=μfs+（1-μ）Δfs，其中μ从均匀分布μ中采样（ 0，1），λ是惩罚系数，古老的鉴别器D：s（秒）S[0，1]，takes实区域特征fss或合成视觉特征具有相应的类语义嵌入ws的输入.它试图准确地区分真实的视觉特征和合成的视觉特征。在WGAN中，前两项计算Wasserstein距离，而第三项约束BLOG的梯度沿着连接实特征fs对我们认为IntraSD组件将一个语义词向量的语义向量发散成一组视觉特征。具体来说，我们推测，上述问题可以通过增强噪声向量对合成视觉特征的影响来缓解为此，我们提出了一种新的类内语义发散损失，其中从相邻噪声向量合成的视觉特征将被拉近，而从不同噪声向量合成的视觉特征将被推开。类内语义发散损失的设计关键是如何选择我们通过操纵输入噪声向量来设计正样本和负样本[25]。具体地，给定查询噪声向量z（0，1），我们定义一个半径为r的小超球体，其中心位于查询噪声向量z。我们随机采样一个正查询噪声向量 z+ 作为向量，其中z+=z+ρ，其中ρ是a从均匀分布ρ<$U[−r，r]中随机采样的向量。我们对负噪声向量进行随机以及合成的特征向量s。LC确保生成的VI-在潜在空间内的球体外部的矢量，即，zi−与预训练分类器对齐的sual特征见数据，指[17]。为了提高区域特征合成器的鲁棒性，我们提出了两个新的学习项，包括LSd和LSp。具体地，LSd是所提议的类内se。zi−zi−（0，1）zi−zr，其中i =1，. - 是的- 是的，N，其中是逐元素的比选运算符。一旦确定这些噪声矢量后，我们可以定义“位置I v e”和“Ne g at I v e”样本。或查询可视功能=G（z，ws），我们定义（二）7626++的·+--i=1i−（三）其=G（z+，ws），由表1. 在ZSD和GZSD噪声矢量z+。合成的N个从噪声向量{zi-}的集合中，可以定义为fsPASCAL VOC数据集上的设置GZSDsi−=G（zi−，w）.类内语义发散损失是给出方法ZSDS U HMexp（Δfs·Δfs/τ）LSd=E[−logexp（Δfs·Δfs/τ）+ΔNexp（λfs·λfs/τ）]，其中3.4. 类间结构保持为了使合成的视觉特征更接近真实数据的分布，同时提高学习的视觉特征的区分度，我们在学习框架中进一步引入了类间结构保持成分。在该学习组件中，我们不仅考虑了不同类别的合成视觉特征，而且还注意到由窗口建议提取的真实与合成特征具有相同类别的建议，以及许多负面和背景建议。通过这样做，所提出的类间结构保持组件具有以下优点：1）所提出的方法克服了传统WGAN中基于重建误差的损失，因为它可以迫使合成的视觉特征接近窗口建议池中相同类别的其他不同真实视觉特征。通过这种方式，合成的视觉特征可以很好地近似真实数据的分布，促进从语义词向量到合成的区域特征的鲁棒的一对多投影。2）通过将不同类别的视觉特征（包括真实特征空间和合成特征空间）推离从上面的描述中，我们可以观察到，所提出的方法使用合成区域特征和真实建议特征来实现学习过程，其实质上构造了混合视觉特征池表示为g=f_s，f_r，f_bg，其中f_r表示实数fea。用于不同对象类别的窗口建议的纹理，并且FBG指示从训练图像提取的背景视觉特征。然后，所提出的类间结构保持组件的学习目标函数可以写为：exp（Δfs·g+/τ）其中Φ ={g，j}指示混合视觉特征池中满足y（g，j）=y（g，j）的视觉特征的集合，y（·）是分类指示函数，即， y（fs）是视觉特征fs的类标签。 G+是对应于当前合成视觉特征F+s的特定示例。它可以从合成的视觉特征或由检测器生成的对象建议中选择，与当前合成的视觉特征相同的类别标签。因此，这种类间结构保持损失使得合成的视觉特征f_s接近于两者。同一类别的合成和真实对象建议，而远离来自混合视觉特征池中的不同类别标签的所有其他视觉特征。4. 实验数据集：我们在三个流行的对象检测基准数据集上评估了所提出的方法： PASCAL VOC 2007+2012[10]，MS COCO 2014 [24]和DIOR[22 ]第20段。PASCAL VOC 2007包含2501个训练图像，2510个验证图像和5011个测试图像，共20个类别。PASCAL VOC 2012包含5717个训练图像和5823个验证图像，也有20个类别。MS COCO 2014包含82783个训练图像和40504个验证图像，共有80个类别。DIOR包含5862张训练图像，5863张验证图像和11738张测试图像，共20个类别。对于PASCAL VOC和MSCOCO，我们采用FastText方法[29]来提取语义词向量[17]。对于DIOR，我们采用Bert模型[9]来生成语义词向量。可见/不可见分割：我们在PASCAL VOC数据集上遵循[8]中提出的16/4可见/不可见对于MS COCO，我们采用与[4，32]相同的设置，将数据集分为两个不同的分割：（1）48/17可见/不可见分割(2)65/15看不见的分裂。我们将DIOR数据集划分为16/4可见/不可见分割，分割的详细信息在补充材料中提供。对于所有上述数据集和分割，我们删除所有不可见类别的图像LSp=E[−logexp（fs·g/τ）+πj∈Φ]的，exp（Δfs·gj/τ）（四）从训练集中提取的图像，以保证看不见的物体在模型训练期间不可用。评估协议：我们遵循评估策略-+SAN [33]59.148.037.041.8HRE [8]54.262.425.536.2PL [32]62.1---BLC [50]55.258.222.932.9苏[17]64.9---我们65.547.149.148.17627表2.在ZSD的PASCAL VOC数据集的不可见类上比较不同方法的类AP和mAP方法车狗沙发火车地图SAN [33]56.285.362.626.457.6HRE [8]55.082.055.026.054.5PL [32]63.787.253.244.162.1BLC [50]43.786.060.830.155.2苏[17]59.692.762.345.264.9我们60.193.059.749.165.5表3.在MS COCO数据集上具有不同IoU阈值的Recall@100和mAP的 ZSD性能召回@100 mAP方法分裂IoU=0.4 IoU=0.5IoU=0.6IoU=0.5S-B [4]48/1734.522.111.30.3DSES [4] 48/1740.227.213.60.5TD [23]48/1745.534.318.1-PL [32]48/17-43.5-10.1BLC [50] 48/1751.348.845.010.6我们48/1758.153.547.913.4PL [32]65/15-37.7-12.4BLC [50] 65/1557.254.751.214.7苏[17]65/1554.454.047.019.0我们65/1565.362.355.919.8在[4，8]中提出的EGY。对于PASCAL VOC和DIOR，我们使用具有IoU阈值的平均精度（mAP）0.5 以评估性能。对于MS COCO，我们使用具有IoU阈值0.5的mAP和具有三个不同IoU阈值（即0.4、0.5和0.6）的recall@100此外，由于测试集由可见和不可见图像组成，因此GZSD的性能通过谐波平均值（HM）进行评估[15]。实现细节：我们的对象检测模块采用广泛使用的Faster-RCNN模型[34]，以ResNet-101为骨干[18]。一般-torG和RQD都是两个具有LeakyReLU激活的全连接层 [27] 。对于每一个不可见的类，我们合成250/250/500个COCO/DIOR/PASCAL VOC区域特征来训练分类器。方程中的超参数 λ1 （ 1 ）对于COCO/DIOR/PASCAL VOC 设置为0.001/0.001/0.01。经验上，在 IntraSD 分量中，折衷参数λ2被设置为0.001，负样本的数量N被设置为10，温度系数τ被设置为0.1，并且半径r被设置为对于COCO/DIOR/PASCAL VOC为10−4/10−4/10−6为在IntraSP组件中，权衡参数λ3被设置为0.001，温度系数τ设定为0.1。代码可在https://github.com/HPL123/RRFS获得。表4.在MS COCO数据集上的GZSD设置下，在两个可见/不可见分割上，召回@100 mAP方法拆分SUHMSUHMPL [32] 48/1738.226.331.2 35.94.17.4BLC [50] 48/1757.646.451.4 42.14.58.2我们的48/1759.758.859.2 42.313.420.4PL [32] 65/1536.437.236.8 34.112.418.2BLC [50] 65/1556.451.753.9 36.013.119.2SU [17] 65/1557.753.955.8 36.919.025.1我们的65/1558.661.860.2 37.419.826.04.1. 与最新技术水平的在表1中，我们比较了ZSD和GZSD设置下PASCALVOC数据集的最新方法我们可以观察到，我们的方法在ZSD设置方面优于所有的比较方法。与次佳方法SU[17]相比，我们的方法将ZSD性能的mAP从64.9%提高到65.5%。我们的方法实现了最好的性能上看不见的类表示为“U”在所有比较方法中的GZSD设置。虽然我们的可见性能表示为这得益于使用类内语义发散组件和类间结构保持组件训练的鲁棒区域特征合成器。我们还在表2中报告了PASCAL VOC数据集上ZSD设置方面的类式mAP性能。我们的方法在4个类中的3个上达到了最好的性能，这进一步证明了我们的方法在ZSD上的优越性。在表3中，我们将我们的方法与MS COCO数据集上的最新方法进行了两次分割。对于47/17分裂，我们的方法在Recall@100和mAP测量方面都以较大的幅度优于所有比较的方法。与第二好的方法BLC [50]相比，我们的方法在IoU=0.5时将Recall@100提高了9.6%，将mAP提高了26.4%65/15分裂，我们可以观察到，我们的方法也实现了一个签名，显著的性能增益，这将方法SU [17]的Recall@100和mAP从54.0%和19.0%提高到IoU=0.5时的62.3%和19.8%在表4中，我们将我们的方法与GZSD场景下的其他方法进行了比较，这更加现实和具有挑战性。我们的方法优于所有的比较方法在两个分裂方面的所有指标。与第二好的方法BLC [50]相比，我们的方法在拆分下将Recall@100和mAP中的“HM”性能从51.4%和8.2%提高48/17. 对于65/15分裂，我们的方法改进了7628LL LLLLLLLL表5.针对ZSD的MS COCO数据集的不可见类的不同方法的类AP和mAP比较65/15空中列车Metr猫熊SCSE法国广播公司挪威全国民主联盟叉SWIC赫多格特莱特Mose特斯特河hier地图PL [32]20 48.20.628.313.812.421.815.18.98.50.95.70.01.70.012.4苏[17]10.1 48.71.264.064.112.20.72816.419.40.118.71.20.50.219.0我们20.8 53.01.364.355.511.60.431.318.020.30.115.24.20.50.619.8表6.在DIOR数据集上的ZSD和GZSD设置下，IoU=0.5时的mAP比较。GZSD表7.ZSD和GZSD设置下消融研究的性能，通过PASCALVOC数据集上的mAP测量。GZSD方法ZSDS U HMLbLSdLSpsLSpZSDS U HM[32] 2016年12月24日BLC [50] 1.1 6.1 0.4 0.8苏[17] 10.5 20.9 5.3我们的11.3 30.9 3.4 6.1通过第二好方法SU [17]实现的性能从55.8%和25.1%到60.2%和26.0%。这种我们在表5中报告了65/15分裂的方法的类AP。我们的方法在15个类中的9个上实现了最佳性能，并且在其他类上具有相当的性能。由于其他方法没有报告48/17分裂的类AP结果，我们在补充材料中单独显示了类AP为了进一步验证我们方法的有效性，我们1.00.80.60.40.20.0车狗沙发火车0.0 0.2 0.4 0.6 0.8 1.0(a) 基线1.00.80.60.40.20.0车狗沙发火车0.0 0.2 0.4 0.6 0.8 1.0(b)我们在DIOR数据集上进行了实验，这是实现遥感图像零炮目标检测的首次尝试。我们基于DIOR数据集上的发布代码重新实现了最先进的零炮目标检测方法，以进行表6中的比较。与第二好的方法SU [17]相比，我们还实现了与方法SU [17]相同的S性能。由于篇幅所限，具体的AP成绩将在补充材料中报告。4.2. 消融研究为了进一步了解我们的方法，我们对PASCALVOC数据集进行了消融研究，以分析我们方法中每个组件的贡献。在表7中，我们报告了在IoU 0.5时，ZSD和GZSD在mAP指标方面的性能b包含WGAN和Cs，可以将其视为我们的基线方法。Sps意味着混合视觉特征池g仅包含合成大小的视觉特征相应的组件。SD内成分分析。我们首先分析了所提出的IntraSD组件的有效性。为了验证其贡献，我们比较了我们的图3. t-SNE [36]可视化PASCAL VOC数据集上看不见的类的合成区域特征。通过在训练过程中添加IntraSD，对基线模型和变体进行了改进。我们可以观察到GZSD的%。 HM性能从46.5%至47.7%。这些巨大的性能增益证明了ZSD模型中拟议的IntraSD组件的有效性，这可以鼓励我们的生成器为看不见的类合成更多样化的视觉特征。GZSD的可见性能并没有获得性能增益，因为可见类的分类器参数是固定的。InterSP组件分析。为了验证InterSP组件的有效性，我们首先在b和Sd的顶部添加Sps组件。结果，“ZSD”、“U”和“HM”的mAP测量%的百分比。其次，我们进一步在b和Sd的顶部添加S p分量。“ZSD”、“U”和“HM”的mAP测量值%至65.5%、49.1%和48.1%。这两个比较表明，我们的InterSP组件可以提高✓62.147.145.946.5✓ ✓64.047.148.347.7✓ ✓ ✓64.747.148.747.9✓ ✓ ✓65.547.149.148.17629LLPascal VOCMS COCO（48/17）MS COCO（65/15）DIOR图4. PASCAL VOC、MS COCO（48/17和65/15）和DIOR数据集的定性结果。对于每个数据集，第一列和第二列分别是ZSD和GZSD的结果。可见的类用绿色显示，不可见的类用红色显示。学习的视觉特征的辨别。与方法变体Sps相比，Sps变体的绝对改进分别为1.2%、0.8%和0.4%。这一现象表明，窗口pro-promotion的真实特征在我们的InterSP模块中起着重要作用，因为它包含了地面实况正对象建议和许多背景负建议。4.3. 定性结果特征可视化在图3中，我们进行t-SNE[36]可视化PASCAL VOC数据集上看不见的类的合成区域特征。对应于我们的基线模型和所提出的模型的视觉特征分布已在图3（a）和图3（b）中示出来自相似类（图3（a）中的汽车和火车）的特征由于其语义空间中的高相似性而彼此混淆，这可能导致对这些相似类的误分类图3（b）中的合成特征具有明显的分离簇。这验证了我们的合成器在合成类内多样性和类间区分性区域特征方面是鲁棒的，这有利于学习更具区分性的分类器以提高ZSD的检测性能检测结果。为了进一步证明我们的方法的有效性，我们在图中显示了我们的方法在PASCAL VOC，MSCOCO和DIOR数据集上4. 对于ZSD设置，图像只包含不可见的对象。对于GZSD设置，图像可能同时包含可见和不可见对象。定性的结果证明了我们的方法在检测可见和不可见的有效性在具有挑战性的场景中同时看到物体。5. 结论和局限性在这项工作中，我们专注于ZSD任务，解决了合成强大的区域功能的挑战，看不见的对象。具体来说，我们提出了一个新的ZSD框架，通过构建一个强大的区域特征合成器，其中包括IntraSD和InterSP组件。IntraSD实现了一对多的映射，从每个类别的语义向量中获得不同的视觉特征，防止将真实的不可见对象误分类为图像背景。InterSP组件充分利用了不同目标类别的合成和真实区域特征，提高了合成视觉特征的区分度。大量的实验结果表明，我们的方法是优于国家的最先进的方法ZSD。限制. 本研究中的一个主要限制是所提出的方法基于两阶段对象检测器，例如，Faster-RCNN [34]，其检测速度相对较慢。我们希望将我们的方法集成到一些单阶段对象检测器中，例如，YOLOv5 [19]，以进一步提高未来的检测速度。鸣谢：本工作得到广东省重点领域研究发展计划项目（No.2021B0101200001）和国家自然科学基金项目（61876140，62176198，U20B2065，U21B2048，浙江省实验室开放研究项目（No.2019KD0AD01/010）。7630引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。基于属性分类的标签嵌入。在CVPR，第819-826页，2013年。2[2] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.细粒度图像分类的输出嵌入评价。在CVPR，第2927-2936页，2015年。一、二[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络ICML，第214-223页PMLR，2017年。4[4] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa 和 Ajay Divakaran 。零镜头物体检测。在ECCV，第384-400页，2018年。一二三五六[5] MaximeBuche r，Ste'phaneHerbin和Fre'd e'ricJurie。利用度量学习提高零炮分类的语义嵌入一致性。在ECCV，第730施普林格，2016年。2[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。1[7] Shiming Chen ， Wenjie Wang ， Beihao Xia ， QinmuPeng，Xingge You，Feng Zheng，and Ling Shao.免费：用于广义零射击学习的特征细化。在ICCV，第122-131页，2021年。二、三[8] Berkan Demirel 、 Ramazan Gokberk Cinbis 和 NazliIkizler-Cinbis。基于混合区域嵌入的零镜头目标检测。在BMVC，2018年。三五六[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。5[10] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303-338，2010. 5[11] Lijie Fan ， Tianhong Li ， Rongyao Fang ， RumenHristov，Yuan Yuan，and Dina Katabi.使用无线电信号学习用于人员重新识别的长期表示。在CVPR中，第10699-10709页，2020年。3[12] Yanwei Fu ， Timothy M Hospedales ， Tao Xiang ，Zhenyong Fu，and Shaogang Gong.用于零炮识别和注释的直推式多视图嵌入。见《欧洲法院判例汇编》，第584-599页。Springer，2014. 2[13] Zhenyong Fu，Tao Xiang，Elyor Kodirov，and ShaogangGong.基于语义流形距离的零拍目标识别。在CVPR中，第2635-2644页，2015年。2[14] 韩俊伟，张定文，龚成，刘念，徐东。用于显著和特定类别对象检测的高级深度学习技术 IEEE SignalProcessing Magazine，35（1）：84-100，2018。1[15] Zongyan Han，Zhenyong Fu，Shuo Chen，and Jian Yang.广义零激发学习的对比嵌入在CVPR中，第2371-2381页，2021年。二、六[16] Zongyan Han，Zhenyong Fu，and Jian Yang.学习无冗余特征用于广义零射击目标识别。在CVPR中，第12865-12874页，2020年。二、三7631[17] Nasir Hayat、Munawar Hayat、Shafin Rahman、SalmanKhan、Syed Waqas Zamir和Fahad Shahbaz Khan。合成零拍摄对象检测的在ACCV，2020。一、二、三、四、五、六、七[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。三、六[19] Glenn Jocher ， Alex Stoken ， Jirka Borhanc ， AyushChaurasia，L Changyu ，VA Laughing ，A Hogan ，JHajek，L Diaconu，Y Kwon，et al. ultralytics/yolov5：v5.0-yolov 5-p61280模型，自动武器系统，监督. LY和YouTube的整合。版本V5。0. 2021年4月。8[20] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。3[21] Elyor Kodirov，Tao Xiang，and Shaogang Gong.用于零触发学习的语义自动编码器在CVPR中，第3174- 3183页，2017年。2[22] 李珂，万钢，龚成，孟立秋，韩俊伟。光学遥感图像中的目标检测：综述和新的基准。 ISPRS JPHOTO

下载后可阅读完整内容，剩余1页未读，立即下载