没有合适的资源?快使用搜索试试~ 我知道了~
4771用于按需目标检测的可变形检测器西北大学赵翔云1,邹旭2,吴颖12华中科技大学摘要智能机器人的许多新兴应用需要探索和理解新的环境,在新的环境中,希望以最小的在线努力来检测新类别的对象。这是按需目标检测(ODOD)任务。这是具有挑战性的,因为它是不可能的注释大量的数据在飞行中,和嵌入式系统通常无法执行反向传播,这是必不可少的训练。大多数现有的少镜头检测方法在这里面临,因为它们需要额外的训练。我们提出了一种新的变形检测器(MD),简单地MD具有两组参数,一组用于特征嵌入,另一组用于类表示(称为“原型”)。每个类都与一个隐藏的原型相关联,通过整合视觉和语义嵌入来学习MD的学习是基于特征嵌入的交替学习和类似EM的方法中的原型 一旦MD被学习,它能够使用新类的一些样本来直接计算其原型以实现在线变形过程。我们已经在Pascal [12],COCO [27]和FSOD [13]数据集中显示了MD的优越性。1. 介绍在应用中,如机器人探索和自动驾驶,系统需要探索和了解新的环境,其中期望在最小的在线人类监督和交互的情况下动态地检测新类别的对象。这是按需对象ODOD是非常具有挑战性的,因为它不可能在运行中收集大量的数据,并且计算资源通常不足以进行计算密集型和耗时的计算零炮检测少拍检测增量少镜头检测按需目标检测图1:与其他检测任务的比较。与其他少镜头检测任务不同,按需目标检测不需要额外的训练。在板上训练,更不用说许多嵌入式系统不能执行对于训练必不可少的反向传播。在嵌入式系统中,检测任务通常在计算有限的平台上执行,其中由于资源限制,系统构建后神经网络被锁定[19]。在此遇到流行的少数镜头检测(FSD)[20,49,47,46,48]方法,因为它们通常需要对来自新类别的对象执行额外的训练为此,我们将按需对象检测(ODOD)具体定义为在不进行额外训练的情况下检测新类,同时保留现有知识,给定(1)使用基类数据离线训练的检测器(2)不能访问基类数据(3)一些新类的样本。ODOD可以被看作是一种特殊的少拍检测任务,ODOD与其他检测任务的区别如图1所示。目前流行的少拍检测器(FSD)的目标是使用基类数据训练检测器,并进一步用来自新类的一些样本训练它。然而,额外的培训是不可行的ODOD任务。此外,为了保持基类的性能,这些FSD必须使用小说类查看类别额外数据数据培训4772在额外的训练中使用基类数据,否则,它们会遭受灾难性的遗忘[29]-当过去的数据不可用时,性能会显著其他少镜头检测器[13,18]使用连体网络并将“查询-目标”对作为输入,以便检测出现在“查询”图像中的“目标”对象的所有实例。然而,由于目标表示在训练期间总是变化的,因此模型学习较少的区分性表示。因此,该模型在 本 文 中 , 我 们 提 出 了 一 种 新 的 变 形 检 测 器(MD),简单地“变形”它的一些可变参数在线估计从少数样本,从而检测新的类没有任何额外的训练。与大多数现有的对象检测器不同,该新颖的MD具有两组参数,一组用于特征嵌入(即,特征提取)。网络参数),另一个用于类表示(称为“原型”),如图2所示。我们认为,MD识别不同类别的视觉样本,就好像它们生活在一个共同的空间,称为特征空间。每个类与原型相关联,该原型是特征空间中每个类的目标坐标。因此,对于每个对象提议,MD学习特征向量,其与原型的相似性被认为是前景分类得分。由于难以将一个原型分配给背景,因此MD直接从视觉特征回归背景分数,如图2所示。一旦一个MD被学习,它就能够使用一个新类的一些样本来直接计算它的原型,以完成在线变形过程(细节在3.3中)。MD的学习是基于如图3所示的EM类方法中的特征嵌入和原型的交替学习。原型被视为一个隐藏的变量,通过整合视觉和语义嵌入学习。在“E”步骤中3.2.2)。在“M”步骤中原型初始化的语义向量带来有用的外部信息,从文本数据。但请注意,直接使用语义向量作为原型,而不使用所提出的EM类算法,仍然受到有限的推广性(到新的类),因为外部信息不直接检查视觉外观,而模型本身关注识别视觉特征。因此,特征嵌入和原型的联合学习允许从新类的几个样本中更好地恢复未知原型。我们的方法不同于现有的方法,例如RepNet [21],它在端到端训练中从视觉数据中学习每个类的代表建议的MD通过以下方式学习代表(原型):一种类似EM的方法,其中视觉和语义信息被集成以提高模型总的来说,这项工作的贡献有四个方面:• 我们研究了一种特殊的少镜头检测任务,即按需目标检测,这在文献中很少讨论,并且不能通过许多现有的少镜头检测方法来解决• 我们提出了一种新的变形检测器(MD),它可以在线变形,以检测新的类与额外的训练。• 我们建议学习联合视觉和语义嵌入的EM类方法的MD• 在不同的数据集上进行了大量的实验,以证明MD优于其他方法。2. 相关工作零/少镜头学习零镜头学习(ZSL)[10,9,35,40,1,22,23,53]已被广泛研究用于图像识别。它的目标是在没有训练样本的情况下识别看不见的类。人们通常利用语义信息[10,9,35,40]或属性表示[1,22,23]来进行ZSL。少镜头学习旨在识别具有一些注释样本的类。人们试图通过基于度量学习的方法来解决这个问题[45,42,33,43,16]或基于元学习的方法[36,50,31,32]。与他们不同的是,在这项工作中,我们专注于更具挑战性的目标检测任务。大多数现有的检测方法[4,5,25,28,26,37,38,39,52,51,41,15,14]都集中在一般对象检测任务,其中每个类别具有大量注释数据。然而,当标记数据稀缺或不可用时,模型可能过拟合或无法泛化。因此,人们开始关注零镜头/少数镜头检测[24,2,55,20,46,47,49,48,6]任务,其中没有给出新类别的示例或一些示例。但是,当过去的数据不可用时,模型可能会遭受灾难性的遗忘[29]。人们开始致力于增量少数镜头检测[34]任务。与上述任务不同,我们专注于更具挑战性的任务,即按需对象检测,其中仅给出用于新类别的几个样本,并且不需要额外的训练非变形检测器最近的工作[55,20,46,47,49,48,6]在少数镜头检测任务上取得了重大进展他们的目标是利用完全标记的可见分类数据来训练基本模型,并使用Meta特征学习器(即,额外训练)。然而,额外的训练对于机器人的新兴应用是不可行的与他们不同的是,我们建议训练一个变形检测器,可以在线变形检测新的类别,而无需任何额外的训练。4773PC∩ CCCP PP形变检测器RPN类无关箱回归bbox背景回归已知原型FCNROIPoolMLPFC测试图像特征向量新颖原型分类评分在线变形FCNROIPoolMLPFC特征向量一些样本对于新类图2:所提出的可变形检测器(MD)结构。给定一个训练好的MD,它能够使用来自新类的一些样本来计算新类的表示(原型)(参见第2节)。3.3)。给定由RPN生成的测试图像和建议,MD输出每个建议的特征向量、框回归和背景分数。具有与每个新类别相关联的原型的特征向量之间的相似性被用于估计新类别后验概率(参见第2.2节)。3.3)。一种基本的变形检测器是零触发检测器[24,54,2],它可以通过利用语义信息来检测新的类别,而无需任何注释的示例。然而,由于语义信息不直接检查视觉外观,零拍检测器的泛化能力有限,整体性能远不能令人满意。另一种可变形检测器是一些少数镜头检测器,其将“查询-目标”对作为输入以检测出现在“查询”图像中的“目标”对象的所有实例。但是该模型学习较少的区分表示,因为目标表示在训练中总是变化的。Rep- Net [21]建议从视觉数据中为每个类别学习一些代表但是,从视觉数据的学习是不够的模型泛化。与他们不同的是,我们建议利用外部语义信息[30],并提出一种类似EM的方法来集成视觉和语义嵌入。3. 可变形检测器在 本 文 中 , 我 们 提 出 了 一 种 新 的 变 形 检 测 器(MD),它可以在线变形检测新的类,而无需额外的训练。如图3所示,我们提出在类似EM的方法中交替地学习原型和网络参数,另一个在每次迭代中固定。图2说明了如何变形detec-tor(MD)被变形以在给定来自新类的几个样本的情况下检测新类。一旦MD被训练,MD仅需要通过网络转发新类的一些样本以计算其原型(细节在第2节中)。3.3)检测新类。3.1. 基本变形检测器我 们 有 基 类 setbase 和 新 类 setnovel , 其 中basenovel=。我们将基类数据集表示为Dbase,其由训练图像和相应的框注释组成。MD框架适用于各种基于CNN的检测器[41,7,25,5]。在这里,我们使用Faster R-CNN(FRCNN)[ 41 ]来说明该框架,因为它是一个简单且广泛使用的框架。MD使用区域建议网络(RPN)[41]来生成建议和ROI池以提取建议特征,如图所示。二、MD具有两组参数:网络参数和类表示(称为我们将基类和新类的原型基地和小说分别基地是学习的联合视觉和语义嵌入在EM类ap-proach。一旦MD被训练,就可以通过经由训练的网络转发来自新类的样本来计算新类。具体地,训练的MD由网络参数Θ和原型P基础组成。一旦计算出P_novel,就可以在线变形MD4774PP关于我们Σ|NN∈基地基地不我我 我BGexp(b)+功输出和P(y |p)由原型确定基地JJ一种新的检测器,其参数由Θ、base和novel组成。因此,新的检测器可以检测新的类。3.2. 形变检测器在可变形检测器(MD)中,每个类都与一个原型相关联。假设我们有了基类Pbase={p j},其中j表示类。MD通过RPN [ 41 ]生成建议{xi,yi} ∈ ROI。特征向量。该网络使用基于原型的对比损失进行训练,该对比损失由两个项组成:前地损失和背景损失。 前景损失鼓励建议X1,yiROI的特征向量接近对应的原型,而如果建议属于前景(即,前景),则远离其他原型。y i>0)。因此,前景损失被定义为MD学习基类和fea的原型Σexp(fi·pyi)我(四)真实空间,其中给定样本的特征向量是前预计接近相应的原型,而远LFG=yi>0 −log(exp(b)+ΣPm∈P基exp(fi)的情况下,·pm)远离其他类的原型。目标是最大化可能性:其中pyi是对应于类yi的原型。 当提案属于背景时,对比损失鼓励背景得分高。 后面-xi,yi∈ΣROI,yi>0P(yi|p i)P(p i|xi)+xi,yi∈ROI,yi=0P(yi|(1)接地损耗定义为|x)由净-|x) is determined by the net-我 我2 - 3 - 4 - 5- 6 - 7-8-10yi=0exp(bi)Σ我)的情况。(五)我 M与每一个班级相关联。为了最大限度地提高上述可能性,我们把原型作为一个隐藏的变量,并建议学习它的整合视觉和语义嵌入。特征嵌入和原型在类似EM的方法中交替学习,其中原型在初始训练中用语义向量初始化,并在迭代中递归更新。在“E”步骤中,网络参数Θ是固定的,因此P(pi X i)在等式1中是常数。它的目的是为下一次迭代训练更新原型因此,整体损失是前景损失、背景损失和类不可知的边界框回归损失的总和[41]L= LBG+ LFG+ Lbbox。(六)3.2.2原型更新我们将类j的一个地面真值框表示为x ig j,并且其在网络上的特征向量为(x i)。 然后,我们计算来自每个类j的所有样本的平均特征向量v j为Nt和当前的原型Pt更新原型Pt+1。作为输入,然后输出1vj= |g |ΣN(x i)。(七)t+1t tjxi∈gjP碱基= E(D碱基,N,P碱基)。(二)在“M”步骤中,在原型固定的情况下,P(y i)是|p i)是然后我们使用均值特征向量vj通过将其与当前原型pt融合来计算新原型pt+1常数该优化基本上等同于网络参数的最大似然估计因此,“M”步骤取训练数据D和基类的原型Pt+1作为输入,并输出一个J J(与类j相关联)通过加权元素求和,pt+1=(1−λ)vj+λpt,其中P(p是exp(f·p)Pm∈P基4775联系我们∈NJ|GJ|我(8)其中是0和1之间的常数。注意,在基地新训练的网络模型N电话+1t+1。电话+1λ在元素求和中,原型和平均特征向量都被归一化。N=M(D碱基,P碱基)。(三)该模型通常在几次迭代后收敛3.2.1网络训练给定所提取的建议xi,yiROI,每个建议xi的深度视觉特征被提取为(xi)。由于难以将原型分配给背景,因此MD直接从视觉特征回归背景分数。(xi)通过两个单独的完全一致性被转发连接层以获得背景得分bi∈R1,以及我3.3. 在线变形在线变形是计算新类的新原型,如图2所示。 假设我们有一个来自新类j的地面真值框xigj,并通过网络转发样本以获得特征向量(xi)。属于新类j的所有样本的平均特征向量被用作该类的新原型p=1<$N(x)。(九)xi∈gj特征向量f∈Rd,其中d是4776∈训练数据图3:培训框架(类似EM的方法)。MD的学习是基于EM类方法中的特征嵌入和原型的交替学习。在“E”步骤中,在网络固定的情况下,我们计算特征空间上的每个基类的平均特征向量,以更新与该类相关联的原型(参见第2节)。3.2.2)。在“M”步骤中,在原型固定的情况下,我们使用在“E”步骤中计算的原型来训练网络(参见第2节)。3.2.1)。方法分裂AP1AP 0.5分裂AP2AP 0.5AveAP 0.5OSOD [18]----22.0MD(iter1)20.232.921.132.632.8MD21.533.024.936.134.6表1:我们的方法与FSOD数据集上的不同表2:针对新类别的COCO数据集的前两个分割的单次检测性能比较。4. 实验为了评估我们的变形检测器(MD)对按需对象检测(ODOD)的影响,我们首先对具有挑战性的大规模数据集FSOD [13]进行评估,该数据集对检测器在少数镜头检测设置上的性能进行了基准测试。然后,我们在两个广泛使用的数据集MS COCO [27]和PascalVOC数据集[12]上进行评估,以及现在,我们有了P 小说 ={pj}其中j是类与最先进的几次检测集进行比较-婷最后,作为副产品,我们将其与索引,因此可以检测新类给定测试图像,RPN首先生成建议x iROI,并得到bbox得分b i和特征向量f i。类j的类后验概率是,零发射检测设置的技术。4.1. FSOD数据集数据集和实现 少镜头目标检测exp(fi·pj)(十)(FSOD)[13]数据集被提议用于评估检测器exp(bi)+Σpm∈P基∪P新exp(fi.·pm)其使用基类数据来训练并在新类上进行评估。此数据集包含1000个类,其中然后,通过像其他检测器一样为类得分设置阈值来获得检测到的盒子[41]。盒损耗bboxbbox gt训练数据特征向量对比损失训练数据特征向量方法额外的训练APAP 0. 5FRCNN [41]✓-23.0LSTD [6]✓-24.2FSOD法[13]✗-27.5视觉(ImageNet)✗10.116.3目视检查(FRCNN)✗15.522.6MD(浓缩)✗17.329.9MD(λ=0)✗21.536.2MD(λ = 0. 第三章✗21.335.9MD(λ = 0. 第七章)✗21.636.3MD(iter1)✗18.231.24777800/200分别用于训练集和测试集。训练类和测试类之间没有重叠。有4778]表3:与COCO数据集上的现有技术的性能比较,用于分割3中的新类别。最好的和第二好的分别用粗体和下划线]表4:在三个分割中与最先进的PASCAL VOC数据集针对新类别的性能比较在训练集中有52350个图像和147489个注释框,在测试集中有14152个图像和35102个注释框。我们在我们的模型中使用区域建议网络和Faster-RCNN的类不可知回归。根据[13]中的训练策略,我们使用ResNet-50作为我们的骨干,并在COCO数据集上预训练模型。然后,我们使用包含800个类的基类数据来训练模型,并在包含200个新类的测试集上进行测试。我们为每个新类别随机选择5个样本作为新类别的已知样本[13]。我们用批量大小为4的模型训练50k次迭代,学习率为0.002,另外20k次迭代,学习率为0.0002。使用标准AP 0评估所有模型。5、AP。特征嵌入和语义向量1的维度大小为200。与基线的比较我们首先与使用不同原型初始化的不同基线进行比较。然后,我们在每次迭代后评估MD模型• 视觉(ImageNet/FRCNN)。在我们的MD中,原型类型使用语义向量进行初始化。在experiments中,我们比较对MD的变体,使用可视化功能的原型初始化。为了获得每个类的视觉特征,我们通过训练的Faster-RCNN模型或ImageNet预训练模型来转发基类地面真实样本,以获得在我们的实验中维度为1024的然后,我们使用每个类的平均特征向量作为该类的原型来训练MD。• 迭代结果。在每次迭代之后,我们评估MD模型表1总结了与基线的比较。直接使用ImageNet [8]或FRCNN [41]特征作为原型并不能很好地工作结果表明1 我 们 使 用 从 https : //github 中 提 取 的 语 义 向 量 。com/agnusmaximus/Word2Bits仅使用视觉特征学习的模型不能很好地推广到新类。从文本数据中学习的语义信息提供了关于不同类之间关系的有用信息因此,使用语义向量作为原型的MD(iter 1)相对于仅使用视觉特征的模型获得了显著的改进。这验证了语义向量可以帮助提高模型对新类的泛化能力。注意,语义信息不检查视觉外观。因此,整体表现仍然有限。为了克服这个限制,我们的MD是通过整合视觉和语义嵌入来学习的实验结果表明,视觉和语义的联合嵌入可以显著提高模型我们根据经验发现,经过2-3次迭代后,性能无法进一步提高,因此我们将迭代次数设置为3。消融研究为了研究将平均特征向量和原型组合以计算新原型的最佳方式,我们比较了在初始训练之后,我们对地面真实样本和原型的平均特征向量进行级联或元素求和Eq.中的第一项和第二项(八)。实验结果表明,逐元素求和是一种较好的组合方式,因此MD在剩余的实验中使用逐元素求和。然后,我们比较使用等式中的不同λ的MD。8,我们发现λ=0。5、工作最好。与最先进技术的比较我们与三种最先进技术进行比较 : FSOD 方 法 [13] , FRCNN [41] , LSTD [6] 。FRCNN和LSTD结果由[13]重新实现。我们的MD获得AP 0。5比FSOD提高10分,比LSTD提高13分与FSOD方法[13]不同,它将方法我们(1次)FSView [48](1次)LSTD [6](10发)MetaYOLO [20](10发)MetaDet [47](10发)MetaRCNN [49](10发)TFA w/fc [46](10发)TFA-w/cos [46(10发)APAP 0.5AP0. 759.715.09.94.512.42.23.28.12.15.612.34.67.114.66.18.719.16.610.0-9.210.0-9.3方法我们FSView [48]LSTD [6]MetaYOLO [20]MetaDet [47]MetaRCNN [49]TFA w/fc [46]TFA w/cos[46分流153.224.28.414.818.919.922.925.3分割241.621.611.415.721.810.416.918.3分流338.621.212.621.320.614.315.717.94779阵因此,我们的检测器具有更好的推广性,新的类。为了验证MD可以很好地推广到新的类别,我们从测试集中随机选择了50个类别,并通过t-SNE工具可视化特征向量[44]。图5示出了来自大多数新类的对象在学习的特征空间上被聚类在一起。计算时间使用单个RTX 3090 GPU添加一个新类在ResNet 50中大约需要0.04秒,在ResNet 101中大约需要0.09秒。4.2. Pascal和COCO数据集和实现在Pascal VOC [11]上,VOC 07和12个训练/验证集用于训练,VOC 2007测试集用于测试。为了与最先进的方法[20,6,49]进行公平比较,我们遵循[20]使用相同的新颖分裂。在MS COCO [27]上,我们遵循[25]并使用80k个训练图像和35k个val图像子集(trainval35k [3])的并集来训练模型,并报告在5k个val图像子集(minival)上执行的测试。我们将COCO数据集中的80个类分成5个不同的语义聚类,并从每个聚类中随机选择两个类作为新类(即新类)。共10班)。我们使用这种策略随机选择两个分裂。在拆分1中,我们选择在拆分2中,我们选择为了与大多数少数发射检测器[20,6,49,47,46,48]进行公平比较,我们还使用与它们相同的分裂进行实验(即,使用20个PascalVOC类作为新类)。在这些少量检测器之后,我们在训练中忽略新类别注释,并在测试中为每个新类别随机选择一个示例作为给定示例。因此,我们进行一次性检测实验。我们使用ResNet-101 [17]作为主干,并分别为Pascal VOC和COCO训练批量大小为4的模型,用于50 k次迭代和初始学习率为0.002,对于Pascal和COCO,在40k和120k次迭代后,初始学习率降低到0.0002。我们使用FSOD实验中使用的相同嵌入大小和语义向量。4.3. 小说类表2总结了第1部分和第2部分COCO数据集的比较。在迭代过程中,MD的性能在两个分裂上一致地提高。这验证了所提出的EM类方法的有效性。我们还使用平均性能与单次检测器[ 18 ]进行比较,单次检测器[18]在其他四个随机分裂上进行实验。与[13]相同,OSOD[18]将“查询-目标”对作为输入。因此,我们的MD比[18]对新类具有更好的推广性。Ta-方法分流1APAP 0.5分割2APAP 0.5分流3APAP 0.5AveAP 0.5FRCNN [41]37.359.936.958.737.059.159.2OSOD [18]------40.9MD(iter1)37.560.637.259.337.259.059.6MD37.860.736.959.037.559.259.7表5:基类在COCO数据集上的性能比较表3总结了与COCO数据集的几种最新技术[20,6,49,47,46,48]的比较。其中,只有FSView [48]报告了它们在单次检测设置上的性能。对于其他人,他们在论文中报告了他们的10杆表现。我们的方法在1次检测设置中以较大的幅度执行FSView,并且即使我们只使用1次数据,也优于大多数其他方法。更重要的是,由于所有这些方法都需要额外的训练,它们不能像我们的方法那样部署在嵌入式系统上请注意,性能可能因不同的拆分而异。原因是由于原型类型是用语义向量初始化的,基类和新类之间的关系会影响MD在前两次分裂中,基类和新类是基于类的语义簇进行分裂的,因此它们的结果明显优于分裂3.表4总结了与Pascal VOC数据集的三个分割的最新技术的比较。我们的MD在三个分裂上的表现远远优于最先进的技术。我们的MD利用语义和视觉信息来帮助将训练模型推广到新的类别。4.4. 基类比较表5和表6总结了与我们的基线和Pascal和COCO数据集上基类的最新技术我们的MD在迭代中对基类获得了明显的更好的性能。这验证了所提出的EM类算法可以帮助提高模型对基类的不可见样本的泛化能力。我们的MD比OSOD [18]表现得更好,OSOD将这验证了OSOD [18]学习基类的判别特征要少得多。与国家的最先进的几杆检测器相比,我们的MD执行最好的基类。原因是这些FSD模型采用少量的基类数据来进一步训练模型,因此这些模型很容易过拟合到小数据。与FRCNN [41]相比,我们的模型仍然可以胜过它。这显示了我们的MD在基类上优于FRCNN的优势请注意,FRCNN不能在没有额外训练的情况下推广到新的类。4.5. 与零发射探测器的作为副产品,我们还在零激发检测设置下执行MD。在训练中,我们使用语义向量-4780图4:我们提出的变形检测器在FSOD测试集上的一些定性结果。方法召回@100AP 0.5S-B [2]22.40.7DSES [2]27.20.54TD [24]34.3-DELO [55]33.57.6MD(分流1)44.89.4MD(拆分2)47.29.8MD(拆分3)27.04.2表7:在COCO数据集上针对新类别的零发射检测设置下的比较。图5:来自在学习的MD上的FSOD测试集中随机选择的50个新颖类的对象方法分流1分割2分流3AveMetaRCNN [49]64.8--64.8TFA w/cos [46]79.2--79.1OSOD [18]---60.1MD(iter1)80.281.678.480.1MD80.782.179.280.7表6:针对基类的PASCAL VOC数据集的性能比较。作为原型来训练MD的基类的tors在测试中,我们使用新的类的语义向量作为新的原型。 表7总结了使用标准评估度量recall@100和AP 0与最先进的零发射检测器的比较。五、我们的MD在前两次分裂中获得了非常令人印象深刻的结果分割3的性能不如其他两个分割因为拆分3上的基类和新类之间的关系并不像其他拆分那 样 有 多 大 帮 助 。 我 们 的 MD 获 得 了 平 均 39.7Recall@100,这是优于其他零拍摄检测器。5. 结论在本文中,我们专注于一个非常具有挑战性的任务:按需对象检测(ODOD)任务。目前流行的FSD方法不能很好地解决这个问题,因为ODOD不需要额外的培训。我们提出了一种新的变形检测器(MD),简单地MD的学习是基于特征嵌入的替代学习和类似EM的方法中的原型,其允许从新类别的几个样本中更好地恢复未知原型进行了大量的实验,以证明MD的优越性。致谢我们感谢Pengbo Zhao对本文写作的支持。这项工作 得 到 了 国 家 科 学 基 金 会 资 助 IIS-1619078 、 IIS-1815561和IIS-2007613的部分支持。4781引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。 用 于 图 像 分 类 的 标 签 嵌 入 IEEEtransactionsonpatternanalysisandmachineintelligence,38(7):1425-1438,2015. 2[2] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第384-400页,2018年。二、三、八[3] Sean Bell,C Lawrence Zitnick,Kavita Bala,and RossGir- shick.内外网:用跳跃池和递归神经网络检测上下文中的对象。在Proceedings of the IEEE conference oncomputer vision and pattern recognition , pages 2874-2883,2016中。7[4] Zhaowei Cai,Quanfu Fan,Rogerio S Feris,and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议,第354-370页。施普林格,2016年。2[5] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集,第6154-6162页,2018年。二、三[6] Hao Chen,Yali Wang,Guoyou Wang,and Yu Qiao.Lstd:用于物体检测的低拍摄传输检测器。2018年第三十二届AAAI人工智能会议。二五六七[7] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展,第379-387页,2016年。3[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。6[9] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写一个分类器:使用纯文本描述的零镜头学习。在Proceedings of the IEEE International Conference onComputer Vision,第2584-2591页,2013中。2[10] Mohamed Elhoseiny , Yizhe Zhu , Han Zhang , andAhmed Elgammal.将头部与“喙”连接起来:零拍摄学习-ING从嘈杂的文字描述在部分精度。在2017年IEEE计算机视觉和模式识别会议中,第6288-6297页。IEEE,2017年。2[11] M. Everingham,S. M. A.埃斯拉米湖凡古尔角,澳-地K.I.威廉斯,J. Winn和A.齐瑟曼。Pascal视觉对象类挑战:回顾。 International Journal of Computer Vision,111(1):98-136,Jan. 2015. 7[12] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。一、五[13] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在CVPR,2020年。一、二、五、六、七[14] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。24782[15] Ross Girshick , Jeff Donahue , Trevor Darrell 和Jitendra Malik。丰富的特征层次结构,用于精确的对象检测和语义分割。在Proceedings of the IEEEconferenceoncomputervisionandpatternrecognition,pages 5802[16] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议的论文集,第3018-3027页,2017年。2[17] Kaiming He ,Xiangyu Zhang, Shaoying Ren , andJian Sun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 在Proceedings of the IEEE conference on computer visionand pattern recognition,第770-778页,2016中。7[18] Ting-I Hsieh,Yi-Chen Lo,Hwann-Tzong Chen,andTyng- Luh Liu.具有共同注意和共同激励的单次目标检测。神经信息处理系统进展,第2725-2734页,2019年二、五、七、八[19] Xiaotang Jiang,Huan Wang,Yiliu Chen,Ziqi Wu,Lichuan Wang,Bin Zou,Yafeng Yang,ZongyangCui , Yu Cai , Tian-hang Yu , Chengfei Lv , andZhihua Wu.Mnn:一个通用高效的推理机。在MLSys中,2020年。1[20] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE计算机视觉国际会议集,第8420-8429页,2019年。一、二、六、七[21] Leonid Karlinsky、Joseph Shtok、Sivan Harary、EliSchwartz、Amit Aides、Rogerio Feris、Raja Giryes和Alex M Bronstein。Repmet:基于代表性的度量学习,用于分类和少量目标检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第5197-5206页,2019年。二、三[22] Christoph H Lampert,Hannes Nickisch,and StefanHarmeling.学习通过类间属性转移来检测不可见的对象类。在2009年IEEE计算机视觉和模式识别上,第951IEEE,2009年。2[23] Christoph H Lampert,Hannes Nickisch,and StefanHarmeling.基于属性的零镜头视觉对象分类。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(3):453-465,2013. 2[24] Zhihui Li , Lina Yao , Xiaoqin Zhang , XianzhiWang,Salil Kanhere,and Huaxiang Zhang.具有文本描述的零拍摄对象检测。在AAAI人工智能会议论文集,第33卷,第8690- 8697页,2019年。二、三、八[25] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。二、三、七[26] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年2[27] Tsung-Yi Lin , Michael Maire , Serge Belongie ,JamesHays , PietroPerona , DevaRamanan ,PiotrDolla'r,andCLa wrence4783齐特尼克 微软coco:上下文中的公用对象。 在欧洲计算机视觉会议,第740Springer,2014. 一、五、七[28] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。2[29] Michael McCloskey和Neal J Cohen。连接主义网络中的灾难性干扰:顺序学习问题。《学习与动机心理学》,第24卷,第109-165页。爱思唯尔,1989年。2[30] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。神经信息处理系统的进展,第3111-3119页,2013年。3[31] Tsendsuren Munkhdalai和Hong Yu。Meta网络。国际机器学习会议,第2554- 2563页PMLR,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功