没有合适的资源?快使用搜索试试~ 我知道了~
DOCK:检测对象通过传递常识Krishna Kumar Singh1,3[0000−0002−8066−6835],Santosh Divvala2,3[0000−0003−4042−5874],Ali Farhadi 2,3[0000−0001−7249−2380],Yong Jae Lee1[0000−0001−9863−1270]1加州大学戴维斯分校2华盛顿大学3艾伦人工智能研究所https://dock-project.github.io抽象。我们提出了一个可扩展的方法检测对象的常识知识(DOCK)从源到目标类别。在我们的设置中,源类别的训练数据具有边界框注释,而目标类别的训练数据仅具有图像级注释。 当前最先进的方法集中在图像级视觉或语义相似性上,以使在源类别上训练的检测器适应新的目标类别。相比之下,我们的关键思想是(i)不在图像级别使用相似性,而是在区域级别使用相似性,以及(ii)利用更丰富的常识(基于属性,空间等)。以引导算法学习正确的检测。我们从现成的知识库中自动获得这些常识性线索,而无需任何额外的人力。在具有挑战性的MS COCO数据集上,我们发现常识知识可以大大提高现有迁移学习基线的检测性能1介绍近年来,目标检测取得了惊人的进展,其中全监督检测器产生了惊人的结果。然而,获得大量的边界框注释已经成为这种设置的致命弱点。为了解决这种可扩展性问题,将知识从源类别(具有边界框)转换为类似的目标类别(仅具有图像标签)的转移学习方法已经发展成为一种有前途的替代方案[37,17,32,39]。虽然最近的工作[17,18,39]已经证明了迁移 学 习 在 以 对 象 为 中 心 的 数 据 集 ( 如ImageNet)上的令人兴奋的潜力,但尚未在更复杂的以场景为中心的数据集(如MS COCO)上进行彻底探索。为什么会这样呢?我们假设三个关键挑战:(i) 现有的迁移学习方法仅依赖于源目标相似性知识图1.一、猜猜物体?类别来计算需要传输的转换。不幸的是,仅使用相似性通常是不够的。例如,您能否仅使用所提供的相似性线索来猜测掩蔽图像中的橙色区域提案(图10)。1)?(ii)现有的方法依赖于具有稳健的图像级2K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李用于传递知识的对象分类器,其对于像ImageNet这样的以对象为中心的数据集是容易获得的,但是对于像MSCOCO这样的以场景为中心的数据集是具有挑战性的(其中,多个对象和多个对象如果图像分类器表现不佳,则将其转换为检测器也不会表现良好。(iii)最后,如果目标类别的实例频繁地与源类别共现,则目标类别区域可以被发现并可被识别为“bakground”,同时在本文中,我们克服了上述限制,提出了一 种 新 的 方 法 , 通 过 转 移 常 识 知 识(DOCK)检测对象。为了克服第一个限制,我们的关键思想是利用常识知识的多种来源。具体地,我们编码:(1)相似性,(2)空间,(3)属性,以及(4)是的。对于执行,如果点位于数据集的一部分在源类别中,我们可以学习如何更好地检测源的位置,方法是根据源类别中的“k”、“t”、“t”和“t”来确定源的位置,这通常是对“k”、“t”、“t”和“t”的简单描述。 Fig. 图2示出了另一种场景,其建立在图1的基础上。1例。图二.使用多常识提示,你现在能猜出橙色盒子对应的物体吗?(For答案见[1])以这种方式,即使目标类在源类中不具有视觉上/语义上相似的类,其他常识也可以帮助获得更好的检测器。我们使用的所有常识知识都是从现成的外部知识库中自由获取的[23,29,27,38,19,44]。此外,我们的ap-proach学习所有需要的常识模型,只使用源类边界框注释,不需要任何边界框注释的目标类别。为了解决后者的局限性,我们的想法是直接在区域级,而不是在图像级的对象建模。为此,使用具有用于目标对象类别的图像级标签的区域提议来学习的任何检测在本文中,我们使用基于[5]的对象建议分类和排名检测框架,以获得其简单性和竞争力。 它通过最小化图像分类器来学习对象检测器。我们将共同的概念引入到这个框架中,通过我们提出的常识先验概率来模拟可能发生的事件所提出的先验对更可能(在常识下)属于感兴趣对象的区域给予更高的偏好有趣的是,由于常识线索仅被编码为先验信息,因此我们的算法可以在它们不适用时选择忽略它们这特别有助于减轻当频繁共现的数据集被视为或确切地被称为“分组增长”时的担忧。我们在具有挑战性的MS COCO数据集上评估了我们的方法[22]。我们发现,转移常识知识大大提高了对象DOCK:通过传递常识知识来检测对象3与其他当代迁移学习方法相比,缺乏边界框注释的目标类的检测性能[17,18,39]。我们还进行消融分析,以检查我们提出的编码常识的想法的贡献。最后,我们探讨了我们提出的框架在网络监督对象检测的背景下的潜力2相关工作可扩展对象检测的迁移学习 现有的迁移学习方法可以大致分为两组:一个使用源和目标类别的边界框注释进行学习[36,3,21,11,43,40],另一个使用源类别的边界框注释但仅使用目标类别的图像级注释进行学习[37,17,18,32,39]。在本文中,我们感兴趣的是后一种设置,这是困难的,但可能更具可扩展性。特别地,[17,18,39]的最新技术水平的深度学习方法通过学习源类别上的分类器和检测器之间的特征变换来将图像分类器适配为对象检测器,并且基于仅存在分类器的视觉或语义相似性虽然我们的方法还利用预训练的对象检测器来编码视觉和语义相似性,但我们探索了其他常识线索,如空间和属性知识。此外,两个[17,39]都在图像级别使用相似性信息(仅在ImageNet等以对象为中心的数据集上效果良好),而我们的方法在区域级别使用相似性。所有这些贡献共同帮助我们在以场景为中心的MS COCO数据集上实现了显着的性能提升。使用上下文。 我们对常识的使用与先前关于上下文的工作有关,其中,通过对对象的可视应用程序的分析,可以对上下文进行分级和定义。上下文已用于各种视觉任务,包括对象检测[31,9,8,33,4,15],语义分割[28]和对象发现[20,10]。 由于定义的上下文是经常与感兴趣对象共同出现的东西,因此在没有边界框注释的情况下,上下文区域可以容易地与感兴趣对象混淆(例如,与感兴趣对象混淆)。G. 一段“r oad”可以与“c ar”一起执行)。 我们的方法试图通过使用外部常识来解决这个问题根据目标对象与先前学习的源对象的空间关系来对目标对象的上下文进行建模。这个想法与[20]有关,它利用了已知的对象,以发现新的类别从未标记的图像。使用外部知识进行视觉任务。 我们的领域已经见证了几个有趣的知识库的兴起,包括ConceptNet [23],BabelNet [29],WordNet [27],WebChild [38],Visual Genome [19],ImSitu [44]等。虽然像WebChild [38]和BabelNet [29]这样的资源是通过抓取网络自动创建的,但其他资源是通过众包工作生成的。关键优势这些资源的一个重要特点是,它们包含免费提供的丰富知识。这样的外部知识库已经用于若干视觉任务中,包括图像分类[25,7]、VQA [47,41]、视觉关系检测[24,25]、视觉关系检测[26,27]、视觉关系检测[28,29]、视觉关系检测[29,29]、视觉关系检测4K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李基地探测网分类矩阵X图三.提出了一个框架,用于传输对象检测的常识知识。基本检测网络计算分类矩阵XP×C,而不使用任何边界框注释(第3.1节)。我们引入了一个常识矩阵YP×C,它根据常识知识调节区域建议属于各种类别的概率(3.2节)。常识矩阵是使用现成的知识库资源计算的(第3.3节)。30],以及建模对象示能表示[46]。然而,在使用外部知识进行对象检测方面的工作非常有限[13],特别是在缺乏目标类的边界框注释的迁移学习设置Tang等人[39]使用类之间的word2vec语义相似性来执行分类器和检测器之间的域转移。相比之下,我们超越了使用语义相似性,并探索空间,场景和属性线索。3该方法在本节中,我们首先简要描述我们的框架中使用的基础检测网络,然后解释我们提出的将常识知识注入其中的方法。最后,我们描述了我们的过程中自动收集不同类型的常识性知识,从现有的资源。3.1基地探测网我们的想法转移常识知识,以提高对象检测是通用的,可以纳入任何检测方法,学习从图像级标签。在我们的工作中,我们使用一个对象建议分类和基于[5]的排名框架,因为其简单性和端到端的性质。网络的初始层由卷积层组成,随后是空间金字塔池化层,以池化对应于图像区域提议(ri)的特征。在池化之后,网络具有两个数据流:识别流通过在类上应用soft-max来为每个区域建议分配分类得分,以产生P×C识别矩阵Xr,而检测流通过在建议上应用softmax来为特定类分配要选择的区域建议的概率,以产生P×C检测矩阵Xd。每个提案属于不同类别的最终概率是通过取它们的逐元素点积X=Xr⊙Xd来计算的。该网络以训练图像的P个建议作为输入,并输出概率R1最终矩阵ZRP逐元素乘积R2常识性常识矩阵Y输入:训练图像,图像分类损失图像类别标签X1.1 X1,2....... X1,CX2.1 X2.2....... X2,C............XP,1XP,2....... XP,CZ1,1Z1,2.......Z1、CZ2,1Z2,2.......Z2、C............ZP,1ZP,2.......ZP,CY1.1 Y1.2....... Y1,CY2.1 Y2.2....... Y2、C............DOCK:通过传递常识知识来检测对象5每个人都属于C类。这在图3中示出为P×C分类矩阵X请注意,网络在为图像分类任务进行训练的同时学习检测对象。图像级类别概率是通过对每个类别的概率(ci)在提议上求和而获得的:概率(ci)= ΣPn=1Xrn,ci,i∈(1,C),其中Xrn,ci是提案rn属于类别ci的概率。在概率上应用二进制交叉熵损失来学习检测模型。3.2传递常识为了将常识知识从具有图像和边界框注释的源类别转移到仅具有图像级注释的目标类别,我们用大小为P × C的新常识矩阵Y(类似于在rixXP×C处 的 分 类 m)来增强上述基础检测网络。对于Yr n的元素,可以根据常识知识来确定属于类别ci的建议r n的“优先”概率(参见图1)。(3)第三章。我们将为每种类型的常识(相似性、属性等)维护一个单独的常识矩阵和稍后(第3.3节)描述了获取和合并这些矩阵的细节假设我们可以访问这个常识矩阵Y,我们利用这个信息,将它与分类矩阵(X)进行逐元素点积,以创建一个结果矩阵ZP×C:概率(ci)= ΣPn=1Yrn,ci*Xrn,ci=ΣPn=1Zrn,ci,i∈(1,C),其现在将用于获得图像级类别概率,在该图像级类别概率上应用二进制交叉熵损失。例如图3,属性常识矩阵(其将编码在“zebra”处被描述的常识)将具有对于“zebr a”的概率P的低概率(YrP,zebr a)。而且,与斑马全身方案(Yr 2,斑马)相比,该类别的最小化通用性(其中将在“zebra”处对通用性进行编码)将具有较低的价值,适用于直观地,常识矩阵Y影响分类矩阵的值阳离子矩阵X,并且随着时间的推移,常识优先级从Y转移到X。为了使这种直觉更清楚,我们以F ig. 3.第三章。由于它不可能是一个“ze”,因此它的价格会更高布拉岛例如,PZr,斑马=PY r,斑马线X r,斑马线应该很高。这可以n=1nn =1n n如果Yrn,zebra和Xrn,zebra都很高,在这个例子中Yr2,斑马是高的,根据常识,这反过来又鼓励网络具有高的Xr2,斑马值。同时,由于Yr1的低值,斑马6K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李带有区域提案的图像Szebra={horse,cow,sheep,相似性YS斑马见图4。相似性常识:为了计算Ys(. zebra)值时,输入图像的所有部分都由zebra的S e mam a n ticaa的D et e c t o r ed etector e d e d e e d e d 根据实施例2,其中,该区域的全约束结构具有最高的Y值。和YrP,zebra,则不鼓励网络具有高的Xr1,zebra和XrP,zebra的值。因此,在训练过程中,网络学习将Y矩阵的常识先验信息合并到X矩阵中。3.3获取常识现在我们已经看到了我们如何传输常识信息(即,ma-marty)到基本检测框架中,接下来我们解释我们使用现有知识资源自动收集该矩阵的方法。类相似性常识。 我们的目标是利用新目标类与以前学习的源类的语义相似性。例如,由于“zebra”对“h”或“e”而言是简单的,因此通过“h”或“e”来确定更高的区域的方案将更容易实现“zebra”。通常,对于任何类别C1,看起来类似于其语义上类似的类别的建议应该接收C1的更高优先级。为了构建类相似性常识矩阵Ys,我们利用PASCAL VOC [12]知识库中源对象类(Csource)的现成的预训练检测器集(φ)让ci是新的目标对象类中的一个,我们正试图学习仅具有图像级标签的检测器为了找到语义相似的源类的集合(即,SciCsource)到ci,我们使用它们的word2vec文本特征表示[26]来表示所有类(ci以及Csource我们从C源代码中选择余弦相似度高于阈值(0. 35)作为Sci.我们使用Sci中的类的检测器来计算Ys中的值,如下所示:Ys(rn,ci)=maxφcj(rn),n∈(1,P).cj∈Sci具体地,我们将建议r n的值Y s(r n,c i)设置为类c i,等于与c i类似的类的最大检测概率。图4示出了类相似性常识Y s如何在将类相似性标记为s的情况下被分配,其中S z e e b c on s是源类相似性标记为s e s {“h or se” , “c o w” , “s h e e p” , “d og” , “c at” , “b i r d”} 的 ts 。Observethatacorrectppo sal(i. 例如, r2可以在S斑马中的对象检测器对它进行更高的评分时获得更高的测试一致性一致性概率。R1max(φhorse,φ cow,φsheep,RPmax(φhorse,φ cow,φsheep,R2max(φhorse,φ cow,φsheep,DOCK:通过传递常识知识来检测对象7cj,rel图五. 属性常识:为了计算Ya(.,时钟)值时,我们将自动分类器应用于前处理器上的“关闭时钟”的自动分类器。 Obser veth a ttin g a“clock”w i t hi t h i ng&a t i t h i t h i t i t h i t h i t i t h i t i n g a t h i t i t h i t i t h i t h i t i t h i t i t i g at i t i n g a t i ti属性常识。 属性是中级语义视觉概念(例如,毛茸茸的、红色的、圆形的等等)可以在对象类别之间共享[14]。例如,“应用程序”通常被记录,“时钟”通常被记录,等等。 具有特定类别的特征属性的前向提案应更有可能属于该类别。为了构建属性常识矩阵Ya,我们利用来自ImageNet Attribute [35]知识库的预训练属性分类器集(θ)和来自Visual Genome [19]知识库的现成对象-属性关系集。设ci是我们试图学习检测器的新目标类别之一,并且Aci是其公共属性的集合(由用于描述ci的频率确定)。使用Aci中的属性的分类器来计算矩阵Ya的值,如Ya(rn,ci)=maxaj∈A ciθaj(rn),n∈(1,P).由于ImageNet [35]知识库中的属性(我们在这项工作中使用的)已经被另外分组为颜色Acol,形状Ashape和纹理Atext属性的集合,因此我们通过更新Ya(rn,ci) 来采用此信息:Ya(rn,c i)=mean(Ycol(rn,ci),Yshape(rn,ci),Ytext(r n,c i)),其中Ycol,Yshape,Ytext具有a a a从计算机上下载Acol、Ashap、Atextdomains。 IinFig. 5.对于“clock”类,包含其属性的建议r1,即,白色/黑色和圆形,得到最高的Y值,而其他建议(r2,rP)得到较低的值,因为它们在最后一个节点处使字符串“闭合”。空间常识在我们的日常经验中,对象经常以与其他对象相关的方式出现。例如,“bow”是“不可用的”,“bac k p ac k”是“不可用的”,等等。具有目标类与其他源类的特征空间关系的建议书应该更有可能属于该目标类。为了获得空间关系常识矩阵Ysp,我们利用Visual Genome [19]知识库中包含视觉接地三元组的源对象类Csource的相对位置和大小的信息{object1,relation,object2}。对于C源中的每个类cj,我们对相对位置分布γL进行建模,γ L在给定关系rel下对所有其他源对象的像素级概率进行编码。例如图图6示出了对象相对于8K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李cj,relcj,rel人,沿图六、空间常识分布:我们对相对位置分布进行建模分配γL对所有其他源对象的逐像素概率进行编码;在给定关系rel下的给定对象cj(显示为红色框)。以使所有源代码都能正常运行。同样地,对于C源中的每个类cj和给定的关系rel,我们也对相对关系rel建模。粒径分布γS.请注意,这些分布只一次仅使用源类然后可被重新用于任何目标类(即,而没有用于C目标类的边界框注释对于来自Ctarget的新目标类ci,我们首先使用来自[19]1的{object1,relation,object 2}三元组信息收集其相对于Csource中的源类cj的最常见关系,然后计算Ysp矩阵:Y(r ,c)=max1(γL(x中心)+γS(面积))的情况下,SPn我cj∈C vis2cj,rel rncj,relrn其中,X中心和面积表示中心坐标和提议的大小,并且Cvis是来自C个源的类别的子集,这些类别在给定图像中可见,其中它们的位置通过运行预先训练的检测器Φ来确定。I inFig. 7、该产品的销售额为该公司的库存量提供了较高的Y值因为它与其他区域和γ L同步分布场景常识。 某些对象在某些场景中比其他对象出现得更多; e. G. 我们的船更像是在一个海滩上找到的。因此,与类ci相关联的图像分割场景更可能包含ci的实例。为了获得场景常识矩阵Ysc,我们利用场景理解(SUN)[42]和地点[45]知识库。这些数据库不仅包含关于不同对象类别的通常出现的场景标签的信息,而且还提供对预先训练的场景分类器(β)的访问。令SC_c_i表示与新目标对象类c_i相关联的场景标签的集合,并且如果给定Σn_m_age_c_n_i,则Y可以被计算为:Ysc(rn,ci)=sj∈SCci βsj(I),n∈(1,P). 所有预处理数据均在最短时间内达到最高值类ci的先验,如果I描绘了经常包含类的实例的场景c岛注意,该场景常识知识在有噪声的图像级标签(例如,在网络监督设置中),并且当我们已经具有指示图像中对象的存在/不存在的干净的人类注释标签时可能不相关。1对于任何目标类,我们通过分析通常用于将其与源类相关联的rel从现有知识库[19,38]中收集这些信息DOCK:通过传递常识知识来检测对象9图7.第一次会议。 空间常识:Ysp(., 滑板)值是通过测量与类上的其它部分的相似性相关的概率的高值来计算的。根据我们的新知识库[19],“长时间”是与知识库和分类相关的最大成本。 Obser vethepoporPethehestypalue。4实验结果分析在本节中,我们报告了定量和定性分析,以验证传递常识知识对对象检测的好处。我们还进行消融研究,以解剖我们方法的各个组成部分数据集。最近用于对象检测的最先进的迁移学习方法[17,39]将其分析限制在ImageNet [34]。虽然该数据集已经在该领域取得了实质性进展,但我们认为将迁移学习范式提升到下一个水平的时机已经成熟,即,更复杂的MS COCO [22]基准。MS COCO数据集不仅在其多样性方面具有挑战性(非图标视图,大小不等等)。而且在类的数量上也是如此,因此对于不能访问目标类的边界框注释的方法提出了严峻的挑战。我们相信,我们利用多种常识的想法将更适合应对这一挑战。回想一下,在我们的框架中,我们使用PASCAL VOC对象检测器作为常识知识的来源之一(即,用于相似性和空间)。因此,我们避免使用MS COCO数据集内的20个VOC类(C源),并将我们的分析集中在剩余的60个对象类(C目标)上。我们使用MS COCO 2015训练图像训练我们的网络,对验证图像进行评估,并使用标准性能指标(具有50% IoU阈值的mAP)。实作详细数据。 我们的基础网络[4]使用VGG-CNN-F [6]初始化。 我们训练网络,前20个epoch的学习率为10- 5,接下来的10个epoch为10 - 6。在训练过程中,图像随机水平翻转并缩放到5个尺度之一:800×608,656×496,544×400,960×720和1152×864。在测试过程中,我们对相应的10个检测分数取平均值,并在过滤出概率小于10−4的建议后应用NMS,重叠阈值为0.4。我们使用MCG [2]对象建议。为了为了组合常识矩阵(Ya,Ysp,Ys),我们取三个矩阵的平均值并获得Yall,其用于训练基础网络。虽然我们的方法涉及一些特定于任务的见解,以有效地利用常识知识,但我们发现我们的方法在很大范围10K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李方法AP APS APM APLClassif icatonNetork(3.40.92.96.1LSDA [17]4.61.25.17.8LSDA+语义[39]4.71.15.18.0LSDA+MIL [18]5.91.58.310.7微调探测网络10.81.28.918.6该方法14.4 2.0 12.8 24.9Oracle:完整检测网络[16]25.25.826.0 41.6表1. MS COCO验证集的检测结果。我们提出的方法大大改进了现有的迁移学习方法。当构造这些常识矩阵时的选择(例如,相似性常识的相似已知类的数量、空间常识的已知/未知类之间的公共关系的数量等)。对于相似性常识,我们使用300-d word 2 vec表示来表示每个类名(使用Google新闻数据集上的预训练模型获得[26])。4.1定量结果表1给出了使用我们的方法获得的结果,并将其与其他相关方法进行了比较。作为上限,我们还包括全监督Fast-RCNN [16]检测结果(使用VGG-CNN-F并使用目标类的绑定框注释进行训练),获得25.2%mAP。虽然我们的方法远远低于这个上限,但它向我们揭示了使用常识弥合与完全监督方法之间差距的可能性。与迁移学习比较。最相关的最先进的迁移学习方法是LSDA [17],[18]和[39]。然而,由于[17,18,39]既没有报告具有挑战性的MSCOCO数据集的结果,也没有提供其训练代码,我们重新实现了LSDA [17]2。在60MS COCOC目标类别上运行该基线产生4.6%mAP,其实质上劣于我们提出的方法(14.4%)。我们假设LSDA框架在MS COCO数据集上的性能较差,原因如下(i) LSDA方法[17,18,39]固有地限于仅利用相似性常识。虽然相似性在以对象为中心的数据集的情况下是足够的,但是更丰富的常识(诸如属性、空间等)可以是更好的。在处理复杂的以场景为中心的数据集时需要利用此外,当C源的大小较小时(例如,在我们的MS COCO实验中,一组20个类),相似性在收集C目标和C源类之间的有意义的邻居时无法很好地工作。因此,LSDA方法不能成功地转换分类器。特别地,当C源和C目标中的类之间的相似性重叠差时,LSDA中从convl到fc7层的权重的类不变变换将不能很好地我们的方法减轻了2、与我们的相似:对MS COCO和VOC的所有训练图像使用图像级标签,仅对20个VOC类使用边界框,VGG-CNN-F作为基础网络。DOCK:通过传递常识知识来检测对象11通过明确地使用每个图像的C个源类别的检测概率(而不是进行权重变换),并且还通过使用其他常识知识(属性,空间等, 在没有类似的C源类的情况下,其权重更大)。(ii) 由于MS COCO具有多个类别和小对象的图像,因此在LSDA方法中学习的初始分类器网络很差(仅给出3个。4%mAP,参见表1顶行),因此转化它导致差的检测器。 我们的方法通过采用建议分类和rankingdetetetetitionetw或k(11)来减轻这种担忧。7%mA P,参见表2,“B as en et w or k”)。(iii) 最后,图像中的类同现对LSDA方法提出了严峻的挑战。对于示例,在大规模检测的情况下,操作员(在20C的外部检测中)是“可识别的”,其中与它同时发生并且因此传递它的检测知识将对检测器造成混淆。我们的方法对于不正确相似性的这种情况是鲁棒的,因为在我们的定向网络训练期间,这种简单的形式仅被用作“优先级”。通过微调检测网络进行迁移学习 我们还探索了一种替代的迁移学习策略,在该策略中,我们使用来自源类别的预训练Fast-RCNN权重初始化我们的基础检测网络(第3.1节),然后仅使用图像级标签对目标类进行微调。虽然这种方法产生的mAP比LSDA相对更高,为10.8%,但仍然低于我们的方法。我们认为这是由于网络权重对20C源类过拟合,随后未能很好地推广到60C目标类。相比之下,我们的方法没有这种过拟合问题,因为我们使用来自更一般的网络(在1000个ImageNet类上训练)的权重初始化我们的基础检测网络,然后使用20个C源类预训练的检测模型仅用于计算相似性常识。利用常识的替代方法。为了分析我们提出的利用常识的方法的重要性,我们还研究了利用常识线索的替代策略,其使用与我们的方法完全相同的第一种策略使用常识作为上下文后处理工具[9]。具体地,对于测试图像,我们计算常识矩阵Y,并且然后经由逐元素乘法来调制其分类矩阵X以产生最终矩阵X:Ztest=Xtest·Ytest。 表2(“Pos t - p r o cess”)示出了使用该后处理策略获得的结果,其获得11。8%(14。当在训练期间还使用常识矩阵Y时,为1%观察到后处理结果低于我们的方法,该方法仅在训练期间而不是在测试期间传递常识。这表明X在训练期间已经结合了常识知识,因此在测试时使用Y是多余的。当在测试期间引入Y时,常识难以修正检测器可能已经学习的任何不正确的偏置(例如,仅聚焦于对象的最有区别的部分)。它甚至可能伤害任何错误的常识信息Y不能12K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李方法基础网络替代品消融我们后处理特征 Attr 空间 SIM 联合+Sim(Bbox)地图11.711.8/14.112.712.213.013.7 14.114.4Table2. 特别是在MSCOCO数据库中:“B a sene t w o rk”是需要保存的数据通过使用我们的基础设施,我们可以在不受限制的情况下完成工作。所有这些都是利用常识知识的一种长期策略。 它们的性能低于我们的改进型模型,因为这是我们的预处理器的适应性。最佳描述了使用每个常识线索在基础网络上获得的改进。结合所有常识线索产生指示它们的互补性的最佳结果当在测试时直接使用时避免。相比之下,通过在训练期间传递常识,它可以引导算法学习聚焦于正确的图像区域。用于利用常识的第二替代策略分析通过简单地访问预先训练的对象/空间/属性分类器来提高检测性能的可能性。在这种情况下,我们在训练过程中将一个45维特征附加到每个建议的fc7外观特征上。前20个维度对应于20个C源类的检测概率,其余25个维度对应于在ImageNet属性知识库上预训练的分类器(θ虽然该模型产生与基础检测相比1.0%mAP的提高,但k(表2’Feature’)为1。7%,比我们的模型低。这表明,仅仅将外部知识特征与视觉外观特征连接起来是不够的。4.2消融定性分析我们还分析了各种常识线索在我们的pro-posedappro a ch中的重要性。表2描述了如何在基础网络上提供仅依赖于外观线索的外观。在个体线索中(在此场景中未探索场景提示,并且将在网络监督设置中分析其影响合并的 时 间 间 隔 、 间 隔 和 简 单 的 共 同 序 列 (“J 〇 n t”)导致2.4%的mAP的更大提高,这显示了它们的互补性。最后,我们还借用了在类似的C源类上训练的边界框回归器,并将其应用于C目标类,这进一步将性能提高到14.4%。仔细观察各个类,我们发现使用属性common-sensefor'oven'(通常使用hit/black)在7的boost中。3%。 通过使用“从零到零”的部件共享,我们将节省10。5%,其中使用的是针对“B”的平均相对位置,而对源节点的期望值为2。百分之二。对于“giraff e”和“bed d”,我们使用的common-s-s-e-d-c-e-s-e-d-c-e-s-e-s接下来我们分析使用word2vec的重要性。 为此,我们将word2vec相似性替换为视觉相似性,其结果为12。与我们的13%相比,只有1%。7%。Word2vec相似度比DOCK:通过传递常识知识来检测对象13长颈鹿花瓶卡车大象熊床时钟烤箱勺微波比萨水槽飞盘网球拍滑板冲浪板碗领带见图8。MS COCO定性检测结果(Ours:绿色盒子;基础网络:红色; LSDA+语义[39]:黄色):观察到我们的方法可以更好地检测到所有的生态系统中的数据库工作。对于图像和视频,通过使用相似性常识(即,与C源中的其他动物类别类似),我们的方法检测全身范围,而不是定位有区别的身体部位。由于您使用的是分区和一个复杂的系统,例如。例如,在一个实施例中,“clock”是一个不可或缺的部分,并且当它/ b lac k时,它的微流将被删除。视觉相似性(用于LSDA [17]),特别是对于具有挑战性的数据集,如MS COCO(小对象和来自不同类的共现对象)。我们还尝试了WordNet[27]基于树路径的相似性,它也给出了13的较差结果。百分之一。图图8示出了由我们的方法(绿框)产生的一些定性检测(对于每个常识)我们可以观察到,使用常识有助于提高性能。例如,通过使用空间常识,我们的方法摆脱了“frisbee”和“urfboard”(p e r s on and dw at e r,r e s p e t v e l y)的共现块。从本质上讲,对于“可能”,我们的应用程序会使用所有可能的应用程序中的部分组件,这些组件在测试期间会在应用程序中或在特定应用程序中出现。 它可以在没有备份的情况下最快地检测到备份(在该备份列中最快地检测到备份)。我们的方法是在训练过程中利用常识作为先验知识来学习属性空间相似性14K. K. 辛格,S。Divvala,A.Farhadi和Y.J. 李手提包棒球棒勺子酒杯见图9。失败示例:当感兴趣的对象几乎不可见(“handb a g”)时,或者当我们的方法具有最小的限制(metal i l i c)时,我们的方法失败。对于“酒杯”,我们在训练期间容易地确定“酒瓶”,我们提供了酒杯在语义上类似于瓶子的在对象的应用中,在测试期间,我们的两个任务不依赖于常识。图9示出了一些故障情况。使用常识监督的网络监督检测。什么hap-pens当我们应用我们的方法的情况下,我们甚至没有明确的人类注释的图像标签的目标类?这正是在webly监督域中研究的设置,其中从web检索的图像用于训练检测模型。我们进行了初步调查,其中我们在从web检索的训练图像上运行我们提出的方法(即,而不是MS COCO训练图像集)。由于从网络检索的图像是潜在的噪声,常识知识应该是特别有用的,以减轻噪音。我们的初步结果表明,我们提出的想法是有前途的,即使在网络设置(基础网络[5]:6.8%,与我们的8.3%相比)。此外,为了分析对我们所获得的常识知识的可推广性的潜在担忧,我们还在ImageNet 200检测值集上测试了这些web+常识模型[34]。即使在这种情况下,我们的方法也会产生有趣的性能增益(基础网络[5]:6.2%,而我们的:8.8%)。5结论在本文中,我们提出了DOCK,一种新的方法,用于将常识知识从一组具有边界框注释的类别转移到一组仅具有图像级注释的类别以进行对象检测。我们探讨了如何不同的常识性线索的基础上相似性,属性,空间关系,和场景可以共同使用,以指导改进的对象定位算法。我们的实验表明,常识知识可以提高具有挑战性的MS COCO数据集上的检测性能我们希望我们的工作将推动这一领域的进一步令人兴奋的研究。鸣谢。本工作部分得到ONR N 00014 -13-1- 0720、NSF IIS-1338054、NSFIIS-1748387、NSF IIS-1751206、NSF-1652052、NRI-2010的支持。1637479,ARO YIP W 911 NF-17-1-0410,艾伦杰出研究者奖,艾伦人工智能研究所,微软Azure研究奖和NVIDIA捐赠的GPU。这项工作的一部分是在Krishna Kumar Singh在Allen Institute for AI实习时完成的。DOCK:通过传递常识知识来检测对象15引用1. 牙刷http://cocodataset.org#explore?联系我们2. A r bela'ez,P., 彭特-图瑟特,J., 布朗,J., Marques,F., Malik,J. :Mult是一个可比较的双边分组。在:CVPR(2014)3. Aytar,Y.齐瑟曼,A.:Tabula rasa:用于对象类别检测的模型转移。In:ICCV(2011)4. Bilen,H.,Pedersoli,M.,Namboodiri,V.,Tuytelaars,T.,古尔,L.V.:具有可适应区域的对象分类。在:CVPR(2014)5. Bilen,H.,Vedaldi,A.:弱监督深度检测网络见:CVPR(2016)6. Chatfield,K.,西蒙尼扬,K.,Vedaldi,A.,齐瑟曼,A.:魔鬼的回归细节:深入研究卷积网络。BMVC(2014)7. Chowdhury , S.N. , Tandon , N. Ferhatosmanoglu , H. , Weikum , G. :VISIR:视觉和语义图像标签细化。在:WSDM(2018)8. Desai,C.,Ramanan,D. Fowlkes,C.:多类别物件布局的判别模型。IJCV(2011)9. Divvala , S.K. ,Hoiem , D., Hays, J.H., 埃夫 罗斯 ,匿 名戒 酒会Hebert,M.:物体检测中语境的实证在:CVPR(2009)10. Doersch,C. Gupta,A.,Efros,A.A.:作为监控信号的上下文:发现具有可预测上下文的对象。In:ECCV(2014)11. Donahue,J.,Hoffman,J.,Rodner,E.,Saenko,K.达雷尔,T.:具有实例约束的半监督域自适应在:CVPR(2013)12. Everingham,M.凡古尔湖威廉姆斯,C.K.I.,Winn,J.,齐瑟曼,A.:PASCALVisualObjectClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html13. Fang,Y.,Kuan,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功