没有合适的资源?快使用搜索试试~ 我知道了~
14393基于字幕的Alireza Zareian1,2,Kevin Dela Rosa1,Derek Hao Hu1,Shih-Fu Chang21Snap Inc.,华盛顿州西雅图2哥伦比亚大学,纽约{azareian,kevin.delarosa,hao.husnap.com}@ www.example.com{az2407,sc250}@ columbia.edugithub.com/alirezazareian/ovr-cnn摘要尽管深度神经网络在物体检测方面具有惊人的准确性,但由于监管要求,它们的训练和规模都很昂贵。特别是,学习更多的对象类别通常需要按比例更多的边界框注释。人们已经探索了弱监督和零触发学习技术,以在较少的监督下将对象检测器扩展到更多的类别,但它们并没有像监督模型那样成功和广泛采用。在本文中,我们提出了一种新的配方的对象检测问题,即开放词汇对象检测,这是更一般,更实用,更有效的弱监督和零杆的方法。我们提出了一种新的方法来训练对象检测器,使用边界框注释为有限的一组对象类别,以及图像标题对,覆盖了更大的各种各样的对象,在一个显着降低成本。我们表明,所提出的方法可以检测和定位对象,在训练过程中没有提供边界框注释,在一个显着更高的准确性比零杆的方法。同时,具有边界框注释的对象因此,我们建立了一个新的国家的最先进的可扩展的对象检测。1. 介绍目标检测是人工智能最突出的应用之一,也是深度神经网络最重要的任务之一。然而,尽管在深度对象检测方面取得了巨大的进步,例如Faster R-CNN [32]及其令人印象深刻的准确性,但训练此类模型需要昂贵且耗时的人工监督。特别地,需要手动地注释针对感兴趣的每个对象类别的至少数千个边界框。虽然已经做出了这样的努力,并且有公开的有价值的数据集,如Open Images [21]和MSCOCO [25],但这些数据集涵盖了图1.开放词汇对象检测概述我们提出了一个两阶段的训练框架,首先(1)使用低成本的图像-标题对构建视觉语义空间在测试(3)中,目标是通过利用语义空间来检测基类之外的对象类别。对象类别的有限集合(例如,#20060;,尽管需要大量的资源。将对象检测从600个类别扩展到60,000个类别需要100倍的资源,这使得通用对象检测变得遥不可及。然而,人类通过自然的监督学会毫不费力地识别和定位物体,探索视觉世界,听别人描述情况。他们终生学习视觉模式并将其与口语联系起来,从而形成了丰富的视觉和语义词汇,不仅可用于检测物体,还可用于其他任务,例如描述物体并对其属性和启示进行推理。虽然在对象周围绘制边界框不是人类自然学习的任务,但他们可以使用很少的示例快速学习它,并将其推广到所有类型的对象,而不需要每个对象类的示例。在本文中,我们模仿人类的这种能力,通过设计一个两阶段的框架命名为开放词汇对象检测(OVD)。我们建议首先使用图像-标题对的语料库来获取以下无限词汇:14394概念,模拟人类如何通过自然监督来学习,然后使用该知识来学习对象检测(或任何其他下游任务),仅对某些对象类别使用注释。通过这种方式,仅需要对某些类别进行昂贵的注释,其余的可以使用标题来学习,这些标题更容易收集,并且在许多情况下可以在网络上免费获得[33]。图1示出了所提出的OVD框架,其新颖且高效,实现了多功能的现实世界应用,并且可以通用于其他计算机视觉任务。更具体地说,我们训练了一个模型,该模型获取图像并检测给定目标词汇表VT中的任何对象。为了训练这样一个模型,我们使用一个图像标题数据集,其中包含大量表示为VC的单词,以及一个更小的数据集,其中包含来自一组基类VB的本地化对象注释。请注意,在这个任务中,目标类在训练期间是未知的,并且可以是整个语言词汇表V的任何子集。这与大多数现有的对象检测设置形成对比,包括弱监督转移学习方法,其中VT应该事先已知[37]。与OVD最相似的任务是零镜头目标检测,它也适用于任何给定的目标集,但不能使用字幕。图2说明了我们提出的任务与零拍摄和弱监督检测相比的直观抽象尽管与这些众所周知的想法有着密切的联系,但OVD在文献中是新颖的和独特的,正如我们在第2节中所阐述的那样。为了解决OVD的任务,我们提出了一种基于FasterR-CNN的新方法[32],该方法首先在图像标题数据集上进行预训练,然后在边界框数据集上进行微调,以一种特殊的方式保持在预训练期间学习的丰富的词汇,从而在没有注释的情况下泛化到对象类别。通过大量的实验,我们评估了我们的方法,开放词汇R-CNN(OVR-CNN),并表明它在零触发学习中的性能明显高于最先进的技术(27% mAP与10%相比)。我们还表明,它优于弱监督对象检测器的显着利润率在广义零拍摄设置(40%mAP相比,26%)。我们补充的文件与comprehensive开源代码再现结果。12. 相关工作零镜头目标检测(ZSD)旨在从注释(可见)对象类推广到其他(不可见)类别。关键的想法是使用零射击学习技术(例如,词嵌入投影[13])来学习对象的属性分类。Bansal等人[3]认为ZSD中的主要挑战是对背景类进行建模,这很难与看不见的类分开。他们将背景定义为一种混合模型,第1https://github.com/alirezazareian/ovr-cnn图2.我们提出的OVD与现有的ZSD和WSD范式的比较。而零射击检测方法学习一组有限的基类VB,并努力推广到目标通过学习VT类,我们获得了更大的词汇量VC从低成本的图片字幕对。虽然存在可以从字幕学习的弱监督方法,但是它们不能使用来自基类的边界框监督,并且需要在训练之前知道VT因此,我们的OVD公式是ZSD和WSD的推广,它可以使用两个数据源来达到一个在事先不知道的目标类别上表现出色极性损失的引入[30]。另一方面,Zhuet al. [45,46]认为ZSD的关键是提高对象建议模型的泛化能力。他们使用了一个生成模型来产生看不见的类,并在训练提案模型时增加了可见的示例。然而,ZSD方法仍然远离实用性能,这是由于它们不必要的苛刻约束,即,没有任何看不见的物体的例子,并且必须仅仅基于它们的单词嵌入[3,30,46]或文本描述[24]来猜测它们的样子这促使最近的论文通过做出不真实的假设来简化任务,例如在训练期间测试数据的可用性[29],或者看不见的类注释的可用性来过滤具有看不见的对象实例的图像[15]。考虑到具有自然、弱监督的数据集丰富且便宜,我们提出了一个替代的、更现实的问题:除了“看到”类的注释数据之外这使我们能够在看不见的类上实现27%的mAP,而现有技术的mAP仅为10%,无需过多的额外注释工作。为此,我们解决了从图像字幕预训练到对象检测的知识转移的公开问题。弱监督对象检测(WSD)是最广泛使用的方法来训练对象检测器,而无需边界框注释,而是使用图像级标签。WSD的主要挑战是本地化,因为每个标签都可能指向图像中的任何对象。这个问题通常使用多实例学习来解决,这是一个研究得很好的主题[4,39,8]。尽管图像级标签比边界框更容易收集,但它们仍然需要手动操作,并且它们通常限于预定义的分类。相比之下,我们使用标题,这是更自然的注释,往往在网络上免费提供,同时也具有丰富的,开放的词汇的概念。从字幕中学习对象检测一直是14395在有限的范围内进行研究Cap2Det [43]将字幕解析为多标签分类目标,可用于训练WSD模型。然而,这需要图像级标签来训练字幕解析器,并且仅限于封闭的词汇表。Amrani等人[2]基于字幕中预定义的一组单词的存在来训练WSD模型,这类似于封闭词汇表,并丢弃字幕的丰富语义内容,我们通过transformer来利用这些内容。相反,Sunet al. [35] Yeet al. [44]旨在从图像标题语料库中发现一组开放的对象类,并为每个发现的类学习检测器。所有这样的WSD方法的关键限制是它们较差的对象定位精度。相比之下,我们解开对象识别和定位成两个独立的问题。我们使用开放式词汇标题学习识别,同时使用来自一小部分类的完全注释的数据集学习本地化。已经研究了使用混合监督的对象检测,以便利用弱监督和全监督。然而,大多数现有方法需要所有类的边界框注释,并且仅使用弱监督作为辅助数据[14,31,40]。与我们的工作更相似的是将在监督基类上训练的检测器转移到弱监督目标类[18,36,37]。这些方法通常会在基类上失去性能,正如我们在第4节中所展示的那样。相比之下,我们将此问题视为相反的知识转移过程:而不是首先在基类上进行训练,然后使用弱监督学习转移到目标类,我们首先使用标题来学习包括目标类的开放词汇语义空间,然后通过监督学习将其转移到对象检测任务。所有弱监督和混合监督方法的另一个限制是,它们需要预定义分类内的图像级注释,并且它们只学习那些预定义的类。相反,我们使用的标题是开放词汇,在网络上也更流行,我们学会了根据需要概括到任何一组目标类,而不必事先知道它们。VirTex [11]是唯一一种使用标题和对象注释来训练检测器的方法,但它需要对所有对象类进行注释,而我们可以从注释类别的子集进行概括。指称表达的视觉基础可以被看作是一个开放词汇表对象定位问题:给定一个图像和一个名词短语,它指的是一个对象,通常在一个完整的标题的上下文中,目标是使用边界框定位图像中的引用对象。我们受到弱监督视觉基础方法[42,9,5,1]的丰富文献的启发,设计了我们的图像标题预训练技术。更具体地说,我们通过学习视觉语义公共空间来学习将标题词映射到图像区域然而,仅当没有提供字幕时,不能用于在推理期间检测对象。因此,我们建议通过另一阶段的训练将视觉基础知识转移到物体检测任务中。视觉语言转换器我们使用图像标题进行预训练并将学到的知识转移到下游任务的框架受到多模态转换器最近成功的启发[26,22,23,7,34]。这些方法以自我监督的方式训练transformers,将图像-字幕对作为输入,并提取相反的特征-这些特征可以在各种下游视觉语言任务中进行微调。然而,它们尚未应用于对象检测,因为它们需要图像和caption作为输入,并且还因为 它 们 依 赖 于 预 先 训 练 的 对 象 检 测 器 在 馈 送 到transformer之前表达图像。最近,PixelBERT [19]通过直接在特征图上应用transformers来消除后一个要求。我们利用和扩展PixelBERT设计一个视觉到语言的投影模块,然后将视觉特征输入到Transformer,并将视觉接地成本函数纳入预训练过程。此外,我们建议通过多模态变换器将预训练的权重转移到目标检测的单模态下游任务。3. 方法图3说明了我们提出的方法的架构,该方法基于以零触发方式训练的Faster R-CNN [32]。更具体地说,它在一组基类VB上训练,并在另一组目标类VT上测试。为此,预训练的词嵌入(例如,GloVE [28])通常用于代替传统的可训练分类器,以便目标类嵌入可以在测试期间替换基类嵌入,而不会改变模型然而,由于基类样本较小,这种做法通常会导致严重的过拟合,以至于目标类的最新mAP比基类低9倍 [30]。为了缓解这个问题,我们的关键思想是在更大的词汇表VC上预训练视觉骨干,以学习更完整的语义空间,而不是少量的基类。由于标题是自然编写的,对词汇没有太多限制,因此它们是学习丰富而完整的视觉语义空间的完美来源。我们将此框架命名为开放词汇对象检测(OVD),因为可以通过标题学习的对象的词汇没有明确的限制。在实践中,我们的词汇表并不是字面上的“开放”,因为它仅限于预先训练的单词嵌入。然而,单词嵌入通常是在非常大的文本语料库上训练的,例如维基百科,几乎覆盖了每个单词[28,12]。在本节的其余部分中,我们将详细说明如何进行预训练14396图3.我们的OVR-CNN在预训练(顶部)和下游训练(底部)期间的架构我们首先通过接地,掩码语言建模(MLM)和图像-文本匹配(ITM)在图像-标题对上训练ResNet和然后,我们使用经过训练的ResNet和V2 L来初始化Faster R-CNN,以学习开放词汇对象检测。我们的Open Vocabulary更快的R-CNN(OVR-CNN)对图像-标题对,以及我们如何将预训练知识转移到下游任务。在第4节中,我们证明了我们的方法将基础-目标性能差距从9比2缩小。3.1. 学习视觉语义空间对象检测器通常使用CNN主干,该主干通常为ImageNet分类进行预训练[10,32]。预训练产生可以提取针对对象识别优化的特征的主干,然后将其用于为固定的注释类集合训练新的分类头。这在零射击设置中是有问题的,因为在基类上训练的分类器无法识别目标类。因此,zero-shot方法通过用固定的嵌入矩阵替换分类器权重来学习从视觉特征到预训练的基类嵌入的线性投影[13]。这样,网络有望推广到目标类通过假设嵌入空间的连续性。然而,这种方法容易过拟合,因为投影到少量的嵌入空间(基类嵌入)是一个欠确定的问题[3]。为了防止过度拟合,我们建议在预训练期间学习上述视觉到语言(V2L)投影层为此,我们使用图像标题数据集,因为标题包含丰富的词汇和语义结构,可用于学习单词的含义,包括对象名称。为了有效地从字幕提供的丰富监督中学习我们使用一个主要(接地)任务以及一组辅助自我监督任务来学习一个强大的CNN骨干和V2L层。在下一小节中,我们将详细说明如何转移预训练模块来学习开放词汇对象检测。14397我JJ我我J我JJ我们的预训练架构类似于PixelBERT [19]:它将图像-标题对作为输入,将图像馈送到因此,我们定义两个接地目标函数:将视觉主干和标题转换为语言主干,这会导致图像的一组标记嵌入,LG(I)=−logΩexprI,C“expI,C"、(3)然后将这些标记嵌入到多个字符串中。timodal Transformer来提取多模态嵌入。我们的视觉支柱是ResNet-50 [17],它需要一个w×h和C∈BCL(C)=−logexpI,CG、(四)图像I作为输入并提取w/32×h/32区域的网格I′∈BI expI′,CG其中每个区域i由d维特征向量r1表示。对于语言主干,我们使用预先训练的BERT [12],其将标记化的标题C作为输入,为每个标记j提取dl维单词嵌入eC,用位置嵌入对其进行增强,并应用多层多头自注意力来提取dl维上下文化的标记嵌入fC。此外,我们设计了一个线性V2L层,将每个视觉区域表示rI映射到语言嵌入空间eI中。 图像区域{eI}和字幕令牌{fC}然后被聚合和馈送其中BI和BC是图像和字幕批次。 我们通过用各种其它替代方案,例如其它相似性度量(例如,余弦代替点乘积),其它损失函数(例如,三重丢失而不是负对数似然)和其它字到区域对齐机制(例如,硬对齐而不是softmax)。优化基础目标会产生一个学习的视觉骨干和V2L层,可以将图像中的区域映射到最能描述它们的单词中,而不限于封闭的词汇表。然而,由于我们诱导了一个弱,I j转 换 为 多 模 态 Transformer , 其 在 架 构 上 类 似 于BERT,但不仅在每个模态内而且在两个模态之间执行注意力多模态Transformer的输出是用于重新计算的{mI}和{mC}间接监督, 可以实现其中模型仅学习选择正确图像/字幕所必需的最小概念。为了更直接地学习每个单词,我们采用掩码语言建模,I jgion和words,它们可以用于各种预训练任务,正如我们在本节后面讨论的那样。一旦我们从一批图像-字幕对中提取出上述的单峰和多峰嵌入阶段,我们就定义了一个主要目标函数以及各种辅助目标,以确保对ResNet参数以及V2 L层进行有效的训练。我们的主要目标是视觉基础,即,来自每个字幕eC的词嵌入应该接近于它们相应的图像区域eI。由于单词和区域的对应关系没有给出,我们采用弱监督接地技术来学习它。具体来说,我们为每个图像-标题对定义了一个全局基础分数,即单词-区域对的局部基础分数的加权[19]第十九话具体来说,我们随机替换每个字幕C中的一些单词j具有[MASK]标记,并尝试使用被掩蔽标记mC的多模态嵌入来猜测被掩蔽的单词。为此,视觉主干和V2L层应该学会提取可能在标题中描述的所有对象,并且多模态Transformer应该学会使用这些对象以及BERT的语言理解能力来确定什么词最好地完成标题。因此,我们在mC上应用全连接层,使用点积将其输出与所有单词嵌入进行比较,并应用softmax计算每个单词的概率得分我们将掩蔽语言建模LMLM定义为将预测分布与被掩蔽的实际单词进行比较的交叉熵损失。PixelBERT也-I,C第一城 ai,jeI,eCL,(1)采用图像-文本匹配损失LITM,但不使用视觉语言中常见的掩蔽视觉建模I jCj=1i =1其中,. 是两个向量nI和nC是图像和字幕标记的数量,实验I,eC变压器[26]。我们按照他们的选择为我们的辅助目标,虽然其他组合是可能的。我们通过最小化每个图像-字幕对的总损失来联合训练视觉骨干、V2 L层和多时间-直径Transformerai,j=ij.(二)L(I,C)= LG(I)+LG(C)+LMLM+LITM。(五)nIexpressI,eCi′=1伊日L请注意,我们的语言主干(BERT)及其单词em-匹配的图像-字幕对的全局基础分数应该最大化,而不匹配的图像-字幕对的全局基础分数应该最小化因此,我们使用批次中的其他图像作为每个标题的反例,并使用批次中的其他标题作为每个图像的反例。在我们的实验中,寝具是固定的。3.2. 学习开放词汇检测一旦训练好ResNet视觉骨干和V2L层,我们就将它Gn14398们转移到对象检测任务14399我我ik′K通过初始化更快的R-CNN。在[32]之后,我们使用预训练ResNet的主干和前3个块从给定图像中提取特征图。接下来,区域预测网络在特征图上滑动锚框以预测对象性得分和边界框坐标,随后进行非最大抑制和感兴趣区域池化以获得每个潜在对象的特征图。最后,在[32]之后,我们预训练的ResNet的第4个块应用于每个建议,然后进行池化,以获得每个建议框的最终特征向量rI,该特征向量通常被馈送到监督设置中的分类器中。然而,在我们的零拍摄设置中,应用于视觉特征rI,以将每个建议映射到我们使用的模型就像一个更快的R-CNN,除了我们可以取代方程中的词嵌入。(6)任意目标类集合VT。虽然我们在一个固定的、带注释的目标集上进行评估,但模型并没有针对这些类进行特别的调整,因此可以部署在整个词汇表V上。4. 实验在本节中,我们展示了我们的方法准确地检测目标类的对象的能力,同时与监督方法相比,不会丢失其在基类上的准确性。特别是,我们表现出显着的定量改善相比,零杆和弱苏。IIpervised object detection methods,followed by acompre-一个词嵌入空间ei,所以它们可以被比较为训练或测试中的基类或目标类嵌入阶段分别。在所有的ZSD方法中,前面提到的线性层都是在基类上从头开始训练的,而基类很难泛化。相比之下,我们已经在预训练阶段在更广泛的语义空间上训练了V2L层。该阶段与预训练的主要区别在于,r1表示任意形状的边界框,而不是网格结构的特征图。然而,在这方面,包括消融和可视化的触觉分析。4.1. 数据和度量我们的实验基于具有挑战性和广泛使用的COCOObjects数据集[25]。我们使用他们的2017年培训和验证划分分别进行培训和评估。为了选择基类和目标类,我们采用了[3]提出的分裂,并被所有其他ZSD方法使用iI他们的分裂包括48个基类和17个目标类,由于RoI-Align的线性特性[16],ri 在与预训练中相同的空间,具有最小的域偏移这可以通过微调ResNet主干来消除。在训练过程中,我们将eI与每个基类k进行比较,以计算分类得分:表达式I,eV它们都是COCO对象类的子集。我们从训练数据中重新移动任何没有用基类标记的边界框,并删除没有边界框的图像。这给我们留下了107,761个训练图像,其中包含665,387个基类实例,以及4,836个测试图像,其中包含28,538个基类p(i归类为k)=ik、 (六)1+k′∈VB 表达式I,eV类和目标类的4,614个实例。除非另有说明, 对于预训练,我们使用其中eV是单词k的预训练嵌入,VBCOCO Captions [6],基于相同的图像是基类的集合,. 表示点积。分母中增加1是因为我们设置了背景类具有固定的全零嵌入,这使得任何点积为零,并被取幂为1。我们发现,固定的全零背景嵌入比可训练的背景嵌入性能更好,因为它不会将可能包含目标类的非前景边界框推到嵌入空间的任意区域。除了前面提到的分类头的变化,我们的网络的其余部分完全遵循Faster R-CNN,并且以完全相同的方式使用相同的目标函数进行训练从经验上讲,我们发现将比率α乘以背景提案的分类损失(即,不与任何地面实况边界框匹配的建议框)可以显著提高目标类的性能,同时稍微降低基类的性能。因此,我们使用交叉验证来找到每个模型的最佳α。ResNet参数被微调,而区域建议网络和回归头则从头开始训练分类器头是完全固定的,因为它由预训练的V2L层和单词嵌入组成,特别容易过拟合。在测试期间,与COCO Objects相同的train/test分割。 此数据集由于与下游任务匹配的域,然而,为了研究更现实的设置,我们还通过对概念标题(CC)[33]进行预训练来报告结果,这是从网络上自动收集的CC更大,有2,749,293个训练图像-标题对,而COCO有118,287个图像和5倍的标题。COCO和CC都涵盖了非常广泛的词汇表,包括我们实验中的所有基类和目标类。尽管我们的模型预测字幕词汇表VC(图2)之外的单词没有理论限制,但我们在本文中不研究这些不寻常的情况。遵循大多数ZSD和WSD方法,我们使用平均精度(mAP)在IoU为0.5时进行评估。 我们通过直接将模型应用于COCO验证图像并使用基类注释来评估,从而在基类上计算mAP。然后,我们用目标类嵌入替换分类器头,并应用于同一数据集,但这次与目标类注释进行比较。这些导致基础和目标mAP,其分别类似于监督和零激发设置。我们还将分类器头替换为基类和目标类em的联合14400床上用品,以模拟一般化的零射击设置[30]。在这种情况下,我们报告总mAP,以及分别计算基础和目标类的AP平均值。4.2. 实现细节我们使用maskrcnn基准代码库[27],特别是R 50C4配置来实现我们的系统。我们还使用了一个预先训练和冻结的BERT-Base[41]作为我们的语言骨干。对于多模式Transformer,我们使用与BERT-Base相同的架构,除了我们只使用6层和每层8个注意力头,并且我们从头开始训练它。预训练的基本学习率是0.01,在充分训练后下降到0.001和0.0001。我们使用64个批量,在8个V-100 GPU上训练,大约需要10个小时。我们使用空间dropout [19]在预训练期间对视觉区域进行子采样。对于掩码语言建模,我们以0.135的可能性对每个单词进行掩码。我们在5.0使用梯度裁剪进行预训练。在下游训练期间,我们使用BERT嵌入(即,预训练的输入嵌入,而不是BERT变换器的输出)来初始化和固定分类器权重。 我们发现最佳的背景权重是α=0。2对于大多数实验,除了消融-输出一个固定的、预训练的V2L层,其中α= 0。0作品最好我们只微调ResNet的第三和第四块保持阀杆和前两块固定。我们训练我们的学习率为0.005,并在适当的时候下降到0.0005和我们在8个V-100 GPU上以8个批量进行训练,大约需要18个小时才能收敛。4.3. 基线由于我们提出的OVD任务利用了之前未研究过的训练数据和监督的独特组合,因此没有具有相同训练设置的基线因此,我们使用各种类似但不相同的任务的基线。首先,我们比较了零炮检测方法,因为ZSD是最接近我们工作的领域。特别是,我们与SB [3]进行了比较,SB [ 3 ]是第一种也是最简单的ZSD方法,将EdgeBox建议[47]的CNN特征投影到词嵌入中。然后,我们与LAB [3]进行比较,后者试图使用混合模型更好地对背景类进行建模我们还比较了DSES [3],它使用Visual Genome [20]中的其他然后,我们比较PL [30 ]和DELO[46],PL[ 30]提出极性损失来解决对象-背景不平衡,DELO[ 46 ]采用生成方法通过特征幻觉为某些目标类请注意,DELO需要事先知道目标类,这使得它不是真正的开放词汇表。值得注意的是,我们的方法利用了前-tra数据(COCO标题或概念标题),方法任务基地(四十八)目标(十七)广义(48+17)基本目标全部[32]第三十二话消防处54.5-- -WSDDN [4]*水务署--19.6 19.7 19.6[43]第四十三话--20.1 20.3 20.1LSDA [18]--29.3 17.7 27.2[36]*MSD--28.5 21.9 26.7MIL+RPN[37]*--27.8 22.6 26.4[3]29.70.7029.2 0.31实验室[3]21.10.2720.8 0.22 18.0DSES [3]ZSD27.20.5426.7 0.27DELO [46]*14.07.6013.8 3.41 13.0[30]第三十话36.810.035.9 4.12OVR-CNNOVD46.827.546.0 22.8 39.9表1.MSCOCO数据集上的结果数字为mAP(%)。* 对于某些基线,目标类别在培训期间已知不适用于ZSD基线,可能包括目标类别的示例。因此,我们还比较了弱监督检测(WSD)方法,通过使用精确匹配或分类器将字幕转换为图像级标签[43]。我们与WSDDN [4]以及Cap2Det [43]进行比较,后者更好地利用了字幕。WSD方法不利用基类的边界框,这在没有这样的注释可用的情况下可能是一个优势,但与我们的方法相比,它会导致较差的本地化性能,这是能够利用边界框。因此,我们还比较了使用弱监督和完全监督混合的迁移学习方法(简称MSD)。特别是,我们比较了LSDA [18],它学习从分类器权重到检测 器 权 重 的 转 换 , 它 的 扩 展 [36] 利 用 语 义 类 关 系(LSDA+),以及最近的工作[37],它使用多个实例学习以及在基类(MIL+RPN)上训练的区域请注意,由于WSD和MSD方法需要图像级标签,因此在预训练期间应该提前知道目标类别相比之下,我们的方法和大多数ZSD方法无法访问这些信息,并且可以应用于任何新的类而无需重新训练。4.4. 结果表1展示了我们与基线相比的主要结果。特别是,我们观察到一个显着的改善,门对目标类的性能和广义的目标性能相比,所有ZSD基线。这主要是由于我们能够利用额外的低成本训练数据。我们在目标类上的表现也优于WSD和MSD基线,尽管它们在训练期间可以访问有关目标类的信息,并且我们在基类上的表现明显请注意,WSD和MSD模型不能在仅基础类或仅目标类上进行评估,因为它们具有14401我K我消融基地(四十八)目标(十七)所有(65)我们的w/o预培训25.24.418.1我们的无接地我们的w/o辅助目标25.945.64.626.019.038.8我们的,不带传输V2L我们的无冷冻V2L25.347.04.923.418.639.3Ours w/o Imagenet我们的w/概念标题18.443.09.1316.714.334.3表2. MSCOCO数据集上的消融。数字为mAP(%)。在所有65个类上训练的固定分类器此外,我们有一个FSD(全监督检测)基线来衡量基类的性能下降。此外,我们在表2中给出了消融实验,以显示每种设计选择的有效性。特别是,我们观察到,如果没有在图像标题数据集上预训练我们的模型,模型的性能很差。这证实了多模态预训练对开放式词汇概括的显著效果我们还观察到,接地是预训练的主要组成部分,其效果比通过多媒体Transformer模块优化的辅助目标大得多此外,我们还证明了仅仅转移ResNet权重(从预训练到下游任务)不足以实现有效的知识转移,我们还必须转移V2L层。此外,如果V2L层在下游训练期间没有冻结,它将失去泛化到目标类的能力,以便稍微改进基类。我们还尝试在预训练期间随机初始化模型,而不是使用广泛使用的Imagenet权重,尽管性能下降,但我们仍然比大多数使用Imagenet的ZSD基线表现更好。我们还观察到,如果我们使用自动收集的概念标题而不是仔细注释的COCO标题,性能会下降,但仍然明显优于所有ZSD基线,证明即使是低质量,廉价的数据也可以被OVR-CNN利用来实现更好的性能。4.5. 可视化和讨论为了更深入地了解OVR-CNN学习了什么,我们在图4中描述了模型学习的视觉语义嵌入空间。更具体地说,我们将我们的训练模型(在下游训练之后)应用于所有COCO验证图像,在V2 L层eI之后获得所有输出边界框的嵌入,并使用t-SNE将其维数降低到 2[38]。我们根据它们的地面真值标签和在同一空间上的覆盖类嵌入对它们进行颜色编码。我们只显示目标类和它们的实例以减少混乱。理想情况下,每个目标类的实例应该形成不同的集群,并且每个类嵌入-图4. OVR-CNN学习的嵌入空间(右)与没有预训练的基线(左)相比。每个颜色代表一个目标类,每个点代表一个边界框的嵌入,每个星代表一个类原型。ding(prototype)应该落在由其实例形成的集群内。由于缺乏直接监督,目标阶层尤其难以做到这一点。我们将我们的方法与ZSD基线进行比较,该基线与我们的模型相同,除了没有对图像-标题对进行预训练。我们观察到,在基线中,目标类形成卷积簇,它们的原型是随机分布或崩溃的。另一方面,我们的完整模型创建了定义良好的集群,在大多数情况下包含它们的原型这与我们的直觉和我们的定量结果一致,表明零射击学习不足以学习从视觉特征到语义嵌入的平滑和可推广的映射,并且通过多模态数据学习更大的词汇表对于更连贯的空间和超越基类的泛化至关重要5. 结论我们提请注意开放词汇对象检测(OVD)的新任务,试图将对象检测分解为识别和定位,并使用两种不同的监督源分别学习它们,这两种监督源对于每个相应的任务都是完美的在OVD中,识别是从标题中学习的,标题是通用的和开放的词汇表,而定位是从边界框注释中学习的,边界框注释是准确的,直接为下游任务设计的。我们提出了OVR- CNN,它在图像标题数据集上预训练了一个更快的R-CNN,并仔细地将从标题中学习到的开放词汇视觉语义知识转移到目标检测的下游任务中。我们展示了与零拍摄和弱监督基线相比的记录性能,建立了可扩展对象检测的新技术水平。尽管如此,OVR-CNN只是我们总体想法的一种可能实现,它也可以扩展到其他下游任务,从而实现更人性化、开放词汇的计算机视觉技术。14402引用[1] Hassan Akbari、Svebor Karaman 、Surabhi Bhargava 、Brian Chen、Carl Vondrick和Shih-Fu Chang。多层次多模态公共语义空间,用于图像-短语接地。在IEEE计算机视觉和模式识别会议论文集,第12476-12486页3[2] 埃拉德·阿姆拉尼拉米·本·阿里塔尔·哈基姆和亚历克斯·布朗斯坦。学习从未标记的视频中检测和检索对象。在2019年IEEE/CVF计算机视觉国际会议研讨会(ICCVW)上,第3713IEEE,2019年。3[3] Ankan Bansal , Karan Sikka , Gaurav Sharma , RamaChel-lappa,and Ajay Divakaran.零拍摄目标检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第384-400页,2018年。二四六七[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集,第2846- 2854页,2016年。二、七[5] Kan Chen,Jiyang Gao,and Ram Nevatia.弱监督短语接地的知识辅助一致性在IEEE计算机视觉和模式识别会议上,第4042-4050页,2018年3[6] XinleiChen , Hao Fang , Tsung-Yi Lin , RamakrishnaVedan-tam , SaurabhGupta , PiotrDol la'r , andCL awrenceZitnick. Microsoft coco captions:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015年。6[7] 陈艳春、李琳杰、余立成、艾哈迈德·埃尔·科伊尔、费萨尔·艾哈迈德、甘哲、程宇、刘晶晶Uniter:通用的图像-文本表示学习。在ECCV,2020年。3[8] Ramazan Gokberk Cinbis,Jakob Verbeek,and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEEtransactionsonpatternanalysisandmachineintelligence,39(1):189-203,2016。2[9] Samyak Datta , Karan Sikka , Anirban Roy , KarunaAhuja,DeviParikh,andAjayDivakaran.Align2ground:由图像标题对齐引导的弱监督短语接地在IEEE计算机视觉国际会议论文集,第2601-2610页,2019年。3[10] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉与模式识别会议,第248-255页。2009年。4[11] 卡兰·德赛和贾斯汀·约翰逊Virtex:从文本注释中学习视觉表示。arXiv预印本arXiv:2006.06666,2020。3[12] Jacob Devlin , Ming-Wei Chang , Wendon Lee , andKristina Toutanova. Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。三,五[13] 安德烈·弗罗姆、格雷格·S·科拉多、乔恩·什伦斯、萨米·本吉奥、杰夫·迪恩、马克·奥雷利奥·兰扎托和托马斯·米科洛夫。Devise:一个深度视觉语义嵌入模型。神经信息处理系统的进展,第2121-2129页,2013年第二、四节[14] Jiyang Gao,Jiang Wang,Shengyang Dai,Li-Jia Li,and Ram Nevatia.Note-rcnn:用于半监督对象检测的噪声容忍集成rcnn。在IEEE计算机视觉国际会议论文集,第9508- 9517页,2019年。3[15] DikshantGupta , AdityaAnantharaman , NehalMamgain,Vi- neeth N Balasubramanian,CV Jawahar等人,A multi-space approach to zero-shot object detection.在IEEE Winter计算机视觉应用会议上,第1209-1217页,2020年。2[16] 凯明赫,吉奥吉亚·吉奥萨里,彼得·多尔和罗斯·吉尔希克。面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页6[17] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集,第770-778页,2016年。5[18] Judy Hoffman , Sergio Guadarrama , Eric S Tzeng ,Ronghang Hu , Jeff Donahue , Ross Girshick , TrevorDarrell和Kate Saenko。Lsda:通过自适应进行大规模检测。神经信息处理系统进展,第3536-3544页,2014年。第三、七[19] Zhicheng Huang,Zhaoyang Z
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功