没有合适的资源?快使用搜索试试~ 我知道了~
Query: black horse on the leftQuery: right brown horseImage RegionImage Region155130Pseudo-Q:为视觉定位生成伪语言查询0姜浩军1* 林元泽3*† 韩东辰1 宋世纪1 黄高1,2‡01清华大学,BNRist 2 BAAI 3华盛顿大学0{ jhj20,hdc19 } @mails.tsinghua.edu.cn,yuanze@uw.edu,0{ shijis,gaohuang } @tsinghua.edu.cn0摘要0视觉定位,即根据自然语言查询在图像中定位对象,是视觉语言理解中的重要主题。这个任务的最有效方法基于深度学习,通常需要昂贵的手动标记的图像查询或图像块查询对。为了减少对人工注释的依赖,我们提出了一种新方法,称为Pseudo-Q,用于自动生成用于监督训练的伪语言查询。我们的方法利用现成的对象检测器从未标记的图像中识别视觉对象,然后以无监督的方式获取这些对象的语言查询。然后,我们设计了一个与任务相关的查询提示模块,专门为视觉定位任务量身定制生成的伪语言查询。此外,为了充分捕捉图像和语言查询之间的上下文关系,我们开发了一个具有多级跨模态注意机制的视觉语言模型。广泛的实验结果表明,我们的方法具有两个显著的优点:(1)它可以显著降低人工注释成本,在完全监督设置下,例如在RefCOCO上降低了31%,而不会降低原始模型的性能;(2)在所有我们进行实验的五个数据集上,它在不需要任何额外操作的情况下实现了优越或可比的性能,与最先进的弱监督视觉定位方法相比。代码可在https://github.com/LeapLabTHU/Pseudo-Q上找到。01. 引言0近年来,视觉定位(VG)任务在计算机视觉和自然语言处理的进展下取得了巨大的进步。它旨在根据自然语言查询定位图像中的对象。0* 平等贡献。† 本工作在清华实习期间完成。‡通讯作者。0查询:右边的马0(a)全监督VG(b)弱监督VG0对象提议伪查询0查询:右边的马0马0带有伪标签的图像0未标记的图像0对象检测器0图像区域0图1.与全监督和弱监督视觉定位方法的比较。(a)全监督VG利用图像区域-查询对作为监督信号。(b)弱监督VG仅采用语言查询。(c)我们的Pseudo-Q方法不需要任何与任务相关的注释。0自然语言查询引用的对象对于各种视觉语言任务至关重要,例如视觉问答和视觉常识推理。现有的大部分视觉定位方法可以分为两种类型:全监督和弱监督。尽管这两种方法取得了显著的成功,但它们严重依赖于手动注释的数据集。然而,获取大量的手动注释,特别是自然语言查询,是昂贵且耗时的。为了注释查询,人们首先需要识别视觉对象并识别它们的属性,然后根据具体情况确定它们之间的多样化关系,例如空间关系(例如左和右),介词关系(例如在和带有),动作关系(例如扔一些)155140其中,空间关系是最常查询的关系之一。为了减轻人工注释的负担,我们提出了一种基于伪语言查询的视觉定位方法(Pseudo-Q)。我们的灵感来自于以前的工作[17,31],这些工作通过利用一个未标记的图像集、一个句子语料库和一个现成的目标检测器来解决图像字幕任务中的高注释成本问题。然而,视觉定位任务更加复杂和具有挑战性,因为它涉及对象之间的关系建模。为了通过语言查询准确地定位对象,基本上需要识别它们的类别、属性和关系。因此,当生成未标记图像集的伪区域-查询对时,我们需要关注三个关键组成部分:(1)最有可能被查询的显著对象(名词),(2)被查询对象具有的内在属性,以及(3)对象之间的重要空间关系。受到[17,42]的启发,我们利用一个现成的目标检测器[1]来定位具有高置信度的最显著候选对象,并利用一个属性分类器[1]来识别常见属性。然而,这些检测器无法区分对象之间的空间关系。因此,我们提出了一种启发式算法,通过比较它们的区域和相对坐标来确定相同类别对象之间的空间关系。有了这三个关键组成部分,就可以生成关于对象之间空间关系的伪查询。为了进一步提高我们方法的性能,我们还提出了一个查询提示模块,该模块将生成的伪查询专门调整为与视觉定位任务相关的查询模板。对于视觉-语言模型,我们提出了一个多级跨模态注意力机制,以促进视觉和语言特征之间的更深层融合。大量实验证明了我们方法的有效性。首先,在全监督方式下,它可以在不牺牲RefCOCO[65]上原始模型性能的情况下,将人工注释成本降低31%。其次,即使与RefCOCO [65]、RefCOCO+[65]、RefCOCOg [40]、ReferItGame [28]和Flickr30KEntities[44]等五个数据集上的最先进的弱监督视觉定位方法相比,它也可以获得更好或相当的性能。总之,本文提出了三个贡献:0(1)我们引入了第一个基于伪查询的视觉定位方法,处理对象之间最主要的空间关系。0(2)我们提出了一个查询提示模块,专门为视觉定位任务定制伪查询,并提出了一个配备多级跨模态注意力的视觉-语言模型,以充分捕捉0不同模态之间的上下文关系。0(3)广泛的实验证明,我们的方法不仅可以在全监督条件下显著降低手动标注成本而不损失性能,还可以在与最先进的弱监督视觉定位方法相比实现优越或可比的性能。02. 相关工作02.1. 自然语言视觉定位0视觉定位是视觉和语言中的关键组成部分,它是其他任务(如VQA)的基础。最近的视觉定位方法可以总结为三类:全监督方法[8, 13, 22, 23, 33, 35],弱监督方法[6, 10, 19, 36,38, 49, 55, 58]和无监督方法[54,63]。全监督方法严重依赖于手动标记的补丁-查询对。不幸的是,获取这样复杂的注释是昂贵且耗时的。因此,弱监督方法试图通过仅利用图像-查询对来缓解这个问题。这些方法[6,38]通常利用成熟的目标检测器来补偿训练中缺失的边界框标签。然而,为图像中显著对象注释语言查询是最费力的部分。因此,无监督方法[54,63]试图在没有任何注释的情况下训练模型或直接检测查询对象。我们的工作也是一种无监督方法。然而,与以前的方法不同,我们提出了一种名为Pseudo-Q的新方法,用于自动生成用于监督学习的伪查询。02.2. 视觉语言Transformer0Transformer[53]首次提出了解决自然语言处理(NLP)任务的方法。ViT[16]首次尝试将Transformer应用于图像分类任务[12]。受到ViT的成功启发,DETR [5]和Segmenter[48]进一步扩展了Transformer用于目标检测和分割任务。还有许多努力[9, 13, 32, 39, 45,51],尝试通过Transformer处理视觉语言任务。TransVG[13]提出了一种新颖的基于Transformer结构的视觉定位任务框架。CLIP [45]和UNITER[9]利用Transformer共同学习文本和图像表示。LXMERT[51]建立了一个大规模的Transformer来学习跨模态表示。在这项工作中,我们在TransVG的基础上提出了一种新颖的多级跨模态注意力机制,用于跨模态学习。02.3. 无注释的视觉识别0已经有几项工作[3, 7, 11, 15, 18, 27, 42,052, 69]用于零样本视觉任务。零样本目标检测任务[3,18]旨在检测未见对象3.1. OverviewPrevious visual grounding methods rely on expensivehuman annotations, i.e., image region-query pairs for fully-supervised approaches [13,22,35] or image-query pairs forweakly-supervised approaches [36, 37, 49]. We firstly pro-pose a pseudo language query based method without usingany task-related annotations at training.Specifically, the Pseudo-Q approach consists of threecomponents, including: (1) pseudo-query generation mod-ule, (2) query prompt module, and (3) visual-languagemodel. The illustration of Pseudo-Q is shown in Figure 2.Taking an unlabeled image as an explanation, the detectorcan produce several object proposals. Then, these propos-als are fed into pseudo-query generation module, which canautomatically generate nouns, attributes, and relationshipsfor these proposals. Together with these elements, we caneasily create pseudo language queries.Subsequently, the query prompt module refines createdpseudo language queries for visual grounding task. Finally,we propose a visual-language model to fully capture thecontextual relationship between the image regions and cor-responding pseudo language queries.3.2. Pseudo-Query GenerationIn general, the first step for visual grounding is recog-nizing the categories of queried objects. However, such asimple grounding strategy leads to ambiguities in complexscenes, e.g., “a talk person on the left” or “a short personon the right”, without understanding their spatial relationsor attributes. Thus, to accurately locate visual objects bylanguage queries, a visual grounding model needs to under-stand queried objects’ categories, attributes, and their rela-tionships. Based on the above analysis, generating pseudolanguage queries for candidate objects involving three keycomponents: nouns, attributes and relationships.Nouns. Inspired by works [17,31,42], we adopt an off-the-shelf detector [1] to obtain the object proposals. Unlikeimage classification task where each image contains onlyone major object, scenes in visual grounding task are morecomplex due to plenty of candidate objects. While it is nat-ural to select the most salient objects as candidates, such aprocess requires intensive manual labor which is not avail-able in our setup. Instead, we use detection confidence asa criterion. Concretely, the top-N objects with highest con-fidence are kept as our proposals. Furthermore, we empiri-cally discover that the detector will focus on a large quantityof tiny objects which are less likely to be queried. Thus, wepropose to remove tiny objects before generating proposals.155150视觉语言模型0目标检测器0伪查询0生成0模块0对象提议0∙∙∙0<关系> 0(a)训练阶段(b)推理阶段0未标记的图像0查询提示0模块0测试查询提示:找到与描述相对应的区域0最终查询:找到与描述相对应的区域0左边站着的男人0查询1:右边的建筑物查询2:左0视觉语言模型0测试图像0视觉定位结果0输出:(x,y,w,h)0(x, y)0w0h0查询3:左边站着的男人左边的人0查询4:红色夹克左边的男人查询5:中间0查询6:右边的男人0<属性>0图2.我们Pseudo-Q方法的概述。彩色和放大的视图更好。所提出的方法包括伪查询生成模块,查询提示模块和视觉语言模型。在训练阶段(a),生成伪图像区域-查询对以训练视觉语言模型。在推理阶段(b),将测试查询填入提示模板,并通过训练好的模型定位目标对象。0缺少标签的类别。而零样本动作识别任务[11, 15,27]在不使用动作标签的情况下识别预定义的动作类别。我们的工作重点在于在不使用任何任务相关注释的情况下定位对象区域,例如图像区域和查询。至于零样本视觉定位,开创性的工作ZSGNet[47]侧重于可能包含未见名词或对象类别的查询短语。它包括一个语言模块来编码查询特征,一个视觉模块来提取图像特征,以及一个锚点生成器来生成锚点。然而,需要注意的是,我们的工作重点与ZSGNet不同,ZSGNet是用于识别未见类别的,此外,ZSGNet使用手动注释,而我们不依赖于任何任务相关标签。03. 方法0在本节中,我们详细解释了我们的Pseudo-Q方法。在第3.1节中,我们介绍了Pseudo-Q的概述。在第3.2节中,我们详细介绍了伪查询生成模块。在第3.3节中,展示了任务相关查询提示模块的详细信息。最后,在第3.4节中,我们说明了我们的多级跨模态注意力机制。(a) Pseudo-Query Generation Moduleman in the behind Generated Pseudo-Queries(b) Visual Language ModelQuery Prompt ModuleFinal query: find the region thatcorresponds to the description left standing man ConvNetLayer1 LanguageEncoder Cross-Modality Fusion ModuleRegression HeadPred(x,y,w,h)Layer2 Layer6 ···Layer1 Visual EncoderAttention LayerAttention LayerAttention Layer···Feature concatenation operation···(x1,y1)(x2,y2)(x3,y3)x1αleft man; center man; right man Query1: right wooden buildingQuery2: building on the leftQuery3: left standing manQuery4: red jacket man on the leftQuery5: man in the center/behindQuery6: man on the rightclassiferstandingredbuildingwoodenIoU( , )>βjacket man ......1.Select top-6 objects based on confidence. 2.Uniformly sample 6 pseudo-queries.155160<名词>0男人0夹克0<名词> <属性> <关系>0<衣服属性>0图3.(a)伪查询生成模块为相应的对象生成空间关系和属性。(b)视觉语言模型由视觉编码器、语言编码器和跨模态融合模块组成。0属性。它们是帮助模型更好地理解场景的重要语义线索。我们调查发现,在现有数据集[28, 40,65]中,常见的属性包括颜色、大小(高)、材料(木制)和人的运动状态(例如站立和行走)等。与获取名词一样,我们利用现成的属性分类器[1]来预测相应对象的上述常见属性。一般来说,一个对象可能有多个属性,比如“一个高个子正在走路”,理想情况下能识别出尽可能多的属性。然而,受限于模型的能力,我们只保留置信度最高且超过预定义阈值的属性作为最终的提议。此外,衣服也是一个人的重要属性,可以通过计算衣服和人之间的IoU值来确定,如图3(a)所示。关系。我们观察到,空间关系是大多数现有数据集[40,65]中最常用的关系之一,用于区分不同的对象。为了挖掘潜在的空间关系,我们提出了一个启发式算法,如图3(a)所示。一般来说,空间关系可以分为水平(即左、中、右)、垂直(即上和下)和深度(即前和后)三个维度。注意,每个先前生成的对象提议由一组坐标表示,自然地包含了空间信息。我们可以通过比较对象在这两个维度上的中心坐标来获得水平和垂直的空间关系。同时,为了增加算法的鲁棒性,同一维度上两个对象坐标的数值差异需要大于预定义阈值。最后,我们可以确定同一类别的不同视觉对象的空间关系,例如左、右和中心。在深度维度上,我们假设对于同一种对象,离相机越近的对象越大0对象区域。具体而言,我们计算最大对象区域与最小对象区域的面积比,并设置一个阈值来确定是否存在前后关系。如果比值超过阈值,则将前后关系分配给最大和最小的对象。伪查询。在获得三个关键要素之后,我们可以按附录中的模板为图像生成所有可能的伪查询。最后,如果候选数大于M,则最多采样M个伪图像区域-查询对,否则采样全部。03.3. 查询提示模块0随着预训练语言模型的进步[4,014 ],提出了更好地利用预训练阶段学到的知识的提示工程。受到视觉语言任务中提示工程的最近成功的启发,例如,图像语言预训练[45],我们提出了一个查询提示模块,通过改进生成的伪语言查询来挖掘预训练语言模型(第3.4节)的隐藏知识,用于视觉定位任务。虽然CLIP[45]中提出的提示模板对于图像分类任务效果很好,但我们经验性地发现它们对于具有挑战性的视觉定位任务无效。因此,在这项工作中,我们专门探索了适用于视觉定位的提示模板。我们引入的查询提示模块遵循某些模板,例如,“找到与描述{伪查询}相对应的区域”或“文本{伪查询}描述的是哪个区域?”这样的设计专门针对视觉定位任务,因为这个任务的重点在于定位所指对象的区域。03.4. 视觉语言模型0Dataset and setups.Following previous visualgrounding methods [13, 60], we evaluate our methodon five datasets: RefCOCO [65], RefCOCO+ [65], Re-fCOCOg [40], ReferItGame [28], and Flickr30K Enti-ties [44]. We follow the same train/val/test splits from [13]for all datasets. The number of training images in these fivedatasets are 16994, 16992, 24698, 8994, and 29779. Notethat we don’t use any manual annotations during the train-ing stage, they are only leveraged for evaluation.Implementation details. We choose a pre-trained de-tector [1] and attribute classifier [1] on Visual Genomedataset [30], which contains 1600 object and 400 attributecategories. As we mentioned in Sec. 3.2, we select top-Nand sample up to M pseudo-queries for each image. Specif-ically, on RefCOCO, we select top-3 objects according tothe detection confidence and uniformly sample 6 pseudo-queries from all possible candidates. As for RefCOCO+,RefCOCOg, ReferItGame, and Flickr30K Entities, we usetop-3 objects/12 pseudo-queries, top-2 objects/4 pseudo-queries, top-6 objects/15 pseudo-queries, and top-7 ob-jects/28 pseudo-queries, respectively.Training details.All our experiments are conductedunder Pytorch framework [43] with 8 RTX3090 GPUs.Our visual-language model is end-to-end optimized withAdamW. The initial learning rate is set to 2.5×10−5 for thevisual and language encoder and 2.5 × 10−4 for the cross-modality fusion module. The batch size is 256. All the155170数据集和设置。我们按照先前的视觉定位方法[13,60]在五个数据集上评估我们的方法:RefCOCO[65],RefCOCO+ [65],Re- fCOCOg [40],ReferItGame[28]和Flickr30K Enti- ties[44]。我们对所有数据集使用与[13]相同的训练/验证/测试分割。这五个数据集中的训练图像数量分别为16994、16992、24698、8994和29779。需要注意的是,在训练阶段我们不使用任何手动注释,它们仅用于评估。实现细节。我们选择在VisualGenome数据集[30]上使用预训练的检测器[1]和属性分类器[1],该数据集包含1600个对象和400个属性类别。正如我们在第3.2节中提到的,我们根据检测置信度选择前N个并对每个图像最多采样M个伪查询。具体而言,在RefCOCO上,我们根据检测置信度选择前3个对象,并从所有可能的候选对象中均匀采样6个伪查询。至于RefCOCO+、RefCOCOg、ReferItGame和Flickr30KEntities,我们分别使用前3个对象/12个伪查询、前2个对象/4个伪查询、前6个对象/15个伪查询和前7个对象/28个伪查询。训练细节。我们的所有实验都在Pytorch框架[43]下使用8个RTX3090GPU进行。我们的视觉语言模型使用AdamW进行端到端优化。初始学习率为2.5×10-5,用于视觉和语言编码器,以及2.5×10-4,用于跨模态融合模块。批量大小为256。04. 实验0除了Flickr30KEntities采用指数衰减率为0.85的指数衰减计划之外,其他数据集都使用余弦学习率计划。我们的模型在RefCOCO、RefCOCOg和ReferItGame上进行了10个时期的训练,在RefCOCO+和Flickr30KEntities上进行了20个时期的训练。我们使用的数据增强方法与TransVG[13]相同,例如随机调整大小裁剪、随机水平翻转和颜色抖动。04.1. 与最先进方法的比较0我们报告了与现有的无监督方法[54, 62,63]和弱监督方法[38, 49,55]的比较结果。需要注意的是,弱监督方法是使用昂贵的注释查询进行训练的。作为参考,完全监督方法[13,60]的性能被显示为上限。具体来说,我们按照先前的工作[38,55]显示了前1准确率(%)的结果。如果预测的边界框与真实边界框之间的Jaccard重叠大于0.5,则将其视为正确的边界框。RefCOCO / RefCOCO + /RefCOCOg。我们的方法在RefCOCO、RefCOCO+和RefCOCOg数据集上的性能报告在表1中。我们将我们的方法与现有的最先进的无监督方法CPT [62]和弱监督方法DTWREG[49]进行比较。我们的方法在所有三个数据集上都可以轻松地超过CPT(例如,在RefCOCO的val / testA /testB分割上分别提高了23.82%/ 22.15%/23.83%的性能)。与DTWREG方法相比,我们的方法在RefCOCO和RefCOCOg数据集上可以获得更好的性能。同时,它可以在RefCOCO+数据集的val和testA分割上获得可比和更好的性能。尽管我们可以看到与DTWREG在testB分割上相比存在准确性差距,但我们的方法仍然比CPT获得了很大的性能提升。需要注意的是,在不利用Re- fCOCO+训练集中的任何手动标记的查询的情况下,我们的方法仍然可以达到相当可观的性能。所有实验证明了我们生成的伪查询可以为视觉定位任务提供有效的监督信号。ReferItGame。在表2中,我们展示了在ReferItGame数据集上与其他现有的视觉定位方法的比较。我们的方法可以达到43.32%的前1准确率,超过了所有无监督和弱监督方法。特别是与最先进的弱监督方法[55]相比,该方法可以在不使用任何注释标签的情况下获得4.93%的性能提升。这些结果证明了我们提出的方法的优越性。Flickr30KEntities。在表2中显示了Flickr30KEntities数据集上的结果。可以观察到,我们的方法仍然可以达到惊人的60.41%的前1准确率,超过了最先进的弱监督方法[38]1.14%。考虑到Flick30K的规模,0102030406668707274767880155180表1. 在RefCOCO [65]、RefCOCO+ [65]和RefCOCOg[40]数据集上与最先进的方法进行比较,以top-1准确率(%)为指标。“Sup.”表示监督级别:No(无注释),Weak(仅有注释的查询),Full(带有注释的bbox-query对)。监督级别为No和Weak的最佳两个结果分别用粗体和下划线表示。0方法 发表于 监督级别 RefCOCO RefCOCO+ RefCOCOg0val testA testB val testA testB val-g val-u test-u0CPT [62] arXiv'21 No 32.20 36.10 30.30 31.90 35.20 28.80 - 36.70 36.500我们的 CVPR'22 56.02 58.25 54.13 38.88 45.06 32.13 49.82 46.25 47.440- 33.29 30.13 - 34.60 31.58 33.79 - - ARN [36] ICCV'19 34.26 36.43 33.07 34.53 36.01 33.75 33.75 - - KPRN [37] ACMMM'19 35.0434.74 36.98 35.96 35.24 36.96 33.56 - - DTWREG [49] TPAMI'21 39.21 41.14 37.72 39.18 40.10 38.08 43.24 - -076.65 81.14 69.99 65.33 71.62 56.02 - 66.58 67.27 NMTree [35] ICCV'19 76.41 81.21 70.09 66.46 72.02 57.52 64.62 65.87 66.44 FAOA[61] ICCV'19 72.54 74.35 68.50 56.81 60.23 49.60 56.12 61.33 60.36 ReSC [60] ECCV'20 77.63 80.45 72.30 63.59 68.36 56.81 63.12 67.3067.20 TransVG [13] ICCV'21 80.32 82.67 78.12 63.50 68.15 55.63 66.56 67.66 67.440表2. 在ReferIt [28]和Flickr30K Entities[44]上与最先进的方法进行比较,以top-1准确率(%)为指标。“Sup.”表示监督级别:No(无注释),Weak(仅有注释的查询),Full(带有注释的bbox-query对)。监督级别为No和Weak的最佳两个结果分别用粗体和下划线表示。0方法 发表于 监督级别 ReferIt Flickr30K036.93 20.91 Wang等人[54] ICCV'19 26.48 50.49 我们的 CVPR'2243.32 60.41033.67 46.61 Zhao等人[70] CVPR'18 33.10 13.61 Liu等人[36] ICCV'1926.19 - Gupta等人[19] ECCV'20 - 51.67 Liu等人[38] CVPR'21 37.6859.270Wang等人[55] CVPR'21 38.39 53.10059.13 72.83 Yu等人[66] IJCAI'18 63.00 73.30 Yang等人[61] ICCV'1960.67 68.71 Yang等人[60] ECCV'20 64.60 69.28 Deng等人[13]ICCV'21 69.76 78.470我们的方法在包含427K手动注释的参考表达式的实体上,即使没有任何训练标签,仍然取得了显著的性能。对于其他没有使用手动标签的方法,我们的方法可以轻松超越[63]和[54],分别获得39.50%和9.92%的绝对性能提升。解释弱监督方法的收益。首先,视觉对齐任务的核心是学习视觉和语言模态之间的对应关系,这在很大程度上依赖于训练数据中图像区域和查询之间的正确映射。我们方法与弱监督方法之间的一个关键区别是,我们可以为检测到的对象生成相应的查询,从而保证映射的正确性。0伪样本的百分比(%)0准确率(%)0TestA Val TestB0图4. 在Re-fCOCO[65]上降低手动标注成本的实验。我们用我们的伪样本替换那些查询包含空间关系的手动标签。0两种模态之间的对应关系。虽然弱监督方法有注释的查询,但它们缺乏关键的监督信号,即两种模态之间的区域级对应关系。其次,我们的模型同时优化了两种模态的特征,使模型能够学习到更好的对应关系,而弱监督方法[38,49,55]只更新语言模型,而保持视觉模型不变。04.2. 提高手动标注的效率。0在图4中,我们使用与第4节相同的超参数在RefCOCO[65]上进行实验,以验证我们的伪样本(即伪图像区域-查询对)的有效性,通过替换手动注释的标签,其中的查询包含空间关系。基线是我们以全监督方式训练的模型。请注意,此实验中未应用查询提示模块。如图所示,与全监督集相比,用我们生成的伪区域-查询对替换12.01%、20.68%和30.75%的手动注释标签不会降低原始性能。在这种情况下,可以减少约31%的人工注释成本。因此,我们的方法可以用于自动注释语言查询中的主要组成部分之一,即空间关系,从而显著提高手动标注的效率。182025303540303540In this section, we conduct extensive ablation experi-ments to demonstrate the effectiveness of each proposedcomponent and the rationality of hyper-parameters setting.Most of the following experiments are conducted on Refer-ItGame [28] dataset and we report the top-1 accuracy. Themodel is trained with the same hyper-parameters as Sec. 4.Number of nouns. We investigate the impact of utilizingdifferent number of nouns (objects) in Figure 5(a). Increas-ing the number of nouns can produce more pseudo sampleswhich boosts the performance of our model, as shown inFigure 5(a). In our experiments, we use the detection con-fidence as a criterion to select salient objects. If the num-ber of nouns is too large, the likelihood of detecting lowconfidence objects which are inconspicuous will grow. Weempirically find that, on ReferItGame dataset, the modelreaches its peak performance when the number of nounsis 6. Once the number of nouns exceeds 6, the performancestarts to degrade. Thus, we use the top-6 object proposalson the ReferItGame dataset.Number of pseudo-queries.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功