文件标题：不需配对的短语本地化方法的有效性及竞争力

160 浏览量更新于2023-10-12 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4663没有配对训练样本的短语定位伦敦帝国理工学院http://www.josiahwang.com伦敦帝国学院l. imperial.ac.uk摘要图像中短语的本地化是图像理解的重要组成部分现有的工作试图从短语图像区域对应（强监督）或短语图像对（弱监督）的例子中学习这些映射。我们假设这种配对注释是不必要的，并提出了第一种方法，用于短语本地化问题，其中既不需要训练过程，也不需要配对的特定于任务的数据。我们的方法简单但有效：我们使用现成的方法来检测图像中的对象、场景和颜色，并探索不同的方法来测量检测到的视觉元素的类别与短语中的单词之间的语义相似性。在两个著名的短语本地化数据集上的实验表明，该方法大大优于所有弱监督方法，并且与强监督方法相比具有很强的竞争力，因此可以被认为是任务的强基线我们的方法的非配对性质使其适用于任何领域，并且没有配对的短语本地化注释可用。1. 介绍近年来，在检测和定位图像中对象类别实例的任务中取得了重大进展，特别是使用深度卷积神经网络（CNN）方法进行对象检测[7，8，10，19，26，27，28，31]。在大多数工作中，对象检测标签被视为一组固定的类别标签，视觉检测器被训练来定位图像中的每个类别。然而，在更现实的应用中，人们重新-* 作者感谢匿名评论者和地区主席的反馈。这项工作得到了MultiMT项目的支持（H2020 ERC启动资助号：678017）;以及MMVC项目，通过由英国商务、能源和工业战略部（BEIS）和土耳其科学技术研究委员会（T U？BstecI T AK）资助并由英国文化委员会提供的N e wton-Katip C elebi基金合作伙伴关系下的IncrementalLinks赠款（ID 352343575）。手柄滑动文本语料库知识基地对象检测器滑梯的把手图1.我们调查的任务短语本地化没有配对的训练样本。常规设置在训练时需要短语相比之下，非配对设置不提供这样的注释用于训练，而是允许模型利用现成的视觉检测器、大规模通用语料库、知识库和通用图像等资源，在测试时定位以前看不见的因此，这种非配对设置是监督设置的基线。通过自由形式的文本短语而不是对象类别来表示图像中的对象。例如，一只棕色毛茸茸的小狗而不是狗。短语级本地化已被引入[11，15，17，20，24，37]以满足这一需求通过结合视觉对象识别和自然语言处理。我们所说的“短语”可以包括单个单词、短句或短语，甚至是完整的句子。所有以前的工作都在培训期间进行某种形式的监督：强监督（提供图像中短语的对象定位）[2，3，11，12，22，23，29，33，39]或弱监督（提供短语和图像对，但不提供图像中对象的定位）[ 1，34，35，40 ]（图1）。然而，这种特定的边界框注释，甚至图像短语对，是很难和费力获得。这使得难以将检测扩展到覆盖人可以说出的可能短语的大空间的更现实的设置。在本文中，我们解决了新的任务，短语本地化的图像没有任何配对的例子，即。模型在训练时既不能访问短语-图像对，也不能访问它们据我们所知，没有以前的全监督短语定位弱监督短语定位非成对短语定位4664工作已经探索了在没有成对注释（图像级或对象级）的情况下执行短语本地化我们认为，这种重新识别概念或属性）以处理更专门的任务（短语本地化）。因此，这个设置作为一个强有力的基线短语本地化任务，即它说明了即使在没有看到任何这样的例子的情况下系统也可以执行短语本地化的程度。这可以进一步深入了解如何以知情的方式更好地利用配对示例该方法也可扩展到任何领域和任何数量的自然语言和图像对。本文的主要贡献是一个短语本地化模型，该模型没有经过短语本地化标记的训练（第3节）。相反，它利用现成的资源、工具和外部知识。我们的模型具有简单和可解释的优点，作为一个强有力的基线为新的，非配对设置。我们在两个现有的短语本地化数据集（第4节）上对该模型进行深入分析，使用不同的检测器和检测器组合，概念选择的语义相似性度量，以及组合这些组件以本地化以前未见过的短语的策略。我们在两个现有短语本地化数据集上的实验表明，我们的方法在没有配对示例的情况下比最先进的弱监督模型表现更好，并且与在训练时利用大量注释短语本地化示例和特定于域的工具的完全监督方法相当结果表明，对于这些数据集，使用短语本地化注释进行训练对于解决短语本地化任务可能不是必要的或最佳的。2. 相关工作用边界框标签注释的数据集的可用性[4，30]允许开发基于深度CNN的检测器[7，8，10，19，26，27，28，31]，推动对象识别领域产生更准确的检测和图像中对象实例的定位。最近有兴趣使用自由形式的自然语言短语而不是固定的标签来定位对象，并为这些任务构建数据集[15，17，20，24，37]。我们将现有的短语定位或接地方法分类为强/全监督[2，3，11，12，22，23，29，33，39]或弱监督[1，14，34，35，40]。使用强有力监督的方法包括那些将短语和图像区域投影到公共空间上的[23，25，33]，那些为以边界框建议为条件的短语构建语言模型的[12]，和那些学会参加正确的区域propos- als给出的短语[29]。最近的方法包括对短语而不是固定的对象标签调节对象检测器[11]，利用语义上下文并学习直接从短语本地化数据回归边界框，而不是依赖于外部区域建议[2，3]，以及对短语所属的类别/组调节嵌入[22]。在弱监督设置中，在训练时不提供定位。因此，这些方法使用外部区域建议[1，40]，通用对象类别检测器[35]和注意力地图[34]进行定位。为了学习将这些区域建议与短语相关联，已经提出了各种方法，包括学习使用字幕的解析树来约束区域的空间位置[ 34 ]，使用区域建议作为锚点来执行连续搜索[ 40 ]，使用来自成对字幕的共现统计来链接文本中的单词和检测标签[ 35 ]，以及在区域建议的概念标签和查询中的词之间强制一致性[1]。我们不知道的工作，解决短语本地化没有配对的例子。Yeh等人[35]将他们的工作定义为“不受监督”，但我们认为这是弱监督。他们的模型使用来自训练数据集的图像-短语对（与测试集相似的分布）来计算单词和概念之间的共现统计，并为短语中的单词训练图像分类器。我们的模型适应Yehet al。的方法，当没有配对的训练样本可用。此外，我们提出了一个新的本地化模块，使更好地直接使用的输出短语定位的多个检测器。3. 非成对短语定位模型任务定义。给定测试时的图像I和查询短语q，短语定位任务的目的是产生包围I中q所指的视觉实体的边界框b与传统的监督设置相反，在我们提出的非配对设置中，注释的配对训练示例（q，I）或（q，I，b）在训练或模型构建时不可相反，允许模型使用不特定于短语本地化的外部资源，例如一般视觉对象检测器、一般文本语料库、知识库和词库，以及来自没有用短语注释的一般数据集的图像。我们注意到，视觉检测器可以以监督的方式训练（例如，使用 COCO 或ImageNet），但在短语本地化任务的基于短语的标签方面没有监督。类似地，从通用文本语料库训练的语言模型可以包含来自测试集的短语，只要它们独立于图像。我们的模型建立在叶等人的方法。[35 ]第35段。然而，与他们的方法相反，我们在没有明确的训练步骤或短语本地化的情况下执行短语本地化。4665步骤1：实例检测（第3.1节）第2步：概念选择（第3.2节）第三步：本地化（第3.3节）图2.非成对短语定位模型的三个阶段。实例检测阶段使用预先训练的检测器检测各种概念的实例。概念选择阶段针对查询短语对这些检测到的概念进行排名（使用预先训练的词嵌入），并将最佳候选概念实例转发到本地化阶段，其中模型预测查询短语的最终边界框。calization annotations.我们（i）结合了一个语义相似性的措施，从一般的文本语料库，而不是对齐的训练例子;（ii）探索一系列现成的视觉检测器，这些检测器没有专门接受过短语定位的训练;（iii）提出不同的策略来从检测输出执行短语定位，包括组合多个检测器的输出的新颖的基于共识的方法。在测试时，我们的模型使用三步流程执行短语本地化（图2）。在第一步-在第二步-概念步骤，并选择最相关的实例（第3.2节）。在最后一步-3.1. 实例检测我们的非配对短语定位模型的第一阶段依赖于不同的视觉对象检测器。我们explore使用的检测器隔离，并结合其输出，其中的概念不一定相互排斥。其关键思想是利用多检测器的冗余我们进行以下实验：1. tfcoco：一个更快的R-CNN [28]检测器，经过训练可以检测80种MS COCO [18]，使用Ten- sorflowObject Detection API [13]，1，置信度阈值为0。1.一、1更快的rcnn inception resnet v2 atrous coco2. tfcoco20：tfcoco的一个子集，我们只考虑PASCALVOC [5]中的20个类别的子集。这可以与以前的工作进行比较。3. tfoid：另一个更快的R-CNN检测器，经过训练可以检测Open Images Dataset（V2）[ 16 ]的545个对象类别，再次使用 TensorFlow Object DetectionAPI，2置信度阈值为0。1.一、4. places365 ：一个 WideResNet18 [38] 分类器，在Places2数据集[41]上训练，用于365个场景类别。我们假设场景通常覆盖整个图像，当分类置信度至少为0时，返回整个图像作为边界框定位。1.一、我们只保留前20名预测类。5. yolo9000 ：一个 YOLO9000 检测器 [27] ，在 MSCOCO和ILSVRC [30]上训练，以弱监督的方式处理9413个我们使用YOLOv2。6. colour：11个基本英语颜色术语的颜色检测器，来自从现实世界图像中学习的RGB像素颜色术语的后验[32]。我们在将后验阈值设为0后，进行了连通分量标记（8-连通性）。3，并为每个标记的连接组件生成边界框。边界框的面积被约束为至少625个像素。探测器的准确性以及所覆盖类别的数量和类型各不相同。值得注意的是，上面的检测器都没有直接使用我们测试数据集中的图像或短语本地化注释。这将强调我们的短语本地化模型推广到不可见数据的能力。更多的检测器可能被用来进一步提高召回率，但这里使用的检测器足以表明所提出的方法是非常有前途的。2更快的rcnn inception resnet v2 atrous oid穿红衬衫的男孩红衬衫开放图像色彩侦检器可可检波器46663.2. 概念选择我们模型的第二阶段将待定位的查询短语与第3.1节中的检测器输出连接起来。它计算每个短语和检测器概念标签之间的语义相似度。直觉是，检测到的与查询中的单词或短语非常相似或相关的概念的实例最有可能是目标对象。例如，单词dancer可能与类别person高度相似或相关;因此，即使没有dancer检测器，模型也可以推断检测到的人可能是查询中提到的dancer我们将查询 q 和概念标签 c 表示为 300 维 CBOWword2vec嵌入[21]。多词短语由短语中每个词汇的词向量之和表示，并通过其L2范数归一化为单位向量。3查询和概念标签中的所有单词（yolo9000除外）都是小写的。为在yolo9000中，每个类别都是WordNet [6]同义词集。因此我们将每个类别表示为单词向量的总和，每个术语在其同义集中，归一化为单位向量。词汇表外的单词通过匹配单词的大小写变体（Scotch whiskey到scotch whiskey）来解决。如果做不到这一点，我们会尝试像以前一样匹配多词短语。我们注意到查询短语中有许多拼写错误因此，该模型利用另一外部资源来对词汇表外的单词执行自动拼写校正4该模型从word2vec的词汇表中寻找候选替换词该模型在拼写校正的情况下始终获得略高的准确率，因此我们仅报告拼写校正查询的结果。我们探索了两种方法来聚合查询短语中的单词：作为一个单一的向量，通过求和单词向量并归一化为单位向量（w2 v-avg），或者通过表示单独发送每个单词（w2v），只使用其中一个用于本地化的词语（参见第3.3节）。我们使用余弦相似度作为查询q和概念标签c之间的语义相似度度量S（q，c）。该阶段基于候选边界框检测与查询短语的相似性输出候选边界框检测的排名列表3.3. 定位在最后阶段，我们提出的模型预测一个边界框给定的查询短语和排名列表的候选日期检测从第3.2节。这是通过从语义上与查询最相似的候选实例中进行选择或聚合来实现的。最简单的本地化方法是从候选检测中选择与查询[3]将整个短语的词嵌入平均化会得到相同的实验结果。4https://pypi.org/project/pyspellchecker/短语当检测到相同概念的多个实例时，我们使用不同的打破平局策略进行实验：（i）选择随机实例;（ii）选择具有最大边界框的实例;（iii）选择具有最高类别预测置信度的实例;（iv）生成包围所有实例的最小边界框（并集）。后者可能有助于处理涉及对象的多个实例的查询（例如，从三个单独的人检测中定位三个人）。除了简单的策略，我们还提出了一种新的基于共识的平局打破方法.其主要思想是检测器可以对最可能的定位进行投票，利用检测器之间的冗余和短语（blueshirt）的不同方面我们考虑来自高于相似性阈值的前K个概念的实例的语义相似性（我们使用K = 5和阈值0）。（六）。对于每个概念ci，图像的像素级热图Mci（I）通过将与任何边界框重叠的像素设置为1概念的实例，并将不这样做的实例设置为0。我们通过对每个概念的热图进行求和来生成组合热图 M（I），每个热图由语义第3.2节中的相似性评分S（q，c）：ΣKM∈（I）=S（q，ci）Mci（I）（1）i=1短语定位通过选择投票给具有最高值的像素的绑定框实例来执行，并且选择具有最高语义相似度得分的框在存在多个最高得分框的情况下，模型预测包围所有此类框的最小边界框。我们比较使用单个组合词嵌入短语（w2 v-avg）或使用一个词的嵌入来表示短语（w2 v）。对于后者，我们可以选择与任何检测到的概念（w2 v-max）具有最高语义相似度的单词。直觉上，我们只考虑短语中的一个词进行定位，其中这个词与检测到的概念具有最高的相似性。或者，我们可以使用最后一个词进行本地化（w2 v-last），假设最后一个词是头词。我们默认为-当在词汇表中找不到短语中的单词时，缩放到整个图像。4. 实验结果我们在两个数据集上评估我们提出的模型：Flickr30 kEntities（4.2节）和Refere-ItGame（4.3节）。两者都被用来评估监督短语本地化[1，29，35]。每个数据集都代表着不同的挑战：Flickr 30 kEntities是从完整图像标题中提取的名词短语，而Refere-ItGame是从交互式游戏中生成的短语，其中一个玩家试图定位对象，4667另一位玩家描述。因此，我们认为后者更具挑战性。我们还在Visual Genome上测试了选定的模型（第4.4节），以研究模型4.1. 评估指标与之前的工作一样，我们使用准确度度量进行评估5，其中如果查询短语的预测边界框pi与地面真值gi的交集（IoU）至少为50%，则该预测边界框p i被认为是正确的。作为参考，我们测量了正确的根据相似性度量和所使用的检测器，可以在概念选择阶段（第3.2节）的候选定位中找到定位该上限精度在N个测试实例中计算为1NB.Σ探测器相似性策略Acc（UB）%基线：始终定位到整个图像21.99CC+OI-最大30.32（73.00）20w2v-avg联盟36.49（51.81）CCw2v-max联盟37.57（51.22）OIw2v-max联盟44.69（50.04）CC+OIw2v-max联盟48.20（55.85）公司简介w2v-avg共识49.51（58.93）公司简介w2v-avg联盟49.61（58.10）公司简介w2v-avg共识50.11（58.00）公司简介w2v-last联盟50.36（57.81）公司简介w2v-max联盟50.49（57.81）弱监督法国[29]Yeh等人[35]三十六点九三KAC Net + Soft KBP [1] 38.71强监管m_ax||oU（g_i，b_j）≥0。5Ni=1j=1（二）法国[29] 47.81SPC+PPC [23] 55.85QRC净[3] 65.14其中，λ（·）是指示函数，B是候选边界框。我们报告一个版本的上层-边界，该边界还包括包含所有候选者（因此B+1个候选者）的并集的最小边界框这种变体始终给出了更高的上限精度比没有工会。补充文件中给出了这两种变体的结果。4.2. Flickr30kEntities上的短语本地化Flickr30kEntities[24]基于Flickr30k [36]，包含在相应图像标题中测试分割[25]包括14，481个短语，用于1，000张图像，我们将其用于评估。在我们的非配对定位实验中不使用训练和验证分割。由于不存在非成对短语定位工作，我们将我们的方法与始终定位到整个图像的基线进行比较（21. 99%的准确率），并使用不同的检测器和定位策略比较我们的模型。作为参考，我们还将我们的模型与在完全[3，11，23，29]或弱[1，35]监督设置中训练的监督方法进行了比较。请注意，这些系统与我们的系统没有直接可比性。事实上，这种比较对我们不利，因为除了监督短语本地化训练数据之外，这些工作还使用外部工具，如视觉检测器或边界框建议生成器表1显示了Flickr30kEntities的准确性，从我们选择的模型中，使用不同的检测器组合，概念选择和定位策略进行边界框预测。我们的最佳性能模型将tfcoco、tfoid和places365检测器与5 我们的评估脚本可以在 https://github.com/josiahwang/phraseloceval找到。4668查询自适应R-CNN [11] 65.21表1.我们在Flickr30kEntities上选择的一些模型的准确性（和上限UB），比较不同的检测器组合，语义相似性度量和本地化策略。作为对监督设置的比较，我们提出了我们的结果与选定的强和弱监督系统。这些系统与我们的系统没有直接的可比性，因为它们使用短语本地化注释进行训练。关键字： CC=tfcoco ， OI=tfoid ， 20=tfcoco20 ，PL=places365，CL=colour。w2 v-max概念选择器和联合本地化策略。该模型在该数据集上的表现远远优于最先进的弱监督模型[1]（50.49% vs. 38. 71%）。其准确性也高于强监督模型[29]（47。81%），并且与其他使用强大监督以及针对数据集，词性标记器和解析器，完整标题的专用检测器的人[3，11，23]竞争，并考虑标题中提到的其他实体/关系。相比之下，我们的方法要简单得多，并且不依赖于特定领域的配对训练数据。不同的检测器组合，概念选择和定位策略的完整结果作为补充材料。这些结果表明，配对注释甚至可能不是任务所必需的，至少对于Flickr30kEntities来说是这样。表2给出了每个类别的准确度细分。我们最好的模型在八个类别中的两个类别（动物和车辆）上的准确率高于所有强监督模型。我们的模型在八个类别中的七个类别中也比弱监督模型实现了更好的准确性，并且在剩余的cat-egory（场景）方面与KAC Net [1]（40.58% vs. 43. 53% ），并优于 Yehet al. [35] （ 24.87%）。4669人服装身体部位动物车辆文书场景其他整体实例数56262306523518400162161933741448120（最大值，u）60.319.632.1082.4374.7519.1417.8517.9636.33CC（max，u）56.3510.451.7283.5979.2517.9015.6929.7937.57CC+OI（最大值，u）66.3437.9921.0384.7579.7547.5320.1433.1148.20CC+OI+PL（平均值，u）66.1835.5221.0384.7581.0047.5339.1634.7150.27CC+OI+PL（最大值，u）66.2737.5520.6584.7580.0047.5338.9134.4150.49CC+OI+PL+CL（平均值，u）65.2235.6521.2278.1978.0047.5340.5834.0549.61弱监督Yeh等人[35]第三十五届58.3714.872.2968.9155.0022.2224.8720.7720.91KAC Net（Soft KBP）[1]58.427.632.9777.8069.0020.3743.5317.0538.71强监管SPC+PPC [23]71.6950.9525.2476.2566.5035.8051.5135.9855.85QRC Net [3]76.3259.5825.2480.5078.2550.6267.1243.6065.14查询自适应R-CNN [11]78.1761.9935.2574.4176.1656.6968.0747.4265.21表2.不同短语类型的非配对短语本地化精度，如Flickr30kEntities中定义的。粗体结果显示，精确度高于强监督模型，而斜体精确度表明它们高于弱监督模型。关键字：CC= tfcoco，OI= tfoid，20= tfcoco20，PL=places365，CL= colour，max= w2v-max，avg= w2v-avg，u= union。4.2.1 讨论向上。当我们增加检测器和类别的数量时，上限精度通常会增加。这表明召回率增加了，据推测是由于提出了更多的候选边界框我们的概念选择过程降低了这个上限，但结果允许本地化策略更准确地执行任务。有趣的是，当仅使用TFCOCO的20个类别的子集并且应用概念选择时，上限没有显著改变（51。81% vs. 51.表1中的22%）。这是因为数据集中有大量与人相关的短语;两个检测器组中的人物检测器都设法捕捉到了这一点。检测器准确性通常随着更多检测器（和类别的数量）而提高，只要检测是高质量的。虽然tfcoco20（20个类别）和tfcoco（80个类别）之间的差异要小得多，但使用tfoid（545个类别）会带来更大的改进（参见图3）。探测器质量也很重要，yolo9000的性能一般较弱（准确度一般低于20%），准确度较低（19. 7mAP的子集上的200个类别[27]），尽管拥有检测超过9000个类别的能力。类别标签本身包括抽象类别（事物，仪器），这些类别是不相关的，因为它们通常不用于描述对象。颜色检测器本身的准确度较低（通常为10%）。这是因为只有一小部分测试短语包含颜色词，并且连通分量标记也导致了通常较小的边界框;然而，使用边界框的联合来定位导致了更好的准确性（±18%）。探测器的组合。检测器也是彼此互补的。结合tfcoco和tfoid的结果在一个更高的准确性（48。20%）比单独使用（37。57%，44。69%）。从表2中，我们观察到，tfoid有助于改善tfcoco，特别是对于服装（准确率为27%）、身体部位（准确率为20%）和仪器（准确率为30%），以及一定程度上的场景。它还提供了一些额外的冗余来帮助定位每个人，因为它包含不同的人检测器（人，男人，女人，男孩，女孩）。places365提高了场景短语的定位（1019%）。彩色探测器。向tf-coco +tfoid+ places 365添加颜色检测器不会提高整体准确度（CC+OI+PL（avg，u）与CC+OI+PL+CL（avg，u），但它对场景类型短语有帮助，特别是当场景包含颜色项并覆盖大部分图像时。当短语是单一颜色的名词（红色）时，当中心名词未被检测到（橙色装备）时，或者当颜色可以被推断为未检测到（树）时，它也有帮助。只要没有其他物体具有相同的颜色，这种方法就有效。一些有问题的情况是，当所需的颜色出现在图像的其他地方，并与短语，如白人。图4示出了说明颜色检测器的贡献的一些示例。我们进一步定量研究颜色的贡献tfcoco+tfoid+places365通过评估测试短语的子集，其中11个基本颜色词出现（表3）。我们观察到，颜色词在服装类短语中出现的频率最添加颜色检测器可以提高服装和场景短语的本地化。概念选择。我们的概念选择过程与词嵌入相似性是直观的，并在准确的本地化的结果。tfcoco的表现与Yehet不相上下4670摩天大楼一件蓝色泳衣三个男人一个非常兴奋的鼓手天灯钠玻璃图3.Flickr30kEntities（顶行）和ReferItGame（底行）的本地化输出示例我们比较了添加tfoid检测器（红色边界框）和tfcoco（蓝色）（w2 v-max，union）的效果地面实况以绿色表示。前两列显示了添加tfoid检测器改进定位的示例，而最后两列是它损害定位的示例。一件黄色的网球服一件绿色的长衬衫一件红色的玩具一架蓝、红、黄相间的飞机天空粉红色毯子偷窥家伙在黄色衬衫图4.Flickr30kEntities（顶行）和ReferItGame（底行）的本地化输出示例我们比较了添加颜色检测器（红色边界框）和tfcoco+tfoid+ places 365（蓝色）（w2 v-avg，union）的效果地面实况以绿色表示。前两列显示了添加颜色检测器改善定位的示例，而最后两列是它损害定位的示例。al. [35]它使用成对的注释和相同的80个类别来计算相似性。我们的方法捕获了分布相似性，并且在某些情况下是不可取的，例如，骑自行车的人与自行车或车轮的相似性大于与人的相似性。我们还发现，所有三个词向量聚合方案执行比较; W2 V-last通常执行与W2V-max类似的操作，仅具有较小的降级。这与我们的假设一致，即短语中的最后一个词最有可能是Flickr30kEntities中的中心除了当使用颜色检测器时，W2 V-AVG的本地化战略。对于这个数据集，联合局部化策略似乎效果最好，部分原因是测试数据集的构造方式。它也是有用的颜色检测器，一般产生小的边界框。最大的策略也相当有效;标题中提到的物体往往比没有提到的物体大。我们的新共识策略，旨在通过投票允许略高的上限和准确性，通常给出与基于联盟的等价物相当的准确性。4.3. ReferItGame上的短语定位ReferItGame[15]从交互游戏中众包短语来描述IAPRTC-12图像中的片段[9]。它与Flickr30kEntities有很大的不同，因为短语不是从图像标题中提取的，而且也更短。我们使用Rohrbach et al. [29]由65，193个短语组成，9，999个图像6。同样，训练和验证分割被忽略。表4显示了我们选择的一组模型在ReferItGame上的准确性，同样具有不同的检测器组合，概念选择和定位策略。6我们使用了https://github.com/ lichengunc/refer提供的拆分4671人服装身体部位动物车辆文书场景其他整体实例数30132348177791932922033CC+OI+PL（平均值，u）66.6734.2429.1789.2779.75100.0044.0948.6343.43CC+OI+PL+CL（平均值，u）40.0035.7527.0869.4965.82100.0058.0644.8641.81表3.在包含至少一个基本颜色项的查询短语的子集上针对不同短语类型的短语定位精度探测器相似性策略Acc（UB）%基线：始终定位到整个图像14.6420w2v-max最大14.97（26.82）CCw2v-max最大15.40（27.16）OIw2v-max最大19.82（28.03）CC+OIw2v-avg最大21.21（32.70）公司简介w2v-avg共识22.25（35.56）公司简介w2v-avg最大23.95（35.04）公司简介w2v-max共识25.52（42.48）公司简介w2v-max最大26.48（39.50）弱监督[29]第二十九话10.70KAC Net + Soft KBP [1]15.83Yeh等人[35]第三十五届约洛科科17.96Yeh等人[35]第三十五届vgg+yolococo20.91强监管[29]第二十九话26.93Hu等人[12个]27.80QRC Net [3]44.07表4.我们在Refere-ItGame上选择的一些模型的准确性。同样，我们将我们的结果与选定的强监督系统和弱监督系统一起作为比较，因为不存在先前的非配对模型。关键字：CC=tfcoco ， OI=tfoid ， 20=tfcoco20 ， PL=places365 ，CL=colour。始终定位到整个图像的基线的精度为14。百分之六十四我们表现最好的模型再次表现优于所有弱监督模型（26。48%与最先进的20。91%），并且与一些强监督模型[12，29]相当，尽管没有达到QRC Net [3]的水平。4.3.1 讨论本地化战略。与Flickr 30 kEntities不同的是，取union的性能不如简单地取最大的盒子;这在模型中是一致的。同样，我们提出的共识策略表现良好，尽管总体上不如最大的策略。概念选择。与Flickr 30 kEntities一样，w2 v-max和w2 v-avg的表现同样出色，w2 v-max的优势非常微弱。与Flickr 30 kEntities不同，w2 v-last的表现比其他语义相似性度量差得多。这是因为短语很短，而且中心词更容易在开头提到。4672探测器检测器通常显示与Flickr30kEntities类似的行为。将tfoid添加到tfcoco中使其精度超越了现有技术[35] ，并添加 places365 进一步提高了其精度。与Flickr30kEntities不同，颜色检测器的贡献更大，整体准确率提高了1.3%。参考- ItGame有许多基于颜色的短语（许多单色（注：由于注释是如何获得的。该模型还可以很好地推断天空、云和树木的颜色，这些颜色经常出现（图4）。4.4. 视觉基因组为了证明我们的模型Zhang等人[39]第26话4%的本地化精度，采用完全监督的方法。我们所知道的唯一一个弱监督的等价物报告24。4%的准确率[34]，但这是一个不公平的比较，因为他们评估了单个点是否落入边界框内，而不是预测整个框。我们的模型（tfoid，w2 v-max，最大）达到了14。Visual Genome的准确率为29%，通过结合tfoid和tfcoco，准确率提高到16。百分之三十九这一观察结果与我们报告的一致，我们推断相同的模式应该适用于进一步的组合和变体。5. 结论我们介绍了第一种在没有短语定位注释的情况下在图像中进行短语定位的方法。这种非配对方法虽然简单，但被证明是有效的：在 Flickr30kEntities 和ReferItGame的实验中，它的性能超过了所有现有的弱监督方法，并与强监督方法竞争该方法是一个强大的基线我们的工作表明，对于依赖于很少/没有配对注释的更简单和通用的方法，而不是试图拟合配对注释以实现高性能改进而没有泛化能力的复杂模型，有这一发现可能会改变未来如何看待和处理语言视觉任务-4673引用[1] Kan Chen，Jiyang Gao，and Ram Nevatia.弱监督短语接地的知识辅助一致性在IEEE计算机视觉模式识别会议（CVPR）的Proceedings，第4042UT，USA，2018年6月。美国电气与电子工程师协会。一二四五六八[2] Kan Chen ， Rama Kovvuri ， Jiyang Gao ， and RamNevatia. MSRC：多模态空间回归与语义背景的短语接地。国际多媒体信息检索杂志，7（1）：17-28，3月。2018. 一、二[3] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文政策的短语接地- ing。在IEEE计算机视觉国际会议（ICCV）的会议录中，第824-832页2017年10月。美国电气与电子工程师协会。一、二、五、六、八[4] 陈新蕾，方浩，林宗毅，罗摩克里希纳·韦丹坦，索拉布·古普塔，彼得·多尔，和C.劳伦斯· 齐特尼克。Microsoft COCO 字幕：数据收集和评估服务器。CoRR，abs/1504.00325，2015。2[5] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. PAS-CAL 视觉对象类（ VOC ）挑战 .International Journal of Computer Vision，88（2）：303-338，June 2010. 3[6] 克里斯蒂安·费尔鲍姆，编辑。WordNet：一个电子词汇数据库。麻省理工学院出版社，马萨诸塞州剑桥，1998年。4[7] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第1440-1448页，智利圣地亚哥，12月15日。2015.美国电气与电子工程师协会。一、二[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE Conference onComputer Vision Pattern Recognition（CVPR），第580-587页美国电气与电子工程师协会。一、二[9] MichaelGrubinger ， PaulClough ， HenningMüller ，andThomas Deselaers.IAPR TC-12基准：一种新的视觉信息系统评价资源。在InternationalWorkshoponLanguageResourcesforContent-BasedImageRetrieval，OntoImage2006年5月，意大利热那亚。7[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence，37（9）：1904-1916，Sept. 2015. 一、二[11] 日奈美亮太和佐藤真一开放词汇对象检索的判别学习和通过否定短语增强的定位。在2018年自然语言处理经验方法会议的会议中，第2605-2615页，比利时布鲁塞尔，10月- Nov. 2018年。计算语言学协会。一、二、五、六[12] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在计算机视觉模式识别（CVPR）IEEE会议论文集，第4555- 4564页，拉斯维加斯，内华达州，美国，2016年6月。美国电气与电子工程师协会。一、二、八4674[13] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu，Anoop Korattikara，Alireza Fathi，Ian Fischer，Zbigniew Wo-jna ，

下载后可阅读完整内容，剩余1页未读，立即下载