一阶段快速准确的文件视觉接地方法

16 浏览量更新于2023-10-13 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1❌一种快速精确的一级视觉接地方法杨正元2龚伯清1< $王立伟1黄文兵1董宇1罗杰波21腾讯AI Lab2罗切斯特大学{zyang39，jluo}@ cs.rochester.edu，boqinggo@outlook.com{liweiwang，dongyu}@ tencent.com，hwenbing@126.com摘要我们提出了一个简单，快速，准确的一步approach视觉接地，灵感来自以下的in-sight。现有的建议和秩二-（一）.两阶段视觉接地查询：中心大楼查询：右下角草阶段方法由区域candi的质量限制他们在第一阶段提出的日期-如果没有候选日期可以覆盖地面真实区域，则在第二阶段中没有希望将正确的区域排到顶部。为了避免这种警告，我们提出了一个单阶段模型，使端到端的联合优化。其主要思想就像将文本查询嵌入尽管是- ing简单，这种一个阶段的方法显示了巨大的潜力，在准确性和速度的短语本地化和指称表达理解，根据我们的实验。鉴于这些结果以及对一些流行的区域建议的仔细调查，我们建议视觉基础从传统的两阶段方法到一阶段框架的范式转变。1. 介绍我们提出了一个简单，快速，准确的一阶段的方法，以视觉接地，其目的是地面的自然语言查询（短语或句子）的图像上的正确区域的图像。通过在这个层面上定义视觉基础，我们有意地抽象出短语定位[30，42]，指涉表达理解[15，24，48，47，22]，自然语言对象检索[14，16]，视觉问题分割[9，13，20，25]等之间的细微区别，其中每一个都可以看作是一般视觉接地问题的变化。我们基准标记我们的一个阶段的方法，短语本地化和指涉表达理解。结果表明，它比最先进的两阶段方法快约10倍因此，我们认为，·Z.Yang在贝尔维尤的腾讯人工智能实验室实习时完成的工作[2]现在在谷歌。（b）.提出的一阶段方法查询：右下角草图1.视觉基础是在图像中输出通常是一个黄色的边界框（一）. 现有的两阶段方法首先提取区域候选，然后根据它们与查询的相似性对其进行排名。推断速度慢并且性能受到区域提议的质量的限制（例如，在右边，（b）.我们提出的一阶段方法直接预测给定输入图像和查询的接地盒。因此，它在推理方面明显更快，也更准确。我们期望这项工作提供新的强基线的视觉基础，在其上可以方便地进一步构建以处理变化（例如，短语定位）通过引入相应的领域知识（例如，属性、短语之间的关系、区域的空间配置等）。视觉基础是机器智能的关键，为人类与机器就物理世界进行交流提供了一个自然的渠道。它的潜在应用包括但不限于机器人技术、人机交互和早期教育。此外，良好的视觉基础模型可以帮助解决各种研究问题，例如视觉问题回答[53，9，17]，图像字幕[45，1，8]和图像检索[37]。在视觉基础方面，主要有两个蓬勃发展的工作：短语本地化[15，30，42]和引用前压力理解[24，48，47，14，16]-加上一些工作接地分割[13，9，20，25]。前者中的语言查询是一个整句的局部短语4683✔4684描述图像，这意味着多个短语查询可以在句子中共同出现。在后者中，查询是通过对象类别、属性、与其他对象的关系等的组合来引用图像的特定区域的表达式。值得注意的是，在短语局部化中，链接到一个句子的短语的图像区域也可以链接到另一个句子的短语，从而建立共指链。与短语定位相比，指称表达一般具有较少的歧义性。计算机视觉和自然语言处理的最新进展提供了一组丰富的工具，如区域建议[54，41]，对象检测[10，34，11]，文本EM，[28，26，4]，句法分析[39]，等等，领导方法[43，42，29，2，49，47]利用视觉接地问题中的各种线索。然而，令人惊讶的是，这些方法的主体非常相似：它们为每个图像提出多个区域候选，然后根据它们与语言查询的相似性对它们进行排序。我们认为，这个建议和排名两阶段的框架是有缺陷的，至少在两个主要方面。• 如果第一阶段的区域候选者中没有一个命中地面实况区域，则无论第二排名阶段可以执行得多好，form. 我们发现，每个图像200个边缘框区域建议[54]只能命中ReferItGame [15]中 68%的真实如果200个建议中的任何一个可以达到0.5或更高的与地面实况区域的交集（IoU）[30]，则认为命中成功。• 该算法的大部分计算都花在了区域候选上，如生成建议、提取特征、与查询嵌入融合、对相似性评分而这一切，都只是为了让他们在名单上排名靠后。毕竟，在大多数测试用例中，只有一个或两个区域建议是正确的。我们认为这种方案是一种计算上的浪费，应该加以改进。这两个警告没有得到解决，可能是因为长期以来一直在追求如何在视觉基础中模拟不同的线索。在本文中，我们后退一步，重新检查视觉接地问题在抽象的水平，没有区分查询类型。我们建议将范式从接地作为多个区域候选人排名直接提出一个区域作为输出。为此，我们研究了一个端到端的一个阶段的方法来视觉接地。其主要思想与将文本查询嵌入到YOLOv3对象检测器中一样简单此外，我们用空间特征来增强特征图，以考虑语言查询中的空间提及（例如，“右边的人”）。最后，我们将sigmoid输出层替换为softmax函数，以强制网络仅生成一个图像区域来响应查询。其他线索探索在两阶段方法，例如属性、注意力、围绕额外对象的绑定框注释等，可以自然地添加到我们的一阶段模型中。我们专注于正文中的香草模型，并在补充材料中考察其对其他线索的可扩展性。这种单阶段方法的优点是多方面的。首先，它的推理速度很快。它只需要一次就可以从输入图像中提取特征，然后直接预测输出区域的坐标。在没有任何代码优化的情况下，我们的实现比最先进的两阶段方法快10倍左右。此外，它也是准确的。与性能受区域候选限制的两阶段框架不同，它支持端到端优化。我们在短语定位和指称表达压缩方面都取得了可喜的结果。最后，它比两阶段方法更好地推广到不同的数据集，因为它不依赖于任何额外的工具或预先训练的模型。因此，我们建议这个一阶段框架用于未来的视觉基础工作，并希望我们在这项工作中的方法提供了一个新的强有力的基线。2. 方法在本节中，我们首先回顾了现有的视觉基础两阶段框架[42，30，48，24，47，35，29]，然后详细介绍了我们的一阶段方法。2.1. 两阶段法用于视觉接地的常规方法，特别是用于短语定位的任务[30，42，29，2]，主要由两个独立的阶段组成。如图1所示，给定输入图像，第一步是使用无监督对象建议方法[54，42，29，2]或预训练的对象检测网络[50，47]生成候选区域。第二步是根据图像的语言查询对候选区域进行排名。大多数现有的两阶段方法在第二步中通过评分函数、网络结构、多任务学习和训练算法而彼此不同。许多研究[51，42]将第二步视为二进制分类任务，其中区域查询对基于区域与地面真实区域的IoU被标记为最大利润排名损失是第二阶段的另一种流行选择[24，27，43]。作为一个具体的例子，我们接下来描述相似性网络[42，29]，因为它在基准数据集上产生了最先进的作者采用了在Pascal [7]上预训练的Fast R-CNN [10，34]来提取每个候选区域的为了嵌入文本查询，他们发现Fisher编码[28]与递归神经网络一样好或更好。区域要素和查询嵌入分别通过两个网络分支进行馈送，然后通过一层元素级468532168乘法在它们合并之后添加一些非线性层。最后，网络通过sigmoid函数输出相似度得分。作者通过交叉熵损失来训练这个网络，对区域和查询的匹配对使用正标签，对不匹配对使用负标签。如果区域的IoU与地面真值大于0.7，则区域与查询匹配，并且IoU小于0.3的区域被视为不匹配。两阶段框架的总体性能受第一阶段的限制。此外，候选区域会导致大量的计算开销。接下来我们将呈现一个不同的缺少位置信息。因此，我们显式地对三个空间分辨率的每个位置的一些空间特征具体而言，如图2所示，我们生成一个大小为W ′× H′× D的空间坐标图，分辨率，其中W′和H′是视觉图像的空间大小。特征图，即，8×8、16×16或32×32，并且Dspatial=8表示我们编码了8个空间特征。如果我们将特征图放置在一个坐标系中，使其左上角和右下角分别位于（0，0）和（1，1），对于任意位置（i，j）的八个特征，i∈ {0，1，···，W′−1}和j∈ {0，1，···，H′−1}，计算如下：范式，一个阶段的视觉接地网络，能够进行端到端优化，并且既快速又准确。.ijW ′，H′，i+0。5W′，j+0。5 H′，i+1W′，j+1 11H′，W′，H′，2.2. 我们的一阶段方法简而言之，我们对视觉基础的一步方法是将文本查询嵌入到YOLOv3中[ 33 ]，用空间特征增强它，因为空间配置经常被查询使用，用softmax 函数替换其sigmoid输出层，尽管简单，这种一阶段方法意味着从流行的两阶段框架的范式转变，它在准确性和速度方面都产生了优越的结果我们提出这个香草一阶段模型如下，并在补充材料中对其进行修改，以解释两阶段方法中探索的图2说明了网络架构，主要由三个特征编码模块和三个融合模块组成。视觉和文本特征编码。我们的模型是端到端的，将图像和文本查询作为输入，然后返回图像区域作为对查询的响应对于文本查询，我们使用Bert [4]的未封装版本将其嵌入到768 D实值向量中，然后是两个完全连接的层，每个层具有512个神经元。此外，我们还测试了其他嵌入方法，以公平地与现有的作品进行比较。特别是，最近的作品[30，42，29]采用了word2vec的Fisher向量[28，26]。在[2，35]中采用了双向LSTM。我们使用Darknet-53 [33]和特征金字塔网络[18]来提取输入图像的视觉特征，输入图像的大小为256×256，具有三种空间分辨率：8×8×D1、16×16×D2和32×32×D3。换句话说，特征图分别是原始图像尺寸的1、1和1在三种分辨率下分别有D1= 1024、D2= 512和D3=256个特征通道。我们添加了一个1 × 1卷积层，并使用批归一化和BAUTHU将它们映射到相同的维度D = 512。空间特征编码。我们发现，文本查询的10使用空间配置来指代对象，如然而，Darknet-53的功能主要是捕捉视觉外观，它捕获网格（i，j）的左上角、中心和右下角的坐标，以及W ′和H′的倒数。融合。我们使用相同的操作来融合三种空间分辨率的视觉，文本和空间特征特别地，我们首先将查询嵌入广播到每个空间位置（i，j），然后将其与视觉和空间特征连接，从而产生512+ 512+ 8= 1032D特征向量。视觉、文本和空间特征在拼接之前分别被归一化。我们添加了一个1×1卷积层，以便在每个位置更好地融合它们。独立的。我们还测试了3×3卷积希望让融合意识到邻居的内核-引擎盖结构，但结果与1×1融合大致相同在该融合步骤之后，我们具有用于三个空间分辨率的每个位置的512D特征向量，即，尺寸为8×8×512，16×16×512，和32×32×512。接地。接地模块将融合的特征作为输入，并生成框预测以将语言查询接地到图像区域上。我们通过遵循YOLOv3的输出层来设计这个模块三种空间分辨率中有8×8+16×16+32×32=1344个位置，每个位置作为融合模块的结果，与512D特征向量相关联。YOLOv3围绕三个锚框中的每个位置为了更好地适应我们的接地数据集，我们通过K自定义锚的宽度和高度，意味着在训练集中的所有地面真实基础框上进行聚类，以（1-IoU）作为距离[32，33]。有（每个位置3个锚钉×1344个位置）=共计4032个锚箱。YOLOv 3预测的是，在每个锚框中，通过回归得到四个量，用于移位-通过关于该移位框上的置信度的S形函数来计算锚框的中心、宽度和高度以及第五个量我们保持回归分支不变。由于只需要一个区域作为接地输出，4686语言编码器辣妈查询“两个人坐着。“融合模块1*1转换融合模块融合模块1*1转换接地模块1*1转换1*1转换Darknet53 + FPN(tx，ty，tw，th，conf）重复W1W2努盖平空间坐标256*256图2.所提出的端到端的一阶段视觉基础框架。查询-至少根据视觉基础问题的当前形式化，我们在所有4032个框上用softmax函数替换sigmoid函数。因此，我们用这个softmax和一个one-hot向量之间的交叉熵来替换置信度分数上的损失函数-具有最高IoU的锚框与地面真值区域被标记为1，所有其他的被标记为0。我们建议读者参考[33]以了解更多细节。2.3. 与其他一级接地工程的比较我们将我们的方法与一些密切相关的工作进行了对比，包括两种现有的一阶段接地方法[52，44]和一些关于接地分割的方法[13，20，25，9]。可解释和全局最优预测（IGOP）[44]也试图以一个阶段的方式解决监督视觉基础。IGOP采用来自多个视觉任务的特征图（例如，对象检测、语义分割、姿态估计等）。并将短语本地化任务建模为在特征图上找到封装最小能量的框。由于IGOP依赖于多个额外的预训练视觉模型，因此尚不清楚如何端到端优化多尺度锚定Transformer网络（MATN）[52]也是一个单级接地模型。然而，这个网络的许多设计都考虑到了弱监督的视觉基础。此外，MATN直接预测一个盒子作为输出，本质上是在O（W2H2）尺度下从一个巨大的搜索空间中搜索一个盒子，其中W，H是输入图像的宽度和高度。该方案已被证明不如基于锚框的目标检测[32，33]，除非有足够大的训练集。我们还简要讨论了一些将文本查询接地到分割掩码的工作[13，20，25，9]。由于分割模板的不规则形状，很难遵循建议和排名两阶段框架来输出分割模板。相反，他们自然会雇佣一个-阶段框架。然而，他们的网络架构，特别是输出层，与我们的有很大的不同。3. 实验3.1. 数据集和实验方案我们在Flickr 30 K实体数据集[30]和Refere-ItGame数据集[15]上评估了所提出的一阶段视觉基础方法补充材料包含 RefCOCO [48] 的其他结果。 Flickr 30 KEntities通过区域-短语对应注释增强了原始Flickr 30 K[46]。它将Flickr 30K中的31，783个图像与427K引用的实体相链接。在我们的实验中，我们遵循与以前的工作[30]ReferItGame [15]拥有来自SAIAPR-12数据集的20，000张图像[6]。我们采用了[14]提供的分割的清洁版本，在训练，验证和测试集中分别有9，000，1，000和10，000张图像。遵循先前工作中的相同评估协议[30，35]，给定语言查询，如果输出图像区域的IoU至少为0.5，则其被认为是正确的，并且具有真实边界框。我们的模型架构的一些细节。我们使用Darknet- 53 [33]在COCO对象检测[19]上进行预训练作为视觉编码器。为了嵌入语言查询，我们测试了Bert [4]，[2]中使用的bi-LSTM框架，以及[30，42，29]中使用的Fisher向量编码。我们按照[32，33]的过程通过KReferitGame上的锚是（18×22）、（48× 28）、（29× 52）、（91× 48）、（50× 91）、（203×57），（96×127），（234×100），（202×175）和Flickr 30K实体为（17×16）、（33×35）、（84×43）、（50×74）、（76×126），（125×81），（128×161），（227×104），（216×180）。培训详情。当我们调整输入图像的大小时，我们保持原始图像的比例。我们将其长边调整为256，然后沿短边填充图像像素我们跟着-4687低[33]用于数据增强，即，向颜色空间添加随机化（饱和度和强度）、水平翻转和随机仿射变换。我们使用RMSProp [40]优化来训练模型我们以10−4的学习率开始，并遵循幂为1的多项式时间表。由于暗网已经过预训练，我们将模型的暗网部分的主学习率乘以0.1。在我们所有的实验中，批量大小为32。当我们在一个有8个P100 GPU的工作站上使用更大的批量时，我们观察到大约1%的改进，但是我们选择报告小批量（32）的结果，这样人们就可以很容易地在一个有两个GPU的桌面上重现我们的结果。超越现有方法的竞争性基线。我们采用最先进的视觉接地方法，关于这些方法的描述参见第3.2节。除此之外，我们还系统地研究了我们方法的以下基线和变化。• 相似性网络-暗网。以前的两阶段方法通常使用带有VGG-16骨干的检测网络[38]来提取视觉特征，而Darknet在我们的模型中采用。当然，除了从两个阶段到一个阶段的框架变化之外，人们可能会对骨干的影响产生影响。为了突出骨干网络的影响，我们使用基于Darknet视觉特征的两阶段相似性网络[42]构建了一个基线，修改了[29]发布的代码。我们首先从YOLOv3中的特征金字塔网络输出的所有三个特征blob中汇集区域特征，然后将它们分别归一化，最后将它们连接为视觉特征。• 相似性网络-Resnet。我们还在Mask R提取的相似网络视觉特征中进行了CNN [11]具有Resnet-101 [12]主干，它是预先训练COCO检测的。特征尺寸为2048。• CITE-Resnet。此外，我们还比较了具有Resnet-101功能的CITE [29]。CITE中的嵌入数K默认为4.区域建议以及视觉和语言编码器与“相似性网络-Resnet”保持相同。• 我们的FV word2vec [26]特征的Fisher向量（FV）编码[28]用于一些最先进的视觉接地方法[30，42，29]。我们也将其纳入我们的方法中。语言查询被编码为6000D FV嵌入。• 我们的LSTM 语言查询的LSTM编码也经常在文献中使用[2，35]，因此我们也在我们方法中研究它的效果在这项工作中，我们使用了一个具有512 D隐藏状态的bi-LSTM层。我们不使用word2vec特征来初始化嵌入层。• 我们的伯特我们使用输出768D嵌入的Bert [4]的无cased版本作为我们的主语言查询编码器。我们在训练过程中不更新Bert参数。• 我们的伯特没有空间在我们的方法的这个消融版本中，我们删除了空间特征，只融合了视觉和文本特征。3.2. 视觉接地结果Flickr30K实体。表1报告了Flickr30K实体数据集上的短语本地化结果。表格的顶部包含几种最先进的视觉接地方法的编号[14，43，35，30，44，2，42，29]。表中显示了分别基于Resnet和Darkent的两个附加版本的相似性网络[42]的结果。最后，底部的四行是我们自己方法的不同变体。我们在“区域提议”列中列出了N=100）。Edgebox[54]和选择性搜索[41]是提出区域的两个流行选项。在“视觉特征”一栏中在两阶段方法中，毫不奇怪，尽管Darknet-53和Resnet-101在ImageNet上产生了可比较的结果[36]，但Darknet功能导致了较差的视觉基础结果。这是合理的，因为Darknet没有单独的区域建议网络，因此提取区域特征很困难此外，Darknet的大的缩小比例（1/8 、 1/16 和 1/32 ）和低的特征维数（256、512、1024）使其区域特征不像Resnet我们的一阶段方法及其变化优于两阶段的方法，具有较大的利润率。在表格的最后两行，我们调查了空间特征的有效性。很明显，空间信息使“我们的-伯特-没有空间”的准确性提高了约1。百分之六。Fi-总之，我们注意到，语言嵌入技术只在小范围内对结果影响不大。参考游戏。表2报告了ReferItGame上的指称表达式理解结果[15]。以与表1相同的方式组织结果，表的顶部是关于最先进的接地方法[14，23，50，35，44，2，42，29]，中间是相似性网络的两个版本，底部显示我们的结果。我们从表2得出与表1相同的观察结果。总的来说，我们的模型与暗网视觉fea-4688表1.Flickr30K实体测试集上的短语本地化结果[30]。方法区域提案视觉特征语言嵌入Accu@0.5时间（ms）SCRC [14]边缘框N=100VGG 16-图像网络LSTM27.80-DSPE [43]边缘框N=100VGG19-PascalWord2vec，FV43.89-GroundeR [35]塞莱克搜索N=100VGG16-PascalLSTM47.81-[30]边缘框N=200VGG19-PascalWord2vec，FV50.89-[第44话]没有一多个网络N热53.97-MCB + Reg + Spatial [2]塞莱克搜索N=100VGG16-PascalLSTM51.01-MNN + Reg + Spatial [2]塞莱克搜索N=100VGG16-PascalLSTM55.99-相似性网络[42]边缘框N=200VGG19-PascalWord2vec，FV51.05-CITE的Similarity Net [29]边缘框N=200VGG16-PascalWord2vec，FV54.52-CITE [29]边缘框N=500VGG16-PascalWord2vec，FV59.27-CITE [29]边缘框N=500VGG16-Flickr30KWord2vec，FV61.89-[42]第四十二话边缘框N=200Res101-COCOWord2vec，FV60.89184[29]第二十九话边缘框N=200Res101-COCOWord2vec，FV61.33196[42]第四十二话边缘框N=200Darknet53-COCOWord2vec，FV41.04305Ours-FV没有一Darknet53-COCOWord2vec，FV68.3816我们的LSTM没有一Darknet53-COCOLSTM67.6221我们的-伯特-没有空间没有一Darknet53-COCO伯特67.0838乌尔贝尔没有一Darknet53-COCO伯特68.6938表2.在ReferItGame [15]的测试集上引用表达式理解结果方法区域提案视觉特征语言嵌入Accu@0.5时间（ms）SCRC [14]边缘框N=100VGG 16-图像网络 LSTM17.93-[35]第三十五话边缘框N=100VGG16-PascalLSTM26.93-VC [50]SSD检测[21]VGG16-COCOLSTM31.13-CGRE [23]EdgeboxVGG16LSTM31.85-MCB + Reg + Spatial [2]边缘框N=100VGG16-PascalLSTM26.54-MNN + Reg + Spatial [2]边缘框N=100VGG16-PascalLSTM32.21-CITE的Similarity Net [29]边缘框N=500VGG16-PascalWord2vec，FV31.26-CITE [29]边缘框N=500VGG16-PascalWord2vec，FV34.13-[第44话]没有一多个网络N热34.70-[42]第四十二话边缘框N=200Res101-COCOWord2vec，FV34.54184[29]第二十九话边缘框N=200Res101-COCOWord2vec，FV35.07196[42]第四十二话边缘框N=200Darknet53-COCOWord2vec，FV22.37305Ours-FV没有一Darknet53-COCOWord2vec，FV59.1816我们的LSTM没有一Darknet53-COCOLSTM58.7621我们的-伯特-没有空间没有一Darknet53-COCO伯特58.1638乌尔贝尔没有一Darknet53-COCO伯特59.3038tures和Bert查询嵌入的性能大大优于现有的方法。仔细分析发现，第一阶段的候选区域较差是两阶段方法表现不佳的主要原因。我们在第3.4节中介绍了这些分析。3.3. 推理时间比较快速的推理速度是我们的一阶段方法的主要优点之一。我们将推理时间列在表1和表2的最右列。我们进行所有的测试在台式机与英特尔酷睿 i9-9900K@3.60GHz和NVIDIA 1080TI。典型的两阶段方法通常需要超过180 ms来处理一个图像-查询对，并且它们将大部分时间花费在生成上。选择候选区域并为其提取特征。相比之下，我们的一阶段方法都需要不到40毫秒的时间来将语言查询与图像联系起来-特别是，3.4. Oracle对候选区域的分析为什么一步法比二步法能取得如此大的进步？我们推测，这主要是因为我们的一阶段框架可以避免不完美的区域候选人。相比之下，两阶段方法的性能受到它们在第一阶段中提出的区域候选的命中率的我们说一个4689表3.区域建议方法的命中率命中率，N=200Flickr 30K实体ReferitGameval集测试集val集测试集MRCN检测。[第十一届]48.7649.2827.6328.12[11]第十一话76.4076.6044.8046.50[54]第54话82.9183.6968.6268.26塞莱克搜索[41]84.8585.6881.6780.34我们95.3295.4892.4091.32如果地面实况区域与任何候选的IoU大于0.5，则地面实况区域被区域候选命中，并且命中率是被候选命中的地面实况区域的数量除以地面实况区域的总数。我们研究了一些流行的区域预测方法的命中率：[41 ]第54话，我的朋友，我的朋友。(a). 提问：右边两个人(b). 曲名：Two PeopleSitting(c). 查询：道路右侧有(d). 查询：桥梁(e). 曲名：RedLamp Under Guitar(f). 查询：右下角的黑色背包在COCO [11]上预训练的Mask R-CNN [ 11]中的gion建议网络，Mask R-CNN本身，其检测结果被视为区域候选者，以及我们的一阶段方法，其框预测被视为区域候选者。我们为每个区域保留前N=200个区域候选，或者如果输出少于200个区域，则保留尽可能多的区域表3显示了两个Flickr 30K实体的点击率关于ReferItGame有趣的是，Flickr30上的命中率通常高于ReferItGame，特别是当使用Edgebox生成的提案时，这可以解释为什么Flickr30K实体上的两阶段接地结果（表1）优于ReferItGame（表2）。另一个值得注意的观察是，我们的方法的前200个框的命中率比其他技术高得多，验证了学习以端到端的方式。人们可能会想知道在什么情况下，该地区的亲，但我们的方法未能击中地面真相地区。图3通过显示ReferItGame上的Edgebox区域候选者给出了一些见解。我们发现，区域候选者主要未能击中地面实况区域（例如，图3（c）中的微小的物体也很难击中（参见。图3（e）和（f））。最后，当查询涉及多个对象时，它可能会失败，区域建议方法大多被设计为仅在一个对象周围放置紧密的边界框（参见图1）。图3（a）和（b））。3.5. 定性结果分析在本节中，我们分析了两阶段相似性网络的成功和失败案例以及我们的模型，以显示所提出的一阶段方法的优点和局限性。图4显示了相似性网络所犯的错误，这些错误可以通过我们的方法来纠正蓝框是预测，黄框代表基本事实。我们将一些常见的错误归纳为以下几种情况。• 指多个对象。视觉接地问题中的语言查询可以引用多个对象，但是通过去图3. ReferitGame上边缘框区域候选（红色框）的失败案例。黄色的盒子是基本事实。为了可视化的目的，我们随机隐藏一些候选区域。每个标志只覆盖一个物体。例如，分别检查图4（a）和（b）中的查询通过现有的建议和排序两阶段方法来克服这种类型的不匹配是（几乎）不可能的。相比之下，我们的方法根本不限于每个框一个对象，而是可以根据查询灵活• 指的是与事物相对的东西。第二种两阶段方法的常见错误是在查询中引用的东西，而不是事物，如图4（c）和（d）中分别显示的这类错误的原因又在于地域的提出主要集中在事物的类别上--与此形成鲜明对比的是，填充区域通常具有较低的“客观性”分数。因此，我们认为，两阶段的方法是在-有能力处理这样的填充区域的区域建议技术的现状。我们的一阶段方法可以从视觉基础数据集的训练集中学习处理填充区域。• 区域划分。在第三类常见错误中，两阶段方法未能处理干扰，测试用例，例如图4（e）和（f）中查询所指的小区域。两阶段法失败的原因主要有三个首先，第一阶段的区域候选可能无法提供良好的覆盖，尤其是在小对象上。其次，小区域的视觉特征对于第二阶段学习如何排名来说不够有第三，图像描绘了复杂的场景或许多重复的对象。最后一点可能同样损害我们的方法以及两阶段方法。4690（一）.询问：蓝色裤子女士（b）.曲名：The Bowl of（c）。查询：人员（d）。查询：人员底部的豆子权左最近（e）. 查询：sheep（f）.询问：两个小农民的孩子（一）.提问：右边两个人（b）.曲名：Two PeopleSitting(c). 查询：道路右侧有(d). 查询：桥梁中心跨度以上距离的(e). 曲名：RedLamp UnderGuitar(f). 查询：右下角的黑色背包图4.两阶段相似性网络（顶行）所犯的错误可以通过我们的一阶段方法（底行）纠正蓝色框是预测区域，黄色框是地面实况。两阶段法的常见故障有三种：涉及多个对象（a，b）的查询、涉及填充区域（c，d）的查询和涉及挑战区域（e，f）的查询。(g). 别名：Man inBlue(h). 曲名：KidLeft(i). 查询：殖民地(j). 查询：sign(k). 查询：蓝色衬衫（l）。查询：man图5.我们的一阶段方法的挑战性实例（顶行）和常见失败（底行）的成功案例。蓝色/黄色框是预测区域/地面实况。左边的四列来自ReferitGame，其他的来自Flickr30K实体。我们方法的失败案例。图5显示了我们的方法的额外成功和失败案例。第一行显示了典型的成功案例。图5（a）中的图5（b）提供了一个对微小物体进行正确预测的例子。(c)以及（d）展示我们的方法能够解释查询中的位置信息。（e）中的查询包含一个分散注意力的名词“sheep”。我们在（f）中的模型成功地预测了一个包含两个物体的区域。图5（g）-（l）是我们模型的一些失败案例。我们发现我们的模型对属性不敏感，例如（g）和（k）中的“蓝色”。它在（h）和（i）上失败，仅仅是因为这些是非常困难的测试用例（例如，人们必须识别图像中的“殖民地”一词最后，（j）和（l）给出了两个模糊的查询，我们的模型恰好预测了与用户注释的不同的框4. 结论我们提出了一个简单而有效的视觉接地的一阶段方法。我们将语言查询和空间特征合并到YOLOv3对象检测器中，并构建了一个端到端的可训练视觉基础模型。它比最先进的两阶段方法快约10倍，并实现卓越的接地精度。此外，我们的分析表明，现有的区域建议的方法一般是不够好，封顶的两阶段的方法的性能，并表明需要一个范式转换到一个阶段的框架。在未来的工作中，我们计划调查的可扩展性，提出了一个阶段的框架建模其他线索的视觉接地问题。确认这项工作得到了NSF奖项#1704337，#1722847和#1813709的部分支持。4691引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页1[2] Kan Chen ， Rama Kovvuri ， Jiyang Gao ， and RamNevatia.多模态空间回归与语义上下文短语接地。在2017年ACM国际多媒体检索会议论文集，第23- 31页ACM，2017。二三四五六[3] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文政策的短语接地- ing。在IEEE计算机视觉国际会议论文集，第824-832页，2017年。十二、十三[4] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。二三四五[5] Pelin Dogan，Leonid Sigal，and Markus Gross.神经序列短语接地（seqground）。在IEEE计算机视觉和模式识别会议论文集，第4175-4184页，2019年。十二、十三[6] HugoJairEscalante，CarlosAHerna`ndez，JesusAGonzalez，AurelioLo`pez-Lo`pez，ManuelMontes ， EduardoFMorales ， LEnriqueSuca r ，LuisVillas en`or，andMichaelGrubinge r. 分段和注释的iaprtc-12基准。计算机视觉和图像理解，114（4）：419-428，2010。4[7] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。2[8] 杨峰，林马，刘伟，罗杰波。无监督图像字幕。在IEEE计算机视觉和模式识别会议论文集，2019年。1[9] 甘闯，李延东，李浩祥，孙晨，龚伯庆. Vqs：将分割与问题和答案联系起来，以在vqa和以问题为中心的语义分割中进行监督注意在IEEE国际计算机视觉会议集，第18111、4[10] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。2[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页二、五、七[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[13] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在欧洲计算机视觉会议，第108-124页。施普林格，2016年。1、4[14] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在IEEE计算机视觉和模式识别会议论文集，第4555-4564页一、四、五、六[15] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing（EMNLP），pages 787-798，2014中。一、二、四、五、六、十二、十三[16] 李建安、魏云超、梁晓丹、方召、李建舒、徐廷发、冯佳时。自然语言对象检索的深度属性保持度量学习。第25届ACM 多媒体国际会议论文集，第181-189 页。ACM，2017。1[17] 李庆，付建

下载后可阅读完整内容，剩余1页未读，立即下载