判别双峰网络：基于自然语言的视觉定位与检测的研究

113 浏览量更新于2023-10-15 收藏 3.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

557判别双峰网络基于自然语言的视觉定位与检测Yuting Zhang，Luyao Yuan，Yijie Guo，Zhiyuan He，I-An Huang，HonglakLee美国{yutingzh，yuanluya，guoyijie，zhiyuan，huangian，honglak}@umich.edu摘要将图像区域与文本查询相关联最近已经被探索为一种新的方式来桥接视觉和语言表示。已经提出了一些基于生成训练的递归神经语言模型的开创性方法（例如，生成字幕），但是实现了有限的定位精度。为了更好地解决基于自然语言的视觉实体定位问题，本文提出了一种判别式的视觉实体定位方法。我们制定了一个判别双峰神经网络（DBNet），它可以训练的分类器与广泛使用的负样本。我们的训练目标鼓励在单个图像上进行更好的本地化，在广泛的范围内合并文本短语，并将图像区域与文本短语正确地配对为正面和负面示例。在Visual Genome数据集上的实验表明，所提出的DBNet无论是在单个图像上的定位还是在多个图像上的检测方面都明显优于以前的最先进的方法。我们还建立了一个自然语言视觉检测的评估协议。代码可在以下网址获得：http://ytzhang.net/projects/dbnet的网站。1. 介绍计算机视觉中的对象定位和检测传统上限于少量的预定义类别（例如，汽车，狗和人），和类别特定的图像区域分类器[7，11，14]作为对象检测器。然而，在现实世界中，感兴趣的视觉实体更加多样化，包括对象组（涉及某些关系）、对象部分和具有特定属性和/或特定上下文的对象。对于可伸缩的注释，这些实体需要以更灵活的方式标记，例如使用文本短语。深度学习已被证明是文本和图像表示的统一学习框架在许多相关任务中取得了重大进展，例如图像字幕[55，56，25，37，5，9，23，18，38]，vi-常见问题回答[3，36，57，41，2]，基于文本的细粒度图像分类[44]，自然语言对象检索[21，38]和文本到图像生成[45]。一些开创性的工作[21，38]使用递归神经语言模型[15，39，50]和深度图像表示-图1：（a）图像字幕模型与(b) 我们视觉定位的区别架构。用于在给定单个图像的情况下定位由文本短语所指代的对象（即，“全局空间上下文，诸如相比之下，Johnson et al.[23]将没有全局上下文的描述 1作为在Visual Genome数据集上定位更一般的视觉实体的查询[30]。所有上述现有工作通过使用图像字幕模型（图1a）最大化生成给定图像区域的查询文本的可能性来执行本地化，该图像字幕模型的输出概率密度需要在自然语言的几乎无限的空间上建模。由于很难在如此巨大的结构化输出空间上训练分类器，因此当前的字幕模型被限制为以生成[21，23]或部分判别[38]的方式进行训练。然而，作为区分性任务，定位和检测通常倾向于使用更具区分性的目标来训练模型，以更好地利用阴性样本。在本文中，我们提出了一种新的基于自然语言的视觉实体定位的深度架构，我们称之为判别双峰网络（DBNet）。我们的体系结构使用二进制输出空间，允许广泛的歧视性训练，其中任何负的训练样本，可以潜在地利用。关键思想是将文本查询作为条件而不是输出，并让[1]视觉基因组中只有很小一部分文本短语涉及全局上下文。（a）使用RNN的条件字幕=（1|）|）|）|）|）|）白色狗黑色斑点端RNNRNNRNNRNNRNNRNN开始白色狗二、与3、黑色斑点为4、第五1（=1|、）的内容文本网络0（=0|、）的内容0（=0|、）的内容（b）我们的区分训练CNN正像区正短语负像区负短语黑色皮椅⋯ ⋯一只在月里抱着球的狗只有黑点的白色狗=====558模型直接预测文本查询和图像区域是否兼容（图1b）。特别地，深层建筑的两条路径分别提取视觉和语言表征。在此基础上建立了一个判别路径，融合双峰表征对模态间相容性进行二值分类相对于在自然语言的巨大空间中估计的概率密度，二元分类器给出的分数更容易被校准。特别是该属性使得可以学习决策阈值以确定多个图像和文本查询上的视觉实体的存在，使得定位模型可推广用于检测任务。虽然在[23]中展示了一些自然语言视觉检测的例子，但我们执行了更多的压缩，定性定量和定性评价。在我们提出的架构中，我们使用卷积神经网络（CNN）进行视觉和文本表示。受快速R-CNN [13]的启发，我们使用从大规模图像分类网络中导出的RoI池化架构，对图像区域进行有效的特征提取和模型学习对于文本表示，我们开发了一个字符级CNN [60]来提取短语特征。在图像和语言路径之上的网络根据文本特征动态地形成用于图像区域特征的分类器，并且其输出关于所有感兴趣区域的分类器响应。我们的主要贡献如下：1. 我们开发了一个具有二进制输出空间的双峰深度架构，以实现自然语言视觉定位和检测的完全区分训练2. 我们提出了一个广泛配对文本短语和边界框的训练目标，其中1）区分目标定义在整个训练集中所有可能的区域-文本对上，2）考虑文本短语的非互斥性质以避免模糊的训练样本。3. 在Visual Genome上的实验结果表明，DBNet在单个图像上的视觉实体定位性能明显优于4. 我们还建立了多个图像上的自然语言视觉检测的评估方法，并展示了最先进的结果。2. 相关工作目标检测。深度学习最近在视觉对象识别方面的成功[31，59，49，51，53，17]构成了对象检测[14、48、52、61、42、43、13、46、17、6]。自然语言视觉检测可以适应深度视觉表示和单个前向传递计算框架（例如，RoI pool- ing [13]、SPP [16]、R-FCN[6]），用于现有的目标检测。然而，自然语言视觉检测需要一个巨大的结构化标签空间来表示自然语言，并且从视觉表示中找到到巨大空间的适当映射是困难的。图像字幕和字幕接地。的基于递归神经网络（RNN）[19]的语言模型[15，39，50]已经成为用文本为图像加字幕的主要方法[55]。尽管网络架构的细节存在差异，但大多数RNN语言模型都能从给定视觉外观特征和先前单词的预定义词汇中学习到单词的可能性（图1a）。Xu等人[56]引入了一种注意力机制，鼓励 RNN 在生成特定单词时关注相关图像区域。Karpathy和Fei-Fei [25]对文本区域对齐进行了强有力的监督，以获得良好的字幕。自然语言的对象定位。最近的工作使用的条件可能性的字幕图像区域与给定的文本定位相关的对象。Hu等人。[21]提出了空间上下文递归ConvNet（SCRC），它以局部视觉特征和全局上下文为条件来评估给定的字幕。John- son等[23]在端到端神经网络中组合字幕和对象建议，可以密集地为（DenseCap）图像区域和定位对象。 Mao等人[38]通过在给定文本短语的情况下最大化定位对象的位置来训练字幕模型，这减少了生成的字幕的歧义。然而，训练目标仅限于在单个图像上找出单个对象。Lu等人。[34]简化并限制了对主题-关系-对象（SVO）三元组的文本查询。Rohrbach等人[47]通过额外的文本重建任务提高了定位精度。Hu等人。[20]使用自然语言查询将边界框本地化扩展到实例分割。 Yu et al. [58]and Nagaraja et al.[40]引用表达式的显式建模上下文。文本表示。神经网络还可以将文本嵌入到固定维度的特征空间中。基于RNN方法（例如，skip-thought vectors [29]）和基于CNN的方法[24，27]使用单词级独热编码作为输入。最近，字符级CNN也被证明是段落分类[60]和零拍摄图像分类[44]的有效方法。3. 区分性视觉语言网络在准确性方面表现最好的对象检测框架[7，11，14尽管最近的深度架构[52，46，23]可以同时提出具有置信度分数的区域，但将来自确切建议区域的图像特征作为输入的验证模型仍然是提高准确性的关键在本节中，我们开发了一个用于自然语言视觉定位和检测的验证模型。不像559WBtxt2j=1Sj=1ij由于传统的目标检测方法中的分类器只用于少量预定义的类别，因此我们的模型可以动态地适应不同的文本短语。3.1. 模型框架设x是一个图像，r是一个区域的坐标，t是一个文本短语。验证模型f（x，t，r; Θ）∈R输出r假设l∈ {1，0}是指示（t，r）是x上的正或负区域-文本对的二进制标签。我们的验证模型学习拟合r和t相容（正对）的概率p（l=1|x，r，t）。参见补充材料中的B部分，以获得与条件字幕模型的正式为此，我们开发了一个双峰深度神经网络创建大部分为了避免这个问题，我们采用Leaky ReLU（LReLU）[35]来保持字符级CNN中的所有隐藏单元都处于活动状态。其他文本嵌入方法[29，24，27]也可以在DBNet框架中使用。我们使用字符级CNN，因为它简单而灵活。与基于单词的模型相比，它使用低维输入向量，并且对单词词汇量没有限制。与RNN相比，它可以轻松实现更深层次的架构。3.3.辨别途径判别路径首先使用短语t的文本表示形成线性分类器。其线性组合权重和偏差为对于我们的模型。特别地，f（x，t，r; Θ）由以下组成：w（t）=Aφtxt（t; Θtxt），（1）两个单一模态路径，然后是一个有区别的通路图像路径φrgn（x，r; Θrgn）提取b（t）=aφtxt（t;Θtxt）、（2）第二集团公司-X 上的图像区域r上的暗淡视觉表示。其中A w∈Rdtxt×drgn，ab∈Rdtxt，且Θdis=（A w，ab）。语言路径Φtxt（t; Θtxt）提取短语t的dtxt-dim文本表示。具有参数Θdis的判别路径动态地生成分类器该分类器被应用于x上的图像区域r，获得由我们的模型预测的验证置信度：根据文本表示的视觉表示-f（x，r，t; Θ）=w（t）<$φRGN（x，r; Θrgn）+b（t）.（三）t，并预测r和t是否在x上匹配。充分与双线性函数的基本形式相比，模型由Θ=（Θtxt，Θrgn，Θdis）指定。φ（t; Θtxt）AwφRGN（x，r; Θrgn），我们的判别路径3.2.视觉和语言途径RoI-pooling图像网络。我们假设感兴趣区域由现有的区域提议方法（例如，EdgeBox [62]、RPN [46]）。我们使用快速R-CNN ROI池化管道。最先进的图像分类网络，包括16层VGGNet [49]和ResNet-101 [17]，被用作骨干架构。高级文本网络。对于英文文本短语t，我们将其每个字符编码为74-dim one-hot向量，其中字母表由74个可打印字符组成，包括标点符号和空格。因此，通过堆叠所有字符编码，t我们使用字符级深度CNN[60]以获得t的高级文本表示。特别是，我们的网络有6个卷积层，其中有3个最大池化层，然后是2个完全连接的层（更多细节请参见补充材料中的A节它以一个固定长度的序列作为输入，并产生一个固定尺寸的文本表示输入长度设置为足够长（此处为256个字符），以覆盖可能的文本短语。2为了避免输入中的空尾字符，我们复制文本短语直到达到输入长度限制。包括附加的线性项作为文本相关偏置用于视觉表示分类器。作为建模跨模态相关性的自然方式，乘法也是训练不稳定性的来源。为了提高训练的稳定性，我们引入了一个正则化项Γdynamic=<$w（t）<$2+|b（t）|2对于动态分类器，除了网络权重衰减r对于Θ的衰减。4. 模型学习在DBNet中，我们用二进制分类目标驱动所提出的双通道双峰CNN的训练。我们将图像区域和文本短语配对作为训练- 采样。我们为每个训练区域-文本对定义了真实的二进制标签（第4.1节），并提出了加权训练损失函数（第4.2节）。训练样本。给定M个训练图像x1，x2，. . . .. 当一个区域与多个短语配对时，我们将每一对作为Gi中的单独条目。我们用Ri表示在xi上考虑的所有区域的集合，其包括注释区域Ni{r}和re。gion sg iv enbyproposalmethods[5 4，6 2，46]. 我们写我们的经验发现，非常稀疏的输入可以eas-Ti={tij}NiSj=1 对于x1上的注释文本短语集，560可能导致过度稀疏的中间激活，和T=Mi=1 Ti表示所有训练文本短语。2Visual Genome数据集拥有超过280万个独特短语，其字符长度中位数为29。少于500个短语有超过100个字符。4.1. 地面实况标签标签标准。我们为每个可能的训练区域-文本对分配一个二进制类的地面真值标签561我我我我我我我我我我锚定区域：用于训练的任何图像区域IoU ≥ηpos：肯定文本短语ηnegIoUηpos：歧义文本短语IoU ≤ηneg：否定文本短语潜在否定短语被标记为歧义，因为它已经在歧义短语集中。其中ηneg是IoU下限（= 0. ①的人。当r换句话说，t相对于区域r是不明确的。注意，Ui（r）仅包含来自Ti的短语。为了覆盖来自完整集合T的所有可能的歧义短语，我们使用文本相似性度量sim（·，·）来将Ui（r）增加到最终的歧义短语集合A（r）= {t∈ T：<$t′ ∈ U（r），sim（t，t′）>τ}\P（r），图2：区域-文本对的地面真值标签（给定ar-i比特图像区域）。短语分为积极的，积极的-我我（七）基于给定区域与地面真值框的重叠的负集（通过IoU测量并显示为文本短语前面的这里没有显示通过文本相似性增强的歧义短语（请参阅软材料中的视频以获得说明）。为了视觉清晰度，ηneg = 0。3和ηpos= 0。7，这是不同于其余的文件。在这里，我们使用METEOR [4]相似性来表示sim（·，·），设置文本相似度阈值τ = 0。3 .第三章。3区域文本对的标签。对于任何图像区域r，xi和任何短语t∈ T，（r，t）的地面真值标签为当t∈Pi（r）时，化对于图像xi上的区域r和文本短语，t∈Ti，我们取r和t的基之间的最大重叠yi（r，t）=∑∑ i，t∈ Ai（r），0，否则，（八）真值区域作为确定（r，t）设IoU（·，·）表示并集上的交集。最大重叠定义为ν i（r，t）= max {IoU（r′，r）：（r′，t）∈ Gi}.（四）r′∈Ri在对有限数量的类别（即，Ti由类别标签组成），νi（r，t）通常足够可靠，可以分配二进制训练标签，给定所有类别的（几乎）完整的地面真值注释。相反，文本短语注释在训练集中不可避免地是一个图像区域可能有大量的有效文本描述，包括不同的焦点和同一描述的释义，因此注释所有这些描述是不可行的。结论其中，区域及其歧义文本短语对被赋予“不确定”标签以避免错误的否定标签。图2说明了任意训练图像区域的区域文本标签。4.2. 加权训练损失有效的训练集。在图像xi上，训练区域-文本对的有效集合为Si={ （ r ， t ） ∈Ri×T ：yi （ r ， t ）/=uncertainty}，（9）其中，如前所述，Ri由注释和建议的区域组成，T由来自训练集的所有短语组成。我们排除不确定标签的样本我们根据yi（r，t）的值和短语t的起源将Si划分为三个子集：因此，νi（r，t）并不总是反映一致性，1、Sneg我我对于yi（r，t）=0<$t∈ Ti，且S对所有的负补间图像区域和文本短语。获得可靠训练标签，我们以保守的方式定义正标签;然后，我们结合文本相似度和空间IoU来建立反映潜在的“假阴性”标签的歧义文本短语集。我们在下面提供详细的定义。积极的措辞。对于 xi上的区域r，其肯定文本短语（即，短语分配有积极的标签）构成了集合tive region-text pairs包含短语从其余的训练集（即，不是xi）。为便于记法，设fi（r，t）=f（xi，r，t; Θ）∈R;设f（·，·）为二元分类损失，特别是逻辑回归的交叉熵损失我们将xi上的训练损失定义为三个部分的总和：Li=λposLpos+λnegLneg+λrestLrest，（10）位置1其中ηPOSPi（r）={t∈Ti：νi（r，t）≥ηpos}，（5）是一个足够高的IoU阈值（= 0。9）阻止-Li= |S阳性|1（r，t）∈SposΣn（fi（r，t），1），（11）积极的标签。一些积极的短语可能会丢失由于注释不完整。然而，我们并不试图L阴性=|Sneg| （r，t）∈Snegn（fi（r，t），0），（12）恢复它们（例如，使用文本相似性），因为L剩余=Σ（r，t）∈S剩余Σfreq（t）·f（fi（r，t），0）、（十三）0.00：瀑布变成一个喷泉0.00：黄色的花在植物0.88：鸭子正站0.48：鸭子躯干0.86：棕色鸭子橙色的喙0.09：鸭子下水了0.07：鸭子的躯干0.32：公鸭我我562模棱两可的短语。仍然对于区域r，我们将其地面真值区域与r具有适度（既不太大也不太小）重叠的文本短语收集到一个集合中Ui（r）={t∈Ti：ηneg<νi（r，t）<ηpos}，（6）（r，t）∈Srestfreq（t）3如果两个短语的METEOR相似度大于0.3，则它们通常非常相似。在Visual Genome中，由出现≥20次的文本短语组成的所有可能对中有10.25%可以通过这个阈值。563我其中freq（t）是t我们分别对Si特别地，我们设置λpos=λneg+λrest=1来平衡正训练损失和负λneg和λrest的值隐含地由我们在随机优化期间在xi内部和外部选择的文本短语的数量大多数现有的自然语言视觉定位工作中的训练损失函数[21，23]仅使用阳性样本进行训练，这类似于单独使用Lpos。[38]中的方法也考虑了负情况i阴性（类似于L i）），但它的灵活性较低，剩下的L。递归神经语言模型可以在单词选择上鼓励一定程度的辨别力，但不能像我们一样对整个文本短语进行辨别。完整的训练目标。将所有图像的训练损失与整个神经网络的权重衰减以及特定于文本的动态分类器的正则化（第3.3节）一起总结，完整的训练目标是：DBNet，使用PASCAL VOC 2007+2012训练集[10]上更快的R-CNN [46]对视觉通路进行对象检测预训练。语言路径是随机初始化的。使用ImageNet ILSVRC分类数据集[ 8 ]上的预训练VGGNet来初始化DenseCap，并训练模型以匹配Johnson等人报告的密集字幕准确性。[23]第10段。我们发现，更快的R-CNN预训练并没有使DenseCap受益（参见补充材料的第E.1节）。SCRC模型还以与Hu等人相同的方式在MS COCO [ 33 ]上对图像字幕进行了额外的预训练。[21] I'm sorry.我们使用Visual Genome上的训练集训练了所有模型，并评估了它们在单个图像上的定位和在多个图像上的检测我们还评估了DBNet主要组件的实用性。5.1. 单图像定位在本地化任务中，我们将图像上标注的所有地面真实文本短语作为查询来本地化as-1minΘMΣMi=1Li+β1Γ衰变+β2Γ动态，（14）通过最大化在所提出的图像区域上的网络响应来关联对象。评估指标。我们使用了相同的区域提案其中我们设β1=5×10−4，β2=10−8。模型优化在补充材料的C节5. 实验数据集。我们在Visual Genome数据集上评估了拟议的DBNet [30]。它包含108，077张图片，其中500万个区域用文本短语注释，以便密集覆盖各种视觉实体。我们以与[23]相同的方式分割Visual Genome数据集：77，398张图像用于训练，5，000张用于验证（调整模型参数），5000张用于测试;其余20，679张图像不包括在内（以下[23]）。文本短语是从众包中注释的，其中包括相当一部分拼写错误的单词。我们使用AbiWord的Enchant拼写检查器[1]纠正了拼写错误的单词。之后，训练集中有在测试集中，大约三分之一（61，048）的短语出现在训练集中，其余三分之二（119，315）是看不见的。每个图像用地面真实区域注释了大约43个独特的短语。所有的实验结果都报告在此数据集。模型我们基于 16 层 VGGNet （ [49]中的模型 D）或ResNet-101 [17]构建了DBNet的快速R-CNN [13]风格的视觉路径。在大多数实验中，我们使用VGGNet与现有作品（也使用VGGNet）进行公平比较，并减少评估时间。使用ResNet-101来进一步提高准确性。我们将DBNet与两种基于图像字幕的定位模型进行了比较：DenseCap [23]和SCRC [21]。在方法为所有模型提出边界框，我们使用非最大抑制（NMS），IoU阈值为0。3.本地化几个盒子。性能通过查询短语的地面真实区域的召回来评估（关于本地化任务的召回和精确度的讨论，请参见补充材料的D如果具有前k个网络响应的所提出的边界框之一与地面实况边界框具有足够大的重叠（由IoU阈值确定），则我们将其视为成功的定位。如果多个地面实况框在同一图像上，我们只需要本地化的框匹配其中一个。最后的召回是所有测试用例的平均值，即，每个图像和文本短语。还考虑了前1个本地化框和地面实况之间的中值和平均重叠（IoU）DBNet优于字幕模型。我们在表1中总结了不同方法的顶级定位性能，其中提出了500个边界框进行测试。DBNet在所有指标下都优于DenseCap和SCRC。特别是，DBNet的召回率是其他两种方法的两倍多，IoU阈值为0。5（通常用于物体检测[10，33]）和大约IoU为0时的4倍。7（用于高精度定位[12，61]）。Johnson等人[23]报告了DenseCap在一个小得多的测试集（总共1000张图像和100个测试查询）上的定位准确性，这与我们的详尽测试设置不可比较（表2用于比较）。我们还注意到，不同的区域建议方法（EdgeBox和DenseCap RPN）在本地化性能上没有太大的差异。我们使用EdgeBox进行其余的评估。56470.2DBNetSCRCDenseCap0.300.28召回/ %区域提案视觉网络定位模型IoU@的召回率/ %中值IOU是说IOU0.10.20.30.40.50.60.7DC-RPN16层DenseCap52.538.927.017.19.54.31.50.1170.184500VGGNetDBNet57.446.937.829.421.313.67.00.1680.250DenseCap48.836.225.716.910.15.42.40.0920.178EdgeBox50016层VGGNetSCRCDBNet w/o偏倚项DBNetw/o VOC预训练52.052.354.339.143.845.027.836.336.618.429.328.811.022.421.35.815.714.42.59.48.20.1150.1240.1440.1890.2460.245DBNet54.845.938.330.923.716.69.90.1520.258ResNet-101DBNet59.650.542.334.326.418.611.20.2050.284表1：Visual Genome数据集上的单图像对象定位精度。在测试图像上注释的任何文本短语都被视为该图像的查询。“IoU@”表示用于确定地面实况框的召回的重叠阈值。DC-RPN是DenseCap的区域提案网络。DenseCap性能IoU@的召回率/ %中值IOU0.10.30.5小测试集[23]本文中的测试集56.050.534.524.715.38.10.1370.1030.30 零点五四表2：小型测试集(1000图像和100个测试查询）和本文使用的完整测试集（5000个图像和>建议使用DenseCap RPN，每张图像最多1000个男孩的耳朵白色马桶在一个牢房里一个穿着白色运动衫的美食家穿黄色衬衫的人50 204015301020105草地上的水泥圈标志上的黑色箭头这名球员是银戴浅蓝色帽子的男子012345678 910秩(a) IoU@0.5012345678 910秩(b) IoU@0.7图3：两个重叠阈值下的Top-k定位查全率. VGGNet和EdgeBox 500在所有方法中使用。图3显示了前k个召回率（k=1，2，. . .，10）在曲线中。SCRC比DenseCap稍好，可能是由于SCRC中使用的全局上下文特性DBNet一个穿着黄色衬衫的人鸟的胸部0.54大象有长牙一把刀棕色把手0.58始终以显著的幅度优于两者，这要归功于歧视性培训的有效性绿色短裤头戴黑礼帽一个人的鼻子粉红色花瓣花动态偏置项提高了性能。在（2）和（3）中引入的依赖于文本的偏置项使得我们用于融合视觉和语言表示的方法不同于基本的双线性函数（例如，在[44]中使用），并且更类似于视觉特征分类器。如表1所示，该动态偏倚项导致中位IoU和IOU的相对改善> 20%（2.百分之五点零。在所有IoU阈值下，召回率相对改善。传递知识有利于本地化的准确性。在PASCAL VOC上对DBNet的视觉通路进行对象检测的预训练在较低的IoU阈值下对召回率有轻微的好处，但在IoU阈值为0时，它对召回率有10%和17%的相对改善。5和0。7，分别。有关更多结果，请参见补充材料中的第E.1节，其中我们表明DenseCap没有从相同技术中获益。图4：DBNet和Dense之间的定性比较-本地化任务上限。绿框：地面真相红框：DenseCap;黄框：DBNet。定性结果。我们在图 4 中直观地比较了 DBNet 和DenseCap的本地化结果。在许多情况下，DBNet将查询的实体定位在更合理的位置。补充材料F节提供了更多的例子更多量化结果。在补充材料中，我们研究了学习模型相对于随机猜测的性能改进以及由于区域建议方法的限制而导致的上限性能（第E.2节）。我们还使用约束形式的查询评估了DBNet（第E.3节），其中高查询复杂性被证明是自然语言视觉定位失败的重要来源。0.27DBNetSCRCDenseCap0.210.620.560.260.510.270.520.250.250.560. 209.570.640.300.280.820.290.500.510.270.2 0.750.549召回/ %0.595655.2. 在多个图像在检测任务中，模型需要验证查询的视觉实体的存在和数量，以及定位它们（如果有的话）。不与任何图像区域相关联的文本短语可以存在于图像的查询集中，并且评估度量可以通过扩展传统对象检测中使用的那些来定义。查询集。由于可能的查询短语的总数巨大，实际上仅测试测试图像上的短语我们开发了三个难度级别（0，1，2）的查询集对于文本短语，如果对于该短语存在至少一个地面实况区域，则测试图像是正的;否则，图像是负的。• 0级：查询集与本地化任务中的查询集相同，因此每个文本短语仅在其阳性图像上进行测试（每个图像1043个短语）。• 第1级：对于每个文本短语，我们随机选择相同数量的负面图像和正面图像（每个图像1092个短语）。• 水平-2：对于每个测试短语（每个图像1775个短语），负面图像的数量是正面图像数量的5倍或20（以较大者为准）。这一组包括相对更多的负面形象平均精密度/ %IoU@0.3IoU@0.5IoU@0.7地图间隙地图间隙地图间隙DenseCap36.21.815.70.53.40.0SCRC38.52.216.50.53.40.0DBNet48.123.130.010.811.62.1DBNet w/Res51.124.232.611.512.92.2(a) 0级：每个文本短语仅显示正面图像。平均精密度/ %IoU@0.3IoU@0.5IoU@0.7地图间隙地图间隙地图间隙DenseCap22.91.010.00.32.10.0SCRC37.51.716.30.43.40.0DBNet45.521.028.89.911.42.0DBNet w/Res48.322.231.210.712.62.1(b) 1级：每个文本短语的正面图像和负面图像之间的比例为1：1平均精密度/ %IoU@0.3IoU@0.5IoU@0.7地图间隙地图间隙地图间隙DenseCapDBNet4.126.70.18.01.717.70.03.90.37.60.00.9DBNet w/Res29.79.019.84.38.50.9(c) 2级：每个文本短语的正面图像和负面图像之间的比例至少为1：5（最少20个负面图像，否则为1：5）。表3：使用三个水平的（与正面图像相比）不常见的短语。随着级别的上升，检测器保持其精度变得更具挑战性，因为包含了更多的负测试用例。在1级和2级集合中，描述明显的非对象“东西”（例如天空）的文本短语然后，176，794个短语（59，303个可见，117，491个未见）仍然存在。评估指标。我们用平均精度（AP）来衡量检测性能。特别是，我们在其测试图像上独立计算每个查询短语的AP（与传统对象检测[10]中的类别相当），并报告所有查询短语的平均AP（mAP）。与传统的对象检测一样，检测区域的分数阈值是类别/短语特定的。对于更实际的自然语言视觉检测，其中查询文本可能事先不知道，我们还直接计算所有测试用例的AP。我们称之为全局AP（GAP），这意味着任何查询短语的通用决策阈值。表3总结了所有模型在不同重叠阈值下的mAP和gAPDBNet显示出更高的每短语性能。DBNet在mAP方面始终比DenseCap和SCRC实现更强的性能即使对于具有挑战性的IoU阈值0.7，DBNet仍然表现出合理的性能。mAP结果提示了辨别训练的有效性。DBNet分数更好地“校准”。在间隙中实现良好的性能是具有挑战性的，因为它假设了一个短语不可知的、通用的决策阈值。IoU为0.3，的困难。mAP：所有文本短语的平均AP差距：所有测试用例的AP。VGGNet是所有方法的默认视觉CNN。“DBNet w/ Res” denotes our DBNet with0.5时，DenseCap和SCRC在间隙方面表现出非常低的性能，DBNet显著（10×20×）超过了它们。对于0.7的IoU， DenseCap和SCRC是不成功的，而DBNet可以产生一定程度的积极结果。GAP结果表明，DBNet的响应在不同的文本短语之间比字幕模型更好地校准，支持我们的假设，即二元决策空间上的分布比巨大的自然语言空间上的分布更容易建模。对阴性和罕见病例的稳健性。性能随着查询集变得更加困难，所有模型中的所有模型都被丢弃。对于阴性测试用例（1级性能），SCRC似乎比DenseCap更稳健。DBNet在所有难度级别上都表现出卓越的性能特别是对于2级查询集，与1级情况相比，DenseCap对于0.5和0.7的IoU，DBNet我们没有在2级查询集上测试SCRC，因为它的时间消耗很高。44对于2级查询集，当使用VGGNet和Titan X卡时，DBNet和DenseCap处理一个图像（775个查询）的SCRC在相同的设置下需要近10分钟。此外，DBNet在使用0级查询集时，处理一个图像需要2-566我一本粉红色和一本蓝色的书小男孩坐在床上戴在脸上的眼镜深色头发的女人坐起来在床上印花布猫躺在床上毯子覆盖母亲和儿子装满水果的棕色篮子一个棕色的篮子，上面有一条绿白相间的格子毛巾。货架上的一罐燕麦片绿色玻璃碗自动煮咖啡机垃圾箱里的土豆禁止在街道上一座灰色的建筑，有很多窗户自行车前轮21路公交车在自行车道上骑车的人自行车后轮色彩鲜艳的滑雪板331/3 rpm唱片专辑一辆车一块木板上的绿色美元符号棕色沙发有拱形入口红白相间的标志靠墙的椅子小圆顶屋顶穿红夹克的滑雪板运动员一部经典的电话光秃秃的树枝滑雪坡上洁白的摆满书籍大型白色多层建筑雪中深绿色的松树挂在墙上的一幅有镜框的画屋顶采光图5：DBNet与ResNet-101的定性检测结果。我们在每个图像上显示六个不同的文本短语的检测结果。对于每个图像，边界框的颜色对应于右侧文本标记的颜色带虚线的半透明框边界是地面实况区域，并且具有实心边界的框是检测结果。修剪歧义短语短语来自其它图像Finetune视觉通路定位检测（1级）召回 / %IoU@中值IOU是说IOU地图/ %IoU@间隙/ % IoU@0.30.50.70.30.50.70.30.50.7没有没有没有30.617.57.80.0660.21135.522.08.68.33.10.4是的没有没有34.521.29.00.1130.23739.024.69.715.57.41.6是的是的没有34.721.18.80.1190.23841.325.610.017.27.91.6是的是的是的38.323.79.90.1520.25845.528.811.421.09.92.0表4：DBNet主要组件的消融研究。视觉路径基于16层VGGNet。定性结果。我们在图5中展示了DB-Net检测对选定示例的定性结果。补充材料的G部分提供了更多我们的DBNet可以检测各种视觉实体，包括具有属性的对象（例如，“明亮的彩色滑雪板”），上下文中的对象（例如，“小男孩坐在床上”），对象部分（例如，“自行车的前轮”），以及对象组（例如，“bikers riding ina bicycle5.3. 训练策略的消融研究我们对DB- Net训练策略的三个组成部分进行了消融研究：1）修剪在等式（1）中定义的歧义短语（Ai（r））。（7）），2）用其他图像的负面短语进行训练（L休息），3）微调视觉通路。如表4所示，由于区分训练的有效性，最基本的训练策略的性能优于DenseCap和SCRC歧义短语修剪通过提高训练标签的正确性导致显著的性能增益，其中没有“修剪歧义短语”意味着设置Ai（r）= 0。在补充材料的第E.4节中提供了关于调整文本相似度阈值τ的更多定量分析。由于定位是一个单一的图像任务，图像间的负面短语并不有利于定位性能然而，该机制通过使模型对不同的阴性情况更鲁棒来提高检测正如大多数视觉任务所预期的那样，预训练的分类网络提高了我们模型的性能。此外，将基于VGGNet的视觉路径升级到ResNet-101，DBNet的性能也有了明显的提高6. 结论我们证明了判别学习对自然语言视觉定位的重要性提出了一种判别双模神经网络（DBNet），它允许灵活的判别训练目标.我们进一步开发了一个全面的训练策略，以广泛和适当地利用训练数据上的负面观察。基于字幕生成模型，DBNet的性能明显优于之前的最新技术水平。我们还提出了自然语言视觉检测的定量测量协议。与现有方法相比，DBNet对罕见查询表现出更强的我们的方法可以通过将其判别目标与生成目标（如图像字幕）相结合来潜在地改进。确认这项工作是由三星电子公司软件研发中心资助的，Ltd，以及ONR N 00014 -13-1- 0762、NSF CAREERIIS-1453651 和 Sloan Research Fellowship 。我们感谢NVIDIA捐赠K40c和TITAN X GPU。我们还要感谢Kibok Lee 、 Binghao Deng 、 Jimei Yang 和 RubenVillegas进行了有益的讨论。567引用[1] AbiWord 。附魔拼写检查器。 http ： //www.abisource.com/projects/enchant/网站。5[2] J. Andreas，M. Rohrbach，T. Darrell和D.克莱纳神经模块网络。在CVPR，2016年。1[3] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克VQA：可视化问答。CVPR，2015。1[4] S. Banerjee和A.拉维METEOR：一种用于机器翻译评估的自动化方法，具有与人类判断的改进相关性ACL机器翻译和/或摘要的内在和外在评估措施研讨会，2005年。4[5] X. Chen和C. L.齐特尼克MindCVPR，2015。1[6] J. 戴，Y.Li，K.He和J.太阳R-FCN：通过基于区域的全卷积网络进行对象

下载后可阅读完整内容，剩余1页未读，立即下载