条件图文嵌入网络：一种用于图像中短语定位的方法

35 浏览量更新于2023-10-13 收藏 978KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

条件图文嵌入网络布莱恩A. Plummer<$，Paige Kordas<$，M. Hadi Kiapour‡，ShuaiZheng‡，Robinson Piramuthu‡，and Svetlana Lazebnik†伊利诺伊大学香槟分校†{bench2，pkordas2，slazebni}@ illinois.edueBay Inc.‡{mkiapour，shuzheng，rpiramuthu}@ ebay.com抽象。本文提出了一种用于在图像中接地短语的方法，该方法在单个端到端模型中联合学习多个文本条件嵌入。为了将文本短语区分为语义上不同的子空间，我们提出了一个概念权重分支，该分支自动地将短语分配给嵌入，而先前的工作预定义了这样的分配。我们提出的解决方案简化了对单个嵌入的表示要求，并允许代表性不足的概念，以利用共享的表示之前，饲料-ING他们到概念特定的层。综合实验验证了我们的方法在三个短语接地数据集，Flickr30K实体，ReferIt游戏和Visual Genome的有效性，其中我们获得了（分别）。接地性能分别提高4%、3%和4%1强区域短语嵌入基线。关键词：自然语言背景，短语定位，嵌入方法，条件模型1介绍短语基础尝试在图像中本地化给定的自然语言短语。该组成任务具有对图像字幕的应用[6，12，14，19，19]。34]、图像检索[9，26]和视觉问答[1，29，7]。短语接地的研究受到了几个数据集的发布的刺激，其中一些数据集主要包含相对较短的短语[15，18]，而其他数据集包含较长的查询，包括可以提供丰富上下文的完整句子[25，22]。查询长度的差异加剧了推广到任何（包括从未见过的）自然语言输入的已经具有挑战性的问题。尽管如此，最近的大部分注意力都集中在学习图像区域和短语之间的单个嵌入模型[7，22，10，28，31，32，35，21]。在本文中，我们提出了一个条件图像-文本嵌入（CITE）网络，该网络联合学习短语子集的不同嵌入（图1）。这使得我们的模型能够为共享一个概念的短语训练单独的嵌入每个条件嵌入可以学习特定于1代码：https://github.com/BryanPlummer/cite2B. A. Plummer等人概念重量店已知嵌入任务没有Softmax是的C1逐元素产品嵌入LogisticP1ReLUC2融合损失L2规范L2规范CKV2ReLUT2ReLUT1word2vec +fisher vectorE2ReLUE1“AsmilingbeardedV1VGG16输入图像+边缘盒条件嵌入图1.一、我们的CITE模型将短语分成不同的组，并在单个端到端模型中学习这些组的条件嵌入短语到嵌入的分配可以是预定义的（例如通过将短语分离成不同的概念，如人或衣服），或者可以使用概念权重分支与嵌入联合学习类似颜色的块表示相同类型的层，紫色块表示完全连接的层。最好在颜色短语的子集，同时还利用跨短语共享的权重。这对于较小的短语组尤其重要，如果我们要为它们训练单独的嵌入，它们很容易过拟合与手动确定如何对概念进行分组的类似方法[20，24，30]相反，我们使用与网络的其余部分联合训练的概念权重分支来自动将短语软分配给学习的嵌入。概念权重分支可以被认为是基于单独条件嵌入的短语特定线性组合为每个区域短语对通过训练多个嵌入，我们的模型也减少了类似于网络集合的方差，但参数少得多，计算成本低得多。我们的条件嵌入的想法直接受到Veit等人的条件相似性网络的启发。[30]，尽管该工作不处理跨模态数据，并且不尝试将不同的输入项自动分配给不同的相似性子空间。条件相似性度量的思想的早期先驱可以在[2]中找到我们的工作在精神上也与张等人相似。[37]，他提出了一种线性分类器，用于基于文本输入在图像区域之间进行区分我们的主要重点是改进方法，将个人图像区域与个人短语。与此目标正交，其他作品集中于对句子中的多个短语和图像中的多个Wang等人[33]对短语之间的代词关系进行建模，并将与标题相关联的每个短语预测强制为条件图文嵌入网络3分配到不同的区域。Chen等人[3]在定位短语时还考虑了在他们的后续工作[4]中，他们引入了一个区域建议网络，用于有效地复制短语完整的Faster RCNN检测流水线[27]。Yu等人[36]当为它们的预测提供上下文时，考虑了单个图像中对象的视觉相似性。Plummer等人[24]使用来自属性、动词、介词和代词的广泛的图像语言约束进行全局推理。Yeh等人[35]使用单词先验结合分割掩码、几何特征和检测分数从图像中所有可能的边界框中选择区域。这些修改中的许多可以与我们的方法结合使用，以进一步提高性能。我们的论文的贡献总结如下：– 通过调节我们的模型所使用的输入短语的嵌入，我们简化了每个嵌入的表示要求，导致一个更普遍的模型。– 我们引入了一个概念的权重分支，使我们的嵌入分配，将学习与图像-文本模型。– 我们介绍了几个改进的相似性网络的王等。 [32]通过3来确定模块的本地化形式。5%的原始文件。– 我们在三个数据集上进行了广泛的实验，Flickr30K Entities [25]，ReferIt Game [15]和Visual Genome [18]，其中我们报告了（分别）短语接地性能比基线提高4%、3%和4%我们从2.1节开始描述我们用作基线模型的图像-文本相似性网络[32]。第2.2节描述了我们的文本条件嵌入模型。第2.3节讨论了将短语分配给训练好的嵌入的三种方法。最后，第3节包含详细的实验结果和分析我们提出的方法。2我们的方法2.1图文相似网络给定一个图像和一个短语，我们的目标是从一组区域建议中选择短语最可能的位置。为了实现这一点，我们建立在王等人介绍的图像-文本相似性网络。[32]第32段。这个网络的图像和文本分支每个都有两个完全连接的层，具有批归一化[11]和ReLU。这些分支的最终输出在执行图像和文本表示之间的逐元素乘积之前被L2归一化。然后，使用批量归一化和ReLU将该表示馈送到完全连接的层的三元组中。这类似于使用图1中的具有单个条件嵌入的CITE模型。4B. A. Plummer等人该网络的训练目标是在P、R和Y上计算的逻辑回归损失。对于输入短语和第j个区域，在它们匹配的情况下为+1，否则为-1。由于这是一种监督学习方法，因此需要在每个数据集的注释中提供匹配的短语和区域对在使用我们的网络产生一些度量图像区域和文本特征之间的亲和力的分数xij之后，损失由下式给出：Lsim（P，R，Y）=Σl o g（1+exp（−yijxij））.（一）IJ在该公式化中，容易将给定短语的多个区域考虑为正面示例，并且每个图像使用可变数量的区域提议。这与使用softmax对区域进行评分的竞争方法形成对比，其中交叉熵损失超过每个图像的设定数量的建议（例如，[7，28，3]）。取样短语区域训练对。继Wanget al.[32]中，我们将具有至少0.6个交集的任何区域与给定短语的地面真值框的交集（IOU）作为正例。阴性示例从具有小于0.3IOU的相同图像的区域随机采样，具有地面实况框。我们选择两倍数量的负区域，因为我们有一个短语的正区域如果对于图像-短语对出现太少的否定区域，则将否定示例阈值提高到0.410U。功能. 我们使用word2vec [23] PCA的HGLMM Fisher矢量编码[17]表示短语，该PCA减少到6，000维。我们使用边缘框[38]生成区域提议与我们目标数据集上的大多数最先进的方法类似，我们使用快速RCNN网络[8]表示图像区域，该网络在PASCAL 2007和2012训练集[5]的联合上进行了微调唯一的例外是表1（d）中报告的实验，其中我们微调了Flickr30K实体数据集上的Fast RCNN参数（对应于图1中的VGG16框空间位置。在[28，3，4，36]之后，我们尝试将边界框位置特征连接到我们的区域表示。这样，我们的模型就可以学习根据短语的位置（例如该天空通常出现在图像的顶部）。对于Flickr30K实体，我们对该数据集的空间信息进行编码，如[3，4]中所定义的。对于高度H和宽度W的图像以及具有高度h和宽度w的框，被编码为[xmin/W，ymin/H，xmax/W，ymax/H，wh/WH]。为了与先前的工作[28，3，4]进行公平比较，在ReferIt Game数据集上的实验将空间信息编码为8维特征向量[xmin，ymin，xmax，ymax，xcenter，ycenter，w，h]。对于Visual Genome，我们采用与ReferIt Game数据集相同的编码空间位置的方法2.2条件图文网络灵感来自Veitet al。[30]，我们修改了上一节的图文相似度模型，学习一组条件或概念嵌入层de-code.xml条件图文嵌入网络5记为C1。. . 图1中的C K。这些是K个并行的全连接层，每个层具有输出维度M。这些层的输出，以大小为M×K的矩阵的形式，与K维概念权重向量U一起被馈送到嵌入融合层，K维概念权重向量U可以通过几种方法产生，如第2.3节所讨论的融合层简单地执行矩阵-向量积，即，F=CU。这之后是另一个完全连接的层，其将最终的层重新表示为sifier（即，例如，层的输出是1）。2.3嵌入分配本节描述了用于产生概念权重向量U的三种可能的方法，用于组合如在2.2节中介绍的条件嵌入粗分类。Flickr30K实体数据集附带手工构建的词典，将短语分为八个粗略类别：人，衣服，身体部位，动物，车辆，仪器，场景，其他。我们使用这些字典来映射短语的二进制概念向量代表他们的组成员。这类似于Veit等人的方法。[30]，其基于元数据标签定义剩下的两种方法都是基于训练数据而不是手动定义的类别标签进行分配。最近的集群中心。创建概念权重的一种简单方法是对测试集中查询的文本特征执行K均值聚类每个聚类中心成为其自己要学习的概念然后将概念权重U编码为一个热聚类成员关系向量，我们发现这比诸如样本与每个聚类中心的相似性之类的替代方案更好地工作概念权重分支。创建要学习的概念的预定义集合，无论是使用定向语言还是使用K-means语言，通常都不一定与定位其中的短语的困难或容易有任何关系。另一种方法是让模型决定学习哪些概念。考虑到这一点，我们将原始文本特征馈送到网络的一个单独分支中，该分支由两个完全连接的层组成，它们之间具有批量归一化和ReLU，然后是softmax层，以确保输出总和为1（表示为图1中的概念权重分支softmax的输出然后被用作概念权重U。这可以被视为类似于在文本特征上使用我们在最后一个全连接层的输出上使用L1正则化，然后输入softmax，以提高分配中的稀疏性。然后，我们完整的CITE模型的训练目标变为LCITE=Lsim（P，R，Y）+λφ1，（2）其中φ是softmax层的输入，λ是控制正则化项重要性的参数请注意，我们不强制不同短语之间的分配多样性，因此所有短语都可能参与单个嵌入。然而，我们并没有看到这在实践中实际发生6B. A. Plummer等人我们还尝试使用熵最小化而不是L1正则化来处理我们的概念权重分支，以及硬注意力而不是软注意力，但在我们的实验中发现所有工作都是类似的。3实验3.1数据集和方案我们在三个数据集上评估了我们的短语区域接地模型的性能：Flickr30K Entities [25]，ReferIt Game [15]和Visual Genome [18]。我们报告的指标是测试集中正确本地化短语的比例。与先前的工作一致，短语的最佳预测框与其地面实况之间的0.5 IOU对于被认为成功本地化的短语是必需的类似于[32，24，4]，对于与多个边界框相关联的短语，短语被表示为其框的并集。培训程序。我们从Adam开始训练我们的模型[16]。每次发布后，我们都要对我们的模型进行评估。由于在5个epochs中没有改进性能，我们用1/10的学习率和相同的停止标准用随机梯度下降来微调我们的我们报告测试集的模型，验证集上表现最好的性能比较评价。除了与先前发表的每个数据集上的最先进方法的数量进行比较之外，我们还系统地评估了我们模型的以下基线和变体：– 相似性网络我们的第一个基线是由我们自己实现的模型从王等。[32]使用上述程序训练。短语的预处理使用停止词去除，而不是在原来的文件中所做的部分语音过滤。这一变化，加上对训练设置的更仔细调整，导致性能比[32]中报告的结果提高了2.5%。通过使用空间位置特征（第2.1节）进一步增强该模型，导致3.5%的总改进。– 个体粗类别相似性网络。我们在根据2.3节中描述的粗略类别分配创建的数据的不同子集上训练多个相似性网络– K-means相似性网络我们在根据2.3节中描述的最近聚类中心分配创建的数据的不同子集– CITE，Coarse Categories.无概念权重分支。短语是根据它们的粗分类来命名的.– 引用Random。无概念权重分支。短语是随机分配的到嵌入。在测试时，在训练过程中看到的短语保持其分配，而新短语则随机分配。– CITE，K-means.无概念权重分支。短语匹配到em-使用最近的聚类中心分配的寝具。– 引用，学习。我们的具有概念权重分支的完整模型用于自动产生概念权重，如第2.3节所述条件图文嵌入网络7表1. Flickr30k实体测试集上的短语本地化性能。(a)当从已发表的作品中一次预测单个短语时，最先进的结果。（b，c）我们的基线和变体使用PASCAL调优功能。(d)使用Flickr30k调优功能方法精度2(a)单相方法（PASCAL调优功能）非线性SP [31]简体中文[CN]MCB [7]RtP [25]相似网络[32]IGOP [35]SPC [24]MCB + Reg + Spatial [3]MNN + Reg + Spatial [3]43.8947.8148.6950.8951.0553.9755.4951.0155.99(b)我们的实现相似度网络53.45相似网络+空间54.52(c)条件模型+空间模型个体粗类别相似性网络，K= 855.32单个K均值相似网络，K= 854.95CITE，粗分类，K= 855.42CITE，随机，K= 1657.58CITE，K均值，K= 1657.89CITE，Learned，K= 458.69CITE，已学习，K= 4，500边缘框59.27(d)Flickr30K调整的功能+空间PGN+ QRN [4]60.21CITE，已学习，K= 4，500边缘框61.893.2Flickr 30K实体我们使用与Plummer等人相同的拆分。[25]，它将图像分为29，783个用于训练，1，000个用于测试，1，000个用于验证。模型的训练批量为200（如果需要，则为128，以适应GPU内存），学习率为5e-5。我们在等式中设置λ= 5e-5（二）、除非另有说明，否则我们使用每个图像的前200个边缘框建议和嵌入维度M接地结果。表1比较了多种方法的总体定位精度。我们的相似性网络基线的数字在表1（b）中报告，如上所述，它们优于[32]中表1（c）报告了条件嵌入模型变体的结果从前两行中，我们可以看出从2通过考虑对同一句子中其他短语的预测，可以进一步提高这项任务的性能[24，33，3，4]，Chen等人使用Pascal调谐特征获得了57.53%的最佳结果。[3]65.14%使用Flickr30K调优功能[4]。8B. A. Plummer等人没有任何共享权重的数据子集仅导致相似性网络基线的小幅改善（≤1%）表1（c）的第三行报告了通过手动定义的高级概念分离短语仅导致1%的改进，即使在嵌入之间共享权重时也这可能部分是由于不同粗分类之间的显著不平衡，因为表1（c）的第四行中所示的均匀随机分配导致3%的表1（c）的第五行表明，基于短语的文本特征对短语进行分组更好地反映了数据的需求，导致比基线的改善略高于3%，仅略好于随机分配。在表1（c）的第八行中报告了通过并入我们的概念权重分支的额外改进，使得我们的模型能够确定哪些概念对于学习是重要的以及如何将短语分配给它们。我们在表1（c）的最后一行中看到，从200到500个边界框提议提供了定位准确性的小幅提升。这导致我们使用PASCAL调优功能的最佳性能，比表1（a）中报告的先前工作好3%，比相似性网络好4.5%。我们还注意到，与基线相似性网络（每对0.171秒）相比，使用我们的方法测试图像-短语对的时间几乎不受影响（CITE，Learned，K=4模型使用NVIDIA Titan XGPU以每对0.182秒的速度对200个最后，表1（d）给出了模型的结果，这些模型的视觉特征在Flickr30K实体数据集上进行了微调。我们的模型仍然获得了1.5%的改善，陈等人的方法。[4]，其使用边界框回归以及区域提议网络。原则上，我们还可以结合这些技术来进一步改进模型。表2按粗略类别分解了定位精度。特别值得注意的是我们在具有挑战性的身体部位类别上的结果，这些类别通常很小，仅占测试集中短语的3.5%，在使用Flickr30K调优功能时，比下一个最佳模型以及仅在身体部位短语上训练的相似性网络提高了10% 我们还看到车辆和其他类别的大幅改善，比以前的最先进水平提高了5-9%。我们表现较差的唯一类别是涉及场景的短语，这些短语通常覆盖大部分（或整个）图像。在这里，如[25，24]中所述，加入对选择较大建议的偏好，可以导致显著的改进。参数选择。除了报告本地化性能之外，我们还提供了一些关于不同参数选择的影响以及我们的模型捕获的信息的见解在图2中，我们展示了学习嵌入的数量K如何影响性能。使用我们的概念权重分支始终优于K均值聚类分配。表3示出了嵌入维度M如何影响性能。这里我们看到将输出维度从256减小到64（即，1/4）导致性能的轻微（1%）降低。该结果是特别值得注意的，因为具有K= 4、M = 64的CITE网络具有400万个参数，相比之下，具有M= 256的基线相似性网络具有1400万个参数，同时仍然保持与具有M = 256的基线相似性网络的一致性。条件图文嵌入网络9表2.在Flickr30K实体数据集上，短语基础性能与粗略类别的比较我们的模型通过500个Edge Box提案进行了测试人布-ing身体部分动-alsVehi-cles仪器-线束段场景其他PASCAL调优特性简体中文[CN]61.00 38.12 10.33 62.55 68.75 36.42 58.18 29.08RtP [25]64.73 46.88 17.21 65.83 68.75 37.65 51.39 31.77IGOP [35]68.71 56.83 19.50 70.07 73.75 39.50 60.38 32.45MCB + Reg + Spatial [3]62.75 43.67 14.91 65.44 65.25 24.74 64.10 34.62MNN + Reg + Spatial [3]67.38 47.57 20.11 73.75 72.44 29.34 63.68 37.88CITE，已学习，K= 4 +空间 73.20 52.34 30.59 76.25 75.75 48.15 55.64 42.83Flickr30K调优功能PGN + QRN +空间[4]CITE，已学习，K= 4 +空间75.0575.9555.9058.5020.2730.7873.3677.0368.9579.2545.6848.1565.2758.7838.8043.24图二.使用PASCAL调优功能学习的嵌入数量（K性能提高3%。我们还尝试了不同的方法来改变相似性网络，使其在相似点上具有与我们相同数量的参数（例如将最后一个完全连接的层增加K倍或添加K个额外的层），但发现它们的性能相当到基线相似性网络（即，它们的性能比我们的方法差大约4%）。除了关于使用多少层和每层的大小的实验之外，我们还在表4中探索了边缘框的数量对性能的影响与使用200个C和AT执行最佳的一些先前工作（例如，G. [25，24]），我们的改进方案的优点在于，改进方案使我们仍然能够从使用多达 5 0 0 个方案中获得益处。概念权重分支检查。为了分析我们的模型正在学习什么，图3显示了按粗略类别分解的不同嵌入有趣的是，人们最终被分成两个嵌入。我们发现，人们的短语往往是由复数与分裂。单数表5通过列出每个嵌入具有最高权重的十个短语来虽然大多数短语给第一个嵌入的权重很小，但它似乎提供了最大的好处，可以找到非常具体的人，而不是通用术语（例如，小卷发女孩而不是女孩本身）。这些模式一般10B. A. Plummer等人表3.使用CITE，Learned，K= 4模型在具有PASCAL调优功能的Flickr30K实体上嵌入大小是指M、层P1的输出维度和图1中的条件嵌入。剩余的完整的加密层的输出大小（不包埋尺寸（M）64128256512验证集准确度56.32 57.51 57.53 57.42测试集准确度57.77 58.48 58.69 58.64表4.使用CITE的不同数量的建议的定位精度，学习，在具有PASCAL调优功能的Flickr30K实体上的K= 4模型#Edge Box提案1002005001000验证集准确度49.61 57.53 58.48 57.87测试集准确度51.32 58.69 59.27 58.63通过模型的多次运行，表明它们是要学习的重要概念。定性结果。图4展示了我们的模型可以完善在测试集中出现至少100次的短语中，表现最低的短语是street和peopleat（resp.）60%和64%准确度。这些常用短语中表现最好的是man，准确率为81%，这也是测试集中最常见的短语，有1065个实例。在图4的左上示例中，未正确定位的词语人是指部分可见的背景行人。在整个字幕的上下文中分析短语的显著性可能导致不同地对待这些短语。全局推理约束，例如，对男性和女性的预测必须不同的要求，对于顶部中心的例子是有用的。执行代词解析，如[24]中所尝试的，将有助于右上角的示例。在测试集中，代词one的正确定位率为36%，而金发女子的正确定位率为81%。理解实体之间的关系可以在诸如图4的左下示例的情况下有所帮助，其中实体之间的关系的范围可以在图4的左下示例的情况下有所帮助。可以通过知道杂货“在”该表上来细化该表。我们的模型还可以将表的相对位置重新定义为“在”该表上，如在底部中心和底部右部示例中所示。这些例子中的水和街道短语只是部分本地化。使用像素级预测可以帮助恢复这些类型的短语的全部范围，因为这些类型的短语的部分可以被预测。它们所涉及的图像是相对均匀的。3.3参考游戏我们使用与Huet al相同的拆分。[10]，其中包括10，000张图像，用于训练和验证，其余10，000张图像用于测试。模型条件图文嵌入网络11图三.对于使用Flickr30K调优要素的Flickr30K实体数据集，每个嵌入的平均权重（左）以及这些权重的标准表5.使用Flickr30K调优功能嵌入1士兵（ 0.08 ）、男修女（ 0.07 ）、满脸怒容的女人（ 0.07 ）、皮肤黝黑的瘦男孩（ 0.07 ）、小卷发女孩（0.07）。07）、middleeaster nwoman（0. 07），第一个人的腿（0. 07），statue运动员（0.07），裁判员（0.07），喝酒的女人（0.07）嵌入2红色踏板车（0.97），蓝色衣服（0.97），黄色自行车（0.97），红色自行车（0.97），红色水桶（0.97），黄色背包（0.97），街道橱窗商店（0.97），红色蓝色水桶（0.97），红色背包（0.97），紫色红色背包（0.97）嵌入3两个人（ 0.94 ），两个男人（ 0.93 ），两个小孩（0.93），两个小孩（0.93），两个白发女人（0.93），两个女人（0.93），三组男孩（0.93），两个年轻人（0.93），三个人（0.92），人群（0.92）嵌入4金发女子（0.91）、深色皮肤女子（0.91）、灰发男子（0.91）、独臂男子（0.91）、深色头发男子（0.91）、红发男子（0.91）、少年男子（0.91）、男子（0.91）、穿衣服的人（0.91），黑皮肤的人（0.91）使用128 的批量大小、 5e-4的学习率和等式中的 λ= 5e-4 进行训练（二）、我们为每个图像生成500个边缘框提案。结果表6报告了整个ReferIt Game测试集的定位准确度。表6（b）的第一行显示，我们使用最近的聚类中心分配的模型比基线相似性网络提高了2.5%。使用我们的概念权重分支来学习赋值会产生额外的小改进。我们注意到，我们不优于叶等人的方法。[35]在这个数据集上。这可能是由于Edge Boxes未能在ReferIt Game数据集上生成足够的建议。Oracle在Flickr30K实体上使用前500名提案的性能为93%，而在此数据集上仅为86%。因此，由Yeh等人使用的专门的边界框方法。作为12B. A. Plummer等人一个女人画在一个戴帽子的男人和一个穿黑色上衣的女人两个金发女郎在公共场合，一个手在繁忙街道的人行道上行走如同在草地上行走。人们从她身边走过一个拿着传单，另一个拿着一堆五颜六色的气球。一个女人把新买的食品放在桌子上。水边的一位女士正抓着一口黑锅。一个骑自行车的人背着背包在郊区的街道上骑车。见图4。示例演示了Flickr30K实体数据集上的一些常见故障案例。讨论见第3.2节图五、嵌入数量K对ReferIt Game数据集上定位精度的影响以及Chenet al.[3]可能在这里发挥更大的作用我们的模型也可能受益于这些改进的边界框。与Flickr30K实体数据集一样，我们在图5中显示了嵌入数量K对本地化性能的影响。虽然概念权重分支在K的许多不同选择上提供了小的性能改进，但当K = 2时，聚类分配实际上执行得更好一些。然而，这种行为在我们所有三个数据集的实验中都是不典型的，可能只是由于ReferIt Game训练数据的大小很小，因为它具有更少的地面真实短语区域对来训练我们的模型。3.4视觉基因组我们使用与Zhang等人相同的分裂。[37]，包括77，398张用于训练的图像和5，000张用于测试和验证的图像。模型以5e-5的学习率进行训练，并且在等式2中λ= 5e-4。（二）、我们为每个图像生成500个边缘框建议，并使用128的批量大小。条件图文嵌入网络13表6.在ReferIt Game测试集上的本地化性能（a）公布的结果和我们的相似性网络基线。（b）我们表现最好的条件模型方法精度(a)State-of-the-artSCRC [10]17.93[28]第二十八话26.93MCB + Reg + Spatial [3]26.54CGRE [21]31.85MNN + Reg + Spatial [3]32.21IGOP [35]34.70相似网络+空间31.26(b)条件模型+空间模型CITE，K均值，K= 234.01CITE，已学习，K= 1234.13结果表7报告了整个Visual Genome数据集的定位准确度。表7（a）列出了几种最近方法的已发表数字。目前最先进的性能属于张等人。[37]，他在这个数据集上微调了视觉特征，并在训练过程中通过修剪模棱两可的短语创建了一个更干净的集合。我们没有进行微调或短语修剪，因此我们的方法最具可比性的参考数字是没有这些步骤的17.5%的表7（a）的最后两行给出了我们的相似性网络的基线精度（有和没有空间特征）我们可以看到，包括空间特征只给出了很小的改进。这可能是由于与Flickr30K实体相比，该数据集中的注释更密集。比如说，像Flickr30K实体中的人这样的短语通常是指朝向中心的相对较大的区域，因为背景实例通常不在图像级字幕中然而，VisualGenome中的实体包括前景和背景实例。在表7（b）的第一行中，我们看到我们的K-means模型比相似性网络基线好3.5%根据表7（b）的第二行，使用概念权重分支获得了进一步的改进。事实上，我们具有预训练PASCAL功能的完整模型比具有微调功能的[37]具有更好的性能。与其他两个数据集一样，图6报告了作为学习嵌入数量的函数的性能与大多数早期的结果相呼应，我们看到学习的嵌入比K-means嵌入有了一致的改进这个数据集的大小（测试集中>250，000个实例）有助于加强我们结果的重要性。4结论本文介绍了一种在单个端到端网络中学习一组条件嵌入和短语到嵌入赋值EF-14B. A. Plummer等人表7. Visual Genome上的短语定位性能。(a)发布的结果和我们的相似性网络基线。APP指的是歧义短语修剪（详见[37]）。(b)我们表现最佳的条件模型方法精度(a)State-of-the-art密塞盖[13]10.1SCRC [10]11.0DBNet [37]17.5DBNet（带APP）[37]21.2DBNet（with APP，V.[37]第三十七话23.7相似度网络19.76相似网络+空间20.08(b)条件模型+空间模型CITE，K均值，K= 1223.67CITE，已学习，K= 1224.43见图6。学习嵌入的数量对Visual Genome性能的影响，模型在1/3的可用训练数据上我们的方法的有效性证明了三个流行的和具有挑战性的短语区域接地数据集。在未来的工作中，我们的模型可以通过包括一个术语来进一步改进，以强制每个嵌入都学习不同的概念我们的实验集中在本地化个别短语的一组固定的类别独立的区域建议。因此，我们的绝对精度可以进一步提高，通过将一些正交技术用于竞争的工作。通过联合预测图像中的多个短语，我们的模型可以利用多个实体之间的关系（例如，[24，33，3，4]）。包括边界框回归和[3，4]中所做的区域建议网络也可能导致更好的模型。事实上，将回归参数绑定到特定的概念嵌入可以进一步提高性能，因为它将简化我们的预测任务，因为需要学习仅分配给该嵌入的短语的参数。鸣谢：本材料基于部分由美国国家科学基金会资助的工作。1563727和1718221，Ama- zon研究奖，AWS机器学习研究奖和Google再搜索奖。条件图文嵌入网络15引用1. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M. Batra，D.，Zitnick，C.L.，Parikh，D.：VQA：可视化问答。In：ICCV（2015）2. Babenko，B.，Branson，S.，Belongie，S.：分类的相似性度量：从单一到特定类别。In：ICCV（2009）3. Chen，K.，Kovvuri河高，J.，内华达河：MSRC：多模态空间回归与语义背景的短语接地。In：ICMR（2017）4. Chen，K.，Kovvuri河内华达河：查询引导的回归网络与上下文策略的短语接地。In：ICCV（2017）5. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：PASCAL Visual Object Classes Challenge 2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html（2012）6. Fang，H.，中国农业科学院，古普塔，S.，Iandola，F.，斯里瓦斯塔瓦河邓湖Dollar，P.，高，J.，他，X.，Mitchell，M.Platt，J.，兹尼克湖Zweig，G.：从标题到视觉概念再到后面。参见：CVPR（2015）7. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。在：EMNLP（2016）8. Girshick，R.：快速R-CNN。In：ICCV（2015）9. 戈多A Almazan，J.，Revaud，J.，Larlus，D.：深度图像检索：学习图像搜索的全局表示。In：ECCV（2016）10. 胡河徐，H.，Rohrbach，M.，冯杰，Saenko，K.达雷尔，T.：自然语言对象检索。见：CVPR（2016）11. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。In：ICML（2015）12. Johnson，J.，Karpathy，A.，李菲菲：Densecap：用于密集字幕的全卷积定位网络。见：CVPR（2016）13. Johnson ， J. ，克里希纳河斯塔克 M.Li ， L.J. ，夏玛地方检察官Bernstein ， M. 李菲菲：使用场景图进行图像检索。参见： CVPR（2015）14. Karpathy，A.，李菲菲：用于生成图像描述的深度视觉语义对齐。参见：CVPR（2015）15. Kazemzadeh，S.，Ordonez，V.，Matten，M.，Berg，T.：推荐游戏：指自然景物照片中的物体。在：EMNLP（2014）16. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。In：InternationalConference for Learning Representations（2015）17. 克莱因湾Lev，G.，Sadeh，G.，沃尔夫湖：使用fisher向量将神经词嵌入与深度图像表示相关联。参见：CVPR（2015）18. 克里希纳河Zhu，Y.，格罗斯岛Johnson，J.，Hata，K.，Kravitz，J.，陈淑仪，Kalan-tidis，Y.，Li，L.J.，夏玛地方检察官Bernstein，M.李菲菲：可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV（2017）19. 刘，C.，毛泽东，J.，Sha，F.，Yuille，A.：神经图像捕捉中的注意正确性。在：AAAI（2017）20. 刘杰，Wang，L.，美国，Yang，M.H.：通过属性引用表达式生成和理解。In：ICCV（2017）21. 罗河，巴西-地Shakhnarovich，G.：理解引导的指称表达。在：CVPR（2017）16B. A. Plummer等人22. 毛泽东，J.，黄，J.，Toshev，A.坎布鲁岛Yuille，A.，Murphy，K.：无歧义对象描述的生成和理解。见：CVPR（2016）23. Mikolov，T.，Chen，K.，科拉多湾Dean，J.：向量空间中词表示的有效估计。arXiv：1301.3781（2013）24. Plummer ，文学士， Mallya ， A. ， C.M. 塞万提斯， Hockenmaier ， J. ，Lazebnik，S.：综合图像语言线索的短语定位和视觉关系检测。In：ICCV（2017）25. Plummer ，文学士， Wang ， L. ，美国， C.M. 塞万提斯，凯西多 JCHockenmaier，J.，Lazeb- nik，S.：Flickr30k实体：收集区域到短语的对应关系，以获得更丰富的信息流。IJCV123（1），7426. Radenovi，F.，Tolias，G. Chum，O.：Cnn图像检索从bow学习：未监督的微调与硬的例子。In：ECCV（2016）27. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。In：NIPS（2015）28. Rohrbach，A.，Rohrbach，M.，胡河Darrell，T.，Schiele，B.：通过重构的文本短语在图像中的基础In：ECCV（2016）29. Tommasi，T.，Mallya ，A.，Plummer，文学士，Lazebnik，S.，Berg，A.C.，Ber

下载后可阅读完整内容，剩余1页未读，立即下载