模块化文本接地在反事实中的作用

133 浏览量更新于2023-10-18 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6378模块化文本背景下的反事实复原力方志远1，孔舒2，Charless Fowlkes2，Yezhou Yang11{zy.fang，yz.yang}@ asu.edu美国坦佩亚利桑那州立大学2{skong 2，fowlkes}@ ics.uci.edu美国加州大学欧文分校摘要我在找一个穿蓝色衣服的男孩。计算机视觉应用程序通常需要一个文本基础模块，该模块具有精确性、可解释性和对反事实输入/查询的可靠性。为了达到高的接地精度，目前的文本接地方法人男孩蓝色结果严重依赖于大规模训练数据和手动操作-反事实短语基础：穿棕色衣服的女人像素级别的符号。这样的注释是昂贵的获得，从而严重缩小了模型的实际应用范围。此外，这些方法中的大多数牺牲了可解释性、可概括性，并且它们需要对反事实有弹性的重要性，人女人布朗N/A推杆为了解决这些问题，我们提出了一个视觉基础系统，它是1）端到端的训练，在弱监督的方式，只有图像级的注释，2)由于模块化设计而具有反事实的弹性。具体来说，我们将文本描述分解为三个层次：实体、语义属性、颜色信息，并逐步进行构图铺垫。我们通过一系列实验验证了我们的模型，并证明了它对最先进方法的改进。特别是，我们的模型1. 介绍深度神经网络已经在各种计算机视觉应用中产生了一系列令人兴奋的工作，从对象实例检测[20，22，36]和语义分割[43，10]等模块化任务，到更复杂的多模态任务，如视觉问答（VQA）[1]和图像字幕[2，33]。对于复杂视觉应用（例如，视觉搜索引擎和视频自动字幕），关键是要建立一个可靠的文本基础系统，连接自然语言描述和图像区域[67，34，32，58，65]。当前的方法通常将文本基础问题公式化为搜索过程或图像-文本匹配。为图1：我们的文本基础框架的图示，它将文本描述分解为三个层次：实体、语义属性和颜色信息。作为一个例子，对于上面所示的句子的文本基础，我们的系统定位实体（人），语义属性（男孩，女人），蓝色，并通过组合结果逐步产生最终的文本基础。注意，由于可分解的描述和模块化设计，我们的系统是高度可解释的，并且对反事实输入/查询（底行）具有弹性。例如，[58]提出了重建损失的纹理视觉特征匹配。[9]通过两个步骤实现文本基础：生成对象建议并与查询匹配[67]利用预训练模块进行渐进式搜索和匹配。给定一个新的图像和查询，这些模型返回产生最高匹配分数/概率的建议作为最终输出。尽管它们在接地精度方面达到了最先进的性能，但它们依赖于大规模的训练集，这些训练集在感兴趣的对象上具有手动注释的边界框。这不可避免地阻止了它们推广到其他数据域，这些数据域没有用于模型训练或微调的细粒度手动注释[65]。此外，这些模型缺乏决策的可解释性和对反事实查询的弹性，这通常会使这些模型更加复杂。6379GT：接地真值注释CF目标：反事实客体A-穿黑西装的B-女孩在黑色礼服C-男子在白色衬衫和黑色围裙图2：反事实对象的示例以及将我们的系统应用于视频字幕对齐。虽然在视频的开始有三个人，但他们可能在稍后的一些帧中消失。这对视频字幕提出了挑战，我们的系统作为一个工具，接地对象的时间和纠正不匹配的描述和帧。在实际应用中易受攻击[24，62，14，15]。例如，如图1所示，如果一个人问“谁是图像中穿蓝色衬衫的女人”，一个好的模型应该什么都不返回，而不是最接近的人或匹配分数高的人。更可取的是，除了最终的停飞结果外，该模型还应解释为什么要做出该决定。可解释性和反事实弹性属性在文献和实际部署中也是有用的。如图2所示，我们的应用程序纠正视频自动字幕的另一个例子（细节在第5节）。在第一帧中存在三个人，而他们可能会在接下来的帧中消失，但字幕仍然没有更新。我们的反事实弹性接地系统能够纠正字幕错位问题。在这项工作中，我们建议通过将文本描述分解为多个组件来模块化文本接地系统，并通过这些组件向最终输出逐步执行接地。最近，模块化设计在社区中被提倡[29，27，67]，主要集中在视觉问答和指称表达视觉匹配上。我们表明，这样的模块化设计也增加了我们的文本基础系统的可解释性，它解释了如何在前进的道路上作出最后的决定。值得注意的是，模块化设计支持不同的训练协议来学习每个组件。因此，为了减轻对大规模细粒度手动注释的需求（例如，边界框），我们建议以弱监督的方式训练我们的实体接地模块，它只需要图像级别的标签。我们注意到这些数据很容易获得，例如，来自互联网搜索引擎或带有图像标签的社交媒体[21，3，8]。为了验证我们的系统，我们对COCO数据集[41]和Flickr30k实体数据集[56]进行了广泛的实验。我们表明，我们的系统优于其他在文本背景上，弱监督的方法，甚至超过了一些强监督的方法。通过介绍另一个由反事实案例组成的数据集，我们强调我们的系统比其他方法表现得更好。总结一下我们的贡献：1. 我们提出了一个模块化设计的文本接地系统。与文本分解一起，它允许每个组件的更多样化和专业化的训练协议。2. 我们收集了一个反事实文本基础测试集，并表明我们的系统实现了更好的可解释性和弹性反事实测试。3. 我们展示了基于我们的系统的实际应用，并期待未来的探索基于我们的工作。在本文的其余部分，我们首先回顾相关的工作，然后在第3节描述我们的系统。我们详细阐述了我们的训练过程，并通过第4节中的实验和第5节中的广泛应用证明了我们的系统的有效性，然后在第6节中结束。2. 相关工作多模式任务，例如。辅助视觉搜索[6，38]和图像字幕[66，60]，已经在社区中研究了几十年。虽然这些任务是计算机视觉和自然语言处理中的经典主题，但当前的进步通过将视觉（图像）和语言（高级指南）相互作用以用于实际应用而进一步激发了它。具体的例子包括引用表达理解[49，29]和推理感知视觉问答[28]。最先进的文本基础方法[67，31，58，56，64，44]基于深度神经网络，并依赖于具有对象边界框和短语之间关系的手动注释的大规模训练数据，时间GT：ABCBCB一N/ACF目标：N/A一一个CBCABC6380图/对象。这种设置在很大程度上限制了它们的广泛应用，因为获得这种强有力的监督是昂贵的，并且它们还缺乏对训练中没有出现的反事实情况的可解释性和弹性弱监督学习受到越来越多的关注[13，50，11，46，52，55，63]。它专注于学习只给出粗略注释的粒度检测器。这对于粒度注释（例如，边界框和像素级标签）与粗略的图像级注释相比，获得成本要高得多。最近的研究表明，弱监督方法甚至可以优于强监督图像分类方法[46]。与目前的工作不同，我们进行弱监督学习文本接地，包括训练，通过渐进的模块化过程的实体接地和文本视觉匹配。模块化设计最近也受到了越来越多的关注，主要用于复杂的系统，如视觉问答或图像字幕[29，27，67]。这种模块化设计是通过实现一些语言结构来实现的。在我们的工作中，我们建议分解查询的文本描述到渐进的水平，每一个被传递到相应的模块，然后产生最终的地面-ING结果逐步合并的中间结果。通过这种方式，我们的系统具有高度的可解释性和对反事实输入的抵抗力。3. 模块化文本基础系统为了获得更好的可解释性和反事实性，我们建议将整个文本基础系统模块化，将文本描述分解为多个级别，每个级别都传递到特定的模块进行处理。我们通过逐步合并这些模块的中间结果来生成最终的基础结果。在不失去概括性的情况下，在这项工作中，我们将文本描述分解为三个层次，并使用三个不同的模块对它们进行渐进式处理，分别是：实体基础模块M e、语义属性基础模块M a和颜色基础模块M c。我们从文本中提取属于这三个层次的短语/单词，并将它们馈送到相应的子模块中。我们注意到，这样的模块化设计允许使用不同的专用程序来训练不同的模块，例如，完全监督学习或弱监督学习，同时还支持端到端训练。对于最终的接地热图G，我们逐步合并来自这些模块的中间结果（参见图3）：G=Me·（Ma+ Mc）。（一）在实践中，我们观察到，这样的合并方法实现了最好的性能超过一个简单的乘法或加法融合。这是因为实体基础定义了对象约束，并且属性和颜色模块上的求和确定了如何可解释地生成最终结果，尽管它们可能部分地覆盖属于感兴趣对象的某些区域。其余的SEC。3、分别阐述了三个模块及其所采用的培训方案。3.1. 实体接地模块（Me）为了克服当前方法的局限性，需要昂贵的手工注释，在细粒度的水平，我们建议训练的实体接地模块在弱监督的方式。这可以帮助我们的系统实现更好的泛化到其他新的数据域，这些数据域可能只需要在图像级粗略注释的数据集上进行微调。这种弱监督学习可以表示为在给定由文本特征t表示的感兴趣对象的情况下选择图像I 中的最佳区域r ，例如，word2vec功能。利用良好的预训练特征提取器，我们首先在图像上提取视觉特征图v，基于此，我们训练注意力分支F，该注意力分支F输出期望突出图像中的匹配区域的热图在数学上，我们感兴趣的是以热图的形式获得区域R=F（t，v）并理解它。在实践中，我们发现使用注意力机制在图像级别训练分类模型对于实体基础非常有效，这是通过注意力地图的输出，如图3所示。此外，我们发现使用双线性池化层[42，17，35]效果更好，而不是使用乘法门控层来利用注意力对于双线性池，我们采用[16]中介绍的多模态紧凑双线性（MCB）池，有效地池化视觉和文本特征。在MCB中，计数草图投影函数[7]应用于外部视觉特征v2和重复用于降维的词特征v1：（t）（v）。如果转换到频域，则级联的外层−1乘积可以写成：Φ =FFT（FFT（t））FFT（FFT（v）。基于Φ，通过几个非线性1×1卷积层计算最终的2D注意力地图R：R = conv（n），最后一个作为sigmoid函数，将所有值缩小为[0，1]。稍后，我们通过对元素的全局池化来检索区域表示f实体关注图和原始视觉特征图之间的智能乘积：f=pool（Rv），在其上应用弱监督分类损失。总的来说，为了以弱监督学习的方式训练具有注意力机制的实体接地模块，我们训练图像-使用交叉熵损失的水平K3.2. 语义属性基础模块语义属性背景模块通过对语义属性的解释，提高了整个语篇背景系统的可理解性。6381我22图像“人”骨干CNNMLP特征图Person表双线性池人语义属性模块“older颜色模块注意科注意图实体模块“蓝色”边界框选择描述：一位女士和一位穿蓝色衬衫的老人在厨房的桌子旁讨论着什么目标：蓝色的老人=>{实体：人语义属性：老年人颜色：蓝色}图3：实体基础模块（左）和整个文本基础系统（右）的示意图。首先将文本短语分解为子元素，例如，“olderman in blue” can be parsed to “person” category with “older 基于合并的注意力图生成和选择边界框我们训练的实体/语义属性接地模块在弱监督的方式与注意力机制。语义属性模块也采用与实体模块相似的结构，但存在字典学习损失。(best颜色显示）它解释了最终决定是如何做出的。例如，如图2所示，找到“man in black suits”的模型为了介绍我们的基于字典的评分函数，我们重新审视了在二元分类中广泛使用的经典逻辑归一化，如下所示：通过显示“人”和“黑西装”在图像中的位置来实现1yi=1 +exp（−wTx）（二）我们还使用弱监督学习协议来训练这个模块，该协议在实体模块中具有类似的架构。但是，我们不是像训练实体基础模块中那样在K个预定义属性上使用K此外，我们建议使用回归进行训练，而不是对它们进行分类，因为属性可以变得很大，而表示属性名称的特征可以位于语义空间中的流形中。这使得我们的模块可以扩展到更新颖的属性，甚至可以使用一些预定义的属性进行训练。请注意，我们用word2vec特征表示每个属性[47]。虽然word 2 vec模型展示了非常语义分组的话，我们发现，这些fea-其中wi在这里表示学习参数，并且x，yi是输入向量和关于类别i的预测概率。再次注意，尽管逻辑损失对于二进制分类或多标签分类工作良好，但它不能扩展到新类别，除非重新训练整个模型。我们的解决方案，这是基于建议的字典为基础的评分功能。假设有C个属性，由word2vec表示，并堆叠为字典D=[d1，. . .，dC]。我们可以测量x和每个字典原子之间的（逆）欧几里德距离，以获得关于哪个属性x被预测的相似性。因此，字典充当参数库，如果我们想要在word2vec特征空间中保留语义流形，则可以固定该参数库，并且我们具有以下修改的sigmoid变换：表示属性的图不能提供合理的数据，犯罪例如，在word2vec特征中，“man”比“boy”更类似于“woman”，2yi=1 +exp（xrdi−xrd2）（三）在实践中的性别意义。虽然重新训练这样的word2vec模型解决了这个问题，我们采用了另一种方法，在本文中提出了一个基于字典的评分功能在原来的word2vec功能。我们注意到，该方法不仅提供了更高的区分度评分能力，而且还继承了word2vec特征中的语义流形，可扩展到新属性，而无需重新训练整个模型，如K路分类中所做的那样。然而，由于这也可能不那么歧视，我们选择学习新的潜在空间。具体地说，我们在sigmoid变换之前建立新的层，这些层形成新的函数φ和φ，分别变换特征x和dictionary原子。然后，我们有以下基于字典的第i个属性的评分函数：2yi=1 +exp（D）i−φ（x）<$2）（4）⊙6382此外，尽管使用基于字典的评分函数作为修改后的sigmoid，用于全局汇集在图像上的整体特征上的逻辑损失，但我们也在像素级上执行它。具体地说，在每个训练图像的每次迭代中，我们选择得分最高的T个像素来输入逻辑损失。这种实践本质上是像素级的多实例学习[53]。我们在实验中发现，联合使用这两种损失有助于生成更好的注意力地图。3.3. 彩色接地模块（Mc）当以自然语言查询时，人类通常依赖于用于低级视觉特征的文本描述颜色、质地、形状和位置。最近的工作也证明了在无监督学习中基础低级别特征的可行性[61]。在我们研究的数据集的工作中，我们注意到颜色是最常用的一种。在本文研究的Flickr30k实体数据集[56]中，70%的属性词是描述人的颜色因此，在不损失概括性的情况下，我们开发了一个单独的颜色背景模块，以提高整个文本背景系统的可解释性。与实体接地和语义属性接地模块不同，我们在一个名为颜色名称数据集的小规模数据集上以完全监督的方式训练这个颜色接地模块[59]，该数据集包含400个像素级颜色名称注释的图像。我们基本上执行像素级的颜色分割的输入图像的底色参考。此外，我们在ImageNet数据集[12]上预训练的ResNet50模型[23]上构建了这个颜色基础模块，并在较低级别连接中间特征以进行像素级颜色分割。我们发现这比组合高级功能效果更好。我们推测原因是由于颜色是一个非常低层次的线索，不需要深入的架构和高层次的特征抽象。这与[40]中的报告一致。3.4. 架构与培训我们的三个模块基于ResNet架构[23]。我们在[10，37]中增加了输出分辨率，ResNet的解决方案，通过删除顶部全局7×7池化层和最后两个2×2池化层，用膨胀率分别为2和4的atrous卷积代替它们，从而维持空间采样率。因此，我们的模型以输入分辨率的1/8输出预测，这些预测被上采样用于基准测试。对于（多标签或K路）分类，我们使用全局池化层，其产生用于分类的整体图像特征此外，我们还在注意力图上插入了一个L2我们使用标准的随机梯度下降（SGD），以一种阶段性的方式训练具体来说，我们首先训练一个简单的实体和语义属性基础模块的分类模型，然后我们建立注意力学习的注意力分支。虽然我们的文本基础系统是端到端可训练的，但我们单独训练每个模块。虽然联合训练很容易实施，但我们这样做不是出于实际原因：1）我们可以很容易地插入一个更好的训练模块，而无需重新训练整个系统以进行更好的比较; 2）注重模块化设计，隔离各模块设置和参数的影响。4. 实验我们现在通过实验验证我们的系统，并与最先进的方法进行比较。为了突出我们系统的通用性，我们在COCO2017 数据集上训练它 [41] ，同时在另一个Flickr30K实体数据集上测试它[56]。我们首先简要介绍了这两个数据集，然后进行全面的比较，然后我们进行了另一个实验，以显示我们的（弱监督）模型在由反事实测试用例组成的收集数据集上的表现明显优于其他（完全监督）方法。我们使用PyTorch工具箱[51]在单个GTX 1080 Ti GPU1上实现我们的算法。4.1. 数据集和预处理我们在实验中使用的两个数据集是：COCO2017 [41]用于训练我们的系统，Flickr30k Entities Dataset [56]用于测试它。COCO 2017数据集包含110k个训练图像，在图像级别包含80个对象类别。这80个对象类别用于训练我们的实体基础模块，因为它们可以被视为彼此独占。COCO2017中提供的字幕任务和注释使我们能够训练我们的语义属性基础模块。使用[4，48]，我们标记并挖掘出与语义属性相关的单词（例如，男人，女人，男孩，老人和年轻人），以形成我们的语料库。为了训练语义属性基础模块，我们从COCO2017中检索图像，其标题包含我们语料库中存在的属性。最终，从COCO 2017中收集了10，000张图像和34个属性，用于弱监督训练我们的模块。为了改善这些属性的不均衡分布，我们在训练过程中采用逆频率重新加权。Flickr30k实体数据集包含超过31k张图像，其中包含275k个带有自然语言描述的边界框，我们仅使用此数据集来测试我们的系统。为了进行反事实测试实验，我们收集了一个新的测试集，图像来自Flickr30k和Ref.1https://github.com/jacobswan1/MTG-pytorch6383属性基础反事实属性基础图像语义-属性颜色接地结果属性1属性2颜色1颜色2女人白色+蓝色男孩人红色绿色孩子蓝色+绿色夫人成年人黄色粉红色女人紫色老头孩子灰色绿色图4：属性基础预测（左）和反事实属性基础结果（右）的示例。(best颜色显示）人人列车通过开发一个易于使用的界面，我们能够生成与原始数据集提供的良好的字幕给定图像的反事实字幕。与[24]中的工作类似，我们通过挖掘现有属性的否定来生成反事实属性。整个PACG数据集由2，000张图像组成，其中一半具有图像中不存在的反事实属性，另一半具有语言处理：为了处理自由格式的文本查询，我们使用语言解析器[4]根据三个模块的功能选择关键词。我们首先提取实体词，并挑选最相似的对象类词的相似性。然后，我们以同样的方式提取语义属性词。最后，我们提取的颜色关键字简单的颜色接地。为了表示文本属性和颜色名称，我们采用斑马狗[54 ]第54话：这使得在测试阶段遇到的定义的属性/颜色和新的属性/颜色之间具有有意义的相似性。4.2. 文本基础评估绵羊猫图5：来自实体模块的注意力地图的定性示例。COCO+[34].图像仅包含人物和相关属性（例如，性别、年龄等），所以我们称这个数据集为Per- sonAttribute Counterfactual Grounding dataset（PACG）。我们将我们的模块化文本基础系统与Flickr 30 k实体数据集上的其他监督/无监督方法进行了比较。我们使用平均精度（mAP）度量来衡量定量性能。详细比较见表1。作为类似于[65]的第一个基线方法，我们选择最大的提案作为最终结果。该方法获得了24.34%的mAP。然后，我们建立另一个基线模型，马人6384Aprroach图像特征最大平均接入点（%）监督SCRC [31]VGG-cls27.80[58]第五十八话VGG-cls47.81[56]第五十六话VGG-det50.89IGOP [64]YOLO+DeepLab53.97无监督最大提议n/a24.34[58]第五十八话VGG-det28.94相互信息[68个]VGG-det31.19[65]第六十五话VGG-det35.90[65]第六十五话YOLO-det36.93弱监督我们的1Res10129.01我们的（Attr）1Res10132.04我们的（Attr+Col）1Res10133.43[57]第五十七话Res101-det35.35我们的+Attr2Res101-det47.46Ours+Attr+Col2Res101-det48.66表1：Flickr 30k实体上的短语本地化性能（以%为单位的准确度）。我们仅通过ResNet101主干上的弱监督学习来训练实体接地模块，该主干是在ImageNet数据集上预训练的。然后，在实体接地热图上，我们通过子窗口搜索[39]生成边界框候选以及轮廓检测结果，然后进行非最大值抑制以进一步细化提案框。我们根据等式1选择包含最大比率的对象的框。我们注意到，这个简单的基线模块（ 29.01% mAP ）优于 GroundRu [58] （ 28.94%mAP），后者在大规模训练数据中以专注的方式如果我们包括语义属性模块，我们将进一步提高性能（32.04% mPA），超过Mutual Info。[68]第二章。如果我们进一步插入颜色接地模块，我们将实现与UTG（36.93%mAP）相当的性能（33.43%），UTG采用无监督方法将图像概念链接到查询词[65]。我们注意到，我们的模型仅在COCO数据集上训练，而不像所有这些方法都在同一数据集（Flickr30k数据集）上训练。我们的模型的有效性证明了其良好的可移植性，因为它是在不同的数据域上训练和测试的。同样值得注意的是，所有比较的无监督方法一致采用训练有素的对象检测器，即使它们声称是无监督学习。为了了解检测器如何提高性能，我们在COCO上微调了更快的RCNN检测器[19]，并再次用弱监督训练我们的模块。我们将我们的结果报告为表1中的底部两行。现在我们可以看到我们的模型表现得更好，甚至超过了一些完全监督的方法（ SCRC [31] 和GroundeR [58]）。虽然我们的系统采用ResNet101架构而大多数通信方法使用较浅的VGG网络似乎不公平，但我们注意到，采用VGG和ResNet101（由DeepLab表示）的IGOP在完全监督训练的情况下实现了最佳性能。尽管我们的最佳模型没有超过IGOP，但我们认为性能差距很小，而且合理，因为我们的训练是在不同的数据集（COCO）而不是Flickr30k上进行的，并且它不依赖于任何强监督信号。我们在图5中显示了实体基础模块的输出示例，其中各种对象类别作为输入，在图4中显示了属性基础输出，其中现有属性和反事实属性都这些可视化演示了我们的系统如何通过模块化输出以可解释的方式拒绝反事实查询。4.3. 反事实基础评估我们现在深入研究了我们的系统在面对我们收集的PACG数据集上的反事实文本查询时的表现，并与三种基线或最先进的方法Faster-RCNN [57]，Mat-tNet[67]，SNLE [30]进行比较。我们在图6中绘制了这些方法的ROC曲线。文本基础系统然后选择具有最高分数/概率的区域。我们比较了反事实查询和正常查询之间的预测分数/预测区域的概率，并期望观察到它们的数值分数之间的明显差异。从图中我们可以清楚地看到，我们的系统在这些方法中实现了最高的AUC，这意味着模块化设计成功地提高了接地系统的反事实弹性。具体来说，像SNLE[30]这样的端到端模型将文本查询编码为矢量表示，以从图像中提取空间特征图作为响应图。然而，这种编码不考虑句子的内部结构[45]，也忽略了近义词的语义细微差别。请注意，MattNet [67]也采用模块化设计，但它是用完全监督学习训练的，而且它不容易扩展到新属性，也不能像我们的方法那样有效地拒绝Faster-RCNN的AUC约为0.5，因为识别能力仅限于实体级别，无法区分语义属性。我们的结论是，通过模块化的设计和每个模块中更好的评分功能，我们的模型对反事实查询表现出高度的弹性能力，即使只有弱监督训练。5. 广泛的应用反事实弹性设计可以进一步应用于各种任务。在本节中，我们将展示一些63851.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0假阳性率图6：与其他最先进的基线模型相比，我们的模块化网络的ROC在PACG数据集上表现出高分辨率，AUC为0.88（最佳颜色）。穿黄色外套的女孩。3s1s穿白衬衫的男人。0s1秒2秒3s穿红衣服的女人。0s2s图7：视频序列中的时间/空间基础。选取包含短语的时间段，过滤掉不相关的短语。实际应用等为了在视频中建立文本短语，系统需要首先确定检索哪个时间段和时刻[25]，然后本地化与描述相关联的区域。在这种情况下，文本信息可能与大多数视频帧无关，因此需要系统能够反事实地查询和辨别它是否存在在当前的部分。与现有的方法[18]不同，该方法将问题视为时间定位，我们对一组帧进行评分，并选择出更可能与句子相关的片段。我们在图7中演示了这一过程，模块化网络成功地进行了图8：视频字幕对齐。对于无序的标题，我们的系统将每个句子与其相应的框架联系起来[26]第26话视频剪辑中的时空基础任务。视频到字幕对齐我们的模型可用于纠正像[5]中的工作那样的未对齐的字幕句子给定不匹配的框架和标题，我们检查句子框架的相关性，并为每个句子找到相应的图8示出了字幕对齐的示例，时间链接的句子可以基于视频重新排序。6. 结论在本文中，我们建议通过将文本描述/查询分解为三个部分来模块化复杂的文本基础系统：实体、语义属性和颜色。这样的模块化设计在很大程度上提高了系统的可解释性和反事实弹性。此外，我们建议以弱监督的方式训练模块，因此我们只需要容易获得的图像级标签这在很大程度上有助于减轻对用于训练的大规模手动注释图像的需求，以及在将系统转移到新数据域时进行微调。通过大量的实验，我们证明了我们的系统不仅优于所有无监督的文本基础方法和一些完全监督的方法，而且在面对反事实查询时具有很强的弹性。我们的模块化文本接地系统具有实际意义，因为它可以部署在各种问题。在本文中，我们展示了我们的系统可以应用于视频字幕校正和视觉文本搜索。我们希望更多的应用程序可以受益于我们的模块化设计。鸣谢：国家科学基金会在强大的情报计划（1816039和1750082）下的支持，以及VeriskAI的礼物，都得到了充分的认可。我们还感谢NVIDIA捐赠GPU。我们的（ROC面积= 0.88）MatNet（ROC面积= 0.76）SNLE（ROC面积= 0.54）FRCNN（ROC面积= 0.50）戴红帽子的男人第一次被看到。右边的男孩从桌子上拿起东西。三个孩子跑了起来。真阳性率6386引用[1] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在Proceedings of the IEEE international conference oncomputer vision，第2425-2433页[2] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔用递归神经网络进行序列预测的定时采样。神经信息处理系统进展，第1171-1179页，2015年[3] A. Bergamo和L.托雷萨尼利用弱标记网络图像改进对象分类：一种领域自适应方法。神经信息处理系统，第181-189页，2010年[4] S. Bird，E. Klein和E.洛珀使用Python进行自然语言处理：使用自然语言工具包分析文本。“O'Reilly Media，Inc." 2009年[5] 博亚诺夫斯基河Lajugie，E. Grave，F.巴赫岛拉普捷夫J. Ponce和C.施密特视频与文本的弱监督对齐。在IEEE计算机视觉国际会议论文集，第4462-4470页[6] D. Cai，X.他，Z。李伟Y. 妈妈和JR. 文利用视觉、文本和链接信息对www图像搜索结果进行层次聚类。第12届ACM多媒体国际会议集，第952- 959页。ACM，2004年。[7] M.恰里卡尔湾Chen和M.法拉奇-科尔顿在数据流中查找频繁项。 InternationalColloquium on Automata ，Languages ， andProgramming ， pages693-703.Springer，2002年。[8] J. Chen，Y.Cui，G.Ye，D.Liu和S.-F. 昌利用弱标记的互联网图像进行事件驱动的语义概念发现。国际多媒体检索会议论文集，第1页。ACM，2014年。[9] K.陈河，巴西-地Kovvuri和R.奈瓦提亚查询引导的回归网络与上下文策略的短语接地。arXiv预印本arXiv：1708.01676，2017。[10] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence，40（4）：834[11] R. G. Cinbis，J.Verbeek和C.施密特弱监督目标定位与多重多实例学习。IEEE transactions on pattern analysis andmachine intelligence，39（1）：189[12] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。Ieee，2009年。[13] T.德塞拉湾Alexe和V法拉利在学习对象外观的同时定位对象。欧洲计算机视觉会议，第452-466页。施普林格，2010年。[14] A. Dhurandhar，P.-Y. 陈河，巴西-地Luss，C.C. Tu、P.阿婷K. Shanmugam和P.达斯基于缺失的解释arXiv预印本arXiv：1802.07623，2018。[15] F. Doshi-Velez，M.科茨河布迪什角Bavitz，S. Gersh-man，D. Schieber，J.Waldo，D.温伯格，以及A.木材.认可机构在法律下的责任：解释的作用。arXiv预印本arXiv：1711.01134，2017。[16] A. 福井 D. H. 帕克 D 。 Yang ，杨树 A. Rohrbach ， T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。arXiv预印本arXiv：1606.01847，2016。[17] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。在IEEE计算机视觉和模式识别集，第317[18] K. Gavrilyuk，A. Ghodrati，Z. Li和C. G.斯诺克从句子中分割出演员和动作视频。在IEEE计算机视觉和模式识别会议论文集中，第5958-5966页，2018年[19] R. 娘娘腔。快速 R-CNN 。在 Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[20] B. 哈里哈兰山口阿尔贝拉兹河。Girshick和J. 马利克用于对象分割和细粒度局部化的Hy-percolumns。在IEEE计算机视觉和模式识别，第447-456页[21] G. Hartmann，M.Grundmann，J.霍夫曼D.Tsai，V.夸特拉岛，O.Madani，S.维贾亚纳拉辛汉岛Essa，J.格，以及R.苏克坦卡从网络视频中分割对象的弱监督学习。欧洲计算机视觉会议，第198-208页。Springer，2012.[22] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。[23] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[24] L. A.亨德里克斯河Hu，T. Darrell和Z.赤田用自然语言生成反事实解释 arXiv 预印本 arXiv ： 1806.09809 ，2018。[25] L. A. Hendricks，O.Wang，中国山核桃E.Shechtman，J.Sivic，T.Darrell和B. Russell.用自然语言定位视频中的时刻。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第5803-5812页[26] L. A. Hendricks，O.Wang，中国山核桃E.Shechtman，J.Sivic，T.Darrell和B. Russell.用自然语言定位视频中的时刻。2017年国际计算机视觉会议（ICCV）[27] R. Hu，J. Andreas，T. Darrell和K.萨恩科通过堆栈神经模块网络进行可解释的神经计算。欧洲计算机视觉会议（ECCV），2018年。[28] R. Hu，J. Andreas，M. Rohrbach，T. Darrell和K.萨恩科学习推理：用于可视问答的端到端模块网络。CoRR，abs/1704.05526，3，2017。[29] R. Hu，M. Rohrbach，J. Andreas，T. Darrell和K.萨恩科用组合模块网络建模指称表达式中的关系.在计算机视觉和模式识别（CVPR），2017 IEEE会议上，第4418-4427页。IEEE，2017年。6387[30] R. Hu，M. Rohrbach和T.达雷尔。从自然语言表达式中分割。在欧洲计算机视觉会议上，第108-124页。施普林格，2016年。[31] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。在IEEE计算机视觉和模式识别会议论文集，第4555-4564页[32] D.- A. Huang，S.布赫湖Dery，A.加格湖，澳-地Fei-Fei和J.C.尼布尔斯发现它：教学视频中的弱监督参考感知视觉基础。CVPR，2018年。[33] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。在IEEE计算机视觉和模式识别会议论文集，第4565-4574页[34] S. Kazemzadeh，V. Ordonez M. Matten和T.伯格。推荐游戏：指自然景物照片中的物体。在2014年自然语言处理中的经验方法会议（EMNLP）的会议记录中，第787-798页[35] S. Kong和C.福克斯用于细粒度分类的低秩双线性池。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第7025-7034页。IEEE，2017年。[36] S. Kong和C.福克斯用于实例分组的递归像素嵌入。在IEEE计算机视觉和模式识别会议论文集，第9018- 9028页[37] S. Kong和C. C.福克斯循环中具有透视理解的循环场景解析。在IEEE计算机视觉和模式识别会议论文集，第956-965页[38] M.拉卡夏湾Sethi和S. Scaroff万维网上基于内容的图像检索结合文本和视觉线索在cbaivl，第24页。IEEE，1998年。[39] C. H. Lampert，M. B. Blaschko和T.霍夫曼高效的子窗口搜索：一个用于对象本地化的分支和边界框架。IEEEtransactionsonpatternanalysisandmachineintelligence，31（12）：2129，2009。[40

下载后可阅读完整内容，剩余1页未读，立即下载