统一的视觉语义嵌入：结构化意义表征

81 浏览量更新于2023-10-18 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1统一的视觉语义嵌入：用结构化的意义表征吴昊1，3，4，6，毛嘉源5，6，张宇峰2，6，<$，江宇宁6，雷丽6，孙伟1，3，4，孙伟英61复旦大学计算机学院，2复旦大学3系统与复旦大学4上海智能电子系统5清华大学跨学科信息科学研究院ITCS6字节跳动人工智能实验室{wuhao5688，zhangyf，wwsun}@ fudan.edu.cn，mjy14@mails.tsinghua.edu.cn，{jiangyuning，lileilab，maweiying}@ bytedance.com摘要我们提出了统一的视觉语义嵌入（统一VSE）学习的视觉表示和文本语义的联合空间该模型统一了不同层次的概念嵌入：对象、属性、关系和完整场景。我们把实体语义看作是不同语义成分的组合，如对象和对A对B关系;它们的嵌入与不同的图像区域对齐提出了一种对比学习方法，用于仅从图像-字幕对有效地学习这种细粒度对齐。我们还提出了一个简单而有效的方法，强制覆盖标题嵌入的语义组件出现在句子中。我们证明了统一VSE在跨模态检索任务上优于基线;语义覆盖的实施提高了模型在防御文本域对抗性攻击中的鲁棒性。此外，我们的模型使我们能够使用视觉线索来准确地解决新句子中的单词依赖关系。1. 介绍我们研究了基于丰富但很少、成对但有噪声、甚至有偏见的视觉文本输入（例如，图像-字幕对）。考虑图1所示的图像-标题对A。1：“墙上的一个白色的钟在一张木桌的上面”。对齐在多个级别上形成：这个短句可以分解成一组丰富的语义成分[3]：*表示同等贡献。[2]这项工作是在HW、JM和YZ在字节跳动人工智能实验室做实习研究员时完成的图1.两个示例图像-标题对。人类能够在视觉和语言之间建立准确和可概括的对齐，在不同的层面：对象，关系和完整的句子。对A和B形成了时钟和盆地概念的一对对比示例。对象（时钟，桌子和墙壁）和关系（时钟在桌子上，时钟在墙上）。这些组件与场景的不同部分链接。这促使我们的工作，介绍统一的视觉语义嵌入（统一VSE为短），如图所示。 2、统一VSE在联合嵌入空间中连接视觉和文本表示，统一对象的嵌入（名词短语与视觉对象）、属性（前名短语与视觉属性）、关系（动词或介词短语与视觉关系）和场景（句子与图像）。在建立这种因子化的对齐方面存在两个主要挑战。首先，对象的文本描述和对应的图像区域之间的联系是模糊的：视觉场景由多个对象组成，因此学习者不清楚哪个对象应该与描述对齐。其次，直接学习神经网络可能是有问题的，该神经网络组合字幕中的各种语义成分并形成对整个句子的编码，训练目标是最大化字幕的语义成分。6609墙上的一个白色的钟在一张木桌的上方。关系短语白钟木桌上方白色时钟在华尔对象白色时钟木表墙Awhitebbaasinin 这是一个木制的测试表，它来自一个水龙头，.6610图像局部区域全球集中共用嵌入整个图像“white“clock“A此外，我们展示了我们学习的嵌入如何提供视觉线索来帮助分析新的句子，包括确定内容词的依赖关系和标记某些动词的语义角色。最终，我们的模型可以使用给定的语义线索在视觉和语言之间建立可靠的联系，并反过来引导语言的习得。统一的视觉语义嵌入空间（单位球）图2.我们建立了一个视觉语义嵌入空间，它统一了对象，属性，关系和全场景的嵌入。训练集中的跨模态检索性能（例如，在[49，30，40]中）。正如[40]所报道的，由于数据集中不可避免的偏差（例如，在大多数情况下，两个物体可以同时出现，见图中的桌子和墙。 1 例如），学习的句子编码器通常只注意句子的一部分。因此，它们容易受到文本域对抗攻击：对抗性字幕通过添加小的扰动（例如，通过改变墙是货架）可以很容易地欺骗模型[40，39]。我们以自然的方式解决上述挑战，两个想法的合理结合：跨情境学习和规范编码器的语义覆盖的实施。跨情境学习，或从对比示例中学习[12]，使用数据集中的对比示例来解决对象的指称歧义：1，我们知道时钟应该指的是只出现在场景A中的对象，不是B同时，为了减轻数据集的偏见，如对象共现，我们提出了一种有效的方法来加强语义收敛：标题的含义是句子中所有语义成分的组合[3]。反射性地，标题的嵌入应该覆盖所有语义组件，而改变它们中的任何一个都应该影响全局标题嵌入。在概念和经验上，统一VSE做出了以下三个贡献。首先，视觉语义嵌入空间的显式因子分解使我们能够在视觉和文本数据之间建立细粒度的对应关系，这进一步有利于一组下游视觉文本任务。我们通过对比示例挖掘技术实现了这一点，该技术统一适用于不同的语义组件，与现有视觉语义学习使用的句子或图像级对比样本形成对比[49，30，11]。统一VSE在各种基于检索的任务上始终优于现有方法。其次，我们提出了一个字幕编码器，确保覆盖的所有语义成分出现在句子中。我们证明了这种正则化有助于我们的模型学习一种用于字幕的健壮的语义表示。它有效地防御了对文本域的对抗性攻击。2. 相关工作视觉语义嵌入。视觉语义嵌入[13]是学习视觉和语言联合表示的常用技术。嵌入空间可以支持一组跨模态任务，例如图像字幕[43，48，8]和视觉问答[4，47]。[13]中提出的用于对齐两种模态的基本技术是使用成对排序来从相似和不相似的交叉模态对中学习距离度量[44，35，23，9，28，24]。作为代表，VSE++[11]使用在线硬否定挖掘（OHEM）策略[41]进行数据采样并显示性能增益。基于VSE++的VSE-C [40]通过在训练期间将规则生成的文本对抗样本作为硬否定来增强学习的视觉语义嵌入本文提出了一种基于语义成分的对比学习方法。有多种VSE方法也使用语言感知技术进行句子编码和学习。分层多模态LSTM（HM-LSTM）[33] 和[46]作为两个例子，都利用了成分解析树。Multimodal-CNN（m-CNN）[30]和CSE [49]将卷积神经网络应用于标题并提取句子的分层表示。我们的模式与他们在两个方面不同。首先，统一VSE是建立在一个分解的语义空间，而不是句法知识。其次，我们采用了一个对比的例子挖掘方法，统一适用于不同的语义组件。它大大提高了学习的嵌入，而相关的作品只使用双级对比的例子。统一VSE中对象级对齐的学习也与[19，21，36]有关，其中作者将预训练的对象检测器用于语义对齐。[10]提出了一种选择性池化技术，用于对象特征的聚合。与它们相比，统一VSE提供了一种更通用的方法，它嵌入了不同级别的概念，同时仍然不需要额外的监督。视觉和语言的结构化表示。我们在结构化的嵌入空间中连接视觉和文本表示。其结构的设计部分是由关系视觉表示（场景图）的论文[29，18，17]，其中场景由一组对象及其关系表示与他们相比，6611w（基本）nww（基本）（）nn墙上的一个白色的钟在桌子的上方对象标题对齐丢失句子合并u发送编码器 发送分享对象编码器分享对象编码器分享对象编码器分享urelucomp白色时钟上表用户属性关系对齐comp白钟分享时钟莫语义成分组合乌奥布杰对象对齐全局图像嵌入1x1转换V全球集中共用v7×7×d图像局部区域属性对齐一W（dif）语义组件对齐丢失奥博杰 ·阿贾特雷尔神经组合器神经组合器−+uobjuattrurelu发送ucomp Caption嵌入ucap用于检索0.080.030.630.11文本到图像检索图3.左图：统一VSE的架构语义成分对齐是从因子化语义空间中采样的对比示例中学习该模型还学习了一个字幕编码器，该编码器将语义组件组合起来，并将字幕与相应的图像对齐。右：从文本中检索图像的示例计算图字幕编码中的ucomp的存在加强了对所有语义组件的覆盖。参见第3.2详情模型在训练过程中不依赖于标记图。研究人员设计了各种类型的表示[5，32]以及不同的模型[26，50]，用于将自然语言句子翻译成结构化表示。在本文中，我们提出了如何使用这样的语义分析到视觉语义嵌入促进学习的嵌入空间。此外，我们提出了如何学习的VSE可以，作为回报，帮助解析器重新解决解析歧义使用视觉线索。3. 统一的视觉语义嵌入图像，两者都由神经模块编码为了存档对齐，已经广泛应用了基于双向边缘的排名损失[11，49，15]。形式上，对于嵌入v（u）的图像（caption），将其匹配的标题（image）的嵌入表示为u+（v+）。一个负的（不匹配的）caption（图像）被采样，其嵌入被表示为u−（v−）。我们将标题和图像之间发送的双向排名损失定义为：X.Σsent=Fv−|6+s（u，v）-s（u，v）|+u我们现在描述所提出的统一视觉语义嵌入的整体架构和训练范例，X+Fu−v.|6+s(u−，v）-s（u+Σ（v）|+（一）叮。示于图3，给定一个图像-字幕对，我们首先将字幕解析成一个结构化的含义表示，由一组语义成分组成：宾语名词、前名修饰语和关系依赖。我们使用特定类型的编码器对不同类型的语义组件进行编码。字幕编码器将语义分量的嵌入组合成字幕语义嵌入。我们共同使用卷积神经网络（CNN）将图像编码到相同的统一VSE空间中。图像嵌入和字幕嵌入之间的距离度量图像和字幕之间的语义相似性。我们采用了多任务学习方法的联合学习语义组件的嵌入（作为VSE空间的3.1. 视觉语义嵌入：重访我们以介绍双流VSE方法开始本节。它联合学习两种模态的嵌入空间：视觉和语言，并使用平行的图像-文本对（例如，图像和标题来自 MS-COCO 数据集[27]）。其中θ是预定义的裕度，|X|+= max（x，0）是交易排名损失，Fx（·）=maxx（·）表示艰难的挖掘策略[11，4 1]。s（·，·）是一个相似函数两个嵌入之间的关系，通常是作为余弦相似性[11，40，49]。3.2. 语义编码字幕的编码由三个步骤组成。作为一个例子，考虑图中所示的标题。3、“墙上的一个白色的钟在一张木桌的上方”。1 ）我们提取结构化意义表示作为三种类型的语义成分的集合：对象（时钟、墙壁、桌子）、属性-对象依赖（白色时钟、木桌）和关系依赖（桌子上的时钟、墙上的时钟）。2)我们编码每个组件以及完整的句子与类型特定的编码器到统一的VSE空间。3）结合语义成分构成字幕的嵌入语义分析我们基于[38]实现了图像标题的语义解析器1给定输入句子，解析器首先执行句法依赖性解析。一组规则应用于依存关系树，并提取出现在句子中的对象实体，修饰设v2Rd是图像的表示，u2Rd是与此1https://github.com/vacancy/SceneGraphParserCNN6612nnnXx宾语名词、动词的主语/宾语和介词短语。为了简单起见，我们只考虑对象的单字名词和对象属性的单字形容词。编码对象和属性。我们对名词和形容词-名词对使用统一的对象编码器$。对于词汇表中的每个单词w，我们初始化一个基本语义嵌入-dingw（basic）2Rdbasic和一个修饰语语义嵌入w（n）2Rdmodif.对于单个名词词wn（例如，时钟），我们定义其将wn嵌入为w（basic）w（n），其中表示向量的级联对于（形容词，名词）对（ wa ， wn ）（例如，（white，clock）），它的嵌入wa，n是句子嵌入usent，因为它已经以上下文加权的方式组合了组件的语义[25]。然而，在[40]中已经揭示了这种组合容易受到对抗性攻击：由于数据集中的偏见，组合器通常只关注标题中出现的一小部分语义组件。我们通过强制执行覆盖范围来减轻这种偏见，句子中出现的语义成分。具体地，为了形成字幕嵌入ucap，将句子嵌入usent与显式组件包嵌入ucomp组合，如图1B所示。3（右）。在数学上，我们定义，通过句子中所有成分的聚合：定义为w（基本）w（基本），其中w（基本）编码n a a属性信息在实现中，从GloVe初始化基本语义嵌入[34]。修改器语义嵌入（w（）和w（））是ucomp= Norm（Φ（{uobj}[{uattr}[{urel}），其中Φ（·）是语义复合的聚合函数nents然后标题被编码为：u=u+戴帽子发送随机初始化和联合学习。w（）可以看作是每个名词的内在修饰语为了融合基本语义和修饰语义的嵌入，我们使用了一个门控融合函数：$（wn）=Norm（σ（W1wn+b1））tanh（W2wn+b2）），$（wa，n）=范数（σ（W1wa，n+b1）tanh（W2wa，n+b2））.在整个文本中， σ 表示 sigmoid 函数： σ （ x ）=1/（1+exp（-x）），Norm表示L2归一化，即，范数（w）=w/kwk2。人们可以将$解释为没有历史状态的GRU单元[7]。编码关系和完整的句子。由于关系和句子是基于对象的组合，我们用神经组合器来编码它们，它将由$编码的词级语义的嵌入作为输入。在实践中，我们实现了一个单向GRU [7]，并选择L2归一化的最后一个状态作为输出。为了获得关系三元组（ws，wr，wo）的视觉语义嵌入（例如，（ clock ， above ，table）），我们首先使用$提取主语、关系词和宾语的词嵌入。然后，我们以相同的顺序将编码后的字嵌入馈送到GRU中，并获取GRU单元的L2标准化的最后一个状态。在数学上， urel=n（ws，wr，wo）=n（{$（ws），$（wr），$（wo）}）。u发送的句子的嵌入是在标题的单词序列w1，w2，···wkusent=n（{$（w1），$（ w2），· ··，$（ wk）}），其中对于任何单词x，$（wx）=$（w（basic）w（x））请注意，我们共享编码器的权重，在所有语义层次的编码过程中。这使得我们的编码器的各种类型的组件引导学习对方。结合所有的组件。字幕编码器的一种直接实现方式是直接使用6613（1-n）ucomp，其中0n1是标量权重。ucomp的存在不允许忽略最终字幕嵌入ucap中的任何组件。3.3. 图像编码我们使用CNN将输入的RGB图像编码到统一的VSE空间中。具体来说，我们选择在ImageNet [37]上预训练的ResNet-152模型[14]作为图像编码器。我们在最后一个卷积层的顶部应用1×1卷积层（即，conv5_3），并为每个图像获得形状为7×7×d的卷积特征图。D表示统一VSE空间的维数。该特征图表示为V2R7 ×7×d，可以看作是图像中7 × 7个局部区域的嵌入. 整个图像的嵌入v被定义为通过全局空间池化算子在所有区域处的嵌入的聚合（·）。3.4. 学习范式在本节中，我们将介绍如何在不同语义层次上使用对比学习将视觉和语言对齐到统一的空间中。训练管道如图所示。3 .第三章。我们从生成不同语义成分的对比实例开始反例抽样。在[40]中已经讨论过，为了探索语义的大组合空间，直接从人工构建的数据集（例如，MS-COCO字幕）是不够的。在本文中，我们不是像[40]中那样手动定义增加训练数据的规则，而是通过在显式分解的语义空间中对对比性否定示例该生成不需要手动标记数据，并且可以很容易地应用于任何数据集。对于特定的字幕，我们生成以下四种类型的对比负样本。6614DDs（uclock，推拉7×7V加权和softmax7×7排序损失OOO• 名词我们从所有没有出现在标题中的名词中抽取否定名词词。2• 定语-名词对。我们通过用另一个形容词随机替换形容词或替换名词来抽取否定对。• 三重关系。我们通过随机替换主语、关系或u<猫>u<时钟>7×7×d关联图（作为7×7排名损失的权重）各地区基于边际的排名损失objobject. 此外，我们还对整个关系进行了抽样，数据集中描述其他图像的字幕的三元组，作为负三元组。• 句子. 我们从整个数据集中抽取否定句。同时，在[13，11]之后，我们还从整个数据集中采样负图像作为对比图像。我们的视觉语义对齐背后的关键动机是：一个对象出现在图像的局部区域，而所有局部区域的聚合应该与标题的完整语义对齐。地方区域一级的协调。详细地说，我们提出了一个相关加权对齐机制，用于连接文本对象描述符和局部图像区域。如图4，考虑正文本对象描述符u+、负文本对象描述符u-和图4.这是我们的关联加权对齐机制的一个例子相关性图显示了每个区域与嵌入对象的相似性<。我们用映射对对齐损失进行加权，以加强u与其匹配区域之间的对应性。语义覆盖的实施。这使我们能够在推理过程中灵活地调整参数3.5. 实现细节我们使用d=1024作为统一VSE空间的维数，如[11，40，49]。我们通过以多任务学习的方式最小化对齐损失来训练模型`=`sent+c`comp+o`obj+a`attr+r`rel（4）在前2个时期，我们将fdc、fdc和fdca设置为0.5，将fdcr设置为0o o用于学习单对象级表示。当翻开所述集合图像局部区域嵌入从所述图像中提取的Vi，其中i 2 7 <$7 。我们生成一个相关性图M 2R7×7，其中Mi，i 2 7 × 7表示u+和Vi之间的相关性，计算如下：（二）、我们计算故，“舍”与“舍”，是指“舍”与“舍”。exp（s（u+，Vi））升级到1.0以使模型学习关系语义。为了与相关作品进行公平的比较，我们总是固定ResNet的权重。我们使用Adam [22]优化器，学习率为0.001。有关型号详情，请参阅我们的补充材料。Mi=POexp（s（u+，V））（二）4. 实验JOJX.−+。⌘`obj=我... 6+s（uo，Vi）-s（uo，Vi）.+i∈7×7（三）我们在MS-COCO [27]数据集上评估我们的模型它包含82，783张训练图像，每张图像由5个标题注释。我们使用常见的1K验证和测试这个定义背后的直觉是，我们明确地试图以将每个图像区域处的嵌入与u+对准。损失由匹配分数加权，从而加强u+与匹配区域之间的对应性这种技术与多实例学习有关[45]。全局图像级对齐。对于关系三元组urel、语义成分聚合ucomp和句子usent，它们的语义通常覆盖多个对象。因此，我们通过双向排名损失将它们与完整的图像嵌入v对齐，如等式（1）3. 对准损失分别表示为“rel”、“comp”和“sent”我们想强调的是，在训练期间，我们分别对齐标题的两种类型的语义表示，即，你发送和你comp，与图像。这与字幕的推断时间计算不同。回想一下，可将培训目标视为平衡培训目标和2对于MS-COCO数据集，在与同一图像相关联的所有5个字幕这也适用于其他组件。3只有文本否定样本用于`rel。[19]分裂。我们还报告了5K测试分割的性能，以与[49，11，42]进行比较。我们从传统的跨模态检索的评估开始这一节。接下来，我们通过比较跨模态检索任务的模型与对抗性示例来验证强制字幕嵌入的语义覆盖的有效性。然后，我们提出了一个统一的文本到图像检索任务，以支持各种语义组件的对比学习。最后，我们以一个应用程序来结束本节，该程序使用视觉线索来促进对新颖句子的语义分析。由于文本长度的限制，有关数据处理，度量和模型实现的模式细节，我们建议读者参考我们的补充材料。4.1. 跨模态检索的综合评价我们首先展示了图像到句子和图像到图像检索任务的性能，以评估学习到的视觉语义嵌入。我们报告R@1（recall@1），R@5，6615任务图像到句子的检索句子到图像检索度量R@1R@5R@10Med. RR@1R@5R@10Med. R的简历1K测试分割（5，000个字幕）m-RNN [31]41.073.083.5229.042.277.03345.7DVS [20]38.469.980.5127.460.274.83351.2[第24话]43.475.785.8-31.066.779.9-382.5m-CNN [30]42.873.184.1332.668.682.83384.0HM-LSTM[33]43.9-87.8236.1-86.73-订单嵌入[42]46.7-88.9237.9-85.92-VSE-C [40，1]48.081.089.2239.772.983.22414DeepSP[44]50.179.789.2-39.675.286.9-420.72WayNet [9]55.875.2--39.763.3---sm-LSTM [15]53.283.191.5140.775.887.42431.8[28]第二十八话56.485.391.5-43.978.188.6-443.8VSE++ [11，2]57.786.094.0142.877.287.42445.1CSE[49]56.384.492.2145.781.290.62450.4UniVSE（我们的）64.389.294.8148.381.791.22469.55K测试分割（25，000个字幕）订单嵌入[42]23.3-65.0518.0-57.67-VSE-C[11，1]22.351.165.1518.743.856.77257.7CSE[49]27.957.170.4422.250.264.45292.2VSE++[11，2]31.760.972.7322.149.062.76299.1UniVSE（我们的）36.166.477.7325.453.066.25324.8表1.MS-COCO数据集上跨模态检索任务的结果（1 K和5 K测试分割）。所有列出的基线和我们的模型都固定了图像编码器的权重为了公平比较，我们不包括[10]和[16]，它们微调图像编码器或添加额外的训练数据。目标攻击属性攻击关系攻击度量R@1R@5R@10的简历R@1R@5R@10的简历R@1R@5R@10的简历总和VSE+32.369.681.4183.319.859.476.0155.226.166.878.7171.6510.1VSE-C41.176.085.6202.726.761.074.3162.035.571.181.5188.1552.8UniVSE（usent+ucomp）45.378.387.3210.935.371.583.1189.939.076.586.7202.2603.0UniVSE（已发送）40.776.485.5202.630.070.580.6181.132.672.683.5188.7572.4UniVSE（usent+uobj）42.977.285.6205.730.169.079.8178.934.071.283.6188.8573.4UniVSE（usent+uattr）40.173.983.3197.337.472.081.9191.330.570.081.9182.4571.0UniVSE（usent+urel）45.477.185.5208.029.268.178.5175.842.877.585.6205.9589.7表2.使用文本域对抗攻击的图像到句子检索任务的结果。对于每个标题，我们生成5个与图像不匹配的对抗性假标题。因此，模型需要从30，000个候选字幕中检索5个肯定字幕。R@10，中位数检索等级如[11，40，49，15]。为了总结性能，我们将rsum计算为R@1，R@5和R@10的总和。如表1所示，统一VSE优于其他具有各种模型架构和训练技术的基线[11，49，28，40，15]。这验证了在显式分解的视觉语义嵌入空间中学习视觉语义嵌入的有效性。我们还包括更具挑战性的5K测试分割下的结果。统一VSE和其他模型之间的差距在所有指标上都进一步扩大。4.2. 文本域对抗攻击最近的工作[40，39]已经提出了他们对学习的视觉语义嵌入的鲁棒性的关注。他们表明，现有的模型容易受到文本域对抗性攻击（即，使用对抗性字幕）并且可以容易地被愚弄。这与小数据集在大的组成语义空间上的偏差密切相关[40]。为了证明学习的统一VSE的鲁棒性，我们进一步6616在文本域对抗性攻击的图像到句子检索任务上进行实验。在[40]之后，我们首先通过向现有字幕添加扰动来设计几种类型的对抗字幕。1. 对象攻击：在原始标题中随机替换/添加一个不相关的标题。2. 属性攻击：在原始标题中随机替换/添加一个对象的不相关属性修饰符。3. 关系攻击：1）随机替换主语/关系/宾语词为无关词。2）随机选取一个实体作为主语/宾语，并添加一个无关的关系词和宾语/主语。我们将VSE++和VSE-C作为基线，并在表2中显示结果，其中不同的列表示不同类型的攻击。VSE++的性能最差，因为它只针对数据集的检索性能进行了优化。它的句子编码器对文本中的小扰动不敏感。VSE-C在训练过程中基于人类设计的规则显式地生成对抗性字幕作为硬否定示例，这使得它对那些6617605040300.0 0.2 0.4 0.6 0.81.0454035300.0 0.2 0.4 0.6 0.8 1.0(a)正常交叉模态检索（b）对抗攻击图像到表3.统一文本到图像的mAP性能（5，000个字幕）句子检索（30，000个字幕）检索任务详情请参阅正文图5.不同组合权重α的UniVSE在跨模态检索任务上的性能我们的模型可以有效地防御对抗性攻击，通过选择合理的α（因此我们设置α = 0），不会牺牲其他任务的性能。75在所有其他实验中）。对抗性攻击统一VSE在所有类型的对抗性攻击中都表现出强大的鲁棒性。值得注意的是，即使与VSE++相比，VSE-C在没有对抗性字幕的正常检索任务中也表现出较差的性能（见表1）。考虑到VSE-C与VSE++共享完全相同的模型架构，我们可以得出结论，在训练期间直接添加对抗性字幕，虽然提高了模型相比之下，统一VSE防御敌对文本的能力几乎是免费的：我们在训练中没有对抗性字幕。统一VSE通过语义组件的对比学习来构建细粒度的语义对齐它使用显式聚合的组件ucomp ，以减轻数据集的偏见。消融研究：语义成分我们现在通过为标题嵌入选择不同的组件组合来深入研究不同语义组件的有效性如表2所示，我们使用语义成分的不同子集来形成成分包嵌入ucomp。例如，在UniVSEobj中，只有对象名词被选择并聚合为ucomp。实验结果证明了语义覆盖的有效性：即使语义成分已经与视觉概念进行了细粒度的对齐，直接使用usent作为字幕编码仍然会降低对抗性示例的鲁棒性与直觉一致，强制覆盖某类组件（例如，对象）帮助模型防御相同类型的对抗性攻击（例如，防御名词的对抗性攻击将所有组件组合在一起可实现最佳性能。组合因子的选择：。我们通过对正常提取任务和对抗性提取任务进行实验，研究了策略图4.2显示了正常/对抗检索场景下的R@1性能。不同的选择。我们观察到，ucomplexterm对正常提取任务的贡献很小，但对任务的贡献很大对抗性攻击。回想一下，可以将语义覆盖视为平衡训练目标和语义覆盖的实施的因素。通过从合理的范围（0.6到0.8）中选择最小值，我们的模型可以有效地防御对抗性攻击，而不会牺牲整体性能。4.3. 统一的文本到图像检索我们将[40]使用的词到场景检索扩展为一般统一的文本到图像检索任务。在这个任务中，模型接收不同语义级别的查询，包括单个单词（例如，“Clock.”），名词短语（例如，白钟（White Clock）关系短语（例如，“墙上的时钟”）和完整的句子。对于所有基线，不同类型的文本被视为完整的句子。结果示于表3中。我们生成积极的图像-文本对随机选择的图像和语义组件从5个匹配的字幕与所选图像。值得一提的是，从字幕中提取的语义成分可能不覆盖对应图像中的所有视觉概念，这使得注释有噪声。为了解决这个问题，我们还利用MS-COCO检测注释来促进评估（参见obj（det）列）。我们将标签用于检测边界框作为场景中对象的注释。消融研究：成分的对比学习。我们评估的有效性，使用不同的语义成分的对比样本。如表 3 所示，UniVSEobj表示仅使用名词成分的对比样本训练的模型同样的概念也适用于其他模型。UniVSE用某种类型的对比示例训练（例如，具有对比名词的UniVSE对象）一致地提高了相同类型查询的检索性能（例如，从单个名词检索图像使用各种对比样本训练的UniVSE总体表现最好，并显示出显着的差距w.r.t.其他基线。语义对齐的可视化。我们可视化的图像上的语义相关图w.r.t.给定查询uq，用于各种语义组件的对齐性能的定性评估。映射Mi被计算为每个图像区域vi和uq之间的相似性，以与等式2类似的方式。（二）、如图6，这种可视化有助于验证我们的模型成功地将不同的语义组件与相应的图像区域对齐。图像到句子检索（无攻击）图像到图像检索（无攻击）objattack（img-to-sent ） attrattack （ img-to-sent）relattack（img-to-sent）R@1R@1任务objattrrelobj（det）总和VSE+29.9526.6427.5450.57134.70VSE-C27.4828.7626.5546.20128.99UniVSE所有39.4933.4339.1358.37170.42UniVSE对象39.7133.3734.3856.84164.30UniVSE属性31.3137.5134.7352.26155.81UniVSE相关37.5532.7039.5759.12168.946618吃蓝裳少女毛衣吃汉堡0.42在毛衣蓝色的女孩0.48吃汉堡女孩查询：黑狗查询：白狗查询：玩家挥棒检索图像关联图接地区域匹配分数0.257 0.255 0.247 0.211 0.2050.251 0.2470.490 0.406 0.404 0.393 0.359图6.从检索到的图像w.r.t.三个疑问。用于可视化关联图的softmax的温度为τ = 0。1.一、白色的像素表示较高的匹配分数。请注意，查询“black dog”的第三个图像包含两只狗，而我们的模型成功地定位了黑色的狗（在左边）。它还成功地找到了第一个“白狗”图像中的白狗。此外，对于查询“球员挥动球棒”，尽管图像中有许多球员，但我们的模型只关注挥动球棒的人。标签：EatA√A在蓝色毛衣吃句法分析中的歧义汉堡所有可能组合w.r.t. 吃的关系，到图像图7.示例表明，统一VSE可以利用图像来解析具有歧义的句子。“女孩吃汉堡”的匹配得分远高于“毛衣吃汉堡”，解决了歧义。其他组件也被正确推断。关系吃。我们使用解析的语义组件作为地面真相和报告的准确性，定义为正确的依赖解决方案的数量和属性/关系的总数的分数表4报告了使用视觉提示辅助语义解析的结果，表4.不同模型在视觉线索下恢复单词依赖性的准确性。在“随机”基线中4.4. 基于视觉线索的语义分析作为一个侧面的应用程序，我们展示了学习的统一VSE空间可以提供视觉线索，以帮助句子的语义分析。图7示出了总体思路。当分析一个句子时，可能会出现歧义，例如，关系词eat的主语可以是sweater或burger。由于文本分析器固有的句法歧义，它不容易决定哪一个是然而，我们可以使用这个句子所描绘的图像来辅助分析。这与以前使用图像分割模型来促进句子解析的工作有关[6]。这促使我们设计两个任务，1）恢复属性和实体之间的依赖关系，2）恢复关系三元组。具体来说，我们首先从原始句子中提取实体、属性和关系词，而不知道它们之间的依赖关系。对于特定语义成分的每个可能组合，我们的模型计算其在统一联合空间中的嵌入。例如，图7、有对于eat，总共3个N（3-1）=6个可能的依赖关系。我们选择匹配度用图像来决定主体/客体的依赖关系，其他基线。图图7展示了一个真实的案例，在这个案例中，我们成功地解决了文本歧义。5. 结论我们提出了一种统一的视觉语义嵌入方法，该方法以因子分解的方式学习视觉和语言的联合表示空间：不同层次的文本语义成分（如对象和关系）与图像区域对齐。为了提高学习效率，提出了一种语义分量的对比学习方法精细排列的结果我们还介绍了语义覆盖的增强：每个字幕嵌入应该覆盖句子中的所有语义成分。统一VSE在多个跨模态检索任务上表现出优越性，能够有效防御文本域对抗攻击。我们希望所提出的方法可以使机器能够有效、稳健地联合学习视觉和语言。6. 确认我们感谢石浩月的有益讨论和建议。本研究得到了中国国家重点研究发展计划（2018YFB 0505000）和中国国家自然科学基金（61772138）的部分支持0.42穿着蓝色毛衣女孩吃零点二八汉堡对象主题女孩毛衣汉堡女孩-0.31180.4850毛衣0.3559-0.2794汉堡0.27050.1877-×任务属性对象关系短语随机37.4131.90VSE+41.1243.31VSE-C43.4441.08UniVSE64.8262.696619引用[1] VSE-C 开源代码。 https://github.com/Explorer Freda/VSE-C. 6[2] VSE++ 开源代码。 https://github.com/fartashf/vsepp. 6[3] O. Abend，T.Kwiatkowski，N.J. 史密斯，S。戈德华特，以及M.斯蒂德曼引导语言习得。认知， 164：116-143 ，2017。一、二[4] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L.zitnick和D.帕里克VQA：可视化问答。IEEE InternationalConference on Computer Vision（ICCV），2015年。2[5] L.巴纳雷斯库角Bonial，S.蔡，M.乔治斯库湾格里夫菲特大学。 Hermjakob ， K.Knight ， P.Koehn ， M. 帕尔默，还有N. 施耐德Sembank-ing的抽象意义表示在语言注释研讨会和与话语的互操作性，2013年。3[6] G. Christie，A. Laddha、黑腹拟步行虫A.阿格拉瓦尔，S。Antol，Y. 戈亚尔K. Kochersberger和D.巴特拉一起解决语言和视觉的歧义：字幕&场景中的联合分割介词附加解析。arXiv：1604.02125，2016年。8[7] 钟杰角，澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的经验评估。在NIPS 2014深度学习研讨会上，2014。4[8] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉与模式识别会议（CVPR），2015年。2[9] A. Eisenschtat和L.狼用双向网连接图像和文本。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。二、六[10] M.恩吉尔贝湖Chev allier，P. Pe' rez和M.线. 在汉堡中寻找豆子：深度语义视觉嵌入与本地化。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、六[11] F. Faghri，D. J. Fleet，J. R. Kiros和S.菲德勒VSE++：ImprovingVisual-SemanticEmbeddingswithHardNegatives. 英国机器视觉会议（BMVC），2018年。二三五六[12] A. Fazly，A. Alishahi和S.史蒂文森跨情境词汇学习的概率计算模型Cognitive Science，34（6）：1017-1063，2010. 2[13] A.弗罗姆，G。S. Corrado，J. Shlens，S. Bengio，J.Dean，T. Mikolov 等人 Devise ： A Deep Visual-SemanticEmbed- ding Model.神经信息处理系统进展，2013年。二、五[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议（CVPR），2016年。4[15] Y.黄，W. Wang和L.王.使用选择性多模态LSTM进行实例感知图像和句子匹配。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。三、六[16] Y. 黄角，澳-地Wu和L.王. 学习图像和句子匹配的语义IEEE计算机视觉与模式识别会议（CVPR），2

下载后可阅读完整内容，剩余1页未读，立即下载