少镜头图像和句子匹配的对齐跨模态存储

44 浏览量更新于2023-10-13 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5774ACMM：用于少镜头图像和句子匹配的对齐跨模态存储器Yan Huang1，4Liang Wang1，2，3，41智能感知与计算研究中心（CRIPAC）模式识别国家实验室（NLPR）2脑科学与智能技术卓越中心（CEBSIT）中国科学院自动化研究所（CASIA）3中国科学院大学（UCAS）4中国科学院人工智能研究所（CAS-AIR）{yhuang，wangliang}@ nlpr.ia.ac.cn摘要图像和句子匹配最近引起了很多关注，但由于缺乏足够的成对数据用于训练，大多数先前的方法仍然不能很好地关联那些具有挑战性的图像和句子对，这些图像和句子包含很少出现的区域和单词，即，少数镜头内容。在这项工作中，我们研究了这种具有挑战性的情况下，少数镜头的图像和句子匹配，并相应地提出了对齐跨模态记忆（ACMM）模型来记忆很少出现的内容。给定一对图像和句子，该模型首先包括一个对齐的内存控制器网络，通过跨模态对齐产生两组语义上可比较的然后，特定于模态的读取和更新操作使用接口向量，以交替地记忆项持续地记忆跨模态共享语义表征，其可以被修饰以更好地增强少数镜头内容的表征我们将所提出的模型应用于常规和少量图像和句子匹配任务，并通过在两个基准数据集上实现最先进的性能来证明其有效性。1. 介绍随着多模态数据的快速增长，图像和句子匹配近年来引起了人们的广泛关注。该技术已被广泛应用于跨模态检索的任务，即. 给定图像查询以检索具有相似内容的某些句子，并且给定句子查询反之亦然。图像和句子匹配的挑战图1.平均召回率与最小出现频率（最佳颜色）。给定的图像和句子对的全局相似性通常取决于区域（由矩形标记）和单词（由粗体标记）之间的多个局部相似性。大多数现有模型[13，21，25，5]通过对有限的图像和句子对进行训练来测量这些局部相似性，因此它们在统计上倾向于在训练期间更好地将部分区域和单词与较高的出现频率（用蓝色标记）相关联。而对于很少出现的区域和词（用红色标记），即、少镜头内容，这些模型不能很好地识别或关联它们。在图1中，我们还通过三种最先进的模型说明了跨模态检索的性能：VSE++ [5]、SCO [13]和SCAN [21]对包含k-shot内容的选定测试集进行测试。对于每个测试集，我们选择至少有一个词1的出现频率小于k的图像和句子的某些对。我们可以观察到所有的模型都能在不少射（k≥100）含量。但当k≤ 10时，它们的性能关键在于如何准确地度量跨模态相似度图像和句子之间的关系。如图1所示，1只考虑名词、动词和形容词。一对在户外蹲守的夫妇与跪着的街头表演者或小贩从漫画书中阅读011010010005775曼斯都以6% 〜 7%的巨大差距大幅下降。这表明，这些方法不能很好地推广到处理少镜头的内容。此外，这样一个少数镜头的问题可能是进一步性能改进的瓶颈，特别是在数据内容可能更加不平衡的实际应用为了缓解这个问题，在本文中，我们专注于具有挑战性的情况下，作为少数拍摄的图像和句子匹配。与传统的图像和句子匹配不同，本文特别研究了如何更好地匹配那些很少出现区域和单词的成对图像和句子。据我们所知，这种情况很少被发现或调查。虽然之前已经研究了图像和文字的少镜头匹配问题[6，26]，但直接将其应用于我们的任务是不可行的。与多个分离的少镜头对象和名词不同，图像和句子匹配通常具有复杂得多的少镜头内容，即图像中的物体、动作和性质，句子中的名词、动词和形容词。此外，我们处理的句子，而不是词，同时包括少数镜头的话和共同的。因此，如何适当地建模它们的关系，并利用它来更好地理解少镜头内容是另一个问题。为了解决这些问题，我们提出了一个对齐的跨模态记忆（ACMM）模型，它可以表示，对齐和记忆少量镜头的内容，在一个连续的方式。为了更好地描述那些很少出现的区域和单词，该模型首先诉诸于外部资源上的预训练模型以获得通用表示。然后，为了减少它们的跨模态异构性并预测两组语义上可比较的接口向量，ACM-M包括跨模态图卷积网络作为其存储器控制器，其将区域表示与单词表示对齐。基于接口向量，特定于模态的读取和更新操作被设计为交替地与跨模态共享存储器项交互。记忆项在整个训练期间跨小批量持续更新，其存储的跨模态共享语义表示可以用于增强少数镜头内容的表示。我们将该模型应用于两个公开数据集上的常规和少量图像和句子匹配任务，并通过实现最先进的性能来证明其有效性。2. 相关工作2.1. 图像和句子匹配弗罗姆等人[6]提出了视觉语义嵌入框架来关联图像和单词对。基于这个框架，Kiroset al.[17]稍后将其扩展为图像和句子匹配。Faghri等人[5]惩罚现代人el基于目标函数中最难的反例，取得了较好的效果。除了全局相似性测量之外，Karpathyet al.[15]尝试从图像和句子的片段中学习局部相似性。Lee等[21]使用堆叠的跨模态注意力来柔和地对齐区域和单词。Huang等人.[13]首先提取语义概念，然后按照语义顺序组织它们，这可以大大提高性能。与之不同的是，本文主要研究了很少被研究的图像和句子匹配问题。2.2. 神经记忆建模格雷夫斯等人[8]提出了神经图灵机，后来将其扩展到可微神经计算机[9]，其中神经网络可以与外部存储器交互。Sukhbaatar等人[38]开发记忆网络，它可以通过读写与长期记忆模块进行基于类似的框架，Westonet al. [47]设计在训练期间需要较少监督的端到端存储器网络。Xiong等[49]改善记忆，如动态记忆网络。不同于这些单一模态的记忆模型，我们提出了一个跨模态的共享记忆，它可以交替地与多种数据模态进行交互。虽然其他工作[41，27，37]也将记忆网络扩展到多模态设置，但其中大多数是在每个小批次期间被擦除的情景记忆网络而我们的模型在整个训练过程中持续记忆语义表示，以更好地处理少量内容。2.3. 少镜头学习传统的少样本学习[34，48，45]通常专注于单标签分类。其他研究人员[20，7]在多标签分类的背景下进一步研究了这个问题。Hendricks等人。 [2，40]提出了少镜头图像字幕的任务，可以将其视为句子分类。除了少镜头分类之外，还有许多工作集中在少镜头匹配上。 Socher等人。 [36]和Frome等人。 [6]使用视觉语义匹配框架来识别图像中未看到的对象。Long等人。[26]研究了图像属性匹配任务中的少镜头问题。本文的目标不是单个词或多个词，而是处理句子的少镜头匹配，其中不仅包括多个少镜头词，还包括其他常见的词，以及它们之间的关系。最相关的工作是[11]，其最初通过自适应融合多个模型来研究这种少镜头匹配问题。3. 对齐的跨模态存储器我们说明了我们提出的对齐跨模态记忆（ACMM）的图像和句子匹配图2。5776i=l，···，Ij=l，···，J图2.提出了用于少量图像和句子匹配的对齐跨模态存储器（ACMM）把一对特定的图像和句子与几个-表示向量，即、.W J| wj∈REΣj=l，···，J得双曲余切值.镜头内容，建议的ACMM包括三个关键步骤：1)基于大规模外部资源的区域和单词的通用表示提取，2）作为对齐的存储器控制器网络的交叉模态图卷积网络，以生成语义上可比较的接口向量，以及3）用于持久存储器项的模态特定的读取和更新操作我们将在下面介绍相应的细节。3.1. 通用表示提取如图2（a）所示，对于一对图像和句子，如何准确地检测和表示它们的区域和单词，特别是那些少镜头的（用红色标记的），是跨模态关联的基础。但是由于成对数据的数量非常有限，我们无法从头开始直接学习所需的表示。因此，我们试图利用大规模的外部资源，并将已经预先训练好的模型视为通用模型。用于所有区域和单词的IC表示提取器。特别地，我们选择来自VisualGenome数据集[19]的图像和来自wikipedia.org文本作为我们的多模态外部资源。它们都已被广泛证明是有用的各种任务[6，1，40]。尽管区域中的一些少数镜头内容可能不包括在Visual Genome数据集中，但该数据集足够多样化，并且其预定义属性[1]可以全面描述它们。然后，我们使用在这些外部资源上预训练的更快的RCNN [35，1]和Skip-Gram [30，6]来分别提取区域和单词的通用表示。给定图像，更快的RCNN检测具有包含对象、动作或属性的高概率的I个区域，并输出I个对应的F维表示。S. 从最后一个全连接层，即、Gi|gi ∈ RF。当被判刑时，船长-J是句子的长度。请注意，使用更快的RCNN和Skip-Gram进行通用表示提取可能不是最佳的，但我们根据经验发现它们已经可以实现令人满意的性能。3.2. 对齐内存控制器网络在获得区域和单词的通用表示之后，我们需要一个存储器控制器网络来生成特定于模态的接口向量以与共享存储器项连接。但是泛型表示- s本质上是跨模态异构的，因此它们直接生成的接口向量往往在语义上是不可比的。因此，记忆体很难从它们中识别和存储所需的共享语义信息。为了处理这个问题，我们提出了一个对齐的存储器控制器网络的基础上的跨模态图卷积网络（cm-GCN），明确地执行- forms的区域和单词的表示之间的跨模态对齐。语义关系建模。我们首先分别对区域和词之间的语义关系进行建模，目的是利用少量镜头内容和共同点。特别是对于单词，考虑到它们在句子中自然地按顺序组织，我们使用双向门控递归U节点（GRU）网络[3]来建模它们的顺序依赖关系，如图2（b）所示。我们顺序地将所有单词的表示送入双向G R U和R G R以hΣidden态作为它们的新表示，即. e. ，sj|sj∈RH，缩写为viat-记作S∈RJ×H。而对于区域，我们使用传统的图卷积网络（GCN）[44]。特别地，我们首先测量每个成对区域之间的外观相似性以构建相似性图，在该相似性图中，成对的外观相似区域将具有具有高s-的边缘。Gram将所有包含的单词编码到E维核心中。基于图，我们可以执行图卷积-5777e第在区域表示上得到新的表示，3.3. 内存读取和更新即、a我|ai∈RFi=l，···，I，简写为A ∈ RI×F。反基于这两组接口向量，我们设计了考虑到GRU和GCN都是广泛使用的模型，这里为了简单起见，我们省略了它们的详细公式。跨模态对齐。上面的单峰图卷积可以被视为执行从原始区域空间到另一个区域空间的变换。在该过程期间，区域的数量保持不变，并且每个区域通过考虑来自其他区域的贡献而与其自身对准。受此启发，所需的交叉模态对准也可以用公式表示为图形卷积。表示为矩阵M∈RN×W的共享记忆项，以存储跨模态共享语义表示。如图2（c）中所示，每个存储器项Mi∈Rw可以替代地由模态特定接口vec更新tors具有相似的语义含义，以及读出以增强先前获得的通用表示。内存读取。我们使用基于内容的寻址机制来确定读取哪些内存项：但在一个跨模态的设置，它执行一个跨-es（k，Mi）·βk·Mi从区域到词空间的模态转换。那个...θ（k，Mi，β）=θes（k，Mi）·β，s（k，Mi）=|K||M|主要区别在于区域的数量不等于i到字数。为了实现这一点，我们首先构建一个跨模态相似性图，通过测量跨模态相似性之间的每一个成对的区域和单词与两个模态特定的映射。所获得的相似度矩阵的大小不被平方，使得对齐区域的数量将等于单词的数量。详细公式-其中k是读数k∈y，β是读数强度，并且s（·，·）测量余弦相似性。读取权重θ（k，Mi，β）e[0，1]定义第i个存储器项上的归一化权重。然后，我们可以通过交替地将获得的区域和单词的读取键视为查询来读取内存ΣrV =wVrMi，wVr=θ（kVr，Mi，βVr）我我Σi选项为：RS=wSrM，wSr=θ（kSr，M，βSr）Teg（sj，ai）我我我我g（sj，ai）=α（sj）<$（ai），Gji=<$g（s，a），V= GAWV r Sr其中wi和wi是区域的两个读取权重，字，分别。rV∈RW和rS∈RW是两个读其中 α （ sj ） =Psj ， P∈RH×H ，和（ ai ） =Qai ，Q∈RH×F表示两个用于跨模态相似性度量的模态特定映射， G∈RJ×I 是归一化的跨模态相似性矩阵，W∈RF×H是权矩阵，V∈RJ×H是对齐区域表示。接口矢量。注意，V和表示S的词不仅具有相同的大小，而且是语义相同的。可以被视为记忆增强的向量表示，区域和单词的句子。内存更新。内存更新包括我们如何写入和删除所需的共享语义表示-S. 为了确定写入哪些存储器项，我们首先通过基于内容的寻址将写入键与存储器项进行比较来计算跨模态写入权重wVw= θ（kVw，M，βVw），wSw= θ（kSw，M，βSw）cally aligned.对于V中的第j行，表示为vj，它是i我我我通过交叉模态相似加权的聚合表示第j个字和所有区域之间的关系。因此，vj可以被视为第j个单词的视觉表示，与单词表示sj共享相同的语义含义。基于对齐的表示，我们可以获得两组语义上可比较的接口向量：注意，在没有跨模态预对准的情况下，两个写入键可能是语义上不可比的。因此，我们不能保证它们可以写入附近位置的类似内存项。因此，共享的语义表示不能在这里被发现或存储。在获得写权重之后，我们可以有选择地更新内存项. V rV rV wV WVV ΣV通过：1）将写向量uV 和us，即，新语义k，β， k，β.，e，uΣ=t（vj），表示，以及2）删除通过擦除选kSr，βSr， kSw，βSw， eS， uS=tS（sj）向量eV和eS，即，要删除多少内存：其中tV（·）和tS（·）分别是区域和字的两个线性映射。对于该区域， kVr∈RW，β Vr=oneplus （β Vr）∈[1，∞），kVw∈RW，β Vw=oneplus（β Vw）∈[1，∞），eV=sigmoid（eV）∈[0，1]W，uV∈ RW分别是其存储器读密钥、读强度、写密钥、写强度、擦除向量和写向量，活泼地它们都用于与内存项交互，下面将解释相应的细节5778我我我我Mi=Mi◦（1−wVweV）+wVwuV，Mi= Mi（1−wSweS）+wSwuS其中，n是逐元素乘法。存储器首先用提取的信息更新其存储器项从地域到语言事实上，最新订单可以是可替代的，并且不会对最终性能产生5779JJ讨论我们的跨通道记忆最初受到[9]的启发，但与他们不同，我们是以跨通道的方式实现的。重点研究了共享内存项与不同数据模型之间的交互，并设计了相应的对齐控制器网络。我们可以选择使用两组特定于模态的记忆项目来分别处理区域和单词。但是，这种策略不能很好地利用区域和词的同质性和互补性，因此往往会降低性能，如4.3节所示。此外，我们的记忆在整个训练过程中是持久的，即。，我们不像其他记忆模型那样擦除每个小批量的学习记忆[8，9，47，49，41]，目的是记住很少出现的内容。我们也不包括动态内存分配的机制，因为我们实验发现它会稍微退化的性能。这可能是因为此操作会自动删除一些很少访问但与少数镜头内容相关的有用内存项。3.4. 模型学习获得记忆后。增强rΣe表示4.1. 数据集和方案两个实验数据集及其相应方案的细节1)Flickr 30k[51]包含从Flickr网站收集的31783张图片。每个图像有5个人类注释的句子。我们使用公共验证和测试分割，分别包含1000和1000个图像。2)MSCOCO [23]由82783个训练图像和40504个验证图像组成，每个图像与5个句子相关联。我们使用公共验证和测试分割，分别有4000和1000（或5000）个图像。当使用1000个图像进行测试时，我们对5倍进行验证并报告平均结果。4.2. 实现细节常用的图像和句子匹配的评价标准是“R@1”、“R@5”和“R@10”，即：，前1、5和10个结果的召回率。在[13]之后，我们还通过平均所有召回率来使用“mR”的附加标准在通用表示提取期间，每个图像中检测到的区域的数量为I=36，区域表示向量的维度为F=2048，区域表示向量的数量为F =2048。为所有区域和单词rV|rV∈ RH.Σj jj=l，···，J和J等于每个句子的长度，并且单词表示向量的mension是E=300。我们设定俄.西|r S∈RH. 我们接下来执行跨模态作为-Jjj =1，···，J关联分析通过首先定义全局相似性S-图像和句子的核心是两个平均余弦相似度的组合：所有句子的最大长度为50，并缩短填充零值的句子。双向GRU中隐藏状态的维数为H=1024。根据经验将裕度参数设置为m = 0。二、数量和尺寸ΣΣs=s（rV，rS）/J+λJs（vj，sj）/J（1）J的存储器项分别为N=128和W=256。我们经验性地发现，进一步增加记忆数其中λ是平衡参数，并且这两个项目分别测量记忆之后和之前的两阶段相似性。当λ=0时，这意味着模型必须从语义上不可比的区域和单词中存储。当λ>0时，这表明我们可以预对齐区域和单词。我们通过实验发现，设置λ=0。5可以达到良好的性能。基于定义的相似性得分，我们使用排名损失来鼓励匹配的图像和句子的相似性s-core大于不匹配的图像和句子的相似性s-core：L=maxk[0，m−sii+ sik]++maxk[0，m−sii+ ski]+其中m是主要参数r，[·]+=max（·，0），si是匹配的第i个图像和第i个句子的得分，sik是匹配的第i个图像和第i个句子的得分。不匹配的第i个图像和第k个句子的得分，反之亦然。4. 实验结果为了证明所提出的模型的有效性，我们在两个公开的，licly可用的数据集上进行实验，在传统的和少数拍摄的图像和句子匹配任务。导致性能的收敛。在模型学习过程中，我们使用随机梯度下降进行参数优化，学习率为0.0005，梯度裁剪为2。该模型被迭代训练30个时期以保证其收敛。在每个时期中，模型以小批量方式学习，其中批量B=128。在每个小批期间，我们的存储器总共需要B×J×2次更新。为了加快计算速度，使用NVIDIADGX-1人工智能超级计算机.4.3. 消融研究为了全面验证该模型的有效性，我们对各种消融模型进行了比较。1)“align”只执行跨模态对齐，但不使用其后续内存项，而“align（w/o relation）”进一步去除了与可视化GCN和双向GRU的关系建模。2) “mem 3)“align + mem” is our full model that first aligns regionrepresenta- tions5780表1.在Flickr30k和MSCOCO（5000测试）数据集上通过消融模型进行的传统图像和句子方法Flickr30k数据集MSCOCO数据集图像标注图像检索先生图像标注图像检索先生R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10对齐（无关系）53.280.890.340.669.178.368.732.061.173.622.548.661.849.9对齐65.390.694.747.776.784.176.543.375.085.732.461.473.962.0共享（w/o shared）0.10.51.00.20.71.20.60.00.10.20.00.10.20.1mem1.36.512.61.04.78.35.70.21.22.40.31.32.61.3align + mem（不共享）64.888.593.742.672.381.273.945.176.186.030.058.371.461.2align + mem80.095.598.250.276.884.780.963.588.093.636.765.176.770.6一对在户外蹲守的夫妇与跪着的街头表演者或小贩从漫画书中阅读一个女人在一个条纹衬衫爬上一座山人站建筑物外部一束光洞穴显示三洞穴探险者低出现频率高图3.分别在未对齐的存储器和对齐的存储器中的跨模态写入权重向量之间的余弦相似性的直方图（以颜色最佳地查看）。在存储器中存储语义表示。由于篇幅所限，我们将对其他涉及动态内存分配和Skip-Gram初始化的烧蚀模型的分析放在补充材料中。我们使用上述消融模型来执行图像和句子匹配的实验，并在表1中的Flickr30k和MSCOCO数据集（5000测试）从这个表中，我们可以得出以下结论。跨模态对齐。仅执行具有关系建模的跨模态对齐（如“对齐”）就已经可以实现良好的性能。当在对准的控制器网络中使用交叉模态对准时，对准的存储器（如“align + mem”）可以进一步改善未对准的存储器（如“mem”）的性能。为了更好地说明这一点，我们计算跨模态写入权重向量对（w/w和w/Sw）之间的余弦相似性，然后通过图3中的未对齐存储器和对齐存储器两者绘制相似性直方图。我们可以看到，对齐记忆的大多数相似性在0.8左右，远高于非对齐记忆的0.15左右。这表明跨模态对齐能够将跨模态信息写入附近位置处的相似记忆项中以存储共享的语义表示。共享内存。在没有跨模态对齐的情况下，使用特定于模态的内存（作为“mem（w/o shared）”）或共享内存（作为“mem”）都不能获得良好的性能。但是，当使用跨模式对齐时，共享内存（如图4.学习记忆项目的二维可视化少数镜头内容标记为红色（最佳颜色）。比模态特定存储器（如“align + mem（w/o shared）”）更好为了说明共享存储器实际上学习了什么，我们使用PCA降低了存储器向量的维度，并在图4中显示了它们的二维表示（节点）我们可以看到，所有的节点分布在一个发散的形状，其中右边的节点更紧凑，而左边的节点更分散。为了弄清楚这些节点的语义，我们将几个具有代表性的节点（带箭头）作为查询来检索成对的图像和句子。我们发现紧凑的节点更有可能代表常见的内容，而分散的节点往往检索图像和句子与少数拍摄内容（用红色标记）。4.4. 少镜头图像与句子匹配在本节中，我们的目标是特别证明我们提出的模型在处理包含很少出现的区域和单词的图像和句子对上的有效性。为了实现这一目标，我们进行了一个具有挑战性的实验，在少数镜头的图像和句子匹配方面ing.特别地，我们以k-镜头匹配（k∈{0，5，10}）的方式执行测试。在每个数据集上，我们只从标准测试集中选取部分图像和句子对构成一个新的kshot测试集，其中每个句子至少包含一个出现频率在训练集小于或等于k。注意，少镜头图像和句子匹配的训练阶段与常规匹配中的训练阶段相同，唯一的区别是使用不同的测试集。5781表2.Flickr30k和MSCOCO（5000测试）数据集上的少量图像和句子匹配KN方法Flickr30k数据集MSCOCO数据集图像标注图像检索先生图像标注图像检索先生R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10VSE++[5]48.279.285.731.960.371.162.739.271.882.122.949.062.654.60204/516高级官员[13]扫描[21]GVSE [11]48.854.862.577.486.386.985.791.192.331.435.346.158.859.873.571.671.682.462.366.573.940.240.647.271.673.976.681.385.988.424.025.631.249.849.461.263.860.370.555.155.962.5明碁73.894.698.242.268.678.476.062.386.391.227.352.364.063.9VSE++[5]50.478.686.933.059.571.763.340.773.182.524.852.164.156.21321/754高级官员[13]扫描[21]GVSE [11]50.456.762.378.686.188.988.190.992.933.337.446.459.859.273.570.472.383.263.467.174.541.842.549.772.874.677.182.486.388.424.326.432.251.550.863.564.961.872.456.257.163.9明碁73.091.396.440.566.777.674.262.886.291.928.053.766.264.8VSE++[5]52.180.188.032.060.272.364.141.272.782.223.350.663.055.55678/973高级官员[13]扫描[21]GVSE [11]52.262.263.880.387.890.388.693.494.033.837.045.460.964.275.271.574.385.064.669.875.640.942.550.271.874.678.081.686.188.125.425.931.652.850.563.765.962.473.456.457.064.2明碁76.693.297.642.368.076.875.862.286.892.428.153.765.964.9我们在VSE++[5]，SCO [13]，SCAN [21]和GVSE[11]方面与三种最新的最先进的对于每一种比较方法，我们都使用其报告的最佳模型，并在k-shot测试集上进行测试。比较结果如表2所示，其中N表示两个数据集上的k次测试集中很少出现的单词的数量。我们可以看到，在具有挑战性的单次匹配中，我们的模型可以大大优于所有比较的方法，并且在两个数据集上分别比最佳比较的SCAN获得了7.1%和7.7%（在mR中）的更好的性能。这些证据表明，我们的模型可以更好地识别和关联那些很少出现的区域和单词，即使它们在训练过程中只出现一次。此外，当N随着k的增加而变大时，我们的模型可以始终实现更好的性能。这证明了它在各种条件下具有良好的推广能力。4.5. 传统的图像和句子匹配虽然我们的模型是特别动机，以处理少镜头匹配问题，它可以自然地应用到传统的图像和句子匹配。我们比较了我们的模型与最近发表的方法的标准测试集的Flickr30k和MSCOCO数据集在表3和4。我们将“ACMM *”表示为我们提出的模型的集合版本，其通过设置λ =0来平均两个预测的相似性矩阵。5且λ=0。8最后的评价从表中我们可以看出我们的模型优于Flickr30k和MSCOCO数据集上所有7个评价标准中的当前最先进模型。这主要是因为我们的记忆可以存储有用的跨模态共享语义表征，从而更好地关联那些在标准测试集中很少出现的区域和单词。请注意，我们的模型在Flickr30k数据集上显示出比MSCOCO数据集大得多的改进。这主要是由于Flick表4.在M-SCOCO（5000测试）数据集上进行传统的图像和句子匹配. *表示总体方法。方法图像标注图像检索先生R@1R@5R@10R@1R@5R@10DVS [16]11.832.545.48.924.936.326.6[18]第十八话17.339.050.210.828.340.131.0VQA [24]23.550.763.616.740.553.841.5OEM [39]23.350.565.018.043.657.643.0CSE [50]27.957.170.422.250.264.448.7[52]第五十二话41.270.581.125.353.466.456.3VSE++[5]41.369.281.230.359.172.458.9LIM* [10]42.0-84.731.7-74.6-高级官员[13] 42.872.383.033.162.975.561.6[第14话]45.776.086.436.867.078.865.1GVSE* [11]49.977.487.638.468.579.766.9扫描*[21]50.482.290.038.669.380.468.5明碁63.588.093.636.765.176.770.6ACMM*66.989.694.939.569.681.173.6R30K不能保证以前的模型能够很好地识别区域和单词。但我们的模型可以更好地利用辅助资源来更好地描述它们。我们可以看到，我们的模型在图像标注任务上比图像检索有更大的性能改进。这可能是因为图像注释更关注如何学习句子的合适语义空间，并且语义空间通常比通过图像检索学习的视觉空间更具区分性。4.6. 误差分析虽然我们提出的模型可以在少量镜头和传统的图像和句子匹配任务中实现良好的性能，但它在推广到任意复杂内容时仍然存在局限性。为了探索它的能力，我们通过图5中提出的模型选择了几个代表性的失败案例，其中左上角的数字是基于句子的图像检索的返回排名（越小越好）。我们可以看到他们所有的排名5782表3.在Flickr30k和MSCOCO（1000个测试）数据集上进行传统的图像和句子匹配*表示总体方法。方法Flickr30k数据集MSCOCO数据集图像标注图像检索先生图像标注图像检索先生R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10m-RNN [29]35.463.873.722.850.763.151.641.073.083.529.042.277.057.6[18]第十八话35.062.073.825.052.766.052.439.467.980.925.159.876.658.3DVS [16]22.248.261.415.237.750.539.238.469.980.527.460.274.858.5MNLM [17]23.050.762.916.842.056.542.043.475.785.831.066.779.963.8[28]第二十八话33.664.174.926.256.369.654.142.873.184.132.668.682.864.0RNN+FV* [22]34.762.772.626.255.169.253.440.871.983.229.664.880.561.8OEM [39]-------46.778.688.937.973.785.968.6VQA [24]33.962.574.524.952.664.852.250.580.189.737.070.982.968.5RTP* [33]37.463.174.326.056.069.354.3-------DSPE [42]40.368.979.929.760.172.158.550.179.789.239.675.286.970.1[12]第十二话42.571.981.530.260.472.359.853.283.191.540.775.887.472.02WayNet [4]49.867.5-36.055.6--55.875.2-39.763.3--CSE [50]44.674.383.836.969.179.664.756.384.492.245.781.290.675.1RRF [25]47.677.487.135.468.379.966.056.485.391.543.978.188.673.9DAN [31]55.081.889.039.469.279.168.9-------Chain-VSE [46]-------59.488.094.243.579.890.275.9[52]第五十二话55.681.989.539.169.280.969.465.689.895.547.179.990.078.0VSE++[5]52.979.187.239.669.679.568.064.689.195.752.083.192.079.4LIM* [10]-------68.5-97.956.6-94.5-高级官员[13]55.582.089.341.170.580.169.769.992.997.556.787.594.883.2[第14话]58.084.590.543.972.981.671.971.393.898.058.288.895.384.2扫描*[21]67.490.395.848.677.785.277.572.794.898.458.888.494.884.7GVSE* [11]68.590.995.550.679.887.678.872.294.198.160.589.495.885.0明碁80.095.598.250.276.884.780.981.998.099.358.287.393.986.4ACMM*85.296.798.453.879.886.883.584.197.899.460.788.794.987.63197535252810984119人们都在静静地听他们解释冰屋的故事一个女人表现出黄色警戒线后的戏剧性场面一个穿着革命时期衣服的人正在摇铃两个女人上升腰上系着特殊靴子和带子的电线杆东方旅行者在货币兑换处排队战斗在谁会赢秋季购物者和小酒馆美食爱好者在城市的潮起潮落中陷入困境图5.我们提出的模型的失败案例很少出现的单词被标记为红色（最好用颜色查看非常高，有的甚至有几百。我们发现它们大多包含非常复杂的视觉内容，这些内容在句子中至少由3个少数单词（标记为红色）描述。虽然我们的模型能够提取每个少数词的通用表示，但是太多的少数词的共现可能容易混淆我们的模型。一个可能的解决方案是使用外部知识库[43，32]来提供更有用的线索，以更好地捕捉少数单词之间的内在关系。5. 结论和未来工作在这项工作中，我们提出了对齐的跨模态记忆（ACMM）很少研究的情况下，即少数拍摄的图像和句子。这项工作的主要贡献是：1）用跨模态图卷积网络将区域跨模态对齐到单词我们已经全面调查了不同模块对最终性能的影响曼斯，并验证了我们提出的模型的有效性，实现了显着的性能改善。在未来，我们将广泛研究所提出的模型中的超参数如何影响最终的性能，而不是简单地使用默认的。确认本课题得到了国家重点研究发展计划（2016 YF-B1001000 ）、国家自然科学基金（ 61525306 ，61633021，61721004，61420106015）、资本市场基金（ 2016 YF- B1001000 ）、国家自然科学基金（61525306，61633021，61721004，61420106015）和国家自然科学基金（ 61525306 ， 61633021 ，61721004，61420106015）的资助。科技领军人才培养项目（Z181100006318030）、北京市科技项目（Z181100008918010）、HW 2019 SOW01、中科院-空气这项工作还得到了NVIDIA和NVIDIA DGX-1 AI超级计算机的资助。5783引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。arXiv预印本arXiv：1707.07998，2017。[2] Lisa Anne Hendricks、Subhashini Venugopalan、MarcusRohrbach 、 Raymond Mooney 、 Kate Saenko 和 TrevorDarrell。深度合成字幕：在没有配对训练数据的情况下描述新的对象类别。在IEEE计算机视觉和模式识别会议上，第1-10页[3] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的经验评估arXiv预印本arX-iv：1412.3555，2014。[4] 艾薇夫·艾森施塔特和里奥·沃尔夫。用双向网络链接图像和文本在IEEE计算机视觉和模式识别会议上，第4601-4611页[5] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：改进了视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[6] Andrea Fr

下载后可阅读完整内容，剩余1页未读，立即下载