递归注意记忆迭代匹配：图像-文本跨模态检索算法

29 浏览量更新于2023-10-23 收藏 964KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

432112655IMRAM：用于跨模态图像-文本检索的递归注意记忆迭代匹配算法陈辉1，丁贵光1*，刘旭东2，林子佳3，刘继4，韩俊功51清华大学2葵广告平台;3微软研究院4葵西雅图AI实验室，葵FeDA实验室，葵AI平台5华威大学WMG数据科学{jichenhui2012，ji.liu.uwisc，jungonghan77}@gmail.comdinggg@tsinghua.edu.cn，liuxudong@kuaishou.com，zijlin@microsoft.com摘要实现图像和文本的双向检索对于理解视觉和语言之间的对应关系非常重要。现有的方法利用注意力机制以细粒度的方式探索这种对应关系。然而，他们中的大多数人认为所有的se-mantics平等，从而使他们一致，而不管他们的复杂性。事实上，语义是多种多样的（即涉及不同种类的语义概念），并且人类通常遵循潜在结构将它们组合成可理解的语言。在实验方法中可能难以最佳地捕获这种复杂的对应关系。针对这一不足，本文提出了一种基于递归注意记忆的迭代匹配（IMRAM）方法，该方法通过多步对齐来获取图像和文本之间的对应关系。具体来说，我们引入了一个迭代匹配计划，逐步探索这种细粒度的对应关系。一个记忆蒸馏单元用于从早期步骤到后期步骤精炼对齐知识。在三个基准数据集上的实验结果表明，Flickr8K、Flickr30K和MS COCO的测试表明，我们的IMRAM达到了最先进的性能，很好地证明了它的有效性。在一个实际的商业广告数据集KWAI-AD上的实验进一步验证了该方法在实际场景中的适用性。1. 介绍由于来自社交媒体和Web应用程序的多媒体数据的爆炸性增长，这项工作得到了中国国家自然科学U1936202，61925107）。通讯作者：丁桂光跨模态图像-文本检索在学术界和工业界都有很大的需求，并且同时，这一任务具有挑战性，因为它不仅要求理解图像和文本的内容，而且要求理解它们之间的模态对应关系。近年来，人们提出了大量的研究，并取得了很大的进展。早期的工作试图将图像和文本的信息直接映射到一个公共的潜在嵌入空间。例如，Wanget al.[26]采用了具有两个分支的深度网络，将图像和文本重新映射到嵌入空间中。然而，这些作品粗略地捕捉了模态之间的对应关系，因此无法描绘视觉和语言之间的细粒度交互。为了更深入地理解这种细粒度的对应关系，近年来的研究进一步探讨了跨模态图像-文本检索的注意机制。Karpathy等人[11]为每个图像和文本提取片段的特征（即，图像区域和文本单词），并提出了每个片段对之间的密集对齐。Lee等[13]提出了一种堆叠的交叉注意模型，在该模型中，注意力用于将每个片段与来自另一个模态的所有片段对齐。它可以巧妙地发现细粒度的对应关系，从而在多个基准数据集上实现最然而，由于图像和文本之间的巨大异质性差距，现有的基于注意力的模型，如。[13]可能不能很好地抓住多个区域-词片段对之间的最佳成对关系。实际上，语义是复杂的，因为它们是多样的（即. 由具有不同含义的不同种类的语义概念组成，例如对象（例如，名词），属性（例如，形容词）和关系（例如，verbs））。不同概念之间普遍存在着很强的相关性e.G. 关系术语（例如，通常表示关系-432112656在对象之间运送（例如，名词）。此外，人类通常遵循一种潜在的结构（例如，一种树状结构[25]）将不同的语义概念组合成可理解的语言，这表明图像和文本之间共享的语义呈现出复杂的分布。然而，现有的最先进的模型平等地对待不同种类的语义，并将它们统一排列在一起，很少考虑语义的复杂性。在现实中，当人类进行图像和文本之间的比较，我们通常会联想到低层次的语义概念，例如。物体，在第一眼。然后，更高层次的语义，例如.属性和关系，通过重新访问图像和文本来挖掘，以获得更好的理解[21]。这一直觉与上述复杂的语义学是一致的，同时也预示着意象与文本之间的复杂对应关系应该被逐步发掘。基于此，本文提出了一个具有循环注意记忆的迭代匹配框架，用于跨模态图像 - 文本检索，称为IMRAM。我们探索图像和文本之间的对应关系的方式具有两个主要特征：（1）具有跨模态注意单元的迭代匹配方案，以跨不同模态对齐片段;（2）存储器提取单元，用于动态地将来自早期匹配步骤的信息聚集到稍后的匹配步骤。迭代匹配方案可以逐步更新跨通道注意核心以积累用于定位匹配语义的线索，而记忆提取单元可以通过增强跨通道信息的交互来细化潜在对应利用这两个功能，不同种类的语义被分布式处理，并在不同的匹配步骤很好地捕捉。我们在多个跨模态图文检索的基准数据集上进行了大量的实验。Flickr8K、Flickr30K和MS COCO。实验结果表明，我们提出的IMRAM可以优于国家的最先进的模型。还进行了微妙的分析，以提供更多关于IMRAM的见解我们观察到：（1）在迭代匹配过程中，图像和文本之间的细粒度潜在对应可以得到很好的细化;（2）不同类型的语义在不同的匹配步骤中对性能的提高起主导作用。这些观察结果可以解释我们提出的方法的有效性因此，我们收集了一个新的数据集，命名为KWAI-AD，通过在广告平台上爬行大约81 K的图像-文本对，其中每个图像与至少一个广告文本标题相关联。然后，我们在KWAI-AD数据集上评估我们提出的方法，并与最先进的模型进行比较。结果表明，我们的方法每-形式明显优于比较模型，进一步证明了我们的方法在实际商业广告场景中的有效性。源代码可从以下网址获得：https://github.com/HuiChen24/我们工作的贡献有三个方面：1）首先，针对语义的复杂性，提出了一种跨模态图文检索的迭代匹配方法。2) 其次，我们制定了建议的迭代匹配方法与递归注意力记忆，其中包括一个跨模态注意力单元和记忆蒸馏单元，以改善图像和文本之间的对应关系3) 第三，我们在基准数据集上验证了我们的方法。Flickr8K、Flickr30K和MS COCO）和真实世界商业广告数据集（即，我们提出的KWAI-AD数据集）。实验结果表明，我们的方法优于比较方法在所有的数据集。通过对模型的深入分析，也证明了该方法的优越性和合理性.2. 相关工作我们的工作是关注跨模态图像-文本检索的任务，其主要目的是探索视觉和语言之间的潜在对应关系。前向匹配方法可以大致分为两行：（1）粗粒度匹配方法，旨在通过将整个图像和全文映射到公共嵌入空间来全局地挖掘对应关系，(2)细粒度匹配，其目的是在细粒度级别上探索图像片段和文本片段之间的粗粒度匹配方法。Wang等人 [26]使用具有两个分支的多层感知器的深度网络来处理图像和文本，并以保持内部和内部结构为目标对其进行优化。Kiros等人[12]采用了CNN和具有基于铰链的三重排序损失的门递归单元（GRU），以通过对否定项中的单个违规进行平均来优化模型。或者，Faghriet al.[5]用仅由硬否定参数化的硬三重损失函数改革了排名目标细粒度匹配方法。最近，有几项工作致力于探索跨模态图像-文本的潜在细粒度视觉-语言对应[1，11，20，8，18，13]。Karpathy等人[11]提取每个图像和文本的片段的特征，即，图像区域和文本单词，并将它们在嵌入空间中对齐。Niu等人[20]将文本组织为语义树，每个节点对应于一个短语，然后使用一个长期短期记忆（LSTM，RNN的变体）来提取文本的短语级特征Huang等人.[8]提出了一种上下文调节注意方案，以选择性地注意突出的成对图像-句子实例。然后432112657[i，x]我阿我��∗我MDU卡乌斯MDU∗0 …∗ ∗I m…1-1塞吉我拉吉Cv…��…vv吉夫22门坦0 i m0…��…J塞吉��0 ��…��…RAM（RAM，RAM）不一匹马走在路上。不0��… 卢恩不不J不212∗0拉吉∗��∗n目的双-GRURAMv（n，n）=1=2=3图1.拟议模式的框架。多模态LSTM被用于顺序地将局部相似性聚合成全局相似性。Nam等人[18]提出了一种双重注意机制，通过两次注意获取图像和文本的显著语义，并通过聚集一系列局部相似度来计算相似度。Lee等[13]提出了一种堆叠交叉注意模型，该模型将每个片段与其他模态的所有其他片段对齐。他们在几个跨模态检索的基准数据集上实现了最先进的性能。虽然我们的方法的目标与[11，13]相同，但不同的是，我们应用迭代匹配方案来细化片段比对。此外，我们采用了一个记忆单元，在每一步匹配之后提取图像和文本中匹配语义的知识。我们的方法也可以被认为是一种顺序匹配方法，如[18，8]。然而，在顺序计算中，我们将有关片段对齐的知识转移到具有所提出的递归注意力理论的后续步骤，而不是使用特定于模态的上下文信息。实验也表明，我们的方法优于上述工作。我们还注意到，一些最新的作品利用大规模的外部资源来提高性能。例如，Mithunet al.[17]从互联网上收集了大量的图像-文本对，并利用它们优化了检索模型。此外，受近年来自然语言处理领域语言语境表征学习的巨大成功的启发，研究人员也探索将BERT应用于跨模态理解领域[2，14]。然而，这种预先训练的跨模态BERT模型1需要大量的带注释的图像-文本对，这在实际场景中不容易获得与此相反，我们的方法是通用的，不受数据量的限制。我们将大规模外部数据的探索留给未来的工作。1相应的代码和模型没有公开。3. 方法在本节中，我们将详细介绍我们提出的用于跨模态图像-文本检索的IMRAM的细节。图1显示了我们模型的框架。我们将首先在3.1节中描述学习跨模态特征表示的方法。然后，我们将在第3.2节中介绍所提出的递归注意记忆作为我们的匹配框架中的一个模块。我们还将在3.3节中介绍如何将所提出的循环注意记忆纳入跨模态图像-文本检索的迭代匹配方案最后，在3.4节中讨论目标函数。3.1. 跨模态特征表示图像表示。受益于计算机视觉中深度学习的发展[4，7，24]，差分卷积神经网络已被广泛用于许多任务中，以提取图像的视觉信息为了获得关于图像片段的视觉内容的更多描述性信息，我们采用了预训练的深度CNN，e.G. 更快的R-CNN。具体地，给定图像I，CNN检测图像区域并为每个图像区域ri提取特征向量fi。我们进一步通过线性投影将fi变换为d维向量vi，如下所示：vi=Wvfi+bv（1）其中Wv和bv是要学习的参数。为了简单起见，我们将图像表示为|i=1，…m，vi∈Rd}，其中m是I.我们进一步将V中的每个区域特征向量归一化为[13]。文本表示。基本上，文本可以在句子级或词级表示。为了实现视觉和语言的细粒度连接，我们提取文本的单词级特征，这可以通过双向GRU作为编码器来完成。432112658我我i=1ij具体地说，对于一个有n个单词的文本S用一个连续的嵌入向量ej=Wewj表示每个单词wj，其中We是一个待学习的em。层理基质然后，为了增强词级表示，其中λ是软最大值函数[3]的逆温度参数，以调整注意力分布的平滑度。我们定义Cx={cx|i∈[1，m′]，cx∈Rd}为X-我我与上下文信息，我们采用了双向GRU在文本S中总结来自前向和后向的信息：→− −−→→−接地对准特征，其中每个元件帽-每个x i和整个Y共享的结构相关语义。内存蒸馏单元（MDU）。为了为下一次比对细化比对知识，我们采用了一种记忆方法，hj=GRU（ej，hj−1）;←−←−−←−（二）- 蒸馏单元，其通过将查询特征X与对应的X-接地对齐进行聚集来更新查询特征X，哪里→−hj和hj=GRU（ej，hj+1）←−hj表示来自前向的隐藏状态动态地分割特征Cxf（x，cx）（6）GRU和落后的GRU，分别。然后，代表--我我我→−←−单词wj的读音定义为tj=hj+ hj2其中f（）是一个聚集函数。我们可以定义f（），最后，我们得到了文本的词级特征集S，表示为T={tj|j=1，… n，tj∈Rd}，其中每个t j编码单词w j的信息。注意，每个t j与等式中的v i具有相同的维数。1.一、我们也将T中的每个单词特征向量归一化为[13]。不同的配方，如添加，多层包埋，tron（MLP）、attention等等。在这里，我们对f（）采用修改的门控机制：gi=gate（Wg[xi，cx]+bg）oi=tanh（Wo[xi，cx]+bo）（七）3.2. RAM：反复注意记忆记忆循环注意记忆的目的是通过以循环的方式精炼关于先前片段对齐的知识来对齐嵌入空间中的片段。它可以被看作是一个包含两组特征点的块，即：V and T ,and estimates the similarity between these two sets via across-modal attention unit.使用记忆蒸馏单元来精炼注意力结果，以便为下一次对齐提供更多的知识为一般来说，我们将两个输入特征集表示为查询集X={xi|i∈[1 ， m′] ， xi∈Rd} 和响应集 Y={yj|j∈[1 ，n′]，yj∈Rd}，其中m′和n′分别是X和Y上的特征点个数.注意X可以是V和T中的任何一个，而Y将是另一跨模态注意单元（CAU）。跨模态注意单元旨在针对X中的每个特征xi总结Y中的上下文信息。为了实现这个目标，我们首先使用余弦函数：xT yjxi=gi<$xi+（1−gi）<$oi其中，Wg、Wo、bg、bo是待学习的参数。是增强xi和Cx之间的相互作用的融合特征。G1 执行作为选择最显著信息的门。通过门控机制，输入查询的信息可以被自己精炼（即，xi）和与响应共享的语义信息（即，oi）。门gi可以帮助过滤查询中的琐碎信息，并且使得能够对每个查询片段进行表示学习（即，x iin X）来更多地关注其与Y的单独共享语义。此外，X-接地比对特征Cx概括了Y关于X中每个片段的上下文信息. 并且在下一个匹配步骤中，这样的上下文信息将帮助确定关于Y的共享语义，形成如在随后的3.3节中描述的递归计算因此，在Cx的帮助下，Y中的通道内关系被隐含地涉及，并在循环过程中被重新校准。zij =i，<$i∈[1，m′]，<$j∈[1，n′]（3）||Xi||·||yJ||这一进程将加强跨部门、跨部门和跨部门之间的互动模态特征，从而有利于表征学习。如[13]所述，我们进一步将相似性得分z归一化为：RAM块。我们将跨模态注意单元和记忆蒸馏单元集成到RAM块中，公式为：齐杰 =.relu（zij）阿姆 relu（z）2（四）日期为：Cx，X=RAM（X，Y）（8）其中relu（x）= max（0，x）。在给定X中的特征xi的情况下，对响应集Y执行关注：n′其中，Cx和Xmax由等式（1）导出5和6.3.3. 具有递归注意记忆的迭代匹配在本节中，我们将介绍如何使用.432112659Σcx=αy，S.T.αexp（λz<$ij）=（五）上面介绍的注意力记忆使迭代我j=1国际新闻报伊杰恩j=1 exp（λz<$ij）用于跨模态图像-文本检索的匹配。432112660KKJM表1.与Flickr8K上最先进的模型进行比较。由于SCAN [13]的结果没有在Flickr8K上报道，这里我们通过运行作者提供的代码来显示我们的实验结果。方法R@1文本检索R@5R@10R@1图像检索R@5R@10R@sumDeViSE [6]4.816.527.35.920.129.6104.2DVS [11]16.540.654.211.832.144.7199.9m-CNN [16]24.853.767.120.347.661.7275.2扫描 *52.281.089.238.367.878.9407.4图像-IMRAM48.578.185.332.061.473.9379.2文本IMRAM52.181.590.140.269.079.2412.1全IMRAM54.784.291.041.069.279.9420.0具体来说，给定图像I和文本S，我们分别使用两个独立的RAM块推导出基于I和S的Cv，Vk=RAMv（Vk−1，T）方式在[5]之后，我们不再与所有否定词进行比较，而是只考虑小批量中的硬否定词，即.最接近训练查询的否定：ΣBKCt，Tk =RAMt（Tk−1、五）（九）L=b=1[−F（Ib，Sb）+F（Ib，Sb<$）]+（十三）其中V k、T k分别指示图像I和文本S的逐步特征。k是匹配步长，V0=V，T0=T.ΣB+b=1[−F（Ib，Sb）+F（Ib，Sb）]+我们迭代地执行RAM（）总共K步。在每一步k，我们可以得到I和S之间的匹配分数：其中[x]+=max（x，0），并且F（I，S）是由等式（1）定义的I和S12.具有相同下标b的图像和文本是匹配的示例。硬F（I，S）=1<$F（r，S）+1<$F（I，w）（10）负数由下标b表示。是一个保证金值kmk我i=1nkjj=1注意，在损失函数中，F（I，S）包括：Fk（I，S）在每个匹配步骤（即当量（12）因此，其中F（ri，S）和F（I，w，j）被定义为区域-基于词的匹配分数和基于词的匹配分数。它们推导如下：F（r，S）=sim（v，cv）;优化损失函数将在每个匹配步骤直接监督图像-文本对应的学习，这被期望帮助模型在每个步骤产生更高质量的对准。三个人一起工作-K伊伊基Fk（I，wj）=sim（ct，tj）（十一）明智的排名目标，整个模型参数可以以端到端的方式进行优化，使用广泛使用的op，其中，sim（）是测量两个输入特征之间的相似性的余弦函数，3.而vi∈V对应于区域ri。tj∈T对应于定时器，如SGD等。4. 实验词wj。 Cv ∈Cv和ct其中，t分别是基克kj k4.1. 数据集和评估指标对应于区域ri和单词的上下文特征wj. m和n分别是图像区域和文本字的数目在K个匹配步骤之后，我们通过对所有匹配分数求和来导出I和SΣKF（I，S）= Fk（I，S）（12）k=13.4.损失函数为了在嵌入空间中强制将匹配的图像-文本对聚类，并将不匹配的图像-文本对分离，在以前的作品中广泛使用三重排序目标[12，5]来在端到端中训练模型。n432112661在我们的实验中使用了三个基准数据集，包括：（1）Flickr8K：包含8，000个图像，每个图像提供5个文本。我们采用其标准分割[20，16]，使用6，000张图像进行训练，1，000张图像用于验证，另外1，000张图像用于测试。(2)Flickr30K：由31，000张图片和158，915个英文文本组成。每幅图像都有5个文本注释。我们遵循数据集分割[13，5]，并使用29，000张图像进行训练，1，000张图像用于验证，其余1，000张图像用于测试。(3)MS COCO是一个大规模的图像描述数据集，包含约123，287张图像，每张图像至少有5个文本。与以前的工作[13，5]一样，我们使用113，287张图像来训练所有模型，5，000张图像用于验证，另外5，000张图像用于测试。MS结果432112662V.S.表2.与Flickr30K上最先进的模型进行比较方法R@1文本检索R@5R@10R@1图像检索R@5R@10R@sumDPC [27]55.681.989.539.169.280.9416.2高级官员[9]55.582.089.341.170.580.1418.5SCAN*[13]67.490.395.848.677.785.2465.0VSRN*[15]71.390.696.054.781.888.2482.6图像-IMRAM67.090.595.651.278.285.5468.0文本IMRAM68.891.696.053.079.087.1475.5全IMRAM74.193.096.653.979.487.2484.2表3.与MS COCO上的最新型号进行比较方法R@1文本检索R@5R@10R@1图像检索R@5R@10R@sum1KDPC [27]65.689.895.547.179.990.0467.9高级官员[9]69.992.997.556.787.594.8499.3SCAN*[13]72.794.898.458.888.494.8507.9[23]第二十三话69.291.696.655.286.593.7492.8VSRN*[15]76.294.898.262.889.795.1516.8图像-IMRAM76.195.398.261.088.694.5513.7文本IMRAM74.095.698.460.688.994.6512.1全IMRAM76.795.698.561.789.195.0516.65KDPC [27]41.270.581.125.353.466.4337.9高级官员[9]42.872.383.033.162.975.5369.6SCAN*[13]50.482.290.038.669.380.4410.9[23]第二十三话45.274.384.532.463.075.0374.4VSRN*[15]53.081.189.440.570.681.1415.7图像-IMRAM53.282.590.438.968.579.2412.7文本IMRAM52.081.890.138.668.179.1409.7全IMRAM53.783.291.039.769.179.8416.5情感：不要让我们孤单！事实：一只黄色的狗躺在草地上。图2.我们的KWAI-AD数据集和标准数据集之间的差异，例如。可可小姐COCO通过对1K测试图像的5倍进行平均并在完整的5K测试图像上进行测试来报告[13]。为了进一步验证我们的方法在实际场景中的有效性，我们建立了一个新的数据集，命名为KWAI- AD。我们从一个真实的商业广告平台上收集了81,653个图文对，随机抽取79,653个图文对进行训练，1,000个进行验证，剩下的1,000个进行测试。我们的数据集的独特之处在于，所提供的文本不是对应图像中内容的详细文本描述，而是与它们保持弱关联，传达强烈的情感语义而不是事实语义（参见图2）。因此，我们的数据集比传统数据集更具挑战性。然而，它在实际业务场景中非常重要学习adver的微妙联系-组织图像与相关的精心设计的标题不仅可以丰富视觉和语言的理解，而且有利于推荐系统和社交网络的发展。评估指标。为了将我们提出的方法与最先进的方法进行比较，我们在所有数据集中采用与[17，13，5]相同的评估指标。也就是说，我们采用K（R@K）处的召回率来衡量双向检索任务的性能，即：在给定图像查询的情况下检索文本（文本检索）和在给定文本查询的情况下检索图像（图像检索）。我们报告所有数据集的R@1，R@5和R@10，如[13]所示。为了更好地揭示所提出的方法的有效性，我们还报告了一个额外的度量4.2. 实现细节为了系统地验证所提出的IMRAM的有效性，我们对其三种变体进行了实验(1)Image-IMRAM仅采用基于图像的RAM块（即，仅使用Eq.（2）文本- IMRAM只采用基于文本的RAM块（即仅使用Eq. 10）;（3）全IMRAM。所有模型均由Pytorch v1.0实现在所有数据集中，432112663对于文本中的每个词，词嵌入由具有300维度的随机权重初始化。我们使用一个双向的GRU层，并设置其隐藏状态表4.匹配的总步骤K对MS COCO（5K）中IMRAM变体的影响。（即→−hj和←−在Eq. 2)维度为1024。的每个区域特征的维数（即，ViinV）and and eachword feature（即，tjinT）被设置为1，024。在三个基准数据集上，我们使用在Visual Genome上预训练的Faster R-CNN为每个图像提取36个区域特征对于我们的KWAI-AD数据集，我们简单地使用Inceptionv3为每个图像提取64个特征4.3. 三个基准数据集的结果我们将我们提出的IMRAM与三个基准数据集中已发布的最先进模型进行比较2。我们直接引用各自论文中报道最好的结果。对于我们提出的模型，我们默认执行3步迭代匹配结果Flickr8K、Flickr30K和MS COCO的比较结果示于表1、表2和表3中，分别'*'表示集成模型的性能。“-”表示未报告的结果。我们可以看到，与最先进的模型相比，我们提出的IMRAM在所有指标方面都可以始终如一地具体来说，我们的全IMRAM可以优于以前最好的模型之一，即。SCAN* [13]，以12的大幅度。6%，19.2%，8. 7%和5. 在Flickr 8 K、Flickr 30 K、MS COCO（1 K）和MS COCO（5 K）中的总体性能R@sum分别为6%。在文本检索任务的重调用度量中，我们的Full-IMRAM 可以获得最大的性能提高 3 。 2%（在Flickr8K中R@5），6. 7%（在Flickr30K中R@1），4.0% （ MS COCO （ 1K ）中的 R@1 ）和 3. 3% （ MSCOCO中的R@1（5K）），分别对于图像检索任务，改进是 2 。 7% （ Flickr8K 中的 R@1 ）， 5. 3%（Flickr30K中的R@1），2. 9%（MS COCO（1K）中的R@1）和1. 1%（在MS COCO（5K）中R@1）。与VSRN* [15]相比，我们的单一模型在Flick30K和MSCOCO上都能获得竞争性结果。实验结果表明，该方法对跨模态图文检索具有很好的效果此外，我们的模型不仅在小数据集上，也就是说，能够持续地达到最先进的性能。Flickr8K和Flickr30K，但也在大规模的数据集，即。MS COCO，这很好地证明了它的鲁棒性。4.4. 模型分析匹配总步数的影响，K。对于IMRAM的所有三种变体，我们逐渐将K从1增加到3，以在基准数据集上训练和评估它们由于篇幅所限，我们只报道MSCOCO（5K）上的结果2我们省略了需要额外数据增强的模型[19，22，17，14、2、10]。表5.在Flickr 30 K中的Text-IMRAM（K= 3存储器文本检索图像检索R@1 R@10 R@1 R@10添加64.595.149.284.9MLP66.696.452.886.2att66.195.552.186.2栅极66.296.452.586.1我们68.896.053.087.1表6.在MS COCO中的Text-IMRAM（K= 3）中的每个匹配步骤k处的K名词（%）动词（%）形容词（%）199.032.035.3299.038.837.9399.040.239.1测试）在表4中。我们可以观察到，对于所有变体，K= 2和K= 3可以始终实现比K= 1更好的性能。与K=2相比，K= 3表现得更好或相对更好。这一观察结果很好地证明了迭代匹配方案有效地改善了模型性能。此外，我们的Full-IMRAM considerations 优于Image-IMRAM和Text-IMRAM对于不同的K值。记忆蒸馏装置的效果。方程中的聚集函数f（x，y） 6是必不可少的建议迭代匹配过程。我们列举了一些基本的聚集函数并与我们的比较：（1）add：x + y;（2）mlp：x + tanh（Wy + b）;（3）att：αx+（1 − α）y其中α是由x和y参数化的实值数;(4)gate：βx+（1−β）y其中β是由x和y参数化的实值向量。我们在表5中的Flickr 30 K中使用Text-IMRAM（K= 3）进行分析我们可以观察到，我们使用的聚合函数（即，当量（7）实现比基线函数性能更好。4.5. 定性分析我们打算在这里探索更多关于我们模型有效性的见解。为了便于解释，模型K文本检索图像检索R@1 R@10 R@1 R@10140.885.734.676.2图像251.589.537.778.3-IMRAM353.290.438.979.2146.287.034.475.9文本250.489.237.478.3-IMRAM351.489.939.279.2149.788.935.476.7充分253.190.239.179.5-IMRAM353.791.039.779.8432112664（0.241）（0.412）（0.421）一个穿着橙色外套和牛仔裤的女人蹲在一块岩石墙两个人站在一座美丽的东方建筑外。牛仔裤（0.374）牛仔裤（0.546）牛仔裤（0.507）建筑物（0.376）建筑物（0.424）建筑物（0.424）一个女人和一个女孩穿着漂亮的衣服。一个穿着绿白相间夹克和绿裤子的人正在练习。美丽（0.336）美丽（0.404）美丽（0.423）滑雪板绿色（0.536）绿色（0.671）绿色（0.728）一本摊开的书放在床上。一个孩子撑着花伞，抚摸着牦牛。爱抚（0.223）爱抚（0.360）爱抚（0.351）=1图3.在Text-IMRAM中的每个匹配步骤中可视化注意力。对应的匹配词用蓝色表示，后面是匹配相似度。我们主要从语言的角度来分析语义概念，而不是从视觉的角度，即从语言的角度来分析语义概念。我们把文本中的每个词作为一个语义概念。因此，我们对Text-IMRAM进行定性分析。我们首先在Text-IMRAM（K= 3）中对应于图3中的不同语义概念的每个匹配步骤处可视化注意力图我们可以看到，注意力是细化的，并逐渐集中在匹配的区域。为了定量地分析语义概念的对齐，我们首先在匹配步骤k处将Text-IMRAM中的语义概念定义为显著的语义概念，如下所示：1）给定图像-文本对，在匹配步骤k处，我们通过等式1导出基于单词的匹配分数。11，并通过对所有基于单词的分数求平均来导出图像-文本匹配分数（参见等式11）。第10段）。2)如果其对应的基于词的分数大于图像-文本分数，则语义概念是显著的。对于从测试集中随机抽取的一组图像-文本对，我们可以计算每个模型在不同匹配步骤中的这种显著语义概念的百分比。然后分析了在Text-IMRAM（K= 3）中不同匹配步骤所捕获的显著语义概念的变化统计结果见表6。我们可以看到，在第一个匹配步骤中，名词更容易被识别，并且在帮助匹配方面占优势。而在随后的匹配过程中，动词和形容词的贡献率增加.4.6. 新收集的广告数据集我们在 KWAI-AD 数据集上评估了我们提出的IMRAM。我们将我们的模型与[13]中最先进的SCAN模型进行了比较。比较结果示于表7中。我们可以看到，这方面的整体表现表7.广告数据集上的结果。方法文本检索图像检索R@1 R@10 R@1 R@10[13]第十三话7.421.12.19.3图像-IMRAM10.725.13.416.8[13]第十三话6.820.82.09.9文本IMRAM8.421.52.315.9i-t + t-i [1]7.322.52.711.5全IMRAM10.227.73.421.7数据集上的跨模态检索结果大大低于基准数据集上的跨模态检索结果，这表明了在真实世界的商业广告场景中跨模态检索的挑战。实验结果也表明，我们的模型可以获得实质性的改进，这表明该方法在该数据集上的有效性。5. 结论本文提出了一种基于递归注意记忆网络（IMRAM）的迭代匹配方法，用于跨模态图像-文本检索，以处理语义的复杂性。我们的IMRAM可以以渐进的方式探索图像和文本之间的对应关系，具有两个功能：（1）具有交叉模态注意单元的迭代匹配方案，以对齐来自不同模态的片段;（2）存储器蒸馏单元，用于将对齐知识从早期步骤细化到后期步骤。我们在三个基准上验证了我们的模型（即， Flickr8K ，Flickr30K和MS COCO）以及一个新的数据集（即，KWAI-AD）用于实际的商业广告场景。在所有数据集上的实验结果表明，我们的IMRAM始终优于比较方法，并达到最先进的性能。432112665引用[1] 陈辉，丁贵光，林子佳，赵思成，韩俊功.具有语义一致性的跨模态图文检索。在第27届ACM国际多媒体会议论文集，第1749-1757页[2] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter ：学习通用的图像 - 文本表示。ArXiv，abs/1909.11740，2019。[3] JanKChorowski ， DzmitryBahdanau ， DmitriySerdyuk，Kyunghyun Cho，and Yoshua Bengio.用于语音识别的基于注意力的模型神经信息处理系统的进展，第577-585页，2015年[4] 丁贵光，陈文硕，赵思成，韩俊功，刘巧艳。基于四边形核相关滤波器的实时可伸缩视觉跟踪。 IEEETransactions on Intelligent Transportation Systems ， 19（1）：140-150，2017。[5] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[6] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度视觉语义嵌入模型。神经信息处理系统，第2121-2129页，2013年[7] 郭宇晨，丁桂光，金晓明，王建民。学习视觉识别的可预测和区分属性2015年第29届AAAI人工智能会议[8] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知在IEEE计算机视觉和模式识别会议论文集，第2310-2318页[9] 炎黄、齐武、宋春风、梁王。学习图像和句子匹配的语义概念和顺序。在IEEE计算机视觉和模式识别会议论文集，第6163- 6171页[10] 仲吉、王浩然、韩俊公、庞彦伟。基于显著性引导的注意网络的图像-句子匹配。在IEEE计算机视觉国际会议集，第5754-5763页[11] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition，pages 3128[12] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539，2014。[13] Kuang-Huei Lee，Xi Chen，Gang Hua，Houdong Hu，and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意在欧洲计算机视觉会议（ECCV）的会议记录中，第201-216页[14] Gen Li、South Duan、Yuejian Fang、Ming Gong、DaxinJiang和Ming Zhou。Unicoder-vl：通过跨模态预训练实现视觉和语言的通用编码器，2019年。[15] Kunpeng Li，Yulun Zhang，Kai Li，Yuanyuan Li，andYun Fu.图文匹配的视觉语义推理。在IEEE计算机视觉国际会议的Proceedings中，第4654-4662页[16] Lin Ma，Zhengdong Lu，Lifeng Shang，and Hang Li.用于匹配图像和句子的多模态卷积神经网络。在Proceedings of the IEEE international conference oncomputer vision，pages 2623[17] Nilut

下载后可阅读完整内容，剩余1页未读，立即下载