提高跨模态注意力的图文匹配算法

35 浏览量更新于2023-10-15 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4432不仅仅是注意力：利用对比约束提高跨模态注意力的图文匹配算法陈玉晓1*，袁建波2，赵龙1，车天朗2，罗锐2，拉里·戴维斯2，迪米特里斯·N.Metaxas11罗格斯大学，2Amazon.com服务公司摘要跨通道注意机制在图像-文本匹配任务中得到了广泛的他们已经取得了显着的改进，这要归功于他们在不同模态之间学习细粒度相关性的能力。查询片段狗注意力地图（扫描）注意力图(SCAN+建议的限制）关系的然而，现有方法的跨通道注意力模型可能是次优的和不准确的，因为在训练过程中没有提供直接的监督。在这项工作中，我们提出了两个新的培训策略，即对比内容再采购（CCR）和对比内容交换（CCS）的限制，以解决这些限制。这些约束监督在对比学习中跨模态注意力模型的训练，头盔（a）（b）（c）（d）不需要明确的注意注释的方式它们是插入式训练策略，通常可以集成到现有的跨模态注意力模型中。此外，我们引入了三个度量标准，包括注意精度，召回率和F1分数，以定量衡量学习的注意模型的质量。我们评估建议的约束，将它们纳入四个国家的最先进的跨模态注意力为基础的图像-文本匹配模型。在Flickr30 k和MS-COCO数据集上的实验结果表明，集成这些约束通常可以提高模型在检索性能和注意力指标方面的性能1. 介绍图像-文本匹配的任务旨在学习测量视觉内容和文本内容之间的相似性通过使用学习的模型，用户可以检索视觉上匹配文本查询所描述的上下文的图像，或者检索最好地描述图像查询的文本。由于其在人类视觉和语言世界之间的桥梁作用，这项任务已经成为一项活跃的研究*这项工作是在陈玉晓在Ama-zon实习研究时完成的通信地址：Yuxiao Chen（yc984@cs.rutgers.edu）图1：SCAN在没有和有我们提出的约束的情况下学习的模型。面积[5，17，8，12，16，1，23]。最近，跨模态注意力模型已被广泛应用于这一任务[16，12，17，8，7，2，13，4]。这些方法已经取得了显着的改进，由于他们的能力，捕获细粒度的跨通道的相关性的跨通道的注意机制。具体地，给定图像描述及其对应的图像，它们首先由片段表示，即，单独的单词和图像区域。我们将上下文模态的片段称为查询片段，并将参与模态的片段称为密钥片段。给定查询片段，跨模态注意力模型首先为每个关键片段分配注意力权重，每个注意力权重测量查询片段与对应的关键片段之间的语义相关性。然后将查询片段的关注信息编码为所有关键片段特征的加权和。每个查询片段与其所涉及的信息之间的相似性因此被聚集作为查询与检索候选之间的相似性度量。在理想的情况下，训练有素的跨模态注意力模式-4433(a) 跨模态注意机制（c）对比内容交换图2：培训管道概述，其中包含（a）跨模态注意力机制和我们提出的注意力约束，包括（b）对比内容重新采购（CCR）和（c）对比内容交换（CCS）。ELS将通过向语义相关的关键片段分配大的关注权重来关注它们，并且通过产生小的关注权重来忽略以图1（b）为例：当“dog”被用作查询片段时，跨模态注意力模型被假定为对于包含狗的所有图像区域输出大的注意力权重，而对于其它不相关的图像片段输出小的注意力权重。然而，由于大多数现有的图像-文本匹配方法的跨模态如图1（a）所示，学习的SCAN模型[12]是一种最先进的基于跨模态注意力的图像-文本匹配模型，当使用单词“dog”作为查询片段时，无法注意到包含狗的主体的相关图像区域。该示例示出了假阴性情况，即，低关注度的“回忆”。此外，学习的跨模态注意力模型也可能遭受误报（低注意力“精度”）。如图1（c）所示，当使用这些限制的一个可能的解决方案是依靠手动生成的注意力地图地面实况来监督跨模态注意力模型的训练过程[19，27]。然而，注释注意力分布是一个定义不清的任务，并且将是劳动密集型的。为此，我们提出了两个学习约束，即对比内容再采购（CCR）和对比内容交换（CCS），监督跨通道注意力的训练过程。图2给出了我们的方法的概述CCR强制查询片段与其参与信息比与反向参与信息更相关，反向参与信息是通过使用反向参与权重计算关键片段的加权和而生成的（详见第3.2节）。它可以指导跨模态注意力模型为相关的关键片段分配大的注意力权重，为不相关的片段分配小的权重。另一方面，CCS进一步鼓励跨模态注意力模型通过将关注信息约束为与对应查询片段比与否定查询片段更相关来忽略不相关的关键片段。在图2（c）所示的示例中，通过使用单词所提出的约束是插件训练策略，可以很容易地集成到现有的跨模态的基于注意力的图像-文本匹配模型。我们通过将它们纳入四个最先进的基于跨模态注意力的图像-文本匹配网络来评估所提出的约束的性能此外，为了定量地比较和衡量学习到的注意模型的质量，我们提出了三个新的注意度量，即注意精确度、注意回忆度和注意F1分数。在MS-COCO [14]和Flickr30 K [25]上的实验结果表明，这些约束显著提高了图像-文本匹配性能，反转操作加权和反向注意力权重反向出席信息狗对象检测器(b)对比内容再采购注意力权重草猫马否定查询片段加权和狗查询片段参加者信息男人拿着棍子，而狗跳起来抓住它关注4434Σ学习的注意力模型的质量。概括起来，这项工作的主要贡献包括：(i)我们提出了两个学习约束，以对比的方式监督跨模态注意力模型的训练，而不需要额外的注意力注释。它们是插件式的训练策略，可以很容易地应用于不同的跨通道注意力的图像-文本方法;（ii）引入注意力指标，从查准率、查全率和F1-Score三个方面对学习后的注意力模型的质量进行定量评价;（iii）我们通过将其并入四个最先进的基于注意力的图像-文本匹配模型来验证我们的方法。在两个公开的数据集上进行的大量实验表明，该方法具有很强的通用性和有效性。2. 相关工作图文匹配。图像-文本匹配的任务是很好的探索，但具有挑战性。它的主要挑战是如何衡量文本和图像之间的相似性。早期的方法建议在全球范围内测量相似性[10，6，26，5]。具体地说，这些方法首先训练图像编码器和文本编码器将图像和句子的全局信息嵌入到特征向量中，然后通过计算对应特征向量之间的余弦相似度来例如，通过使用具有硬阴性样本的三重排序损失，Faghriet al.[5]分别训练基于VGG的图像编码器[21]和基于GRU的文本编码器[3]这些方法的一个主要局限性是它们不能捕获细粒度的图像-文本相关性。为了解决这一问题，最近的研究提出了应用跨通道注意机制来衡量文本和图像在片段上的相似性Qiao等人[19]首先在人类注释的注意力数据集上训练注意力图生成器，然后应用由该生成器预测的注意力图作为弱注释。Liu等[15]利用单词和相应图像区域之间的人工注释对齐作为监督。与 [15] 类似， VisualGenome [11]中的图像局部区域描述和对象注释用于生成注意力监督[27]。这些方法从不同形式的人类注释中获得相比之下，我们通过以对比学习的方式构建成对样本来提供注意力监督，这不需要额外的手动注意力注释。3. 方法3.1. 跨模态注意力模型在图像-文本匹配中，给定图像-句子对，它们首先被表示为片段，即，单独的单词和图像区域。上下文模态的片段是查询片段，并且关注模态的片段是密钥片段。这些片段中的每一个都被编码为向量。跨模态注意力模型将这些向量作为输入，并推断每个查询片段与所有关键片段之间的跨模态然后，根据所获得的跨模态相关性计算图像-句子对的相似性得分。令qi和kj分别指第i个查询和第j个密钥片段的特征表示。跨模态注意力模型首先如下计算kj相对于qi的注意力权重：ei，j=fatt（qi，kj），水平[16，12，23，24]。通常，给定一个图像和一个感-exp（ei，j）（一）然而，这些方法首先通过将其馈送到对象检测中来wi，j=0j∈K exp（e、i、j）模型，如Faster R-CNN [20]，并通过使用递归神经网络嵌入句子的每个单词。然后分别利用文本到图像和图像到文本的注意力来推断每个词的相关区域和每个区域的相关词。计算每个片段（词或图像区域）与其相关信息之间的相似度，并将其聚合为图像与句子之间的最终尽管这些方法已经取得了显著的效果，但是由于缺乏直接监督，这些跨模态注意力模型的学习过程可能是次优的，如第1节所讨论的。监督学习跨模态注意。在适当的监督下训练跨通道注意模型的任务引起了越来越多的兴趣。主要的挑战在于如何定义和采集监测信号。其中fatt是注意力函数，其输出是标量ei，j，其测量qi和kj之间的跨模态相关性;K是所有kei，j片段的索引的集合;wi，j是kj 相对于qi的注意力权重。Q i的出席信息（即，Qiai=（wi，j·kj）.（二）j∈K然后，图像I和句子T之间的相似性得分被定义为：S（I，T）=AGGi∈Q（Sim（qi，ai）），（3）4435Σ其中Q表示所有查询片段的索引的集合;Sim是相似性函数;AGG是一个在所有查询片段之间聚集相似性得分的函数，例如平均池化函数[12]。此任务中最广泛使用的损失函数是具有硬负采样的三重排序损失[5]，定义为：我们使用相似度函数Sim来度量查询片段与注意力特征或反转特征之间的相关性。因此，CCR的损失函数定义为：其中，γ2控制相似性差异裕度。rank=[S（I，T+[S（I，T）−S（I，T）+γ1]+、（四）直觉上，为了最小化这种损失，跨通道注意力模型应该为相关的关键片段分配较大的注意力权重，以增加qi其中γ1控制相似性差异的幅度;匹配的图像I和句子T形成正样本对，而T和I表示如[5]所定义的正样本对的最难的否定句子和图像。秩强制锚图像I与其匹配的句子T之间的相似度比锚图像与不匹配的句子之间的相似度大余量γ1。对于句子T，反之亦然。但是，这个损失函数在相似性级别上起作用，并且不提供在注意力级别上连接跨模态内容的任何监督。换句话说，学习跨模态注意力是一种纯数据驱动的方法，缺乏监督。因此，学习的跨通道注意力模型可能是次优的。3.2. 对比内容再采购良好学习的跨模态注意力模型的期望属性是，对于查询片段，注意力模型应当向与查询片段相关的关键片段分配大的注意力权重，并且向与查询片段不相关的关键片段分配小对比性内容再外包（CCR）约束的提出，明确指导注意力模型学习这一属性。它强制查询片段与其关注信息比与其反向关注信息更相关。例如，如图2（b）所示，查询“dog”需要与其关注信息比与包含人和树的反向关注信息具体而言，给定查询片段qi，其关注信息被嵌入为关注特征ai。其所反映的注意力信息由向量a_i编码，该向量a_i是通过反转注意力权重并基于反向注意力权重，如等式5所示：1−wi，ji中的比率，并减少包含在ai中的比率。注意力模型还将学习分配小的注意力权重，不相关的密钥片段以减小在A i中Q i的不相关信息比率并增加在A i中Q i的不相关信息比率。3.3. 对比内容交换如图1（c）所示，注意力模型可以为相关和不相关的关键片段分配较大的注意力权重。在这种情况下，CCR约束可能无法完全解决这些假阳性场景，因为查询片段可能与其被关注的信息比与其被反转的关注信息更相关。因此，我们提出了对比内容交换（CCS）约束来解决这个问题。它将查询片段的参与信息约束具体地，给定查询片段qi，我们首先从预定义集合Qi中采样其n个查询片段qi，所述预定义集合包含关于奇岛关注信息与查询片段或否定查询片段之间的相关性也由相似性函数Sim测量。然后CCS约束其中γ3是裕度参数。CCS约束将强制执行跨模态atten-模型，以减小与Q_i相关的关键片段的注意力权重。结果，与qi相关但与qi无关的信息被消除。通过将CCR和CCS约束结合起来，在图像-文本匹配中，我们通过等式8获得完整的目标函数，其中λCCR和λCCS是分别控制CCR和CCS的贡献的标量：=（八）wi，j=j∈K（1−w、i、j）（五）3.4. 注意事项ai=（wi，j·kj），j∈K其中w_i，j是k个片段k_j相对于查询片段q_i的反向注意力权重。以前的研究[12，16]主要通过可视化注意力地图来定性评估注意力模型。这些方法不能作为标准的度量标准，用于比较不同模型之间的注意力正确性4436因此，我们提出了注意精确度、注意再调用和注意F1分数，来定量评估学习注意模型的性能。注意力精确度是与对应查询片段相关的被关注关键片段的分数，注意力召回是被关注的相关关键片段的分数。注意力F1分数是注意力精确度和注意力回忆的组合，它提供了一种衡量模型注意力正确性的全面方法。在本文中，我们只评估使用文本作为查询片段的注意力模型。这是因为在评估的模型[12，23，16，4]中使用的文本编码器是GRU [3]或Transformer [22]，其中定义查询区域片段的相关和不相关的关键文本片段可能是困难的，因为文本片段将被文本编码器更新给定匹配的图像-文本对，如果v与t的对应区域2之间的交集（IoU）1大于阈值TIoU，则图像片段v被标记为文本片段t的相关片段。另外，如果v关于t的注意力权重大于阈值T_Att，则v被t设A和R是t的被关注的和相关的图像片段的集合。tAP= |A R|，AR = |A R|，AF = 2 × AP × AR。句子检索图像检索方法R@1R@5R@10R@1R@5R@10的简历扫描[12]67.290.794.848.477.684.9463.6+ CCR67.891.195.049.477.685.3466.2+ CCS69.191.195.450.878.485.6470.4+ CCR CCS68.891.695.351.179.086.5472.3[23]第二十三话69.790.294.150.178.686.0468.7+ CCR70.390.594.751.979.486.7473.5+ CCS70.390.995.251.979.286.5474.0+ CCR CCS70.991.895.652.579.686.9477.3BFAN [16]70.792.396.351.879.385.9476.3+ CCR71.792.896.053.280.587.1481.3+ CCS71.093.296.052.679.486.4478.6+ CCR CCS72.093.496.253.180.386.9481.9SGRAF [4]77.894.596.859.082.988.6499.6+ CCR78.095.297.259.583.188.7501.7+ CCS78.394.697.459.683.589.0502.4+ CCR CCS79.395.298.059.883.688.8504.7表1：Flickr30K测试集上句子检索和图像检索任务的结果用于图像-文本匹配的MS-COCO数据集由123，287幅图像组成，每幅图像包括5个人工注释的描述。在[16，12]之后，数据集被分为113，283张用于训练的图像，5K张用于验证的图像和5K张用于测试的图像。评估指标。在[16，12，23]之后，我们测量了图像检索和感测的性能|一||R|AP+AR（九）通过计算在不同K值（R@K，K = 1，5，10）下的召回率，用于计算注意力指标的注释[18]提供了名词短语和图像区域之间的对应关系。名词短语可能包含多个单词，并且不同的单词可能对应于同一图像区域。为了获得学习注意力模型的整体注意力度量，我们首先计算单词级的注意力度量，并使用每个短语内的最大值作为短语级度量。然后通过对短语级度量求平均来获得总体注意力度量4. 实验4.1. 数据集和评价数据集。我们在两个公开的图像-文本匹配基准上评估我们的方法：Flickr 30 K [25]和MS- COCO [14]。Flickr30K [25]数据集包含31K图像，每个图像都有5个标题注释。根据[16，12]的设置，我们将数据集分为29K个训练图像，1K个验证图像和1K个测试图像。的1给定两个边界框，它们之间的IoU得分计算为它们的联合面积与联合面积的比值。2词t的对应区域是包含由t描述的对象的区域。查询，其前K个检索项包含其匹配项。我们还报告rsum，它是模型的所有R@K值的总和。在Flickr30K数据集上，我们报告了1K测试图像的结果。在MS-COCO数据集上，我们通过对5倍1 K测试图像（称为MS-COCO 1 K）进行平均，并按照标准评估协议对完整的5 K测试图像（称为MS-COCO 5 K）进行测试来报告结果[12，16，23]。为了计算注意力度量，TIoU被设置为0.4，并且TIoU的其他值的结果可以在补充材料中找到。TAtt的可能值在0和0.1之间以0.01的间隔均匀地选择。我们根据实验结果设置TAttt的范围，即当达到最佳注意力F1分数时，TAttt的范围为0到0.1。我们计算每个TAttt值的注意精确度、注意召回率和注意F1分数，然后报告精确召回率（PR）曲线和最佳注意F1分数及其相应的注意精确度和注意召回率。4.2. 基线和实施细节我们通过将它们转换为以下最先进的基于注意力的图像-文本匹配模型来评估所提出的约束：4437句子检索图像检索我们将所提出的约束应用于每个匹配的图像-文本对的一个随机对于一个查询词片段，其否定查询集Qi由其对应句子的其他词组成。对于查询区域，片段，其Qi被设置为其对应片段的其他区域。表2：MS-COCO测试集上句子检索和图像检索任务的结果* 请注意，由于PFAN的正式实现仅提供1K图像进行测试，因此PFAN在1K测试图像设置下不进行5重交叉验证测试，在5K测试图像设置下无法进行测试• SCAN[12]是一种堆叠的跨模态注意力模型，用于推断单词和区域之间的相关性并计算图像-文本相似度。• PFAN[23]通过将图像区域位置信息集成到跨模态注意力模型中来改进跨模态注意力模型。• BFAN[16]是一种双向跨模态注意力模型，它允许关注相关片段，并将所有注意力转移到这些相关片段中以集中于它们。凹痕图像。约束损失权重因子λCCR和λCCS可以是0.1或1，并且约束相似性裕度γ2和γ3被设置为0、0.1或0.2。我们使用所有可能的组合来训练模型，包括约束损失权重因子和相似性裕度，并报告最佳结果。在RTX 8000和A100 GPU上分别对Flickr 30 K和MS-COCO进行了实验。所有基线都由其官方发布的代码进行训练3 4 5 6. 所有模型都是从头开始训练的，遵循其原始超参数设置，例如学习率，批量大小，模型结构和优化器[12，16，23，4]。更多的实施细节可以在补充材料中找到。4.3. 图文匹配我们首先评估所提出的方法，图像和句子检索任务的Flickr 30 K和MS- COCO数据集。表1和表2分别显示了Flickr 30 K和MS-COCO数据集的结果我们发现，当建议的CCR和CCS约束分别使用时，它们都在所有基线和任务上实现了一致的性能改进更重要的是，当我们应用这两个约束时，所有模型都实现了最佳的整体改进（rsum）。这些结果表明，我们提出的约束不同的模型和数据集的强大的通用性。我们还注意到，在某些指标下，单独使用CCR或CCS比同时使用CCR和CCS获得更好的结果。一个可能的原因是，CCR被期望分配大的注意力权重的关键片段，包含不相关的和相关的信息。例如，它将处理包含背景和描述对象的区域CCS倾向于忽略这些关键片段，以降低对无关信息的注意力权重。因此，在某些罕见的情况下，同时使用CCR和CCS可能会导致冲突，而在某些指标下，单独使用CCR（或CCS）可能会获得稍好的结果。4.4. 注意力评估定量分析相我们在Flickr 30 K上报告了结果，因为它有公开的跨模态对应注释[18]，而MS-COCO没有。• SGRAF[4]首先学习全局和局部对齐-通过使用交叉模态注意力模型在片段之间进行分割，然后应用图卷积网络[9]基于局部和全局对齐来推断关系感知相似性。3https://github.com/kuanghuei/SCAN4https://github.com/CrossmodalGroup/BFAN5https://github.com/HaoYang0123/Position-Focused-Attention-网络6https://github.com/Paranioar/SGRAF方法R@1R@5R@10R@1R@5R@10的简历1K测试图像扫描[12]70.693.897.754.186.093.4495.6+ CCR71.494.297.755.686.793.8499.4+ CCS71.194.097.756.687.294.0500.6+ CCR CCS71.694.097.756.487.394.0501.0[23]第二十三话74.595.498.659.888.894.8511.9+ CCR*74.495.398.360.589.194.8512.4+ CCS*74.995.898.360.889.194.5513.4+ CCR CCS*75.295.698.261.288.994.7513.8BFAN [16]75.095.098.258.888.394.4509.7+ CCR75.295.398.360.188.794.7512.3+ CCS75.195.398.359.688.594.6511.4+ CCR CCS75.295.598.160.388.894.7512.6SGRAF [4]79.796.598.563.390.195.7523.8+ CCR79.796.898.763.890.495.9525.3+ CCS79.796.898.863.890.395.7525.1+ CCR CCS80.296.898.764.390.695.8526.45K测试图像扫描[12]47.277.687.734.765.277.3389.7+ CCR47.778.388.236.266.678.2395.2+ CCS46.578.588.036.566.678.3394.4+ CCR CCS47.978.188.236.966.978.4396.4BFAN [16]52.580.389.537.566.778.1404.6+ CCR52.081.589.938.767.878.8408.7+ CCS53.881.189.938.067.378.5408.6+ CCR CCS53.481.390.138.467.678.6409.4SGRAF [4]58.384.891.941.870.981.2428.9+ CCR59.284.892.042.271.181.7431.0+ CCS58.685.092.242.271.281.6430.8+ CCR CCS59.785.092.042.371.481.9432.34438注意精度注意力回忆注意力F1-评分精密度。这些结果表明约束按预期工作。注意力回忆浏览[12] 32.79 65.30 39.96+ CCR 36.3066.80+ CCS+ CCR CCS38.8164.6244.44BFAN [16] 46.08 63.32 48.91+ CCR+ CCS 49.16 61.44 49.74+ CCR CCS51.1362.97 51.73新加坡政府财政部[4] 44.54 61.98 47.91+ CCR+ CCS 47.43 60.41 49.20+ CCR CCS49.4862.1250.90表3：在Flickr30K数据集上训练的SCAN、BFAN和SGRAF模型的注意力精度、注意力回忆和注意力F1分数（%）结果。这可能是由于CCS强制注意力模型忽略了包含前地物体和噪声背景的区域我们还在图3中展示了SCAN、BFAN和SGRAF的PR曲线，以证明不同TAtt对注意精确度和注意回忆的影响我们可以观察到，应用所提出的约束产生一致更好的结果比两个基线方法为不同的T属性。通过计算每个模型的注意力F1分数和rsum之间的Pearson相关系数，我们进一步评估了图像-文本匹配性能与学习注意力模型质量之间的关系。SCAN、BFAN和 SGRAF 模型的相关系数分别为 0.967 、 0.992 和0.941。p值均小于0.05。结果表明，图像-文本匹配性能与学习的注意力模型的质量有很强的正相关性，这进一步证明了我们提出0.450.350.250.150.050.20零点四0.600.80一元召回(a) SCAN的PR曲线0.650.550.450.350.250.150.050.600.550.500.450.400.350.500.550.600.650.700.75召回(b) BFAN的PR曲线约束定性分析我们可视化的注意力权重相对于Flickr 30K和MS-COCO数据集上的三个采样的查询词结果分别示于图4和图5中。由于篇幅所限，补充资料中提供了更多的例子。在查询词片段“fire”和“mouse”的示例中，SCAN的学习注意力模型（参见列（b））未能将大的注意力权重分配给包含fire或mouse的大多数区域。相比之下，CCR约束（参见列（c））通过显著增加分配给包含火或鼠标的区域的注意力权重来缓解此问题。 CCS约束（见（d）栏）在这些情况下不太有效。在查询词片段0.40零点五五0.70零点八五一元召回(c) SGRAF的PR曲线图3：在Flickr30K数据集上训练的SCAN、BFAN和SGRAF模型的注意力PR曲线。我们注意到PFAN的结果没有被报告，因为我们不能获得与其官方实现提供的测试数据相对应的输入图像区域的边界框SCAN、BFAN和SGRAF的注意力指标如表3所示。我们可以看到，单独应用CCR和CCS比两种基线方法产生更高的注意力F1分数，这与第4.3节中的观察结果一致。更有趣的是，我们可以发现，单独使用CCR可以同时提高注意精确度和注意召回率;单独使用CCS主要提高注意精度;结合这两个约束进一步提高Atten-“冲浪者”，SCAN的学习注意力模型（参见Col umn（b））将大的注意力权重分配给不相关区域和相关区域。在这种情况下，CCR约束（参见列（c））不能完全减小分配给与“婴儿”和“冲浪者”无关的区域的注意力相反，如列（d）所示，分配给不相关区域的注意力权重被 CCS 约束大大减小。在查询词 “guy” 和“suitcases”的示例中，他们表明组合这两个约束会降低背景区域的注意力权重（例如，“家伙”的周围区域5. 结论为了解决跨模态注意力模型学习中缺少直接监督的问题，本文引入了CCR和CCS的约束条件来监督注意力模型的学习。基线+ CCR+ CCS+CCR&CCS基线+ CCR+ CCS+CCR&CCS精度基线+ CCR+ CCS+CCR&CCS精度精度方法4439查询片段火婴儿家伙(a) 原始图像（b）扫描（c）扫描+CCR（d）扫描+CCS（e）扫描+CCR+CCS图4：示例说明了在Flickr30K数据集上SCAN模型的给定单词的关注图像区域查询片段鼠标冲浪者行李箱(a)原始图像（b）扫描（c）扫描+CCR（d）扫描+CCS（e）扫描+CCR+CCS图5：示例说明了在MS-COCO数据集上针对SCAN模型的给定单词的关注图像区域。不需要额外注意注释的方式。这两个约束是一般的学习策略，可以被普遍纳入注意力模型。此外，为了定量测量注意力的正确性，我们提出了三个新的注意力度量。大量的实验表明，所提出的约束管理，以提高跨模态检索性能以及注意力的正确性时，集成到四个国家的最先进的注意力模型。对于今后的工作，我们将探讨如何将所提出的约束扩展到其他基于跨通道注意模型的任务，如视觉提问（VQA）和图像字幕。引用[1] 陈天朗，邓家军，罗杰波。图文匹配中的自适应五元组丢失。arXiv预印本arXiv：2003.03669，2020。[2] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy，4440Faisal Ahmed ， Zhe Gan ， Yu Cheng ， and JingjingLiu.Uniter：学习通用的图像-文本表示。2019年。[3] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv：1412.3555，2014。[4] Haiwen Diao，Ying Zhang，Lin Ma，and Huchuan Lu.图文匹配的相似性推理与过滤。在AAAI人工智能会议论文集，第35卷，第1218-1226页[5] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[6] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise：一个深度视觉语义嵌入模型。神经信息处理系统的进展，第2121-2129页，2013年[7] 黄斐然，张晓明，赵忠华，李周军.双向空间语义注意网络在图文匹配中的应用。IEEE Transactions on ImageProcessing- ing，28（4）：2008[8] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知在IEEE计算机视觉和模式识别会议论文集，第2310-2318页[9] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[10] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539，2014。[11] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志，123（1）：32[12] Kuang-Huei Lee，Xi Chen，Gang Hua，Houdong Hu，and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意在欧洲计算机视觉会议（ECCV）的会议记录中，第201-216页[13] XiujunLi，Xi Yin，Chunyuan Li，Pengchuan Zhang，Xiaowei Hu，Lei Zhang，Lijuan Wang，Houdong Hu，Li Dong，Furu Wei，et al. Oscar：面向视觉语言任务的对象语义对齐预训练。欧洲计算机视觉会议，第121-137页Springer，2020年。[14] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[15] Chenxi Liu，Junhua Mao，Fei Sha，and Alan Yuille.神经图像字幕的注意力正确性在AAAI人工智能会议论文集，第31卷，2017年。[16] Chunxiao Liu ， Zhendong Mao ， An-An Liu ， TianzhuZhang，Bin Wang，and Yongdong Zhang.集中注意力：A双向焦点注意网络的图像-文本匹配。第27届ACM国际多媒体会议论文集，第3-11页，2019年[17] Hyeonseob Nam、Jung-Woo Ha和Jeonghee Kim。用于多模态推理和匹配的双注意力网络。在IEEE计算机视觉和模式识别会议论文集，第299-307页[18] Bryan A Plummer、Liwei Wang、Chris M Cervantes、JuanCCaicedo 、 JuliaHockenmaier 和 SvetlanaLazebnik。Flickr30k实体：收集区域到短语的对应关系，以获得更丰富的图像到句子模型。在IEEE计算机视觉国际会议的论文集，第2641-2649页[19] 乔婷婷，董建峰，徐端庆。视觉问答中的类人注意监控研究。在AAAI人工智能会议论文集，第32卷，2018年。[20] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，28：91[21] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[22] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。神经信息处理系统的进展，第5998-6008页，2017年[23] Yaxiong Wang，Hao Yang，Xueming Qian，Lin Ma，Jing Lu，Biao Li，and Xin Fan.基于位置集中注意网络的图文匹配。arXiv预印本arXiv：1907.09748，2019。[24] 徐兴，王谭，杨阳，左林，沈富民，沈衡涛。基于语义一致性的跨通道注意力在图文匹配中的应用。IEEETransactions on Neural Networks and Learning Systems，2020。[25] 彼得·杨，爱丽丝·赖，米卡·霍多什，茱莉亚·霍肯迈尔.从图像描述到视觉标识：事件描述语义推理的新相似性度量。Transactions of the Association for ComputationalLinguistics，2：67[26] 张颖和卢沪川。用于图像-文本匹配的深度跨模态投影学习。在欧洲计算机视觉会议（ECCV）的会议中，第686[27] Yundong Zhang，Juan Carlos Niebles，and Alvaro Soto.基于注意监督挖掘的基于视觉背景的可理解视觉问答。2019年IEEE计算机视觉应用冬季会议（WACV），第349-357页。IEEE，2019。

下载后可阅读完整内容，剩余1页未读，立即下载