基于注意力蒸馏的主题场景图生成

49 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15900基于注意力蒸馏的字幕主题场景图生成王文斌1，2，王瑞平1，2，3，陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京100049 3北京人工智能研究院，北京100084www.example.com @wenbin.wang vipl.ict.ac.cn，{wangruiping，xlchen}@ict.ac.cn摘要如果一幅图像讲述了一个故事，那么图像说明就是最简短的通常，场景图更倾向于成为全方位的“通才”，而图像标题更倾向于成为“专家”，其概述了要点。大量的研究表明，除非能减少场景图中的琐碎内容和噪声，否则场景图的实用性并不高。在这方面，图片说明是一个很好的导师。为此，我们让场景图借用图像字幕的能力，使其在保持全面性的基础上成为专家，产生了所谓的主题场景图。图像标题所关注的内容被提取并传递到场景图，用于估计部分对象、关系和事件的重要性。具体地，在字幕生成期间，在每个时间步中关于个体对象的注意力被收集、汇集和组装以获得关于关系的注意力，其用作用于规则化关系的估计重要性分数的弱监督此外，由于注意力提取过程提供了将图像标题和场景图的生成结合在一起的机会，我们通过与图像标题共享单个生成模型，实验表明，注意力蒸馏算法在无强监督的情况下，显著提高了重要关系的挖掘效率，主题场景图在后续应用中显示出巨大的潜力。1. 介绍一幅画胜过千言万语。然而，只有少数人愿意知道所有的“千言万语”，而其他人则希望知道“主题词”。因此，场景图和图像字幕用于出于不同目的传达图像内容。图1.比较（a）传统的一般场景图和（b）在图像标题中的注意力引导下生成的主题场景图，其优先考虑重要关系（突出显示的节点和边），并且以自然语言的风格表达关系。具体地说，场景图[20]由图像中的对象和对象对之间的关系组成。一系列的研究试图生成场景图并实现其在高级智能任务中的潜力，例如，视觉问答[2，47]、视觉推理[44]和视觉和语言导航（VLN）[53]等。然而，如[25，35，52]中所指出的，场景图只有在提供信息时才有帮助，而当前生成的具有如此多噪声的场景图不符合这一标准。这主要是由于两个对象的爆炸性组合可能性[52，65]，这带来了场景图全面但关键信息被大量琐碎细节淹没的双边效应。将场景图中的重要内容和琐碎内容进行合理的划分是必要的，也是现实的。幸运的是，图像说明恰恰显示了这种能力，是一个场景图应该学习的好老师。在场景图生成的背景下，很少有研究致力于发现重要的关系，这对于限制场景图的规模是有意义的一步树人草衬衫• 骑马的人• 草地上的马• 人有帽子• 人有衬衫• 树近人帽马(a)传统场景图树人草一个人骑着一辆草地上的马衬衫帽马• 骑马的人• 奔跑的马草地• 一个人穿着蓝色的衬衫• 树后面人(b)主题场景图15901场景图用于下游任务时。最流行的方法是保持与预测的主题、对象和预测分数的大乘积的关系。但是，这个产品衡量的是预测的准确性，而不是重要性。Yang等[58]和Lvet al.[33]或者使用轻量级关系提议网络来提取一些可能相关的对，或者基于注释关系是重要关系的观点来预测每个关系的注意力分数。这可能是有问题的，因为主流场景图数据集（例如，Visual Genome[22]）遭受严重的长尾问题[6，46]，并且注释对（头部对）通常是微不足道的[52]。为了更精确地定义什么是重要的关系，发现图像标题很有帮助，因为标题几乎准确地揭示了人类认为重要的内容[14]，如图1所示。因此，Yuet al. [65]和Wanget al. [52]学习从标题引导下得到的重要关系注释中但该方法需要先将字幕转换成三元组，然后再对齐两组异源三元组，代价昂贵，且场景图生成复杂。在这项工作中，我们提出让场景图学习的重要关系，从图像字幕在经济的方式，从而在主题场景图。通过提取图像字幕生成过程中的视觉注意来估计关系的重要性，将其视为弱监督。具体地，大多数先进的图像字幕机能够将其注视固定在正确的对象区域上。我们应用图像字幕器并收集关于对象区域的一阶注意信息，其用于组装关于关系的二阶注意这样，我们就真正把人的注意力转换成一种新的形式，从对个体的关注转变为对关系事件的关注。利用二阶注意作为弱监督，指导关系重要性的估计。这样，强有力的监管就不再必要。此外，由于注意力蒸馏过程可以同时生成图像标题和场景图，并且它们都是对图像的描述，为什么不用单个模型生成它们呢？值得注意的是，最流行的场景图数据集，世界规模的可视化基因组（VG）[22]包含了超过40，000种最初从人类语言中提取的关系类型，而场景图的传统定义将关系识别视为谓词分类并使大部分关系过滤。这对关系描述的多样性是有害的。更糟糕的是，在某些谓词类中存在着巨大的内部差异，例如的外观谓词类 Rid-ing 的两个关系三元组实例，即 Person-riding-horse和Dog-riding-skateboard是完全不同的。很难清楚地定义不同谓词之间的语义界限。受[21]的启发，我们将场景图重新定义为短关系句的集合以这种方式，共享字幕模块可以同时用于所谓的语言场景图生成和2. 相关工作场景图生成（SGG）和视觉关系检测（VRD）的核心是理解对象之间的早期的研究[10，42]将对象类别和关系谓词的每个不同组合视为一个不同的类。Lu等人[32]正式定义VRD任务，并分别处理对象和谓词分类。最近最先进的VRD作品[8，18，26，34，38，64，66，71，72，73]独立地关注每个关系三元组的预测。在[ 20 ]中提出了从鸟瞰图忠实地描述图像的场景图在此之后，一系列的研究有助于生成高质量的场景图。消息传递机制[55]已被证明是有效的，并且其变体在[27，28]中被广泛采用。最新的基本实践通过在对象和视觉关系之间构建合理的上下文[31，39，47，51，58，70]，或利用外部知识和常识[6，13，67，69]来实现更有希望的结果。此外，Zhanget al. [74]提出对比损失来解决相关对配置模糊性。Zareian等人[68]创造性地将SGG问题视为边角色分配问题。Tang等人[46]通过处理因果效应使预测的关系大多数这些作品的斗争，以适应VG数据集，但总是忽略了这样一个事实，即场景图注释遭受严重的长尾问题和有价值的关系通常是由琐碎的。由于报告偏差[11]，这个问题是普遍存在的，不应该归咎于特定的数据集。越来越多的作品都在考虑如何使场景图更加实用。Liang等人[29]修剪主要和易于预测的关系，同时保留VG中的视觉相关关系Lv等人[33]估计与注意力模块的关系的重要性，但实际上他们仍然认为注释的关系在语义上重要，这可能不是真的。Yu等人[65]和Wanget al. [52]在图像标题的指导下提供具有人类感兴趣的关系的注释然而，在[65]中仅检测到语义上重要的关系，这对于全面的场景图是不够的。在这项工作中，我们从图像标题中提取注意力作为弱监管，而不是构建重要的高成本注释，15902∈∈∈∈∈Σ∈Σ∈ ∈∈RVt=1∈V不∈∈∈t=1J不t−1t−1不类标签C={c| i ∈ [1，n]，c{C}和相应的i=1−n{|}√d{|∈∈}∈V.Σ关系，并且合理地估计所有关系的重要性，使得剩余关系的数量是可控的。图像字幕和场景图。与场景图相比，图像标题通常被视为对人类的最终呈现（用于交互）。受长度的限制，图像标题通常包含图像中最重要的内容[14]，但忽略了细节。一些研究人员提出了密集字幕任务[19]，该任务被动地生成多样化但无目的的区域级描述我们提出的主题场景图自然是图像的结构化表示，并且特别能够主动估计图像内容的重要性。关于图像字幕的早期研究是基于规则或模板的[45，61]。现代字幕模型已经实现了3.2.字幕模块在这项工作中，我们采用了两种最先进的captioning模型，基于 LSTM [16] 的 Up-Down 模型 [1] 和Transformer [48]。Up-Down模型包括注意力LSTM层和语言LSTM层。具体地，检测到的对象由它们的视觉特征V=[v1，. . .，vn]RDv×n和边界boxes[b1，. . . ，bn]R4×n. 目标视觉分析首先将曲线变换为V′=[v1′，. . . ，vn′]Rdl×n具有较低的尺寸：vi′=Wvvi+bv，vi′∈Rdl，（1）其中WvRdl×dV和bvRdl是可训练参数.在每个时间步t，语言LSTMh2与平均值相连-得益于编解码器框架的[49]，注意力技巧[4，7，15，17，24，37，48，56，60]合并图像特征t1v=1ivi′和前一个词基于RL的培训目标[41]。我们的工作是从图片说明中提取注意力。亦因为场景图包含了大量的语义信息，大量的嵌入et−1=Wewt−1，并输入到注意力LSTM：h1=LSTMAtt（[h2;v;et−1]，h1），h1∈Rdh，（2）作品试图将其纳入字幕模型[5，12，25，35，57，59，62，63]。受此启发，我们提出了生成语言场景图的方法，并创造性地将场景图从图像字幕中受益。3. 方法其中[; ]表示级联，并且We∈Rde×| V|是嵌入矩阵。wt−1代表|V|- dimone-hotvector，其中第wt−1个元素实际上是1。关于对象α=[α1，. . .，αTC]Rn×TC计算为：zi，t=wTtanh（Wvav′+Whah1），3.1. 概述阿一泰αt= softmax（zt），（三）给定图像I，其场景图G由对象（节点）集合O={oi|i∈[1，n]}，其中waRda×1，WvaRda×dl，WhaRda×dh是可训练的参数。最后，关注形象视觉n响应边界框B=bi我[1，n]，biR4 和一组关系（边）R=rkk[1，m]。常规地，每个关系r_k是开始的三元组。语言LSTM，它预测可能单词的条件h2=LSTMLang（[vt;h1]，h2），h2∈Rdh，不节点oi、结束节点oj和关系标签xij∈Rt t−1t（四）其中是谓词类型的集合。这些关系是无序的。考虑到这种表示的局限性，我们将关系rk重新定义为词序列（ykt）TR形式的关系标题，其中ykt和表示词汇表。t是序列中的字的位置索引，TR是序列长度。更重要的是，这些关系根据其重要性进行排序具体地，如图1（b）所示，检测到的对象用于生成关系字幕和图像字幕（w t）TC （w t和TC是字幕长度），在此期间，从图像字幕中收集主观兴趣（注意）α。α用于关系的重要性分数的估计在下面的部分中，我们将描述图像标题的生成3.2）和语言场景图（Sec. 3.3）使用共享字幕模块。然后，我们将详细说明重要性得分估计和注意力分散。p（wt|w1：t−1）=softmax（Woh2+bo），具有可训练参数W〇R| V| ×dh和boR| V|.至于Transformer模型，它由一个编码器和一个解码器组成，两者都包含一个层堆栈我们在Supp中提供详细信息并特别解释如何在这里提取对物体的注意力对于字幕任务，变换后的视觉特征V ′被送入编码器，我们得到输出V*Rdtr×n。对于解码器中的每个解码器层，其包含多头自注意层和多头交叉注意层。所有的词嵌入E被馈送到自我注意层以得到输出E*∈Rdtr×TC。在每个头j∈[1，H]中，计算关于对象的注意权αj∈ Rn×TC签署人：V*TE*α= softmax。（五）tr用于获得最终主题场景图的渲染（Sec.第3.4段）。我们对H个头部的αj求平均值，得到最终的α。特征vt=我zi、tv′和h1用作我我不15903∈∈QK∈√， √，、��′��′��′树人草...<��（softmax...穿着黑色衬衫帽子正驾驭着的马检测对象对象对字幕模块重要性评分估计语言场景图训练阶段字幕模块注意力蒸馏树一个人在草地上骑马。人草269…...穿着黑色组装...正驾驭着的马衬衫合并帽子主题场景图图2.我们方法的框架。检测到的对象和对象对被馈送到共享字幕模块中以生成形成语言场景图的图像字幕和关系字幕。在训练阶段期间，收集注意力信息，在多个时间步长上汇集，并组装以产生关于关系的二阶注意力β同时，还估计关系的重要性得分η，然后用β正则化。在测试阶段，估计的重要性分数用于生成最终的主题场景图。3.3. 语言场景图在这一部分中，我们共享字幕模块，使其适用于关系字幕，使语言场景图是可实现的。按照一般的场景图生成过程，我们建立了N个检测对象的组合，并获得O（N2）对象对。对于主体〇 i和对象〇j，我们通过应用R〇 I池化[40]与bi和bj 的并集框来提取它们的包含丰富上下文信息的并集视觉特征 v i j R d u 。此外，由于两个对象之间的相对位置被发现是有效的先验信息，我们遵循[38]来构建几何功能：3.4. 主题场景图利用图像字幕提供的对对象的关注度，提出将其进行组装，获得对关系的关注度，并将其作为弱监督，指导关系重要性的估计假设有m个关系。我们首先估计由主体〇i和对象〇j组成的每个关系的重要性分数。具体地，如图2中的顶部中间部分所描绘的，我们将vi’，vj’，vi’j以及主题和对象类别的语义嵌入ei，ejRdsem连接起来，以形成查询qij，并且计算使用全局特征V的密钥：Σxj−xiyj−yi.wjhjwhwiwjbi∩bjΣqij=f（[vi′;vj′;vi′j;ei;ej]）∈Rds，（8）wi hiwihi伊伊希hjbi∪bjk=g（v）∈Rds，（9）其中（x，y）是中心位置，w和h表示框的宽度和高度。它被进一步投影到64维特征并与vij连接以获得最终的联合特征vi′j∈Rdl：vi′j=Wu[vij;（Wggij+bg）]+bu，（7）其中f和g是两个可学习的线性变换函数。估计的重要性得分sij被计算为查询和键的内积，然后用softmax函数进行归一化：不IJ其中Wu∈Rdl×（du+64），bu∈Rdl，Wg∈R64×6，且sij=√d、（10）BGR64是可训练参数。与图像字幕应关注所有对象不同，关系字幕关注两个指定对象。具体地，对于Up-Down模型，仅vi’、vj’和vi’j用于解码。对于Trans-former，所有对象特征都被馈送到编码器中以构造连续信息V*，但只有vi*、vj*和vi′j被馈送到解码器中。η=softmax（s）∈ Rm。（十一）另一方面，我们具有关于个体对象的注意力信息α，其用于装配关于关系的注意力β。如图2中左下部分（具有灰色背景）所示，首先，我们用池化函数P在多个时间步长上收集每个对象的注意力分数，从而得到gij=、、、（6）S15904∈t=1t=1k =1Σ----ΣΣγRn.然后，关系的二阶注意力被组装为：δij=γi+γj，β=softmax（δ）∈Rm。（十二）最后，通过KL散度用诱导的二阶注意力β正则化估计的分数η3.5. 优化优化过程分为两个阶段。在第一阶段中，给定单个地面实况图像字幕（w_t）T_C和m个地面实况关系字幕[（y_kt）T_R]m，利用由图像字幕部分和关系字幕部分组成的传统交叉熵损失来优化字幕模块：TCLCE=−logp（wt|w1：t−1）通过匹配它们的主题和对象WordNet [36]同义词集来将它们与注释的对齐。最后，我们将剩余的关系转换成句子。值得一提的是，我们并没有为关系制定一个分类词汇表，而是将关系保持在其原始的自由和开放的形式中。为了进一步丰富概念，随机选择每个对象的属性添加到句子中我们获得了35，928张图像，分别用于训练/验证/测试集的29，928/1，000/5，000个分割，以及11，437个词汇表（包括3，000个对象类别和800个属性）。评估指标。我们使用BLEU、METEOR、CIDEr-D、ROUGE-L和SPICE进行图像字幕。对于关系字幕，我们参考[19]和[21]并使用以下指标。 (1)平均精度（mAP）：它使用METEOR评分[9]，阈值为0，0。05，0。100 15，0。20，0。25，语言和IoU阈值为0。2，0。3，0。四，零。5，0。六是本地化。只有主语和宾语的IoU大于thresh的对t=1.1ΣmTR.（十三）Σolds是一个真正的阳性样本。 mAP通过av.跨越语言和地方的所有组合-+λMk=1t=1-logpykt|yk1：k（t−1），化阈值。(2)图像级召回（Img-Lv.Recall）：它忽略定位并评估包的召回其中λ是平衡参数。在第二阶段，注意力蒸馏模块用KL-发散损失优化：L KL= KL（η||β）。（十四）虽然SCST [41]等增强算法被广泛用于进一步优化字幕模型，但一些研究[75]发现SCST实际上对文本到图像的基础造成了损害，因为它鼓励n-gram一致性而不是视觉语义对齐。由于我们的框架有很高的要求，优越的接地- ING性能，我们没有优化字幕模块与SCST在这项研究中，并留给未来的工作。4. 实验4.1. 数据集和评估指标数据集。没有既有图像标题又有关系标题的现有数据集。受[21]的启发，我们参考他们的数据构建过程来收集关系标题，并进一步收集图像标题，以及仅用于训练上限模型和评估的重要关系注释。具体而言，我们使用VG和MSCOCO[30]具有关系和图像标题注释的数据集。首先，我们清洗VG数据集，并保持一个大规模的词汇表，包括3,000个对象类别和800个属性。过滤关于这些类别之外的对象的关系。为了获得重要的关系注释，我们应用场景图解析器[43]从所述图像标题中提取所述关系，以及预测关系字幕的能力。此外，为了评估是否正确地找到重要关系，我们参考传统场景图生成[52，55]中的度量，即，调用@K，其中K被设置为20、50和100。在该度量下，仅重要的关系被视为基础事实，并且前K个关系被评估，这意味着预测的关系应当被排序。只有满足以下两个条件时，关系式帽才是正确的：（1）主体和对象都具有大于0.5的IoU，以及（2）METEOR分数大于上述阈值。我们平均召回不同的语言阈值。为了评估发现正确的重要对象对的性能，我们推导出Recall-ns @K度量，其仅需要上述第一个条件并且不考虑METEOR分数。4.2. 实现细节我们首先在我们数据集的3，000个类别的对象上训练具有ResNeXt-101 [54]主干的更快RCNN [40]检测器。在场景图训练期间，对象检测器的参数被冻结。更多的细节在 Supp 中给出。源代码可用在https://vipl.ict.ac.cn/resources/codes或http://www.kennethwong.tech/。4.3. 语言场景图在我们的方法中，一个共享的字幕模块训练图像字幕（IC）和关系字幕（RC），这是以前从未探索过的。我们从探索这种做法的有效性开始。为此我们15905∼表1.图像字幕结果。B1、B4、M、R、C、S表示BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDER-D，分别是Spice模型λB1B4MRCSUD [1]-69.829.625.052.394.118.00.171.130.425.152.695.318.3UD-ICRC0.30.770.770.530.030.124.925.052.552.494.694.818.118.21.071.030.024.852.593.517.9Transformer [48]-68.826.823.550.485.617.3Transformer-ICRC0.770.328.624.451.791.518.0调整平衡参数λ以控制关系字幕的损失在最终损失函数中的比例。更多值设置下的结果见附录。评价分为两个部分。在图像字幕方面，基线是Up-Down（UD）和Transformer，它们仅使用图像字幕进行训练。我们将基线与用图像字幕和关系字幕训练的 UD-ICRC 和Transformer-ICRC进行比较。从表1中，我们观察到混合训练实际上为图像字幕带来了好处，但随着λ的增加，这种好处将略有下降。实验结果表明，尽管组合关系字幕会带来一些噪声，但混合训练是可行的。在关系字幕方面，我们使用TriLSTM [21]，UD-RC和Transformer-RC作为基线，这些基线仅使用关系字幕进行训练。TriLSTM在我们的数据集上重新实现和训练。通过所生成的单词的概率的乘积对关系字幕进行排序，即，可能性如表2所示，与TriLSTM相比，UD-RC和UD-ICRC都明显优于它。将UD-RC与UD-ICRC进行比较，我们发现，随着λ的增加，UD-ICRC在图像级度量上大致表现得更好，并且当λ大于0.7.然而，在重要的关系召回指标上性能下降。我们认为这是因为λ的增大使模型更好地拟合了关系型字幕数据，而句子似然的增大则失去了区分性，不太适合于重要性估计。它还表明，无论是句子的关系字幕的可能性，也不是传统的三元组的分数产品是不稳定的重要性估计。对于Transformer，混合训练对性能影响不大综合考虑两个任务的性能，我们将λ设置为0.7，并在以下实验中冻结用于生成主题场景图的UD-ICRC /Transformer-ICRC模型。4.4. 主题场景图本文首次研究了主题语言场景图的生成。我们替换了一些关键部件，以显示我们提出的方法模型（UD-ICRC-attn）并促进消融研究。由于我们有重要的关系注释，我们训练的上限模型命名为UD-ICRC-label和Transformer-ICRC-label的监督下，注释的重要关系与二进制交叉熵损失。结果示于表3中。池化功能。池化函数P用于在多个时间步长上为每个个体对象收集注意力信息我们比较两个函数：最大池化（ MAX ）和平均池化（ MEAN ）。比较 UD-ICRC-attn部分中的第4行和第5行，最大池化函数比平均池化有效得多这是合理的，因为我们希望最大化图像标题中提到的对象的分数，而均值池降低了注意力分数，并且难以揭示关键对象。输入功能。在估计重要性分数时，我们尝试使用不同的级联特征来获得查询q，包括联合特征（U）、主语和宾语特征（ SO ）、主语、宾语和联合特征（SOU）以及主语、宾语、联合特征连同主语和宾语类别的语义嵌入（SOUS）。通过比较UD-ICRC-attn部分中的第1、3和6行以及UD-ICRC-label部分中的行，发现与U和SO相比，SOU显著提高了性能，这表明这三种类型的特征不能独立使用，因为SO提供关于对象的信息，而U提供相对空间信息。语义嵌入带来的改善并不明显，但不如上界模型那样明显。屏蔽非名词词。在收集注意信息时，我们探讨是否应该考虑句子中的所有单词与考虑所有单词不同，我们尝试了另一种方法，即只收集名词单词的注意力，因为它们可能被正确地接地到区域，而其他单词被屏蔽。为此，我们应用NLTK POS tagger [3]来过滤掉非名词词。比较UD-ICRC-attn部分中的第5行和第6行，有趣的是发现掩蔽非名词词反而损害了性能。这一现象可能暗示了语境起着至关重要的作用，非名词词也会对中心名词的注意力产生影响。总体而言，与TriLSTM，UD-ICRC和Transformer-ICRC基线相比，我们的注意力对齐模块的应用显着提高了性能，并明显减少了基线与上限之间的差距。最好的配置是使用SOUS输入功能，最大池功能和收集所有单词的注意力值得15906表2.关系字幕的结果（%）。“-RC”表示模型仅用关系字幕训练。“- ICRC”表示模型是用图像字幕和关系字幕训练的。R-ns表示召回-ns。Img-Lv。召回是指图像级召回。模型λ地图流星Img-Lv。召回R@20R-ns@20R@50R-ns@50R@100R-ns@100TriLSTM [21]-3.8030.2172.721.313.203.939.588.4220.88[1]-5.6142.4088.773.023.7110.4612.9222.9728.900.14.8438.3184.813.454.4310.2213.9920.7729.00UD-ICRC0.30.75.145.4340.3642.2686.9389.153.392.754.183.499.879.9712.8812.4021.5720.7627.9926.461.05.4142.7589.522.312.908.0910.2019.9725.56[48]第四十八话0.75.2641.6288.652.112.736.839.1216.3621.91Transformer-ICRC5.1541.6388.642.052.706.869.1916.2121.91表3.发现重要关系的结果（%）比较。“壮举”表示不同的输入特征。“P”表示池化函数。“Mask” denotes masking thenon-noun words (✓) or not壮举.P掩模R@20R-ns@20R@50R-ns@50R@100R-ns@100是说TriLSTM---1.313.203.939.588.4220.887.89UD-ICRC---2.753.499.9712.4020.7626.4612.64USOUSOUSSOUSSOUSMax最大值最大值平均值最大值✗✗✗✓✓✗7.2710.5317.1224.1030.4442.2221.957.4910.8820.6128.7937.0651.0725.98UD-ICRC-attn15.712.7421.804.5328.858.7639.3913.7141.0919.2755.7328.0533.7612.8410.7215.4321.5930.2634.4347.3426.6315.4621.8129.5540.7241.1455.6834.06U--13.0417.3525.2533.2836.7249.2229.14UD-ICRC-label所以SOU----30.1432.1738.8641.3841.4543.5753.9556.6851.5553.6567.7070.8147.2849.71个苏--34.3945.1346.0360.9754.6072.4452.26Transformer-ICRC---2.052.706.869.1916.2121.919.82Transformer-ICRC-attn个苏Max✗17.5224.9631.8844.4643.7161.1037.27Transformer-ICRC-label个苏--25.7934.6839.0653.0248.7666.4344.62关系。我们观察到，注意力对齐模块对Transformer更有效，这可能意味着Transformer中的注意力更精确。4.5. 定性结果在图3（b）中，我们可视化了在字幕期间关于每个单词的对象的注意力（紫色热图）以及对所有单词的集中注意力（红棕色热图）。可以观察到，尽管标题可能不那么精确，但是对象仍然被正确地关注（第一样本中的15个女人和3辆公共汽车，第二样本中的1个球场、6个人和16个网球拍max pooling函数突出显示标题中提到的对象。实验还发现，一个宾语可以被多个词激活，这解释了掩蔽非名词词时性能下降的原因。在图3（c）中，我们绘制了用于排序的关系的分数首先根据图像字幕引起的相似注意度β对所有关系进行排序，然后求出它们的η值和句子似然度，利用UD-ICRC-attn和UD-ICRC分别。折线图显示预测的η得分与β具有相似的趋势，因此它可以根据它们的重要性正确地对关系进行排序然而，句子似然度没有显示出这种趋势，这表明这些分数（包括传统场景图中使用的产品分数）与关系的重要性无关。在图3（d-e）中，我们还比较了主题语言场景图和来自主题的传统场景图[70]。主题语言场景图关注的是图像中更重要的人类兴趣关系。此外，语言风格的场景图允许用更合适的词以自然的方式表达关系，尽管给定的检测到的对象类别在语言上下文中可能不那么合适，例如，在第一个例子中，照片7被表示为关系中的站。4.6. 用于检索的主题场景图由于主题场景图提供了与图像中的主要事件相关的关系，因此可以将其用于图像处理。1590716 6 8 1 26347 57315 2143139028主题场景图：7-3：车站有公交车3-15：公交车在女子旁边传统场景图（图案）：14-3：车窗9-13：屋顶有阳光15-3：走路的女人在公共汽车旁边 13-3：太阳在巴士7-15：站在女子身后2-15：公交车附近停车主题场景图：13-8：太阳在杆子0-2：公交车上的广告传统场景图（图案）：6-16：人拿着网球拍6-4：人有头6-8：人拿着球拍6-1 ：人在球场上6-2 ：人在陆地上1-16：球场有网球拍4-6：人头3-4：头上有毛4-3：头上有毛5-7：植物(a)（b）（c）（d）（e）图3.定性结果。（a）对象及其边界框和id。（b）在字幕生成期间关于对象的注意力颜色越深表示权重越大。(c)绘制关系的重要性分数。沿着X轴，关系按β得分以降序排序所有的线条都是平滑的。(d-e)我们的方法和主题[70]的场景图由前5个关系组成。表4.图像检索结果使用top1关系。我们使用K处的召回率（ R@K ，越高越好）和目标图像的中值排名（Med，越低越好）。检索[23，50]。我们采用经典的图像-文本匹配模型SCAN [23]。从测试集中随机选择1,000个图像，并且收集它们的前1或前5个关系作为用于检索正确目标图像的查询。召回率（R@K，K为1，5，10）和正确检索图像的中位数排名[21]用作度量。我们运行这个过程3次，并报告平均结果。注意力对齐带来的显著改善在表4中观察到。此外，一些重大事件可以分解为多个关系，例如，图4（左列）中的查询图像的主要事件可以可以用两个关系来表示，这两个关系是我们的主题场景图给出的前两个关系。如果直接使用原始图像或传统场景图来检索相似图像，则结果可能不是期望的结果。所提出的主题场景图提供了主要事件的细粒度描述，并且使得可以指定要检索的目标内容，找回正在打电话的女人或坐在长凳。图4.左图像的主题场景图给出的两个重要关系结果显示在右栏中。5. 结论在这项工作中，我们提出了与图像字幕联合生成场景图，这样它不仅可以全面地理解图像，而且可以平衡重要和琐碎的内容。来自图像字幕的注意信息提供了强调重要关系的指导此外，我们使用一个共享的captioning模块生成场景图和图像字幕，使其以更自然的方式表达。实验结果表明，该方法的性能和可行性的重要关系挖掘没有强监督的优势。此外，主题场景图也显示了其在可控和细粒度检索方面的实用性。鸣谢。本研究得到国家重点研发计划（2020 AAA0105200）、国家自然科学基金项目（2010 - 2011）、国家自然科学基金项目（2010 - 2011）的部分资助。U19 B2036、61922080、61772500和CAS Frontier Sci-重点研究项目编号QYZDJ-SSWJSC009.女人在说话对电话女人坐着在工作台上模型R@1R@5R@10MedTriLSTM1.737.4712.83135.33UD-ICRC5.6720.4031.7327.33UD-ICRC-attn9.7331.6746.1312.33UD-ICRC-label17.7749.1767.375.6715908引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第6077-6086页，2018年。三六七[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议（ICCV）的会议录中，第2425-2433页1[3] 史蒂文 · 伯德 Nltk ：自然语言工具包。在 2006 年COLING/ACL 2006交互式演示会议的论文集，第69-72页，2006年。6[4] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议论文集，第5659- 5667页3[5] 陈世哲、秦晋、彭王、齐武。如你所愿说：使用抽象场景图对图像字幕生成进行细粒度控制。在IEEE计算机视觉和模式识别会议论文集（CVPR），第9962-9971页，2020年。3[6] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在IEEE计算机视觉和模式识别会议（CVPR）论文集，第6163-6171页2[7] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara. 网状记忆 Transformer 器的图像captioning。在计算机视觉和模式识别（CVPR）集，第105783[8] Bo Dai，Yuqi Zhang，and Dahua Lin.用深层关系网络检测视觉关系。在 IEEE计算机视觉和模式识别会议（CVPR）论文集，第3298-3308页，2017年。2[9] Michael Denkowski和Alon Lavie流星通用：针对任何目标语言的特定语言翻译评估。统计机器翻译研讨会论文集，第376-380页，2014年。5[10] Santosh K Divvala、Ali Farhadi和Carlos Guestrin。学习关于任何事情的一切：Webly监督的视觉概念学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3270-3277页，2014年。2[11] 乔纳森·戈登和本杰明·范·杜尔梅。报告偏差和知识获取。在自动化知识库构建研讨会论文集，第25-30页，2013年。2[12] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，Handong Zhao，Xu Yang，and Gang Wang.通过场景图对齐的不成对图像字幕。在《IEEE In-国际计算机视觉会议（ICCV），第10323-10332页，2019年。3[13] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在IEEE计算机视觉和模式识别会议中，第1969-1978页，2019年。2[14] Hamed R.Tavakoli，Ali Borji，and Nicolas Pugeault.图像字幕中的人的注意力：数据集和分析。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第8529-8538页，2019年。二、三[15] Simao Herdade ， Armin Kappeler ， Kofi Boakye ， andJoao Soares.图片说明：将物体转化为文字。神经信息处理系统进展（NeurIPS），第11137-11147页，2019年。3[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735-1780，1997. 3[17] Lun Huang，Wenmin Wang，Jie Chen，and Xiao-YongWei.注意注意图像字幕。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第4634-

下载后可阅读完整内容，剩余1页未读，立即下载