双信息流网络：解决图像字幕生成中的视觉信息不足问题

88 浏览量更新于2023-10-25 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18020DIFNet：提升图像字幕吴明瑞1岁，张旭英1*，孙小帅124，赵毅1，陈超3，顾嘉欣3，孙星3，季荣荣1241厦门大学信息学院媒体分析与计算实验室，361005。2厦门大学人工智能研究所3腾讯优图实验室4厦门大学可信人工智能分析与应用福建省工程研究中心，361005。mingrui0001@gmail.com，www.example.com，zhangxuying@stu.xmu.edu.cn，www.example.com，网址：xssun@xmu.edu.cn，网址：zhouyiyi@xmu.edu.cn，网址：www.example.com{aaronccchen，jiaxingu} @ tencent.com，winfred. gmail.com，rrji@xmu.edu.cn摘要当前的图像字幕（IC）方法基于来自视觉特征提取器的输入视觉信息和部分生成的然而，在大多数情况下，由于视觉信息的不足，部分生成的句子可能会主导目标词的预测，使得生成的描述与给定图像的内容无关。本文提出了一种双信息流网络（DIFNet1）来解决这个问题，它将分割特征作为另一个视觉信息源，以增强视觉信息对预测的贡献。为了最大限度地利用两个信息流，我们还提出了一个有效的特征融合模块，称为迭代独立层规范化（IILN），它可以压缩最相关的输入，同时重新训练，ING在每个流中的特定于模态的信息实验表明，该方法能够增强预测对视觉信息的依赖性，使单词预测更加关注视觉内容，从而在MSCOCO数据集上实现了新的最先进的性能，例如. 、136.2 CIDEr对COCO Karpathy进行测试拆分。1. 介绍图像字幕是基于给定图像以自然语言生成描述的任务。它需要一个模型来从多个方面理解给定的图像，包括识别对象，动作以及关系，并为该图像生成语言描述。*同等贡献†通讯作者1源代码可从以下网址获得：https://github.com/mrwu-mac/ DIFNet特征提取经典集成电路范式…talking on a cell字幕费Partially Generated Sentence:A baby sitting on the floor…DIFNet特征提取IC型号遥控器事实真相：一个孩子拿着电视遥控器就像拿着电话一样。图1.流行的字幕模式（顶部）和建议的双重信息流网络（DIFNet）之间的比较。（底部）。与现有的方法相比，DIFNet引入了双重信息流的视觉表示，以促进可靠和准确的图像理解。受神经机器翻译发展的启发，编码器-解码器框架已被广泛应用于图像字幕任务。编码器将由离线基于CNN的网络提取的一组视觉特征（例如网格特征[10]）作为输入，并将其进一步编码到视觉语言空间中。然后解码器使用编码器提供的视觉信息和部分生成的字幕来预测下一个单词。大多数现有的方法[5，9，22]都遵循这种范式来构建其上限网络，如图所示。1（顶部）。然而，它们有一个主要缺点：来自视觉特征提取器的视觉信息是不充分的并且有时是不准确的。尽管特征提取器的研究已经取得了很大进展[15，25]，但关键的视觉信息，如动作和深度信息，仍然可能被忽略，即使使用强大的视觉语言预训练模型[8]。上述缺点导致视觉信息不足18021信息流的解码器，迫使解码器过度依赖于部分生成的字幕预测其余的话，以确保流畅的生成的描述。这个问题最终使得所生成的描述与实际视觉内容无关，如图1（顶部）所示，基线模型生成不正确的短语“在手机上讲话”，为了克服这些缺点，最近的作品[15，19，31，37]引入了高级视觉线索，如概念，以补充视觉信息。然而，由于语义不一致[17]和空间不对齐，需要额外的融合模块来将这些线索与视觉特征对齐，这是低效的，并且难以与具有网格特征的IC模型结合。相比之下，本文考虑了一种新类型的线索，即分割图，其中区域语义自然与网格特征对齐如图1（底部），分割图可以被视为空间语义指导，并为网格特征提供粗粒度的上下文，以促进图像理解。一方面，它的像素级类别信息有助于纠正由于网格特征中的不可靠信息而误判的类别。另一方面，它的空间信息也有助于推断潜在的语义和空间关系。基于此，我们提出了一种双信息流网络（DIFNet），它将分割特征作为另一种视觉信息源来补充网格特征，从而增强视觉信息对可靠预测的贡献由于网格特征和分割特征很容易融合，因此只需要一种简单的融合方法。为了最大限度地发挥两个视觉信息流的优势，我们提出了一种有效的特征融合模块，称为迭代独立层归一化（IILN），它可以通过一个共同的LN层压缩最相关的输入，同时通过私有LN层重新训练每个流中的特定于模态的信息。注意到某些难以捕获的视觉信息可能会被注意层直接过滤掉，我们采用了额外的跳过连接来进一步增强编码器和解码器内部和之间的信息流我们评估我们的方法在MSCOCO基准的图像字幕，我们的pro-pronunciation的有效性得到了很好的验证。特别是，我们提出的模型实现了MSCOCO的新的最先进的性能DIFNet在单模型设置下的COCO Karpathy测试分裂中获得136.2 CIDEr得分。为了获得更多的见解，我们应用分层相关传播（LRP）[4]来估计视觉信息和部分字幕上下文对预测的贡献，其结果表明我们提出的模型可以增强视觉信息对预测的贡献。我们的贡献是：• 我们提出了一个双信息流网络（DIFNet），它采取的分割功能作为一个额外的视觉信息源。DIFNet可以增强视觉内容对预测的贡献• 我们提出了一个功能融合模块，称为迭代独立层规范化（IILN），它可以凝聚最相关的输入由一个共同的LN层，同时重新训练特定于模态的信息，在每个流通过私人LN层。• 实验表明，我们的方法可以提高预测的视觉信息的依赖性，并取得了显着的性能改善超过了国家的最先进的MSCOCO基准。2. 相关工作图像字幕。编码器-解码器框架已被图像字幕模型广泛采用[2，5，9]。然而，大多数先前的方法通常通过增加模型复杂度来遵循单流流水线和设计架构。最近的作品[15，31，37]引入了概念，属性和标签来增强视觉语义，但它们很难与视觉特征对齐[17]。而不是使用的概念，属性和标签，我们使用的分割功能作为第二个信息流，以提高视觉表示。全景分割。全景分割任务[13，33]统一了实例分割任务和语义分割任务。它可以识别像素的语义类，同时为给定图像中的“人”等为了利用分割线索，HIP [36]构建了一个层次结构解析架构，以关联图像字幕的实例级、区域级和图像级特征与HIP不同的是，我们使用分割图来构建结构化的视觉语义表示，它保留了原始图像的空间结构信息，并且更容易与网格特征融合。多模态融合。对于多模态融合已经做了大量的工作[17，20，21，30]。早期的方法使用简单的聚合操作（例如级联[21]）来组合多模式子网络。最近的方法使用跨模态注意力机制[17]来对齐来自不同模态的数据，同时仍然保留所有模态的子网络。为了减少维护多个参数所带来的计算能力负担，一些工作[30]使用共享参数并将规范化层私有化以维护特定的参数。在此基础上，我们设计了一个迭代独立层规范化模块，用于多通道融合和交互.18022--∈F∈×--×--·图2.我们的DIFNet架构概述。首先沿着网格流和分割流提取网格特征和分割特征。接下来，分割功能和网格功能融合在一起，我们提出的IILN模块，以丰富的视觉推理的信息。此外，额外的跳过连接被探索以进一步增强编码器和解码器内部和之间的信息流3. 预赛我们首先提供图像字幕问题的定义。给定一个图像I，它可以由一个感-其中A={w，w，. . .，w}由L组成其中，σ（）是ReLU激活函数，LN是层归一化[3] ， X = x1 ，x2 ，.. - 是的 - 是的， xN ，由N（N=H′W′）个令牌组成。然后编码器组成的一个堆栈的NeTransformer话让12升图层用于将X映射到Z。每个Transformer层V表示通过离线视觉特征提取器从图像I中提取的网格视觉特征[10]，其中V=v1，v2，. . .，vN由N个网格组成，viRDv. 类似于大多数现有的字幕系统[5，9]，我们的工作是基于编码器-解码器转换器[27]，它将网格特征V编码为连续表示Z的序列，然后对其进行有两个子层，多头自注意（MHSA ）和位置前馈（PWFF）网络[27]，每个子层围绕剩余连接[7]和层归一化。我们将Transformer层Z1+ 1=Transformer（Z1）表示为M=LN（MHSA（Zl）+Zl），与先前生成的单词配对以生成输出yt。该模型以自回归的方式在每个时间步在句子中产生一个单词[6]。这个站-Z1+ 1=LN（PWFF（M）+M），其中LN是层归一化。（四）标准范例可以表述为：yt= F1（Ev（V），w0，w1，w2，. - 是的- 是的，w t−1），（1）其中Ev是视觉编码器，l是语言解码器，w0是一个开始符号。3.1. Transformer体系结构Transformer是一个序列转换模型。为了处理2D输入，我们需要将它们转换为一系列1D令牌，如下所示：U′=Flatten （ Pool （ U ）），（2）其中U是视觉特征（原始栅格特征ORH× W × Dv或分割特征S（将在第2节中讨论）。4.1）），U ′= u′1，u′2，. - 是的- 是的，u′N为输入视觉特征序列（如V），Pool为输出大小为H′W ′的 AdaptiveAvgPool2d 。 Then we use a linear projec- tionmapping each token to Rdmodel, as follows,X=LN（σ（W1U′+b1），（3）提取器特征嵌入式功能DIF编码器DIF解码器网格流输入图像⋯预测ytXv分割流程Transformer解码器图片说明：一只白色的狗躺在人行道上，旁边是一辆⋯[w0，w1，XsIILN层×��Transformer层×（N −）18023解码器由Ndtrans-n序列组成前一层，每一层在MHSA和PWFF中间插入第三子层，其将编码器的输出和MHSA的输出作为输入，更多细节参考Transformer [27]。4. 方法在本节中，我们描述了我们提出的DIFNet，它使用分割功能和额外的跳过连接来增强视觉信息流。图2给出了DIFNet的概况。我们首先描述了分割特征的介绍（第二节）。4.1）。然后，我们研究了VSA融合方法，并描述了我们的IILN融合方法（Sec.4.2）将分割特征与网格特征相融合。接下来，我们讨论使用额外的跳过连接来增强视觉信息流（第二节）。4.3）。培训详情见第2节。4.44.1. 分割特征全景分割图包含了每个像素的语义类别信息和判别实例18024∈∈布拉夫SvvZ l+1=Transformer（Z l+Z l），ifl==L;Zl+1=Transformer（ZlvvvsvsM =LN（M+Z; α，β）。∈∈信息.因此，全景分割图可以被视为一个高层次的视觉语义线索，并提供了一个粗粒度的上下文。为了简单有效地拟合网格特征，我们只从全景分割网络的语义分割头中提取语义分割图而不是全景分割图，然后将其转换为语义特征向量S，其中SRH×W ×C，C，H和W分别为类数，高度和宽度。语义特征向量S的每个维度是表示语义类别的位图。在另外集成分割特征之后，我们的范例可以被公式化为：yt= F1（Ev（V，S），w0，w1，w2，. - 是的-是的，w t−1），（5）其中Ev是视觉编码器，Fl是语言解码器。4.2. 融合网格和分段在本节中，我们将展示如何在Transformer中集成这两种输入表示。我们首先调查的融合策略VSA，然后提出我们的融合方法IILN。通过香草自我注意力融合。我们首先讨论VanillaSelf-Attention（VSA）[20]融合方法，该方法简单地使用Transformer层对两个输入序列进行编码和融合。给定网格输入序列XvRN×d模型和分割输入序列XRN×d模型，我们首先分别用Transformer层对它们进行编码，使得每一个表示都能在不同的编码层上得到不同的表示++PWFF++常见LN++MHSA私人LN私人LN私人LN图3. Iterative Independent LN（IILN）模块通过迭代独立LN进行融合。我们提出迭代独立层归一化（IILN），以克服上述问题。Transformer编码器层配备IILN时，

下载后可阅读完整内容，剩余1页未读，立即下载