没有合适的资源?快使用搜索试试~ 我知道了~
基于Transformer的纠缠注意力机制用于图像字幕的研究
1用于图像字幕的纠缠TransformerGuang Li Linchao Zhu Ping LiuYiYangReLER,悉尼lguang@live.cn,linchao. uts.edu.au,pino. gmail.com,yi. uts.edu.au摘要在图像字幕中,典型的注意机制很难识别等价的视觉信号,特别是在预测高度抽象的单词时。这种现象被称为视觉和语言之间的语义鸿沟。这个问题可以通过提供与语言同源的语义属性来克服。由于固有的递归性质和门控操作机制,递归神经网络(RNN)及其变体(a). 一个人站在雪地里。(b). 两个孩子站在雪地里。(c). 一个女人和一个孩子在雪地里滑雪是图像字幕的主要架构然而,当设计复杂的注意力机制来整合视觉输入和语义属性时,由于其复杂性,类似RNN的变体变得不灵活在本文中,我们研究了一个基于transformer的序列建模框架,只建立了注意层和前馈层。为了弥合语义差距,我们引入了纠缠注意力(ETA),使Transformer同时利用语义和视觉信息。此外,门控双边控制器(GBC)的建议,以指导多模态信息之间的相互作用。我们将我们的模型命名为ETA-Transformer。值得注意的是,ETA-Transformer在MSCOCO图像字幕数据集上实现了最先进的性能烧蚀研究验证了我们提出的模块的改进。1. 介绍图像字幕[39,18]是试图打破视觉和语言之间的语义鸿沟的基本任务之一[4,39,47为了生成好的图像字幕,它不仅涉及到许多概念的理解,如对象,动作,场景,人与物体的相互作用,但也表示这些因素及其关系在一个自然的语言。最近,引入了注意力机制[41,44,12]来动态地概括每个单词的输入图像的显著在以前的图像字幕作品[41,44,12]中,注意力机制主要存在于两个领域,基于图1:图像字幕的结果时,给定的不同-输入模态信息。(a)仅使用低级视觉特征提供不令人满意的字幕结果。当提供有从区域建议引导的高级视觉信息预测图中的“二孩”。然而,它仍然无法抓住图像中的抽象概念,例如,滑雪(c)是在利用来自补充模式的信息时的结果:视觉和语义。这是三种描述中最准确的结果。他们使用的信息的形式:视觉注意与语义注意。一方面,视觉注意力利用低级特征图[41]或高级对象ROI池特征[29,2]来识别单词的最相关区域。然而,由于语义鸿沟,并非字幕中的每个词都有相应的视觉信号[25],特别是与抽象概念和复杂关系相关的标记。图1显示了这种障碍的一个例子。另一方面,研究者开发了语义注意力[44,12],它可以直接杠杆化高层语义信息。尽管如此,由于递归的性质,RNN [11,27,34]在记忆许多步骤之前的输入时有困难,特别是最初的视觉输入。因此,这种方法往往会崩溃成高频短语片段,而不考虑视觉线索。如图1(c)所示,两者的组合8928在,滑雪,雪,儿童,妇女,…8929补充注意范式可以缓解语义鸿沟的负面影响。因此,Li等人。 [22]提出了一个两层的LSTM [17],在每一层分别进行视觉和语义关注。Yao等人 [42]使用图卷积神经网络来探索空间和语义关系。他们使用后期融合来组合两个在不同模态上独立训练然而,由于RNN固有的递归性和复杂的运行机制,RNN无法同时探索这两种互补的模式。为了解决上述问题,我们使用我们提出的纠缠注意力(ETA)和门控双边控制器(GBC)扩展了高效简单的Transformer [37]框架,以同时探索视觉和语义信息。ETA的设计灵感来自于关于人类视觉系统的研究[7,35],表明人类视觉注意中注意区域的选择可以受到先前语言输入的影响为了模拟这种现象,我们使用信息注入操作来融合输入查询与来自初始模态的信息。然后在初始模态的引导下进行对目标模态的注意。随后,目标视觉和语义模态的表示在GBC的通道控制下传播到下一层。我们的方法的优点如下。首先,Transformer [37]框架的简单性使我们摆脱了递归神经网络的局限性。其次,在编码器中应用自我注意力,鼓励我们的模型探索检测到的实体之间的关系我们的方法可以有效地利用信息在目标模态的指导下,初步模态。第三,建议的双边门控,GBC,可以共同促进我们的模块提供复杂的控制多模态信息的传播。由于内聚性,我们的注意力模块可以很容易地应用到Transformer,而不会违反其并行性和模块化。我们的贡献可归纳如下:(1) 我们设计了一种独特的(2) 我们提出了门控双边控制器-一种(3) 我们在MSCOCO数据集上全面评估了我们的方法[24],我们的方法达到了最先进的性能。2. 相关工作注意视觉字幕。 希望努力[41,29,44,12,25,2,40]研究了对单模态信息的注意,许多作品也试图将视觉和语义信息结合起来。 Yao etal. [43]证明多模态信息可以有助于图像字幕问题,并研究如何在LSTM框架下使用语义属性。Li等人。 [22]提出了一种两层视觉语义LSTM,它在不同层进行视觉注意力和语义注意力。为了探索对象和语义属性之间的关系,Yao等人。 [42]在编码阶段应用图卷积神经网络。Tang等人。 [36]利用场景图来调整视觉和语言之间的关系。这些方法仅在每种情态中单独进行,未能探索视觉信息和语义信息的互补性共同关注VQA。在视觉问答(VQA)中广泛使用的共同注意机制[26,45,13,21可以联合探索视觉和语义信息但VQA的主要关注点是基于问题识别最相关的视觉区域。因此,VQA中的注意机制主要是查询具有语义特征的视觉区域。然而,在图像字幕,最显着的语义属性也应该被识别。模型结构。RNN的递归性质在每个时间步稀释了长期信息[33]。为了消除长时记忆中的灾难性遗忘,Gu et al.[15]引入时间CNN以在生成过程的每一步施加经验语义信息。此外,为了克服RNN固有的递归性质,Gehring et al. [14]建议使用卷积神经网络(CNN)来建模序列到序列问题。之后,Aneja等人。 [3]将此模型应用于图像字幕。与局部卷积运算的感受野由核大小和层深度决定不同,自注意具有全局性。此外,只有少数尝试[5,46,31]在视觉字幕中使用Transformer。3. 初步为了克服RNN模型中固有的递归性,Transformer重新制定了等式中隐藏状态的计算。1.一、因此,当前时间步ht的隐藏状态仅取决于输入图像和历史单词的特征嵌入,而不是先前的隐藏状态ht-1。这个公式使Transformer模型能够并行执行。ht=TransformerDecoder(I; w1,. . .,wt−1)(1)为了处理可变长度的输入,如图像区域和单词序列,Transformer使用了attention8930视觉子编码器狗语义子编码器vN0vN1vN&v线性+Softmax中国(N0(N1(&)不v1美元0v1美元1v1美元&vN×普雷1美×N0(1(1元1(1&)前馈前馈…前馈前馈前馈前馈…前馈Self-AttentionSelf-AttentionSelf-Attention不ETA+GBC3美元1Self-AttentionSelf-AttentionSelf-Attention不Self-Attention2美元1vl0vl1vl&v(l)0(l)1(l)/l0tv00v01v&0×N000v*+t多模解码器(0(一()语义属性区域提案上,人行道街道,狗,自行车,自行车,铺设,d×d∈∈我∈我我我我我我H一只白色的狗躺在人行道上,旁边是一辆自行车。图2:ETA-Transformer的整体架构我们的模型由三个部分组成:视觉子编码器,语义子编码器,和多模态解码器。 生成过程分为三个步骤:(1)区域建议和语义属性的检测;(2)视觉特征和语义特征分别编码;(3)逐词解码得到最终字幕。请注意,将省略“残余连接”、“层规格化”和“嵌入层”。以将不固定数量的输入转换为统一的表示。此外,在编码器和解码器中都采用位置编码[37]来注入顺序信息。有两种特殊的注意力机制,空间分开:MultiHead(Q,K,V)= Concat(H1,. . .,Hh)WO,Hi=注意(QWQ,KWK,VWV)(三)其中WQ,WK,WV∈R是独立头产品注意力[37],其中内积被应用于计算注意力权重。 给定来自所有m个查询的查询qi,一组键ktRd和值vtRd,其中t = 1,. . . ,n,则缩放的点积注意力输出值v,t的加权和,其中权重由查询q,i和关键字k,t的点积确定。 为了通过高度优化的矩阵乘法代码来实现点积 操 作 , 查 询 、 键 和 值 被 一 起 打 包 到 矩 阵 Q=(q1,. . .,qm),K=(k1,. . . ,kn),并且V =(v1,. . . ,vn)。实际上QKTAttention(Q,K,V)=Softmax(Kld)V,(2)其中d是输入特征向量的宽度。为了扩展探索子空间的能力,trans-former采用了多头注意力[37],它由h个平行缩放的点积注意力组成,称为头。包括查询、键和值的输入被投影到h个子空间中,并且注意力在子空间中执行。投影矩阵,i= 1,2,. . .,h和WORd×d表示线性变换。注意,为了表达简洁,省略了线性层中的偏置项,并且随后的描述遵循相同的原理。4. 方法在本节中,我们设计了我们的ETA-Transformer模型。如图2所示,整个架构遵循编码器-解码器范例。首先,双向编码器将原始输入映射为高度抽象的表示,然后解码器同时合并多模态信息以逐词生成字幕。4.1. 双路编码器在大多数情况下,像VGG [32]或ResNet [16]这样的CNN首先被考虑用于编码视觉信息,而Transformer编码器最初是为序列建模而设计的然而,我们认为,一个Transformer编码器与复杂的设计可以更好地探索之间的相互关系和内部的视觉实体和语义属性。具体来说,我们设计了一个双向编码器属性检测器提案检测器Transformer模型。我们从这个缩放的点开始-8931≤t∈不·,t不∈,A不·,t∈∈∈∈∈不 ∈1不≤∈它由两个子编码器组成每个子编码器是自关注的并且具有相同的结构,即,一堆N个身份证,其中W< tRd×t和w0是表示句子开始的标记的特征向量。卡尔·布洛克。对于第(1+ 1)个块,输入H1∈Rd×t=以第l个(0l N)块OlRd×n的输出为例。它们首先被馈送到第(l+ 1)块中的多头自注意模块中(hl,. . .,hl)被馈送到多头自注意子层中,注意h0对应于wt-1:A1+ 1=多头(H1,H1 ,Hl),(7)M1+ 1=MultiHead(O1,O1,O1),(4)·,t·,t t t其中HlRd×1l·,t ∈Rd×1,且h0=wt−1。通知其中Ml+1是通过多头注意力计算的隐藏状态。查询、键和值矩阵具有相同的形状。注意O0是嵌入层的输出。W
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功