没有合适的资源?快使用搜索试试~ 我知道了~
基于抽象场景图的细粒度控制下的图像字幕生成
9962如你所愿:基于抽象场景图的图像字幕生成的细粒度控制陈世哲1人,秦进1人,王鹏2人,吴起3人1中国人民大学、2西北工业大学、3阿德莱德大学{cszhe1,qjin}@www.example.com,www.example.comruc.edu.cn @peng.wang nwpu.edu.cn,adelaide.edu.au摘要人类能够按照自己的意愿以从粗到细的细节描述图像内容然而,大多数图像字幕模型是意图不可知的,不能根据不同的用户意图主动生成不同的描述。在这项工作中,我们提出了抽象场景图(ASG)结构来表示细粒度级别的用户意图,并控制生成的描述应该是什么和如何详细。ASG是一个有向图,由三种类型的抽象节点(对象、属性、关系)组成,这些抽象节点以图像为基础,没有任何具体的语义标签。因此,很容易手动或自动获得。在ASG的基础上,我们提出了一种新的ASG2Caption模型,该模型能够识别图中的用户意图和语义,从而生成符合图结构的字幕。我们的模型实现了更好的可控性条件下,ING ASG比精心设计的基线上Vi- sualGenome和MSCOCO数据集。它还通过自动采样不同的ASG作为控制信号,显著提高了字幕的多样性。代码将在https://github.com/cshizhe/asg2cap发布。1. 介绍图像字幕是一个复杂的问题,因为它需要机器同时完成多个计算机视觉任务,如目标识别、场景分类、属性和关系检测,然后用一句话概括由于深度学习的快速发展[12,13],最近的图像字幕模型[3,31,40]取得了实质性进展,甚至在几个基于准确度的评估指标方面优于人类[5,27,36]。然而,大多数图像字幕模型是意图-这是陈世哲访问阿德莱德大学时的作品†秦晋为通讯作者。图1:尽管与意图无关的标题可以正确地描述图像内容,但它们无法实现用户想要描述的内容,并且缺乏多样性。因此,我们提出了抽象场景图(ASG)来控制用户所需的和不同的图像字幕的生成在细粒度的水平。相应的区域、ASG节点和生成的短语用相同的颜色标记。不可知的,并且仅被动地生成图像描述,其不关心用户对什么内容感兴趣,以及描述应该有多详细。相反,我们人类能够按照我们的意愿从粗到细描述图像内容。例如,如果我们被要求这样做,我们可以在图1中描述更多有区别的细节(例如数量和颜色),但是当前的系统无法实现这样的用户意图。更糟糕的是,这种被动的标题生成会极大地阻碍多样性,并倾向于生成平庸的描述[34,38]。尽管达到了很高的准确性,这些描述主要捕捉频繁的描述模式,并不能代表整体的图像理解,这是为了识别图像中的不同方面,从而能够产生更多样化的描述。为了解决上述限制,很少有先前的努力提出主动控制图像字幕处理。一种类型的作品[8,11,25]集中在9963在控制意象描写的表现风格如写实、浪漫、幽默等方面,另一种是控制描述内容,如不同的图像区域[15]、对象[6,48]和词性标签[7],使模型能够描述图像中用户然而,所有上述工作只能处理粗粒度的控制信号,如独热标签或一组图像区域,这是很难实现用户期望的控制在细粒度的水平,例如描述各种对象在不同层次的细节以及它们的关系。在这项工作中,我们提出了一个更细粒度的控制信号,抽象场景图(ASG),代表不同的意图可控的图像字幕生成。如图1所示,ASG是一个有向图,由三种类型的抽象节点组成,这些抽象节点以图像为基础,即对象、属性和关系,而每个节点都不需要具体的语义标签。因此,这种图结构很容易手动或自动获得,因为它不需要语义识别。更重要的是,ASG能够反映用户为了生成字幕相对于指定的ASG,然后,我们提出了一个ASG 2Caption模型的基础上的编码器-解码器框架。该模型解决了ASG控制的图像字幕生成中的三个主要挑战。首先,请注意,我们的ASG只包含一个抽象的场景布局,没有任何语义标签,有必要在图中捕获意图和语义。因此,我们提出了一个角色感知的图编码器来区分细粒度的节点意图角色,并通过图上下文增强每个节点以提高语义表示。其次,ASG不仅通过不同的节点来控制描述什么内容,而且通过节点之间的连接方式来隐式地决定描述顺序。因此,我们提出的解码器同时考虑节点的内容和结构,以注意按图流顺序生成所需的内容最后但并非最不重要的一点是,重要的是要充分涵盖信息在ASG没有遗漏或重复。为此,我们的模型在解码过程中逐渐更新图表示,以跟踪图访问状态。由于没有可用的数据集与ASG标注,我们自动构建ASG的训练和评估两个广泛使用的图像字幕数据集,VisualGenome和MSCOCO。大量的实验表明,我们的方法可以实现更好的可控性,指定的ASG比仔细设计的基线。此外,我们的模型是能够生成更多样化的字幕的基础上自动采样的ASG描述图像的各个方面。我们的工作贡献有三个方面:• 据我们所知,我们是第一个提出抽象场景图的细粒度控制-标签图像字幕。它能够控制字幕生成过程中的细节级别(例如,是否应包括属性,关系)。• 提出的ASG2Caption模型包括一个角色感知的图形编码器和图形语言解码器,用于自动识别抽象图形节点,生成具有预期内容和顺序的字幕。• 我们在两个数据集上实现了最先进的可控性我们的方法也可以可以很容易地扩展到自动生成的ASG,这是能够产生不同的图像描述。2. 相关工作2.1. 图像字幕图像字幕[3,9,37,39,40]基于神经编码器-解码器框架[35]实现了显著改进Show-Tell模型[37]采用卷积神经网络(CNN)[12]将图像编码为固定长度的向量,并使用递归神经网络(RNN)[13]作为解码器以顺序地生成字。为了捕捉细粒度的视觉细节,提出了专注的图像字幕模型[3,23,40],以动态地将单词与生成的相关图像部分为了减少顺序训练中的暴露偏差和度量不匹配[29],使用强化学习[22,31,41]来优化不可微的为了进一步提高准确性,在字幕框架中采用检测到的语义概念[9,39,45]从大规模外部数据集学习的视觉概念也使模型能够生成具有配对图像captioning数据集之外的新对象的字幕[1,24]。在图像字幕中进一步探索了一种更结构化的概念表示,场景图[16][43,44在这项工作中,我们建议采用抽象场景图(ASG)作为控制信号来生成意图感知和多样化的图像字幕,而不是使用完全检测到的场景图(这已经是一项挑战性很强的任务[46,47])来提高字幕准确性ASG便于与用户进行交互以在细粒度级别上控制字幕,并且比完全检测的场景图更容易自动获得。2.2. 可控图像字幕生成可控文本生成[14,18]旨在根据指定的控制信号生成句子,这对人类来说更具交互性和可解释性。对于图像字幕的控制大致有两种类型,即样式控制和内容控制。 样式控制 [8,11,25,26]旨在以不同的风格描述全局图像内容由于成对的风格化文本在训练中很少,最近的研究[8,11,25]主要是将风格代码从语义内容中分离出来,并应用非成对的风格迁移。9964图2:提出的ASG2Caption模型由一个角色感知的图形编码器和一个图形语言解码器组成 给定图像I和ASG G,我们的编码器首先将每个节点作为角色感知嵌入,并采用多层MR-GCN来编码G m中的图上下文。 然后,解码器动态地将图的内容和图流注意ASG控制的字幕。在生成一个字之后,我们将图Xt-1更新为Xt,以记录图的访问状态。相反,内容控制工作[6,15,42,48]旨在生成捕获图像中不同方面的字幕,例如不同区域,对象等,这与整体视觉理解更相关Johnson等人[15]是第一个提出密集字幕任务的人,它检测和描述图像中的不同区域。Zheng等[48]将模型约束为涉及人类相关对象。Cornia等人[6]在生成的描述中进一步控制多个对象除了在对象级上进行操作外,Deshpandeet al. [7]采用词性(POS)语法来指导字幕生成,但主要集中在提高多样性,而不是POS控制。超越单一图像,Parketal.[28]建议只描述两个图像之间的语义差异。然而,上述工作都不能控制字幕生成在更细粒度的水平。例如,是否应该使用(以及使用多少)关联属性?是否应该包括其他对象(及其相关关系),描述顺序是什么?在本文中,我们提出了利用细粒度的ASG来控制指定的结构的对象,属性和关系在同一时间,并使生成更多样化的字幕,重新-反映出不同的意图3. 抽象场景图为了在细粒度级别上表示用户意图,我们首先提出了一个抽象场景图(ASG)作为控制信号,用于生成定制的图像字幕。图像I的ASG表示为G=(V,E),其中V和E分别是节点和边的集合。如图所示在图2的左上方,根据节点的意图角色,可以将节点分为三种类型:对象节点o、属性节点a和关系节点r。用户意图被构造成G如下:• 将用户感兴趣的对象oi添加到G,其中对象oi以具有对应边界框的I为基础;• 如果用户想知道oi的更多描述性细节,则将属性节点ai,l添加到G,并将从oi到ai,l的有向边分配。|是关联属性的数量,因为允许o i有多个a i,l;|isthe number of associative attributes since multiple ai,lfor o iare allowed;• 如果用户想描述oi和oj之间的关系,其中oi是主语,oj是宾语,则将关系节点ri , j添加到G,并分别分配从oi到ri,j和从ri,j到oj的有向自动或人工构造ASG都很方便请注意,我们的ASG只是一个没有任何语义标签的图形布局,基于现成的对象建议网络和二元关系分类器可以准确地生成一个完整的图像ASG,以判断两个对象是否然后,用户可以很容易地从完整的ASG中选择子图,或者可以应用自动采样补充材料中提供了自动生成ASG的详细信息。4. ASG2Caption模型给定图像I和指定的ASGG,目标是生成与G严格对齐的流畅句子y={y1,···,yT}以满足用户在本节中,我们提出了拟议的ASG 2Caption模型,该模型是illustrated-在图2中显示。我们将分别在4.1节和4.2节中描述所提出的编码器和解码器,然后在4.3节中描述其训练和推理策略。4.1. 角色感知图编码器该编码器被提出来将在图像I中接地的ASG G编码为一组节点嵌入X={x1,· · ·,x| V|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}9965我我t−1不不不不我我我∗不t tt−1不t,i ct首先,xi除了反映视觉外观外,还应反映其意图作用,这对于区分对象和连接的属性节点尤其重要,因为它们都位于同一区域内。其次,由于节点不是孤立的,来自邻居节点的上下文信息有利于识别节点的语义含义。因此,我们提出了一个角色感知图编码器,它包含一个角色感知节点嵌入来区分节点意图和一个用于上下文编码的多关系图卷积网络(MR-GCN)[32角色感知节点嵌入。 对于G中的第i个节点,我们首先将其初始化为其对应的视觉特征vi.具体地,从目标节点的特征中提取目标节点的特征图像中的接地包围盒;属性节点的特征与其连接对象相同;从两个对象的联合包围盒中提取关系节点的特征。由于单独的视觉特征不能区分不同节点的意图角色,我们进一步用角色嵌入增强每个节点,以获得角色感知的节点嵌入x(0),如下所示:最终节点嵌入X.我们取X的平均值,并通过线性变换将其与全局图像特征融合,以获得全局编码图嵌入g′。4.2. 图的语言解码器解码器的目的是将编码的G转换为图像字幕。与以前的工作不同,这些工作涉及一组不相关的向量[23,40],我们的节点嵌入X包含来自G的结构化连接,这反映了不应忽略的用户指定顺序。 此外,在或-为了充分满足用户的意图,重要的是要表达G中的所有节点,而不遗漏或重复,而以前的注意力方法[23,40]几乎没有考虑被关注向量的访问状态。因此,为了提高图到句子的质量,我们提出了一种语言解码器特别是对于图,其包括考虑图语义和结构的基于图的注意机制,以及保持已描述或未描述的内容的记录的图更新机制解码器概述。解码器采用两层LSTM结构[3],包括注意力LSTM和x(0)=vi<$Wr[0],如果i∈o;v i<$(W r[1]+pos[i]),如果i∈ a;v i<$W r[2],如果i∈ r.(一)LSTM语言注意力LSTM将全局编码的嵌入g',预编码的嵌入wt-1和来自语言LSTMhl的先前输出作为com的输入。其中Wr∈R3×d是角色嵌入矩阵,d是特征维度,Wr[k]表示Wr的第k行,并且把一个细心的查询ha:ha=LSTM([g<$;wt−1;hl],ha;θa)(3)不pos[i]是一个位置嵌入,用于区分t−1t−1不同属性节点连接同一对象。多关系图卷积网络。虽然ASG中的边是单向的,但连接的节点之间的影响是相互的。此外,由于节点是不同类型的,因此消息从一种类型的节点传递到另一种类型的节点的方式与其逆节点的方式不同其中[;]是向量级联,θa是参数。我们将第t步的节点嵌入表示为Xt={x t,1,···,x t,|V|其中X1是编码器X的输出。 h a用于通过所提出的基于图的注意力机制从X t中检索上下文向量z t。然后是语言LSTM被输入zt和ha,以顺序生成单词:方向因此,我们用不同的双向边扩展了原始的ASG,这导致了多关系hl= LSTM([zt;ha],hl;θl)(4)图Gm={V,Em,R}用于上下文编码。具体来说,R中有六种类型的边来捕捉相邻节点之间的相互关系,分别是:客体对属性、主体对关系、关系对客体及其反方向。我们采用MR-GCN来如下编码Gm中的图形上下文:p(yt|y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功