没有合适的资源?快使用搜索试试~ 我知道了~
7435Seq-SG 2SL:通过序列到序列学习Boren Li*Boyu Zhuang Mingyang Li Jian Gu阿里巴巴人工智能实验室{boren.lbr*,po-yu.zby,gujian.gj}@mingyangli009@gmail.com alibaba-inc.com摘要从场景图生成语义布局是连接文本到图像的关键中间任务。我们提出了一个概念上简单,灵活和通用的框架,使用- ing序列到序列(seq-to-seq)学习这项任务。称为Seq-SG 2SL的框架导出两种模态的序列近端,并且基于Transformer的seq-to- seq模型学习将一个转换成另一个。场景图被分解成一系列的语义片段(SF),一个为每个关系。语义布局表示为一系列砖块动作代码段(BACS)的结果,规定了布局中每个对象边界框的位置和比例。将两个构建块SF和BACS视为两个不同词汇表中的对应术语,seq-to-seq模型被恰当地用于翻译。本文提出了一种新的语义布局评估替代指标SLEU将布局中的关系定义为一元语法,并查看n元语法的空间分布。与BLEU的二进制精度不同,SLEU通过对Jaccard指数进行阈值化而允许空间上的一些容差,并且因此更适合于任务。在具有挑战性的Visual Genome数据集上的实验结果显示了基于图卷积的非顺序方法的改进。1. 介绍学习从语义描述到其视觉化身的关系导致重要的应用,例如文本到图像合成[24]和语义图像检索[11]。它仍然是计算机视觉中一个具有挑战性的基本问题[10]。近年来的研究逐渐形成了两种情态的结构化表征,*通讯作者。图1:用于从场景图推断语义布局的Seq-SG 2SL框架。场 景 图 [11][13] 用 于 图 像 的 语 义 描 述 和 语 义 布 局[9][26]。因此,我们在这项工作中的目标解决了底层任务,从场景图推断语义布局,用于连接文本到图像。大 多 数 现 有 的 作 品 从 文 本 中 推 断 语 义 布 局[7][9][20]。然而,由于文本的非结构化性质,领先的方法仍然难以处理描绘多个对象的复杂文本输入因此,Johnsonet al. [10]需要从场景图中推断语义布局,作为与语义解析隔离的单独任务[18]。采用场景图是因为它是一种功能强大的结构化表示,可以有效地传达文本中的场景内容[13]。作为一个值得注意的进步,他们观察到语义布局在很大程度上受到关系中对象的约束。因此,他们开发了一种图形卷积网络,以将仅包含关系内的对象的场景图嵌入到相应的对象特征向量中,所述对象特征向量通过对象布局网络进一步指示然而,他们同时从场景图中推断出所有对象特征嵌入,该场景图包括对象和关系组合的指数变化对于一个模型来说,表达如此令人望而却步的多样性是极其困难的我们从一个新的角度来看待这个任务,以避免组合爆炸,在很大程度上限制了模型的表达在过去。从推断语义布局7436场景图可以比作从蓝图构建建筑物。提供蓝图与建筑物对应的语料库来直接训练学习者如何根据蓝图建造建筑物是不明智的。相反,教授基本动作以根据蓝图中的对应物堆叠构建块要可行得多。是什么决定了构建块?这就是关系。我们提出了一个概念上简单,灵活和通用的框架,使用序列到序列(seq-to-seq)学习来从场景图中推断语义布局(图1)。称为Seq-SG 2SL的框架导出两种模态的序列场景图被分解成一系列的语义片段(SF),每个关系一个。语义布局是由一系列砖块动作代码段(BACS)产生的结果,规定了布局中每个对象边界框的位置和比例。将两个构建块SF和BACS视为两个不同词汇表中的对应术语,seq-to-seq模型被适当地用于翻译。Seq-SG 2SL是一个直观的框架,它学习BACS拖放和缩放调整主体和对象的两个边界框,并与SF对应物监督的布局相关联。直接和自动评估语义布局预测本身是另一个具有挑战性的问题。受BLEU的启发,为此目的设计了一种新的度量标准,即语义布局评估备用项(SLEU)[15]。SLEU将布局中的关系定义为一元语法,并查看n元语法的空间分布.与BLEU的二进制精度不同,SLEU通过对Jaccard指数进行阈值化而允许空间上的一些容差,并且因此更适合于任务。在大型语料库上的平均SLEU是用于评估的适当度量。我们在具有挑战性的视觉基因组(VG)数据集[13]上进行实验我们首先显示来自Seq-SG 2SL的定性结果,并直观地合理化SLEU。进一步的定量比较显示了Seq-SG 2SL相对于基于图卷积的非顺序方法的优势[10],特别是在模型表达性方面我们进一步表明,这种 优 势 源 于 我 们 的 顺 序 制 定 , 而 不 仅 仅 是 从Transformer模型。Seq-SG 2SL的各个方面从另外的烧蚀实验中被广泛研究。主要贡献包括:• Seq-SG 2SL是通过seq-to-seq学习从场景图推断语义布局的第一个框架,并且显著优于非顺序最先进模型。• SLEU是第一个直接评估语义布局预测性能的自动度量,允许结果的可重复性。2. 相关作品场景图:场景图是表示场景的有向图,其中节点是对象,并且边给出对象之间的关系。Johnson等人[11]首先介绍了作为语义图像检索的查询输入的场景图的概念。他们通过条件随机场(CRF)模型从查询场景图中预测最可能的语义布局作为最终检索任务的中间结果。同时,Schusteret al. [18]通过引入一种从非结构化自然语言场景描述创建场景图的自动方法来完成他们的工作有这些辉煌的开拓尝试使用场景图,Krishna等人。[13]构建了VG数据集,旨在使用密集的图像注释来桥接语言和视觉。场景图和语义布局被用作两种模态的中间表示。随着VG的出现,场景图进一步显示了其在后续研究中的价值,例如在预测图像的接地场景图[14][23],评估图像字幕[1]和图像生成[10]中。语义描述到语义布局:语义布局首先被正式定义为剪辑的空间分布Zitnick等人提出的抽象场景艺术。[27]第10段。这种表示最初旨在直接研究从图像中推断高级语义。相比之下,Zitnicket al. [28]制定了相反的问题,预测一个抽象的场景,从它的文本描述,并提出了一个解决方案,使用CRF。由于抽象场景中的剪贴画可以很容易地推广到语义布局中的对象边界框,因此该概念扩展到真实图像[20]。从文本中预测语义布局通常是复杂图像生成的中间步骤[7][9]。复杂图像是指包含多个交互对象的图像。与可以在有限的域上给出令人惊叹的结果的方法[16][24]家族不同,例如鸟类或花朵的细粒度描述,语义布局通常对于复杂图像生成是必要的,以指示文本中描绘的多对象空间分布。Johnson等人[10]率先将文本结构化为场景图,以进一步生成复杂的图像。这项工作与我们的工作最接近。我们采用了相同的思想,但只专注于它的子任务的语义布局预测从场景图。任务的其余部分,从布局生成图像,可以单独解决[26]。与提出基于图卷积的非顺序方法的最接近的工作相比,Seq-SG 2SL从新颖的角度看待任务,并以seq-to-seq方式制定问题。在定量研究中,所有现有的工作都没有进行直接的评估语义布局预测。相反,他们应用了间接指标,例如从生成的图像中获得的初始分数或图像字幕分数虽然人类的评估都被纳入进一步的评估,这些结果是非常昂贵的7437这阻碍了该领域富有成效的研究思路的实现。这种情况与BLEU [15]首次引入机器翻译领域之前的情况非常序列到序列学习:RNN,LSTM [8]和GRU [5]已经牢固地建立了序列建模和转导问题,例如语言建模和机器翻译[4][19]。注意力机制进一步成为引人注目的序列建模和转导模型的组成部分,允许建模依赖性而不考虑输入或输出句子中的距离[2]。Vaswani等人[21]推广了可以显著提高机器翻译性能的Trans-former体系结构。使用Transformer进行了专门用于机器翻译的更大规模的体系结构探索,以进一步收敛到最佳设置[3]。类似的结论也被[12]得出。Seq-to-seq学习仍在快速发展。我们可以借鉴有益的经验。3. Seq-SG2SLSeq-SG 2SL在概念上是简单的:它预测一系列动作,以从场景图中的关系导出的符号三元组的相应序列形成结果布局。接下来,我们将介绍两种模态的序列代理的设计,这是我们工作的关键。3.1. 序列代理场景图对对象、属性和关系进行编码,而其结果布局仅受关系内的对象约束。因此,首先对场景图进行预处理以丢弃不在任何关系内的所有属性和独立对象。场景图中的关系由符号三元组表示:主语谓语宾语三元组的序列它是三要素的连续调和。预处理的场景图然后可以被分解成SF的序列,每个关系一个SF。为了完全保留场景图中的信息,另外维护由对应对象节点ID组成的节点序列。请注意,我们的Seq-SG 2SL框架可以灵活地通过该序列将对象属性从场景图转移到布局。语义布局中的SF的视觉化身包含一对对象边界框,每个对象边界框用于主体和对象。他们被称为视觉主体和视觉客体。其序列代理是BACS。设计要求有三个方面:第一,BACS系列必须唯一地确定布局;第二,BACS应该对应于SF,使得因果关系的方向是清楚的;第三,BACS中的词汇必须是可表示的和可重复的,使得它们可以简明地表示任何布局。类型功能C设置bbox的类索引XP设置主题bboxYP设置主题bboxIXP从主题IXN从主题国际青年党从主题iyn从主题W设置bbox的宽度H设置bbox的高度伊姆加尔设置语义布局表1:BACS类型和功能。x和y的最小值分别表示为xmin和ymin。边界框缩写为bbox。将语义布局空间量化为H× W正方形网格,称为量化布局,其中所有BACS都被定义。它需要5种类型的动作来形成布局中的对象绑定框:四个用于指定位置和比例,另一个用于设置其类索引。主体的边界框位置以绝对坐标表示,而对象的边界框位置使用与主体的相对位置这种相对性旨在将视觉谓词编码在关系中。我们通过实验表明,这种相对位置编码是良好性能的关键。BACS的类型和功能如表1所示。BACS由10个连续字组成,并且对应于3字SF。 这10个单词的类型依次为:c,xp,yp,w,h,c,ixp(n),iyp(n),w,h。BACS中的第一个和最后5个单词分别形成视觉主体BACS序列是具有相同关系的单个BACS顺序到其对应的SF序列。可选地,在感兴趣的是语义布局的纵横比的情况下,imgar被添加到BACS序列的前面3.2. 序列到序列模型给定SF序列及其对应的BACS序列,seq-to-seq模型被适当地用于翻译。我们采用最新的Transformer模型,其中编码器和解码器都具有6个堆叠的自注意力和逐点的全连接层,与[21]中的完全相同。该模型的使用是因为它在机器翻译中的优越性能,其公式与我们的相同。我们通过实验表明,Seq-SG 2SL的模型表现力 的 优 势 源 于 我 们 的 顺 序 配 方 , 而 不 仅 仅 是 从Transformer。3.3. 语义布局恢复从其输入SF序列预测BACS序列,对齐首先通过检查砖行动和灰类型顺序地为每个字验证如果对齐,则BACS7438[s][s][o][o][s][o]序列对应于输入SF和节点se两者施山口sk和okreΣspectiv elΣy表示visuΣalsubjecΣt和ob-序列 预测的砖块动作随后被连续地对象,其中sk=c[s],b[s]所以k=c[o],b[o]. ckde-k k k k执行以形成恢复的布局。注意,对于辅助节点序列,导出恢复的层中的哪些边界框是足够的注意类索引。bk=[xk,yk,wk,hk]指示边界框。我们的目标是评估一个预测的布局out应该合并为场景图中给出的一个如果要合并的边界框具有相同的预测类索引,合并的边界框被简单地计算为它们的平均值。否则,它选择具有中间边界框区域的一个。事实上,预测的类别指数Lj是参考布局的集合{Lj}表示稍后的预测值。4.2. 公制设计j∈[1,M]。()因为这些边界框很少是不同的。更仔细的合并策略留给未来的调查。3.4.实现细节语义布局编码:量化布局的最大边长设置为40。较大的值会导致更多的BACS词汇表,使得seq-to-seq模型更难泛化。然而,较小的值导致不精确的边界框定位和缩放。选择的值是一种权衡。语义布局的宽高比也被统一量化。量化间隔和最小值为0。05和0。5所示。数据扩充:如果场景图对应布局是有效的,则包含关系的子集的其子图对应物仍然是可接受的。 我们放大一个场景通过应用该属性,可以将图绘制到两种模态中的更多序列对。序列对中的关系的连接顺序为了平衡训练数据,每个场景图被增强到最多50个对应。为了限制两个序列的最大长度,我们在场景图中最多只保留9个关系。训练:我们将超参数设置为与Trans-former工作[21]完全相同,除了预热步骤设置为8000。我们使用OpenNMT [12]的Transformer实现 我们在单个TeslaP100 GPU上进行训练,SLEU的设计灵感来自于机器中翻译. BLEU的基石是n元语法,它指的是文本中n个在这里,项目是单词。在马尔可夫假设下,仅评估机器翻译的n元语法是合理的,即当前单词的出现概率仅由其先前的(n-1)个单词确定,独立于第n个单词。n-gram的概念被推广到SLEU,其中的项目是关系,而不是词。与BLEU类似,在语义布局中评估n元语法假设视觉关系的放置仅取决于最多(n-1)个其他关系。SLEU从两个角度评估语义布局:作为unigram准确性的内部关系充分性;以及作为n-gram准确性的内部关系保真度。这些准确度最终被组合成单个数字度量。4.2.1Unigram准确度算法1相对于单个参考的Unigram准确度输入:预测布局L和参考L输出:Unigram精度p11:函数f1(L,L):2:设置c=0c:匹配3:对于L中的每个rk,进行K次迭代4:如果c=c且c=c,则k k kΣ kΣ在1024的批量大小下的一百万次迭代(2天)。5:计算~tk=x[s]−x[s],y[s]−y[s]推断:我们使用波束搜索,波束大小为4,并且长度惩罚α=0。6[22]。 推理时间约为6:Kb[s]←b[s]~tkk k kK K在单个Tesla P100 GPU上为1327:b[o]←b[o]~tkkk.Σ8:计算J=IoUb[s],b[s]4. SLEU指标K.kk9:计算J=IoUb[o],b[o]我们的目标是设计一个自动度量直接K[o]K K[s]量化语义布局预测的成功场景图自动评估的前提是:预测越接近人类准备的参考,就越好。因此,问题变成:如何设计一个度量标准来衡量预测布局与一组参考之间的相似性。4.1. 符号令L={∠r∠k}k∈[1,K]表示具有K个关系的布局,其中∠r∠k=(sk,ok)表示视觉关系-10:如果Jk ≥TIoU和Jk ≥TIoU,则11:c ← c+112:如果结束13:如果结束14:结束15:返回p1=c/K十六: end function单字准确度p1量化预测布局中的个体关系与参考的匹配,如7439我Kn[s]N如算法1所示。它简单地比较视觉关系对并计算匹配的数量。 p1 则是匹配对的计数除以关系的总数。已经被编码为一元精确度。为了比较两个空间分布,每个空间分布具有n个视觉主体,首先计算移位向量〜tq以对齐{b[s]}i∈[1,n]的质心。且{b[s]}i∈[1,n]。 {b[s]}i∈[1,n]中的所有元素都是为了比较一对视觉关系,首先需要i~i以计算将b [ s ]的中心对准到b[s]的移位向量~ t k。然后b[s]和b[o]被这个向量中心移位中心偏移了tq。如果所有移位的边界框通过Jaccard-Index阈值化和类对齐检查,则认为这对η关系子集匹配。k k k其中表示该操作。两个Jaccard指数然后计算两对边界框。这些Jaccard指数,每一个视觉主体和对象,通过允许空间上的一些容差的TIoU4.2.2n-gram准确度算法2-针对单个引用的n元语法准确度输入:预测布局L和参考L输出:n-gram精度pn1:函数fn(L,L):2:设置c=0c:匹配3:计算Pn(K)4.2.3SLEU评分SLEU将一元语法和n元语法准确度组合为单个数字指示符。对于预测的布局和参考,分别计算unigram和n-gram准确度。与BLEU的观察结果类似,n元语法准确度随n大致呈指数衰减。因此,SLEU采用相同的平均方案:对数精度的加权平均值。SLEU还可以测量预测和多个参考之间的相似性。首先需要将预测与每个参考进行比较,每个参考获得组合准确度。然后,对应于最接近预测的参考的最高值被简单地指定为SLEU。SLEU的正式定义为4:对于每个Pn,在Pn中做|Pn|迭代5:计算~tq6:设置f=1f:匹配标志SLEU = maxj∈[1,M].Σen=1Σwnln(pj)、(1)7:对于每个Pndo n迭代中的8:b[s]←b[s]tq其中N=3且wn=1/N为均匀权重。实验上选择N=3以使SLEU更容易区分一.Σ9:计算J=IoUb[s],b[s]因为较大的n导致可忽略的小n元语法精度。我[s][s]我我[s]SLEU的范围为0到1。很少有预测能达到10:如果J是
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功