没有合适的资源?快使用搜索试试~ 我知道了~
2621图像字幕的层次解析姚婷、潘英伟、李业豪、梅涛JD AIResearch,北京,中国{tingyao.ustc,panyw.ustc,yehaoli.sysu}@ gmail.com,tmei@jd.com摘要人们一直认为,将图像解析成构成的视觉模式有助于理解和表示图像。然而,没有证据支持用自然语言话语描述图像的想法在本文中,我们介绍了一种新的设计,从实例级(seg-(a) 层级结构(b) 区域(c) 实例分割),区域水平(检测)到整个图像,深入研究字幕的全面图像理解。具体来说,我们提出了一个层次分析(HIP)架构,新颖地集成到图像编码器的层次结构。从技术上讲,图像分解成一组区域,其中一些区域被分解成更精细的区域。每个区域然后回归到一个实例,即,该地区的前沿阵地。这样的过程自然地建立了一个高层次的树。然后,采用树结构的长短期记忆(Tree-LSTM)网络来解释树结构,并增强所有实例级、区域级和图像级特征。我们的HIP很有吸引力,因为它可以插入任何神经字幕模型。在COCO图像字幕数据集上的大量实验证明了HIP的优越性。更值得注意的是,HIP加上自上而下的基于注意力的LSTM解码器将CIDEr-D性能从120.1%提高到127.2%。当进一步赋予HIP的实例级和区域级特征以通过图卷积网络(GCN )学习的语义关系时,CIDEr-D被提升到130.6%。1. 介绍自动图像字幕是生成正确反映图像视觉内容的自然句子的任务。实际的自动图像描述系统具有巨大的潜在影响,例如对机器人视觉,或者通过将视觉信号转换成可以经由文本到语音技术传达的信息来帮助视力受损的人。最近的最先进的图像字幕方法用于执行卷积神经网络(C-图1.(a)图像中的分层树结构(b)区域和(c)图像中的实例。NN)首先将图像编码为特征向量,然后使用长短期记忆(LSTM)网络从该向量解码一个单词,每个时间步长一个单词从这种方法学中产生了一些方法变体,例如,在特征图上进行注意[32]或利用属性来增强图像特征[35]。不管这些不同的版本,今天我们建议从将图像解析成构成视觉模式的层次结构以更好地表示图像的角度来缓解这个问题。其核心思想是建立一个自上而下的层次树,从整个图像的根到中间层的区域和叶层的实例。叶层中的每个实例强调区域的区别性前景。图1(a)概念化了图像上树结构的典型发展。图1(b)和(c)分别示出了图像中的区域和前景/实例。在这种情况下,我们可以以自下而上的方式加强对图像结构的视觉解释,并且所有图像级,区域级和实例级特征的学习确实受益于树结构拓扑。我们希望我们的设计是一个功能细化器或银行,输出丰富和多层次的图像表示。这样的多级表示可以单独地或联合地使用,这取决于特定的任务。它还可以灵活地进一步集成区域或实例之间的语义关系的推理,以进一步赋予区域级或实例级特征更多的权力。图像人区级狗蟒蛇t眼镜帽子实例级帽子人Glas船ses2622通过加强对图像层次结构的利用,提出了一种新的用于增强图像编码器的层次结构解析(HIP)结构。具体来说,我们设计了一个三级层次结构,其中图像首先被分解成一组区域,一个区域表示在该级别或进一步分裂成更精细的。然后,每个区域对应于一个实例,该实例对该区域的前景进行建模。然后在层次结构上从下向上执行树结构的L-STM,以升级所有级别的功能。之后,HIP输出的三个级别的特征混合可以很容易地输入到一个基于注意力的LSTM解码器中,以生成句子,每个时间步一个词。此外,HIP作为特征优化器,通过传播和聚合语义关系来进一步扩充特征。在层次结构上,我们在区域或实例层次上建立了有向边的语义图,其中顶点表示每个区域或实例,边表示每对区域或实例之间的关系。图卷积网络(GCN)被用来丰富区域/实例特征与语义图中的视觉关系。增强的功能最终改善了图像字幕。还请注意,HIP可灵活地通用于其他视觉任务,例如,识别.本文的主要贡献是对图像中的语义结构进行解析,并将其用于字幕。该解决方案还导致了如何构建和解释图像的层次结构,以及如何将这种层次结构很好地集成到典型的神经字幕框架中的优雅视图,这些问题在文献中尚未完全理解。我们的设计一般被视为一个功能细化器,并且可以随时插入任何神经字幕模型。2. 相关工作图像字幕。最近的图像字幕工作[3,6,29,32,35,36]主要是基于序列学习的方法,该方法利用CNN加RNN逐词生成句子,从而实现句子内句法结构的灵活建模。具体地说,[29]是将句子生成任务转换为序列学习问题的早期尝试之一,并利用LSTM对输入图像上的句子生成条件的单词之间的依赖关系进行建模。[32]通过将软和硬注意机制集成到基于LSTM的解码器中,进一步扩展了[29],该解码器学习聚焦于图像区域,以便于在每个解码阶段生成[31,35,36]证明了语义属性在图像字幕中的有效性 后来[24] 提出了一种自批判序列训练策略,以改善序列建模的训练和推理之间的差异,从而提高图像字幕效果。毛皮-[32]中,[3]特别地设计了自下而上的机制来实现在对象级别的注意力测量,以及自上而下的机制来关联显著图像区域和用于句子生成的输出单词,而不是在图像区域的预定义均匀网格上测量注意力最近,[34]在图像字幕的上下文中对对象之间的关系进行了建模,这将进一步纳入自上而下的注意力模型[3]以增强字幕。此外,图像字幕可以扩展到新颖对象字幕[17,33],其利用未配对的图像/文本数据来描述新颖对象或图像段落生成[30],其产生连贯的段落来描述图像。在我们的工作中,我们利用图像中的层次结构,从实例级,区域级,到整个图像,以促进一个彻底的图像理解字幕。为此,我们设计了一种新颖的层次解析架构,将层次结构集成到图像编码器中,该架构可插入任何神经字幕模型。结构化场景解析结构化场景解析的任务超出了场景类型的一般识别(分类)或场景中对象的定位(语义标记或分割),并且考虑对场景的更深层次和结构化的理解。早期的开创性工作[27]设计了一个贝叶斯框架,用于将图像解析为分层解析图上的组成视觉模式。后来,Han等人利用属性语法模型分层解析人造室内场景[8]。在文献[1]中提出了一种连通的分割树来捕获对象在光度和几何属性方面的典型特征,以及其组成图像区域之间的包含和相邻关系[37]设计了一种用于图像分析的层次化图像模型,该模型用不同层次的上下文信息来表示图像结构。在[20]中,提出了一种基于层次结构的形状解析策略,用于将图像分量划分和组织成尺度空间中的层次结构。Sharma等人设计了递归上下文传播网络[25],通过递归地聚合从局部邻域到整个图像的上下文信息,然后通过二叉解析树将聚合的信息分解回单个局部特征,来进行语义场景标记。该方法中的层次分析结构也是一种结构化的图像场景分析方法.与前面提到的用于图像解析或语义场景标记的方法不同,我们的层次解析架构充当图像编码器来解释图像中的语义结构,并且适用于图像captioning任务。因此,所有的实例级,区域级和图像级的功能都增强了树结构的拓扑结构,这将被注入到字幕模型,以进一步提高句子生成。2623i=1i=1Tree-LSTMGCNWtGCNGCNLSTMLSTMLSTM关注LSTMWt+1关注Wt+1Wt(a) 分层解析架构(b)具有分层解析的上下(c)具有分层解析的GCN-LSTM图2.概述(a)我们的Hierarchy Parsing(HIP)架构,用于将分层结构集成到图像编码器中,以及通过将HIP插入(b)Up-Down [3]和(c)GCN-LSTM [34]中用于图像字幕任务的应用程序。对于HIP,首先利用Faster R-CNN和Mask R-CNN分别检测和分割对象区域和实例集。接下来,我们构建了一个三级层次结构,其中整个图像首先被分解为一组区域,一个区域在该级别或进一步分裂成更精细的区域。中间层中的每个区域自然地与叶层中的相应实例相关联。之后,Tree-LSTM在层次结构上自下而上执行增强的区域/实例特征,输出是图像级特征。HIP输出的三个级别的特征混合可以很容易地输入到Up-Down中的基于注意力的LSTM解码器此外,通过图卷积网络(GCN)进一步丰富语义图中具有语义关系的多级特征,将我们的HIP插入GCN-LSTM也是灵活的。3. 我们的方法在本文中,我们设计了一个层次解析(HIP)架构,将层次结构整合到图像编码器中,追求彻底的图像理解,以促进图像字幕。HIP首先建立了从图像根到中间层区域和叶子层实例的三级层次结构,实现了图像的深层结构化建模然后利用Tree-LSTM在实例级别、区域级别和图像级别上增强上下文特征在这个意义上,HIP充当特征细化器,其输出图像的丰富和多级表示。因此,HIP可插入任何神经字幕模型,包括一般的基于注意力的L-STM解码器或特定的关系增强解码器。我们的HIP架构及其在两种不同字幕模型中的应用概述如图2所示。3.1. 概述记法。 图像字幕任务的目标是用文本句子S描述给定的图像I。注意,文本句子S ={w1,w2,...,w Ns}是包含N s个字的字序列。句子中的每个词被表示为D维文本特征,例如, wt∈RDs,表示句子S中第t个词的特征. 因为我们的最终层次结构是由组成部分组成的-在实例级、区域级和图像级,我们首先利用对象检测方法(Faster R-CNN [23])和实例分割方法(Mask R-CNN [9])来产生基本元素(即,区域和实例)。图像I中的区域和实例的集合是检测到的K个物体。每个图像区域及其实例被表示为Dr维特征ri∈RDr和mi∈RDr。因此,图像I被解析成由三个级别的层组成的层次树T=(I,R,M,E树):根层对应于整个图像I,中间层对应于区域R,叶层对应于实例M。E树表示连接。关于我们如何表示区域实例和构造层次树将在3.2节中详细说明。问题表述。我们公式背后的关键思想是在图像字幕任务的背景下构建图像的层次结构建模首先,给定从输入图像分解的区域和实例的集合,我们用三级层次结构整体地表征图像从树结构LSTM [26]的思想中衍生出来,我们进一步利用Tree-LSTM模块沿着分层树以自下而上的方式对每个实例/区域的表示进行上下文细化,并最终获得图像级特征。因此,通过采用高可靠性的解析架构(即,层次树的构造和经由Tree-LSTM的特征增强)作为图像编码的过程,输出的多级表示被赋予更大的在此之后,将基于上下文细化的三个层次的特征从语义解析架构中输入到一个基于注意力的LSTM解码器[3]中,以促进句子生成。因此,这里的图像字幕问题通常被公式化为能量损失函数的最小化:E(T,S)= − log Pr(S| T)、⑴也就是正确句子的负对数概率记为R={ri}K且M={mi}K分别地,S给定层次树T。 此外,由于该hierar-其对应于区域和前景/实例CHY解析架构被设计为特征细化。2624人大街2048号14x14 res514x14RoIAlignx1024x204814x14x256RoIAlign遗忘门fjk输入门输出门输入xjuJ CellinputIj存储单元Celloutputck+1hk+1cjojhjckhkfj(k+1i=1i=114x14分辨率514x14ave2048x1024x2048图3.区域和实例的特征提取 Mask R-CNN通过额外的掩码分支来增强预训练的Faster R-CNN,并用于提取区域特征ri并预测每个区域的实例级前景掩码。接下来,通过逐元素乘法将每个区域及其二进制的混合馈送到另一个Faster R-CNN中以产生实例特征mi。er或bank,我们可以通过传播和聚合语义关系来进一步增强输出增强特征。也就是说,我们的层次解析架构可以应用于基于关系的字幕模型[34],该模型赋予区域级或实例级特征关系。3.2. 图像的层次分析接 下 来 , 我 们 描 述 了 我 们 的 HIP ( HierarchyParsing)体系结构的细节,该体系结构使用树结构增强了所有实例级、区域级和图像级的功能。遗忘门图4.在Tree-LSTM中具有两个孩子(子脚本k和k +1)的存储器单元cj的图。为了简洁,我们省略了四个门的依赖关系将该Faster R-CNN的(mi)作为每个实例mi的表示。请注意,两个Faster R-CNN模型的输入是不同的(一个是原始图像,另一个是前景图像),两个模型不共享任何参数。图3详细描述了区域和实例的特征提取管道。图像的层次结构。 视觉关系的最新进展[34]表明,模型-在图像中绘制结构(例如,基于区域之间的关系建立的语义图)确实增强了图像字幕。我们的工作向前迈出了一步,并构建了一个层次结构的组成视觉模式,即,层次树,充分利用从实例级、区域级到整个图像的层次结构,学习图像的连接,在每个级别的图像字幕。具体地,分层树T=(I,R,M,E树)将输入图像I的所有区域和实例组织成自上而下的三层结构。拓扑结构作为功能优化器。特别地,我们通过呈现图像内的区域和实例的提取来开始本节。然后,我们提供了如何构建三个层次的层次结构,通过关联的所有区域和在一个图像中的instances。最后,提出了一种配备Tree-LSTM的图像编码器,用于解释层次结构和增强多级特征。图像的区域和重叠。给定输入图像,我们首先应用在Visual Genome上训练的Faster R-CNN[16]以检测对象的图像区域。 注意 只有前K = 36个置信度最高的地区层次结构,包括根层、区域的中间层和实例的叶子层。具体地,在上根层中最初仅建立一个根节点,其表示整个图像I。这种图像级根节点被分解成一组区域,这些区域又分解成多个更精细的区域,从而产生多个中间层的区域。在这里,根节点和区域对之间的依赖性的存在取决于它们的交集(IoU)。更准确地说,给定K个图像区域R,我们首先按照区域面积的降序对所有区域进行R={ri}K被选择来代表图像。我们然后将每个区域整合到层次树中,将每个区域表示为来自Faster R-CNN的特征图的RoI池化后pool 5层的2,048维输出(r i)(主干:ResNet-101 [10])。此外,为了强调图像中每个区域隐含的物体的判别性,我们将每个区域的前景背景分离出来,并将区域的前景作为关联实例。具体来说,Mask R-CNN用一个额外的掩码分支来增强预训练的Faster R-CNN,并预测每个区域的实例级前景掩码。因此,前景/实例是通过经由逐元素乘法混合每个区域及其二进制掩码来获得的,从而产生实例依次对于每个区域ri,我们测量ri与当前层次树中的每个对象节点如果最大IoU大于阈值IqU,则ri作为具有最大IoU的现有区域节点的子节点被并入到分层树中,这指示ri可以被视为其父节点的区域内的更精细区域。否则,直接将ri作为图像级根节点的子节点一旦region- s中间层的构建完成,我们将每个实例作为底部叶层中的子节点附加到相应的region节点使用Tree-LSTM的图像编码器 一种自然的方式来建模样本之间的上下文关系,M={mi}K.接下来,我们训练另一个更快的R-CNN,set/sequence是采用基于LSTM的模型,如[4]。前景图像和2,048维输出然而,这种链结构的LSTM是典型的-2625t−1我i=1不i=1不ΣK顺序不敏感,因此不足以完全捕获顺序或依赖性结构中的差异从Tree-LSTM [26]在几个NLP任务中建模树结构拓扑的成功中汲取灵感,我们在图像编码器中利用Tree-LSTM来促进层次内的上下文信息挖掘,从而丰富图像级在Up-Down [3]或GCN-LSTM [34]中的特定关系增强解码器中还请注意,我们的HIP可以灵活地推广到其他视觉任务,例如,识别.使用Hierarchy Parsing。给定HIP输出的三个级别上的特征的混合(即,图像级特征(Ih,r,m)和区域级/实例级特征具有整体层次结构的功能。({rh}K,{ri}K,{mi}K),我们直接把它们喂进i i=1i=1i=1Tree-LSTM单元的示意图如图所示4. 与标准LSTM类似,Tree-LSTM单元由索引为j的存储单元cj、隐藏状态hj、输入门ij和输出门oj组成。与LSTM更新内存一个通用的基于注意力的解码器,具有两层LSTM,上下,如图2(b)所示。具体来说,在每个时间步t,第一层LSTM单元的输入被设置为输入单词wt、先前输出单元格仅依赖于先前的隐藏状态,第二层LSTM单元h2所有图像级Tree-LSTM单元依赖于它的孩子的多个隐藏状态。此外,Tree-LSTM单元包括用于每个孩子(由k索引)的遗忘门fjk。特别地,下面给出了Tree-LSTM单元前向传递的向量公式 对于树中由j索引的节点,xj和hj分别表示输入和输出向量。一组儿童-特征(Ih,r,m)。这样的设计可以收集最大的第一层LSTM的上下文信息来建模单词之间的依赖关系。 在那之后,我们代表每个通过连接属于它的所有区域级特征和实例级特征来对区域进行成像,表示为Vi=RH,Ri,Mi。接下来,在所有的情况下,归一化的注意力分布λ t∈ RK该节点的k表示为C(j)。W是输入权重区域K在输出h1的条件下矩阵,U是递归权重矩阵,b是偏差。Sigmoidσ和双曲正切φ是逐元素非线性激活函数。表示两个向量的点积。因此,Tree-LSTM单元更新是:第一层LSTM单元,导致参与图像特征vt=K λt,ivi.注意λt,i是第i个元素在λt中,它表示第i个re的注意概率。gion。 因此,我们将被关注的胡杰=卡宾枪k∈C(j)将图像特征vt和h1输入到第二层LSTM单元中,旨在触发下一个单词w t+1的生成。uj=φ(Wuxj+Uuhj+bu)cellinputIj=σ(Wixj+Uihj+bi)inputgatefjk=σ( Wfxj+ Ufhk+ bf ) 遗 忘 门 oj=σ(Woxj+Uohj+bo)outputgatecj=ujij+ckfjk细胞状态k∈C(j).(二)GCN-LSTM与层次解析 当将层次解析应用于GCN-LSTM [34]时,HIP的实例级和区域级特征通过GCN学习的视觉关系得到进一步增强,从而改善了标题,如图2(c)所示在部分-hj=φ(cj) oj电池输出具体来说,对于我们的层次树T,我们取原始提取的区域/实例特征({ri}K和{mi}K)我们首先建立有向边语义图,在层次结构的区域或实例级别上。然后利用GCN来丰富区域级/实例级功能({rh}K,{r}K,{m}K),在i=1i=1i i=1ii=1ii=1作为中间层区域节点的输入向量以及叶层中的实例节点的输入向量语义图 所有增强的区域级/实例-来自GCN的水平特征({Rh}K,{Ri}K,{Mi}K)是图像级根节点被设置为图像的线性融合i i=1i=1i=1区域的水平均值合并特征(r=1<$Kri),i=1进一步输入到两层LSTM中进行句子生成。扩展到识别任务。图像级fea-实例(m=1Ki=1 mi):I=Wrr+Wmm. 协议-从我们的HIP的tures可以进一步利用到其他视觉实际上,通过在我们的分层树上操作Tree-LSTM,自底向上的方式,每个区域节点的区域级特征进一步加强了从其实例和更细区域中挖掘的上下文信息,表示为{rh}K。此外,根n的输出-任务,例如,识别.层次分析法将图像的层次结构融入到编码器中,使学习到的图像级特征更具代表性和区分性。i i=1层次树中的节点被视为图像级特征Ih,具有从实例级、区域级到整体图像的内在层次结构。3.3. 基于层次分析的图像字幕由于我们将HIP架构设计为输出图像的丰富和多级表示的特征细化器或库,因此将HIP插入任何神经字幕模型都是可行的。接下来,我们将讨论如何将语义解析集成到基于注意力的LSTM解码器中。4. 实验我们通过在COCO [19]上进行图像字幕任务的实验来经验性地验证我们的HIP的优点4.1. 数据集和设置COCO是图像字幕领域的标准基准。该数据集包含123,287张图像(82,783张用于训练,40,504张用于验证),每张图像用5个描述进行注释。因为人类-2626表1.我们的HIP和其他方法在COCO Karpathy测试拆分上的性能(%)BLEU@4交叉熵损失METEOR ROUGE-L CIDER-D香料BLEU@4CIDEr-D评分优化METEOR ROUGE-L CIDER-D香料LSTM [29]29.625.252.694.0-31.925.554.3106.3-SCST [24]30.025.953.499.4-34.226.755.7114.0-ADP-ATT [21]33.226.6-108.5------LSTM-A [35]35.226.955.8108.820.035.527.356.8118.320.8RFNet [13]37.027.957.3116.320.837.928.358.3125.721.7上下[3]36.227.056.4113.520.336.327.756.9120.121.4上下+髋关节37.028.157.1116.621.238.228.458.3127.221.9GCN-LSTM [34]37.128.157.2117.121.138.328.658.5128.722.1GCN-LSTM+HIP38.028.657.8120.321.439.128.959.2130.622.3没有提供官方测试集的注释描述,我们使用如[3]中的Karpathy分割(113,287用于训练,在[14]之后,所有的训练句子都被转换为小写,我们省略了出现少于5次的罕见单词。因此,最终词汇表包括10,201个唯一单词。采用 Visual Genome训练 Faster R-CNN 进行 目标 检测。在这里,我们遵循[3,34]中的设置,并获取98,077张图像用于训练,5,000张用于验证,5,000张用于测试。如[3]中所示,1,600个对象和400个属性是se。从Visual Genome中选出,用于训练Faster R-CNN,具有两个分支,用于预测对象和属性类。COCO-detect是一个流行的基准,用于实例分割,包含来自80个对象类别的与COCO相同的图像所有对象实例都使用详细的分割掩码进行注释。在这里,我们利用部分监督训练范式[12]来训练Mask R-CNN,从而在整个1,600个对象上实现实例分割。特别地,Mask R-CNN中的检测分支使用从Visual Genome学习的Faster R-CNN的权重初始化。接下来,Mask R-CNN中的掩码分支和权重转移函数在COCO- detect上进一步训练。请注意,我们采用相同的COCO分割来在COCO-detect上训练Mask R-CNN。实施详情。我们将每个单词表示为“one-hot”向量。用于构建层次结构的阈值阈值λ被设置为0。1.一、Tree-LSTM和基于LSTM的解码器中的隐藏层大小分别设置为500和1,000。ly.我们的HIP的字幕模型主要是用PyTorch实现的,用Adam优化[15]。对于交叉熵损失的训练,我们将学习率设置为5×10−4,minibatch大小为50。最大迭代设置为30个历元。对于自我批评训练策略,我们遵循[24]并选择使用交叉熵损失训练并在验证集上获得最佳CIDEr-D得分的模型作为初始化。下一个帽子-利用CIDEr-D奖励进一步优化了排序模型。这里的学习率设置为5×10−5,最大迭代次数为30次。在推理时,采用波束搜索策略,波束大小设置为3。五种流行的方法,即,[18]第 22话,我是一个很好的朋友利用CIDEr-D [28]和SPICE [2]进行评价。比较方法。(1)LSTM[29]仅在初始时间步将图像馈送到基于LSTM的解码器中以触发句子生成。报告的结果直接来自[24]。(2)SCST[24]在[32]中设计了一种自我批评的序列训练策略来训练修改后的基于注意力的字幕模型。(3)ADP-ATT[21]设计了一种自适应注意力机制,以决定是否关注图像以及聚焦哪些图像区域,用于图像字幕。(4)LSTM-A[35]通过向基于LSTM的解码器中额外注入语义属性来扩展通用编码器-解码器字幕模型(5)RFNet[13]设计了一个循环融合网络来融合多个en,编码器,并产生新的信息功能的解码器与注意。(6)Up-Down[3]设计了一种自下而上的注意力机制来计算对象级别的注意力,以提高图像字幕。(7)GCN-LSTM[34]通过利用对象之间的视觉关系来扩展[3]。(8)Up-Down+HIP和GCN-LSTM+HIP是我们分别将设计的HIP插入Up-Down和GCN-LSTM的建议。请注意,所有最先进的方法和我们的模型都使用ResNet-101作为图像编码器的骨干,以进行公平的比较。此外,我们报告了在自我批评策略中使用交叉熵损失或CIDEr-D奖励训练的每个模型的结果。4.2. 性能比较与分析在COCO上的表现。不同模型在COCO上进行图像字幕任务的性能总结见表1。总体而言,所有指标和两种优化方法(交叉熵损失和CIDEr-D得分优化)的结果一致表明,我们的GCN-LSTM+HIP表现出比其他方法更好的性能,包括非注意力模型(LSTM,LSTM-A)和基于注意力的方法(SCST,ADP-ATT,RFNet,Up-Down和GCN-LSTM)。通过集成层次解析架构的Up-Down+HIP和GCN-LSTM+HIP在CIDEr-D方面分别比Up-Down和GCN-LSTM提高了3.1%和3.2%,并优化了交叉熵损失。研究结果表明,从实例级、区域级到整个图像,充分利用图像的层次结构,追求图像的彻底分解,2627表2.在线COCO测试服务器上排名最高的已发布最先进的图像字幕模型的性能(%)模型BLEU@1BLEU@2BLEU@3BLEU@4流星ROUGE-LCIDEr-DC5C40C5C40C5C40C5C40C5C40C5C40C5C40GCN-LSTM+HIP81.695.966.290.451.581.639.371.028.838.159.074.1127.9130.2GCN-LSTM [34]80.895.265.589.350.880.338.769.728.537.658.573.4125.3126.5RFNet [13]80.495.064.989.350.180.138.069.228.237.258.273.1122.9125.1上下[3]80.295.264.188.849.179.436.968.527.636.757.172.4117.9120.5LSTM-A [35]78.793.762.786.747.676.535.665.227.035.456.470.5116.0118.0SCST [24]78.193.761.986.047.075.935.264.527.035.556.370.7114.7116.7理解字幕。具体来说,通过将高级语义属性注入到基于LSTM的解码器中,LSTM-A优于仅依赖于输入图像训 练 解 码 器 的 LSTM 。 然 而 , 基 于 注 意 力 的 方 法(SCST,ADP-ATT,Up-Down和RFNet)表现出比LSTM-A更好的性能,这验证了注意力机制的优点,即动态关注图像区域以生成句子。此外,GCN-LSTM通过探索对象之间的关系来丰富区域级特征,改进了SCST,ADP-ATT,Up-Down和RFNet。然而,GCN-LSTM的性能低于GCN-LSTM+HIP,GCN-LSTM+HIP还利用图像中的分层结构来增强所有实例级、区域级和图像级特征,并最终增强图像字幕。此外,通过用CIDEr-D评分代替交叉熵损失来优化字幕模型,GCN-LSTM +HIP的CIDEr-D评分进一步提高到130.6%。这表明,自我批评训练策略是一种有效的方法,可以改善训练和推理之间的差异,提高句子生成能力,而不受图像加帽的影响。类似于对具有交叉熵损失的优化的 观 察 , 当 使 用 CIDEr-D 评 分 进 行 优 化 时 , Up-Down+HIP和GCN-LSTM +HIP导致比Up-Down和GCN-LSTM更好的性能消融研究。接下来,我们将研究在利用不同功能时,字幕是如何影响每个表3详细说明了利用上下句解码器中不同特征的性能。原始区域级特征的使用通常实现了良好的性能。正如预期的那样,仅利用原始实例级特征不如区域级特征。结果表明,区域背景中的上下文仍然是前景的补充。在对图像进行全面的层次结构解析时,Tree-LSTM产生的更精细的特征会带来更好的性能。每两个特征的连接总是优于单独的特征。所有三个特征的整合,即,我们的HIP,达到了字幕的最高性能。结果基本上证明了两者之间的互补性。定 性 分 析 图 5 展 示 了 几 个 图 像 示 例 , 分 别 包 含LSTM、GCN-LSTM和GCN-LSTM+HIP生成的实例、区域、层次结构、地面真值语句和标题。作为插图-表3.使用不同功能的消融研究区域树-LSTMBLEU@4流星CIDEr-DC36.227.0113.5C36.127.0113.3C36.327.4113.7CC36.627.5114.9CC36.827.9115.5CC36.727.9115.2CCC37.028.1116.6在样例结果中,GCN-LSTM +HIP输出的句子例如,与LSTM和GCN-LSTM为第一幅图像生成的标题中的短语“一群斑马”相比我们推测,这一结果得益于对两个“斑马”实例的分割以及将这些信息整合到层次结构中结果再次表明,通过在我们的HIP中整体解释和解析图像的结构来指导句子生成的优势COCO在线测试服务器性能。 我们还将使用CIDEr-D 评 分 优 化 的 GCN-LSTM+HIP 的 运 行 提 交 给 在 线COCO测试服务器。表2显示了官方测试图像集的性能排行榜,其中包含5个参考字幕(c5)和40个参考字幕(c40)。请注意,在这里我们使用SENet-154 [11]作为我们最终提交的Faster R-CNN和Mask R-CNN的主干表中列出了已正式公布的最新的前5名性能系统我们的GCN-LSTM+HIP与排行榜上所有其他表现最好的系统相比,性能得到了提升。人体评价。由于自动句子评估指标不一定与人类判断相关,因此我们还进行了一项人类研究,以根据两个 基 线 评 估 GCN-LSTM+HIP , 即 : LSTM 和 GCN-LSTM我们邀请了12个标签人员,并从测试集中随机选择所有的参赛者被分成两队。我们向第一个团队展示了三个自动生成的句子和三个人工注释的标题,并询问标签人员:这些系统能产生类似人类的句子吗?相反,我们一次只向第二组显示一个句子,这可以通过字幕方法或人工注释(Hu- man)生成。要求贴标机:你能区分人类吗2628树长颈鹿斑马斑马地面蛮人衬衫烤架热狗GT:两匹斑马和一只长颈鹿站在树旁LSTM:一群斑马站在长颈鹿旁边GCN-LSTM:一群斑马和一只长颈鹿站在树旁GCN-LSTM+HIP:两个斑马和一个长颈鹿站在树旁边GT:一个人在烤架上烤热狗LSTM:一个男人和一个女人坐在一张有烤架的桌子GCN-LSTM:一个人在烤架上烹饪食物GCN-LSTM+HIP:一个人在烤架上烤热狗图5.COCO数据集的两个图像示例,包括实例、区域、层次结构和句子生成结果。输出语句由1)Ground Truth(GT):一个Ground Truth语句,2)LSTM,3)GCN-LSTM和4)GCN-LSTM+HIP生成28.1028.0828.0628.0428.02116.6116.4116.2116.0表4.使用不同特征时识别任务的性能比较。28.0027.9827.96(a) 流星115.8115.6(b) CIDEr-D(C-R)。此外,为了减轻对不频繁标签的偏见,我们还计算了总体精确度(O-P)和总体召回率(O-R)。作为精确度的调和平均值,图6.在(a)ME-TEOR(%)和(b)CIDEr-D(%)上具有交叉熵损失的Up-Down+HIP中用于构建层次的阈值参数R2对COCO的影响。一个系统的注释基于贴标机的反馈,我们计算两个指标:1)M1:与人类注释一样好或甚至更好的注释的百分比; 2)M2:通过图灵测试的字幕百分比。GCN-LSTM+HIP、GCN-LSTM和LSTM的M1得分在M2、Human、GCN-LSTM+HIP、GCN-LSTM和LST-M分别达到91.4%、85.2%、81.5%和57.1%。显然,我们的GCN-LSTM+HIP在这两个标准上都是赢家。阈值的影响。为了阐明构造层次结构的阈值参数的影响,我们示出了METEOR和CIDER-D在图6中具有不同的阈值参数。如图所示,我们可以看到,当λ在以下范围内变化时,两条性能曲线通常都像0.05到0.5。因此,我们将阈值参数设置为0.1,我们的实验,它可以达到最佳的性能。延伸到认知。作为一个功能细化,在这里,我们测试我们的HIP识别任务的泛化能力。我们我也用COCO数据集对80个对象类别进行了实验多标签softmax损失[7]用于分类。对于每个图像,我们预测排名前3的标签。然后,我们分别计算每个标签的精确率和召回率,并报告每类精确率(C-P)和类前召回率呼叫,F1(C-F1和O-F1)评分也给出。 表4详细介绍了不同特征在识别任务上的表现我们将HIP和COM中的图像级特征转化为Up-Down中的均值池图像特征[3]。通过深入研究层次分析,HIP中的图像级特征在C-F1和O-F1中的性能比Up-Down中的特征提高了2%和3.2%。实验结果基本验证了HIP在再认任务上的普适性。5. 结论我们提出了层次化解析(HIP)架构,它将层次结构集成到图像编码器中,以提高字幕。特别地,我们从解释树结构拓扑中从整个图像的根到区域的中间层,最后到实例的叶层的层次结构的观点来研究该问题。为了验证我们的说法,我们建立了一个组成视觉模式的三级层次结构(即,实例、区域和整个图像)。在层次结构上采用Tree- LSTM来丰富所有三个级别的功能。在COCO图像字幕数据集上进行的大量实验证明了HIP在直接从HIP或进一步增强的版本中将特征混合到基于注意力的句子解码器中的两种情况下的功效。更值得注意的是,我们在这个captioning数据集上实现了新的最先进的性能。对HIP的评价也验证了其推广到识别任务的潜力。0.050.100.150.200.250.300.350.400.450.500.050.100.150.200.250.300.350.400.45C-PC-RC-F1O-PO-RO-F1上下[3]65.32 62.24 63.7464.37 66.48 65.41髋66.18 65.30 65.7467.53 69.74 68.610.502629引用[1] 纳伦德拉·阿胡贾和希尼萨·托多罗维奇。连通分割树--区域布局和层次结构的联合表示. CVPR,2008。[2] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在ECCV,2016年。[3] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。[4] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年,国际会议[5] Satanjeev Banerjee和Alon Lavie。Meteor:一种用于mt评估的自动度量,与人类判断的相关性得到改善。2005年在ACL研讨会[6] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor D
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功