没有合适的资源?快使用搜索试试~ 我知道了~
基于图像的段落生成技术及其有效性
基于图像的Moitreya Chatterjee和Alexander G. Schwing伊利诺伊大学厄巴纳-香槟分校,厄巴纳IL 61801,美国metro. gmail.com,aschwing@illinois.edu抽象。从图像中生成段落是视频摘要、编辑和残疾人支持的重要任务,最近得到了普及。传统的图像字幕方法在这方面做得不够,因为它们不是为生成长信息描述而设计的。然而,简单地连接多个短句(可能从传统的图像字幕系统合成)的天真方法不包含段落的复杂性:连贯的句子,全球一致的结构和多样性。为了应对这些挑战,我们提出用“相干向量”、“全局主题向量”以及通过变分自动编码器公式对将段落与图像相关联的固有模糊性进行建模来增强段落生成技术。我们证明了所开发的方法的有效性在两个数据集上,在两个数据集上都优于现有的最先进的技术。关键词:字幕,评论生成,变分自动编码器1介绍每天,我们毫不费力地向朋友和家人描述有趣的事件,给他们看图片来强调主要情节。叙事确保我们的观众可以一步一步地跟随,轻松地在脑海中描绘出缺失的片段。填补缺失部分的关键是我们叙述的一致性,它通常遵循时间的箭头。虽然计算机视觉、自然语言处理和人工智能技术在通过图像或视频字幕描述视觉内容方面取得了很大进展[5,11,17,28,36],但所获得的结果通常是一个大约20个单词的单句,描述了主要的观察结果。即使brevity迎合了today短暂的注意力跨度,20个单词也很难足够描述微妙的相互作用,更不用说我们经历的详细情节了在一个合理长度的段落中,这些描述为此,最近提出的视觉段落生成方法[16,21,45,25]在描述给定图像或视频时提供了更长的叙述。然而,正如最初所论证的,叙事中连续句子之间的连贯性是有效传达我们经验情节的关键必要条件。重要的是,许多上述方法的模型提供了2Moitreya Chatterjee和Alexander G.Schwing区域-分层我们的方法一个穿红衬衫的人走在街上。另一个男人站在他旁边。背景中有一座建筑物垃圾桶在男人旁边大楼旁边有很多汽车在那个人的身后有许多绿树一个穿黑衬衫的男人正在弹钢琴。一个女人站在那个男人的后面在那个人后面有一面带窗户的白墙钢琴是黑色的。在那个人旁边有一棵树,它有绿色的叶子。有一辆公共汽车在路上行驶它被漆成黄色和红色。有一座白色的大楼。这座建筑有很多窗户。一个男人坐在公共汽车旁边。公共汽车后面有一棵长着绿叶的大树两个男人走在一条城市街道上,旁边是一座建筑物。两人身后有几棵绿树一个垃圾桶就在这两个人旁边。垃圾桶是绿色的。背景是一座建筑。背景有很多车。一个穿黑衬衫的男人正在房间里弹钢琴。钢琴是黑色的。一个穿着白色连衣裙的女人站在男人身后,右臂向上伸出。女人的身后是一棵树。房间有白色的墙壁。背景是一棵长着绿叶的树,旁边有一扇窗户。一辆有橙色条纹的黄色公共汽车停在城市的街道上。它停在一个公共汽车站。一个男人坐在公共汽车站的公共汽车旁边背景是一座白色的大楼。这座建筑物有许多玻璃窗。背景是一棵长着绿叶的大树Fig. 1. 使用现有技术水平的技术[21]和使用我们开发的方法。由于引入了.没有明确的机制,以确保跨句子主题的一致性,虽然一个显着的例外是梁等人的工作。[25]第20段。特别地,Lianget al.[25]建议通过训练标准段落生成模块[21]来确保句子主题的一致性,再加上注意力机制,在生成对抗网络(GAN)[13]设置下,该设置具有额外的损失项来加强这种一致性。然而,与训练GAN [3]相关的困难使他们的方法容易产生不连贯的段落。与以前的工作不同,我们明确地专注于建模时生成一个段落的连续句子的多样性,但连贯的可能性,同时确保“大局”的图像不会迷失在细节。 为此,我们开发了一个传播模型,我们称之为“相干向量”,它保证了跨序列主题的平滑性,以及一个“全局主题向量”,它捕获了关于图像的汇总信息。此外,当我们的模型被训练成包含多样性时,我们观察到生成的段落质量的提高。直觉上,连贯向量嵌入了最近生成的句子的主题。下一个句子的主题向量与来自最近生成的主题向量的相干向量和全局主题向量相结合,以生成新的主题向量,目的是确保主题在句子中的平滑流动。图1展示了给定输入图像的合成段落的采样,使用我们的方法与先前的工作[21]。值得注意的是,使用我们的模型,我们观察到句子主题之间的平滑过渡,同时捕获有关句子主题的总结信息。基于图像的多样连贯段落生成3形象例如,与图1中的第一行和第三行中的图像相对应的所生成的段落指示图像已经在“cit y”设置中被捕获。根据之前的工作,我们在标准的斯坦福图像段落数据集[21]上定量评估了我们的方法,展示了最先进的性能。此外,与所有现有方法不同的是,我们展示了我们模型的通用性,通过从亚马逊产品评论数据集[ 29 ]的“Office产品”类别生成评论并显示所有基线的显着收益来评估所提出的方法在下一节中,在讨论第3节中提出的方法的细节之前,我们将讨论先前的相关工作。第四节讨论了实证评价的结果。我们最后在第5节结束,为未来的工作奠定了基础2相关工作长期以来,将语言与视觉内容相关联一直是研究的焦点[24,38,4]。这一领域的早期技术将语言“标签词”与视觉数据相关联。逐渐地,我们专注于通过将自然语言处理和计算机视觉技术结合起来,为视觉数据生成完整的句子和段落,旨在构建自然融入共同环境的整体AI系统。两项任务刺激了增长最近在语言视觉领域的工作是图像字幕[36,16,5,11,42]和视觉问答[2,12,33,32,27,40,41,43]。最近,图像字幕方法被扩展到在段落级别生成自然语言描述[21,16,25]。在下文中,我们从图像字幕和视觉段落生成领域更详细地回顾相关工作,并指出与我们的工作的区别图像字幕:图像字幕是生成文本的任务,说明,给定的输入图像。经典的图像字幕方法,通常是非参数的。这些方法从图像-字幕对的训练集构建候选字幕池,并且在测试时,使用适应度函数来检索给定输入图像的最引人注目的字幕[24,30,4]。然而,在考虑一组合理大小的描述时,匹配过程的计算要求的性质为了解决这个问题,基于递归神经网络(RNN)的方法最近开始流行[36,28,44,42,17,37,1,10]这些方法通常首先使用卷积神经网络(CNN)[34,23]来获得给定输入图像的编码然后将此编码馈送到RNN中,RNN对与图像编码最一致的一组单词(来自单词字典然而,通过这样的技术生成的字幕很短,通常跨越至多20个单词的单个句子。我们的方法不同于上述的图像字幕技术,因为我们生成一段多个句子,而不是一个简短的标题。重要的是,字幕技术通常4Moitreya Chatterjee和Alexander G.Schwing视觉段落生成:从远处看,视觉段落生成的任务类似于图像字幕:给定一个图像,生成其内容的文本描述[21]。然而,对于视觉段落生成来说重要的是对文本描述中的细节的关注。特别地,期望系统生成非常详细地描述图像的句子的段落(通常每段落5或6个句子)。此外,为了使段落类似于自然语言,必须在段落的句子的主题生成详细字幕的早期工作包括Johnson等人的方法。[16 ]第10段。在生成令人信服的句子时,缺少对给定图像背后的故事主题的关注Krause等人解决了这个问题。[21 ]第20段。他们的语言模型由两级层次的RNN组成第一个RNN级别生成句子主题,给出视觉表示图像中的语义显著区域。第二个RNN级别翻译把这个主题向量变成一个句子。Liang等人进一步推广了该模型al. [25]鼓励连贯的句子。为此,Krause等的语言生成机制。[21],再加上注意力机制,在生成对抗网络(GAN)设置中进行了训练,其中鉴别器旨在鼓励训练时的这种一致性。Dai等人[8]还训练GAN以生成段落。然而,训练GAN的已知困难[3]对有效实施此类系统构成了挑战。Xie等人引入正则化项以确保多样性[39],但是这导致约束优化问题,其不允许封闭形式的解,因此难以实现。不同于这些方法[25,8,39],我们证明了生成机制的变化更适合于获得连贯的句子结构。为此,我们引入连贯向量,确保句子之间的主题逐渐过渡。此外,与以前的工作不同,我们还将主题向量的摘要敏感的模型的“主要情节”的此外,为了捕捉从图像生成段落的固有模糊性,即,多个段落可以成功地描述图像,我们将我们的段落生成模型转换为可变自动编码器(VAE)[18,15,7,14],使我们的模型能够生成一组不同的段落,给定图像。3我们提出的段落生成如前所述,采样句子的连贯性对于从视觉数据中自动生成类似人类的段落非常重要在图像中所示的潜在的“大画面”故事。此外,自动段落生成系统的另一个有价值的元素是所生成的文本的多样性。在下文中,我们开发了一个考虑到这些属性的框架。我们首先在第3.1节中概述了该方法,然后在第3.2节中讨论了我们生成连贯段落的方法,最后在第3.3节中讨论了我们获得不同段落的技术。基于图像的多样连贯段落生成5继续继续继续停止深度神经网络深度神经网络. . .深度神经网络i=1CNN+RPN全局主题向量合并视觉特征向量图二. 概述了我们提出的方法的主题生成网络,说明了个体和“全局主题向量”的构建.图3.第三章。 句子生成网络的概述。3.1概述为了生成段落y =(y1,. . .,yS)由S个句子yi,i ∈{1,. . .,S},每个具有Ni个字yi,j,j∈ {1,. . .,Ni},对于图像X,我们利用由分层耦合的两个模块组成的深度网络:主题生成网和句子生成网。图2所示的主题生成网络试图提取一组S个主题向量,Ti∈ RHi ∈{1,. . . ,S},给定输入图像x的适当视觉表示。主题生成网络是一个参数函数,它在每个时间步递归地产生一个主题向量Ti和一个概率测度ui,指示是否要生成更多的主题。我们使用一个递归网络来实现这个函数,随后也被称为SentenceRNN。然后,我们利用主题向量Ti来构造全局主题向量G∈RH,其捕获底层图像摘要。该全局主题向量经由上述主题向量Ti的加权组合来构造。图2展示了主题生成网络的详细示意图正式我们使用(G,{(Ti,ui)}S)=ΓwT(x)表示网络其中向量包含函数的参数。全球耦合单元. . .. .深神经网络耦合单元..深神经网络耦合单元.E. . .WordRNNWordRNNWordRNN句子RNNWordRNN句子RNNWordRNN句子RNNWordRNN句子RNNWordRNNWordRNN6Moitreya Chatterjee和Alexander G.Schwingi=1j=1我我1i=1主题向量G,以及各个主题向量和概率{(Ti,ui)}S是也构成第二模块的输入的输出所开发的方法的第二个模块,称为句子生成网络,如图3所示。基于主题生成网的输出,负责产生段落y,一次一个句子yi。形式上,句子生成模块也被建模为参数函数,其一次合成句子yi、一个词yi、j更具体地说,使用递归网络Γws(·,·)来获得预测的w阶概率{pi,j}Ni=Γws(Ti,G),其中ws包含网的所有参数,并且pi,j∈[0,1] Vj∈{1,. . . ,Ni}是在我们的V中的V个词的集合上的概率分布。我们使 用 递 归 神 经 网 络 ( 随 后 被 称 为 WordRNN ) 来 实 现 函 数 Γws(·,·)。为了结合跨句子的连贯性,而不是直接使用WordRNN中的主题向量Ti,我们首先构建一个修改的主题向量T’,它更好地捕捉了第i个句子的主题 对于每个句子i,我们通过耦合单元计算T′∈RH,通过组合主题向量Ti,全局向量G和先前的句子表示Ci−1,称为相干向量,它捕获了在步骤i−1生成的句子的属性。注意,第一个句子的合成开始于构造T′,T ′是通过将T1与全局主题向量G和全零向量耦合而获得的。视觉表示:为了获得输入图像x的有效编码,我们遵循Johnson et al. [16 ]第10段。更具体地说,卷积神经网络(CNN)(VGG-16 [34])与区域建议网络(RPN)耦合,为每个语义显著区域的检测提供固定长度的特征向量,形象所获得的向量集合{v1,. . .,vM},其中vi∈RD各自对应于图像中的区域。我们随后将这些载体合并成单个载体,v∈RI[21 ]第20段。这个汇集的表示包含来自图像中不同语义显著区域的相关信息,这些信息作为输入提供给我们的主题生成网络。随后,委员会注意到,我们可互换地使用v和x。3.2连贯段落生成连贯段落的构建采用两步走的方法。在第一步中,我们从图像的池化表示开始导出一组个体和全局主题向量。然后是段落合成。opic世代:话题生成网(G,{(Ti,ui)}S)=ΓwT (x)构造一组相关主题Ti,用于给定的后续段落生成图像X。图2提供了所提出的主题生成模块的示意图。首先,图像的池化视觉表示v被用作SentenceRNN的输入。SentenceRNN是单层门控递归单元(GRU)[6],由wT参数化。它以图像表示v作为输入,并在标签'CONTINUE'或'STOP'上产生概率分布ui基于图像的多样连贯段落生成7j=1我2层密集连接的深度神经网络。“CONTINUE”标签(u)> 0。5),指示循环应继续另一时间步,而“ 停 止 ” 符 号 终 止 循 环 。然而,通过段落对图像的自动描述需要将段落的所有句子绑定到场景下的“大图片”。例如,在图1中的第一图像中,所生成的段落应当理想地反映它是在“city y”设置中捕获的图像。为了实现这种能力,我们为给定的输入图像构造全局主题向量G∈RH(参见图2)。直观地说,我们希望这个全局主题向量通过组合上述各个主题向量来编码对图像的整体理解,如下所示:Σn||不||G=αiTi其中αi=Σi2.(一)i=1我||我不是||2我们的意图是便于将“元概念”(如“城市”)表示为其潜在成分(如“汽车”、“街道”、“人”等)的加权组合。然后将合成的全局向量和主题向量传播到预测段落的单词的句子生成网络句子生成:给定个体主题向量Ti和全局主题向量G,句子生成网络合成对位主题的句子通过计算单词概率{pi,j}Ni=Γws(Ti,G),条件为前一组合成单词(见图3)。一句话生成对于S个单独的主题向量T1,. . .、TS.第i个句子的合成通过经由耦合单元组合主题向量Ti、全局主题向量G和确保一致性向量Ci-1∈RH的一致性来开始。耦合单元产生修改的主题向量(T′∈RH),其为传播到WordRNN以合成句子。WordRNN是2层GRU,其以先前合成的单词为条件,一次一个单词地生成句子yi第i个句子的第j个单词是通过在词汇表V的条目上选择具有最高后验概率pi,j的单词来获得的。当达到每个句子的最大字数限制或预测到“EOS”令牌时,句子终止。在下文中,我们描述了用于构建相干向量的机制以及上面引用的相干矢量:人性化段落的一个重要因素是连续句子的主题之间的连贯性,这确保了段落中思想的流畅。如图3所示,我们通过构建连贯向量来鼓励句子之间的主题连贯性。在下文中,我们描述构建这些向量的过程。为了计算第(i-1)个句子的相干向量,我们在合成了第(i-1)个句子的最后一个单词后,从WordRNN中提取隐藏层表示(∈RH)该编码携带关于第(i-1)个句子的信息,并且如果与第i个句子的主题向量Ti有利地耦合,则鼓励第i个句子的主题是8Moitreya Chatterjee和Alexander G.Schwing我不我我我融合单元门控单元图4.第一章“耦合单元”的内部结构。与前一个一致。然而,为了使上述耦合成功,第(i-1)个句子的隐藏层表示仍然需要被转换为与主题向量集位于相同空间中的表示。这种转换是通过传播最终的表示来实现的第(i-1)个句子通过完全连接单元的2层深 度网 络, 中间 层具 有H 个激活 。我 们使 用缩 放指 数线 性单元(SeLU)激活[20]用于这个深度网络的所有神经元。这个网络的输出就是我们所说的耦合单元:在从第(i-1)个句子获得相干向量C i-1之后,耦合单元将其与下一个句子的主题向量Ti和全局主题表示G组合。该过程在图4中示出。更具体地说,我们首先将Ci−1和Ti组合成一个向量TC∈RH,它由以下优化问题的解给出:T C=argminα||Ti−TC||2+β||Ci−1−TC||2与α,β≥ 0。iCi2i2我当α、β均不等于0时,解由下式给出:TC = αTi+ βCi−1。iα+β我们请感兴趣的读者参阅有关这一推导的补充资料直观地,这个公式鼓励TC为了Ci−1和当前主题向量Ti-此外,该公式的封闭形式的解决方案也允许有效的实施。然后,经由门控函数将该获得的向量T_C与全局主题向量G我们实现这个门控功能,使用一个单一的GRU层与向量TC作为输入和全球主题向量G作为其隐藏状态向量。的该GRU单元的输出T’是用于产生的最终主题向量。第i我通过WordRNN的句子。损失函数和训练:主题生成网络和句子生成网络都是使用标记的训练数据进行端到端联合训练的,该训练数据由图像x和相应段落y的对(x,y)组成。如果一个图像与多个段落相关联,我们为每个段落创建一个单独的对。我们的训练损失函数train(x,y)耦合了两个交叉熵损失,即第i个句子的分布ui上的二元交叉熵句子级损失基于图像的多样连贯段落生成9图五、我们的VAE公式的一般框架。(s(ui,i≤S)),以及第i个句子的第j个词的分布pi,j上的词级损失(w(pi,j,yi,j))。假设在地面实况段落中有S个句子,第i个句子有Ni个单词,我们的损失函数由下式给出ΣStrain(x,y)=λsΣSs(ui,ΣNiw(pi,j,yi,j),⑵i=1i =1j =1其中{·}是指示符函数。有了这个损失函数,我们的方法通过Adam优化器[19]进行训练,以更新参数wT和ws。3.3多样连贯的段落生成上述用于生成段落的方案缺少一个关键方面:它 为了将这种多样性元素纳入我们的模型,我们将设计的段落生成机制转换为变分自动编码器(VAE)[18]公式,其通用架构如图5所示。请注意,与其他流行的多样性建模工具(如GAN)相比,我们更喜欢VAE公式,原因如下:(1)已知GAN与VAE不同,会遇到训练困难[3];(2)GAN生成器(用于生成文本)中的中间采样步骤是不可微的,因此必须求助于基于策略梯度的算法或Gumbel softmax,这使得训练过程变得不平凡。我们的公式的细节如下。VAE配方:我们的VAE公式化的目标是对以图像x为条件的段落y的对数似然进行建模,即,ln p(y|X)。为此目的,VAE假设数据,即,在我们的例子段落中,由样本z表示的低维流形空间产生。给定样本z,我们重建,即通过对pθ(y)进行建模,|z,x)。从该潜在空间随机采样的能力提供了多样性。在我们的任务中,解码器是描述的段落生成模块在第3.2节中,通过从潜在空间中提取样本作为输入来增强。我们随后将段落生成模块的参数表示为θ=[wT,ws]。为了学习有意义的流形空间,我们需要解码器的后验p θ(z|y,x)。然而,计算解码器的后验p θ(z|[18 ]这是一个很有挑战性的问题。因此,我们通常近似这个分布目标功能:输出重建损失+KL-发散之前输入潜在空间10Moitreya Chatterjee和Alexander G.Schwing. . .重新参数化句子RNNφGv合并视觉Fe向量0v合并视觉特征向量GT1T2Tn编码解码见图6。我们的VAE公式的编码器和解码器的架构。使用概率qφ(z|y,x),其构成由φ参数化的模型的编码器部分。此外,令p(z)表示潜在空间中样本的先验分布。使用上述分布,VAE公式可以由以下等式获得:lnp(y|x)−KL(qφ(z|y,x),pθ(z|y,x))=Eq(z|y,x)[lnpθ(y|z,x)]−KL(qφ(z|y,x),p(z)),其中KL(·,·)表示两个分布之间的KL散度。 由于KL散度的非负性,我们立即观察到右侧是对数似然lnp(y)的下限|(二)可以最大化w.r.t.其参数φ和θ。右手侧的第一项优化了重构损耗,即,解码段落的条件似然(其等效于优化等式2中的损失),而第二项充当分布式正则化器(确保平滑度)。由于采样z的中间不可微步骤,经由反向传播端到端训练该系统是困难的。通过引入重新参数化技巧[18]来缓解该瓶颈。编码器和解码器的细节如下。编码器:编码器架构如图6所示。给定图像x和地面实况段落y,我们通过传递样本(x,y)来编码样本(x,y主题和句子生成网。然后我们提取隐藏的状态向量(E∈RH)从句子生成网络的最后一个WordRNN。该向量通过1层密集连接的网络,其输出层有2个H神经元。我们假设编码器下面的条件分布|y,x)为高斯分布,其均值μ为前H个神经元的输出,而剩余的H个神经元给出对数方差的度量,即lnσ2。解码器:解码架构也在图6中示出。在解码时,我们绘制一个样本zN(0,I)(z∈RH),为了训练,我们还通过以下方式对其进行移位和缩放:z=μ+σ,其中N(0,I))并通过具有I个输出神经元的单层神经网络 。此 RNN 的 隐藏 状 态然 后被 前 向传 播 到SentenceRNN 单 元,SentenceRNN单元也接收池化视觉向量v。之后,如前所述进行解码成熟T1T2Tn. . .z主题生成网络(图2)句子生成网络(图3)密集连接段落编码(E)从编码器密集连接神经网络主题生成网络(图2)句子生成网络(图3)基于图像的多样连贯段落生成114实验评价数据集:我们首先在斯坦福图像段落数据集[21]上进行实验,这是视觉段落生成领域的标准。该数据集由来自Visual Genome [22]和MSCOCO数据集[26]的19,551张图像这些图像用人类标记的段落进行注释,长度为67.50个单词,平均每个句子有11.91个单词。实验协议将该数据集分为14,575个训练,2,487个验证和2,489个测试示例[21]。此外,为了展示我们的方法的可推广性,与先前的工作不同,我们还在更大的AmazonP roduct-Review数据集(“Office-P r o ducts”类别)[ 2 9 ]上进行实验,用于生成评论的任务。这是一个办公产品的常见类别的图像数据集,例如打印机,笔等。(参见图7),从amazon.com抓取共有129,970件物品,每件物品都属于一个办公产品类别对于每个对象,存在在具有足够照明的整洁设置中捕获的相关联的图像。伴随着图像,是产品的用户的多个评论此外,每个评论都有一个星级评分,一个介于1(差)和5(好)之间的整数。平均每个对象的每个星级有6.4条评论。一篇评论的长度为71.66个单词,平均每句话13.52个单词。我们将数据集随机分为5,000个测试和5,000个验证示例,而其余的示例用于训练。基线:我们将我们的方法与最近推出的几种方法以及我们自己定制的基线进行比较。给定图像,“Image-Flat”直接合成一个段落,通过单个RNN逐令牌[17] 。 ‘Regions-Hierarchical’ on the other hand, generates a paragraph, sentence bysentence [ Liang等人 [25]基本上训练Krause等人的方法。[21]在GAN设置('RTT-GAN')中,加上注意力机制。 然而,Lianget al. 还通过使用来自MS COCO数据集的附加训练数据来报告斯坦福图像段落数据集的结果,其被称为“R TT-GAN(Plus)”。我们还在GAN设置中训练我们的此外,本发明还我们为我们的模型创建没有相干向量的基线,基本上对于每个时间步长用零向量替换它们。我们将此基线称为“我们的(NC)”。在另一个设置中,我们只为每个时间步将全局主题向量设置为零。我们将此基线称为评估指标:我们报告了所有模型在6个广泛使用的语言生成指标上的性能:BLEU-{1,2,3,4} [31],METEOR [9]和CIDEr [35]。虽然BLEU分数在很大程度上仅测量n-gram精度,但已知METEOR和CIDEr提供了对语言生成算法的更强大的评估[35]。实施详情:对于斯坦福数据集,我们将合并的视觉特征向量v的维度设置为1024。然而,对于亚马逊数据集,我们使用从VGG-16 [34]获得的可视化表示由于这些图像通常只拍摄视图中的主要对象(参见图7),因此标准的12Moitreya Chatterjee和Alexander G.Schwing表1. Stanford数据集上字幕性能的比较方法BLEU-1 BLEU-2 BLEU-3 BLEU-4流星苹果酒[17]第十七话34.0419.9512.27.7112.8211.06地区-分层[21]41.924.1114.238.6915.9513.52RTT-GAN[25]41.9924.8614.899.0317.1216.87RTT-GAN(Plus)[25]42.0625.3514.929.2118.3920.36我们的(NC)42.0324.8414.478.8216.8916.42我们的(NG)42.0525.0514.598.9617.2618.23我们42.1225.1814.749.0517.8119.95我们的(与GAN)42.0424.9614.538.9517.2118.05我们的(带VAE)42.3825.5215.159.4318.6220.93人(如[21])42.8825.6815.559.6619.2228.55CNN就够了。我们从CNN的倒数第二个全连接层中提取表示,给我们一个4,096维的向量因此,我们使用一个单层神经网络将这个向量映射到1,024维的输入向量。对于SentenceRNN和WordRNN两者,GRU具有512维的隐藏层(H)对于Amazon数据集,我们用恒星数量的H维嵌入来调节第一个SentenceRNN。对于两个数据集,我们分别将λs、λw设置为5.0和1.0,每个段落的最大句子数Smax在耦合单元中,对于Stanford数据集,α被设置为1.0,β被设置为1.5,而对于Amazon数据集,对应的值为1.0和3.0。对于两个数据集,模型的学习率在前5个时期为0.01,之后每 5 个 时 期 减 半 。 这 些 超 参 数 是 通 过 优 化 性 能 来 选 择 的 , 基 于METEOR和CIDEr分数的平均值,在两个数据集的验证集上。我们使用与Krause等人相同的词汇表。[21],对于斯坦福数据集,而11,000个最常见单词的词汇其他实施细节可在项目网站1上找到。为了进行比较,对于Amazon数据集,我们运行了所有基线的实现,其超参数是基于类似的协议选择的,而对于斯坦福数据集,我们直接从[25]报告了先前方法的性能。结果:表1和表2显示了我们的算法相对于其他可比基线的性能。我们的模型,特别是在VAE设置中训练时,优于所有其他基线(在所有6个指标上)。即使在常规(非VAE)设置下训练的模型也优于大多数基线,并且与Liang等人的方法相当。[25]这是一项现有的最先进的任务。我们在两个数据集上严格的METEOR和CIDER指标上的表现证明了我们改进的段落生成能力。使用我们的VAE设置生成不同段落的能力在亚马逊数据集上得到了很好的回报,因为具有相同星级的多个评论与1https://sites.google.com/site/metrosmiles/research/research-projects/capg_revg基于图像的多样连贯段落生成13表2. Amazon Dataset上的字幕性能比较方法BLEU-1 BLEU-2 BLEU-3 BLEU-4流星苹果酒[17]第十七话40.3130.6325.3215.6410.979.63地区-分层[21]45.7434.827.5416.6714.2312.02RTT-GAN[25]45.9336.4228.2817.2616.2915.67我们的(NC)45.8535.9727.9616.9815.8615.39我们的(NG)45.8836.3328.1517.1716.0415.54我们46.0136.8628.7317.4516.5816.05我们的(与GAN)45.8636.2528.0717.0615.9815.43我们的(带VAE)46.3237.4529.4218.0117.6417.17区域-分层我们的(NC)我们Ours(with VAE)-IOurs(with VAE)-II一辆棕色的卡车停在街上。旁边有一辆白色的卡车。背景是一个绿色的标志。背景中有一座建筑物。卡车后面有一些长着绿叶的树。树的旁边有很多汽车。停车场里有一辆棕色的卡车。背景中有一座建筑物卡车旁边是一辆白色轿车。许多汽车停在背景中。背景中有一个绿色的标志背景有很多树。一辆棕色卡车和一辆白色轿车停在停车场里。白色轿车停在棕色卡车旁边。背景是一座建筑。建筑物旁边有许多绿树背景有许多停着的汽车汽车后面有一个绿色的标志一辆棕色的卡车停在外面的停车场里。一辆白色轿车停在一辆棕色卡车旁边背景中有很多树背景中有一座建筑物。背景中有多辆汽车和一个绿色标志这是一个晴朗的日子。在一个阳光明媚的日子里,一辆棕色的卡车停在停车场卡车停在外面。卡车旁边是一辆白色轿车。背景中有绿叶的树树旁边有一座建筑物背景气体为绿色标志.一辆载着人的自行车在街上骑着树的旁边有一堵墙背景中停着几辆自行车两个男人从自行车旁走过。背景是一座大型建筑。背景里停着一辆车一个穿白衬衫的男人走在一条城市街道他旁边还有一个人。一辆自行车在大楼旁边行驶车辆停在背景中的停车场一辆汽车停在城市的街道上。汽车旁边有一个标志两个男人走在一条城市的街道上。这些人在一座建筑物旁边。他们正从一辆汽车旁走过大楼旁边有一辆自行车背景有很多车辆。背景是一棵树枝很长的大树两个男人走在街上。这是一个晴朗的日子。这些人走在一辆汽车旁边一辆自行车正骑在一座建筑物旁边背景中有一棵高大的树树的前面有一个标志一辆自行车与人骑在城市的街道上,晴天。他们身后是一棵长着长长树枝的树一辆汽车停在树旁。男人从车旁走过在背景中有一个带窗户的大型建筑物背景中有一个停车场。星星数量:1星星数量:5这是一台黑色的打印机,上面有按钮。这台打印机是彩色打印的。墨盒的寿命很长。打印机有多个纸盒。打印机有黄色按钮。它有一个显示屏。这台黑色打印机质量很好打印机很高。它有托盘和按钮使用。扫描仪使用方便。墨盒可用。打印机上有黄色按钮这台黑色打印机很轻。打印机有许多按钮,并有一个扫描仪。墨盒用了好几年。印刷品令人印象深刻包装很好。它的价格很便宜黑色打印机带有扫描仪。它有纸箱子。它有按钮。它有保修单。这是一个很好的价格。打印机使用方便。带进纸功能的黑色打印机打印机有一个扫描仪和使用按钮它的重量很轻。它打印的颜色很好它具有良好的可用性。它有一个很好的价格。这是一个黑色的保险箱,有一个黑色的钢制外壳。这个案子很大。它非常昂贵。它很重。这个保险箱有两个把手。它有一个黑暗的边界。这是一个黑色的大保险箱保险箱很重。随身携带很方便它也非常昂贵。保险箱的侧面有一个把手更换它很不方便。这个黑色的保险箱有一个钢壳。它带有一个手柄握在两侧。保险箱里的空间很小。保险箱又重又不方便。其他型号要好得多。它非常昂贵。这是一个黑色的保险箱,有一个钢制的箱子。保险箱很大。它有一个黑色的手柄。保险箱用钥匙打开。它非常昂贵。它不是很便携。这是一个钢制的保险箱。它用钥匙打开。保险箱的侧面有一个把手。这是有史以来最糟糕的一次。代价很高它很重。见图7。使用我们开发的方法在不同设置下生成的段落,相对于区域层次[21]。第一张和第二张图像来自斯坦福数据集,而第三张和第四张图像来自亚马逊数据集。一个对象,产生一种固有的歧义。值得注意的是,当在GAN设置下训练时,我们的模型在性能方面更差。这一观察结果与先前的工作一致[8]。我们推测这是由于正确训练GAN的固有困难[3]以及基于GAN的设置没有直接以最大似然进行训练的事实定性结果:图7展示了我们生成的段落的示例。图中的第一个例子(第一行)显示,我们的模型可以生成连贯的段落,同时从具有复杂场景的图像中捕获元概念,如Regions-Hierarchical [21]面临着将这些“元概念”纳入生成段落的挑战对于Amazon数据集中的几个实例(例如第三个和第四个实例中的图像),第四行),我们的方法和Regions-Hierarchical [21]都成功地检测到图像中的主要对象。我们推测,这是由于亚马逊数据集的图像易于对象识别,并且在较小程度上是由于改进的段落生成算法。此外,在VAE设置中,能够生成两个明显不同的段落,具有相同的14Moitreya Chatterjee和Alexander G.Schwing输入,只需每次采样不同的z(图7中最右边的两列),允许我们的结果多样化。此外,对于Amazon数据集(图7中的第三和第四行),我们看到我们的模型学习根据输入星的数量来合成“se n time n t”命令。我们在补充资料中提供了其他消融研究:在一个设置中,我们判断连贯向量的重要性,通过只使用全局向量并将连贯向量设置为0,在句子生成网络中。显示了此设置(“我们的(NC)”)的结果在表1、2中,而定性结果在图7中示出。这些数字表明,仅仅通过合并全局主题向量,就可以生成相当好的段落。然而,并入相干向量使得合成的段落更像人类。查看图7的第二列示出,即使没有相干向量,我们也能够检测全局主题,如我们通过引入相干向量来纠正这一点。在另一种设置中,我们在每个时间步长将全局主题向量设置为0,同时保留相干向量。在此设置下的性能在表1和表2中以“我们的(NG)”表示。结果表明,将一致性矢量对于改进性能来说更为关键5结论和未来工作在这项工作中,我们开发了此外,我们在两个数据集上证明了所提出的技术的有效性,表明我们的模型在使用有效的自动编码技术进行训练时,可以在字幕和评论生成任务中实现最先进的性能。在未来,我们计划将我们的技术扩展到生成更长的叙述,如故事。鸣谢:本材料基于部分由美国国家科学基金会资助的工作。1718221、Samsung和3M。我们感谢NVIDIA提供用于本研究的GPU。引用1. Aneja,J.,Deshpande,A.,Schwing,A.G.:卷积图像字幕。在:Proc.CVPR(2018)2. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M.Batra,D.,LawrenceZitnick,C.Parikh,D.:Vqa:可视化问答。在:Proc. ICCV(2015)中3. Arjovsky,M.,等:Wasserstein ganarXiv预印本20174. Chatterjee,M.,Leuski,A.:图像和视频检索的一种新的统计方法及其对主动学习的适应In:Proc.ACM Multimedia(2015)5. 陈旭,Lawrence Zitnick,C.:MindIn:Proc.CVPR(2015)基于图像的多样连贯段落生成156. Chung,J.Gulcehre角周,K.,Bengio,Y.:门控递归神经网络在序列建模中的实证评估arXiv预印本20147. Chung,J.Kastner,K.,丁湖Goel,K.,南卡罗来纳州考维尔Bengio,Y.:序列数据的递归潜变量模型。见:Proc. NIPS(2015)8. Dai,B.,等:通过条件性的根来实现多样化和自然的图像描述。arXiv预印本20179. Denkowski,M.,Lavie,A.:Meteor universal:针对任何目标语言的特定语言翻译第九届统计机器翻译研讨会(2014年)10. Deshpande,A.,Aneja,J.,Wang,L.,美国,Schwing,A.G.,福赛斯,D.A.:二诗和可控的图像字幕与部分的语音指导。In:https://arxiv.org/abs/1805.12589(2018)11. Donahue , J. , 安 妮 · 亨 德 里 克 斯 Guadarrama , S. , Rohrbach , M. ,Venugopal
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功