没有合适的资源?快使用搜索试试~ 我知道了~
1显示、编辑和讲述:一种图像字幕编辑框架Fawaz Sammani1,Luke Melas-Kyriazi21多媒体大学,2哈佛大学fawaz. aol.com,lmelaskyriazi@college.harvard.edu摘要大多数图像字幕框架直接从图像生成字幕但是,编辑现有的标题可能比从头开始生成新的标题更容易。直观地说,当编辑字幕时,模型不需要学习已经存在于字幕中的信息(即,句子结构),使其能够专注于确定细节(例如,替换重复的单词)。本文提出了一种新的方法,图像字幕的基础上迭代自适应细化现有的字幕。具体来说,我们的标题编辑模型由两个子模块组成:(1)EditNet,一种具有自适应复制机制(Copy-LSTM)和选择性复制记忆注意机制(SCMA)的语言模块,以及(2)DCNet,一种基于LSTM的去噪自动编码器。这些组件使我们的模型能够直接复制和修改现有的字幕。实验表明,我们的新方法在MSCOCO数据集上实现了最先进的性能,无论是否进行序列级训练。代码可在https://github.com/fawazsammani/show-edit-tell上找到。1. 介绍图像字幕的任务是产生一个自然的语言描述的视觉场景。作为多模态学习的原型典型示例之一,图像字幕结合了计算机视觉技术(例如,识别图像中的显著对象),与来自自然语言处理的那些(例如,生成描述这些对象的连贯句子)。图像字幕的应用包括基于内容的图像检索[18]和通过将视觉信号转换为文本来帮助视力受损者,然后可以使用文本到语音技术将其转换为语音[17]。在过去的五年里,神经编码器-解码器系统在图像字幕领域获得了极大的普及,因为它们的性能优于图1.我们的模型学习如何编辑现有的图像标题。在每个解码步骤,产生注意力权重(灰色);这些对应于现有字幕中的每个单词对于新字幕中当前正在生成的单词的重要性。使用选择性复制记忆注意(SCMA)机制,我们选择概率最高的单词,并直接将其对应的LSTM记忆状态复制到我们的语言LSTM(Copy- LSTM)。也就是说,我们学习是否复制对应于这些单词的隐藏状态,而不是学习直接从输入标题中复制单词。然后,我们从这个(可能是复制的)隐藏状态生成新的标题最好用彩色观看。以前的基于图像处理的技术。当前最先进的图像字幕模型由CNN编码器、LSTM(或Transformer)解码器和一个或多个注意力机制组成输入图像首先由CNN编码成一组特征向量,每个特征向量捕获关于图像区域的语义信息,并且这些特征向量使用基于LSTM或基于变换器的网络进行解码,该网络依次生成单词。注意力机制使解码过程能够在高质量的字幕包括两个要素:连贯的自然语言句子(即,句子/标题结构)和视觉上接地的内容(即,准确的细节)。当前的图像字幕模型学习一个地面上的地图-48084809ping从图像功能到完整的字幕,希望捕捉两个元素同时进行。检查先前图像字幕模型的输出[28,2,29],我们观察到模型非常好地学习全局句子/字幕结构,但它们经常产生不正确,不一致或重复的内容。受此观察的启发,近几个月来,研究人员已经开始考虑独立于生成输入的问题的编辑输入的问题[7,23]。直观地说,编辑应该比从头开始更容易,因为字幕编辑模型可以专注于视觉上的细节,而不是字幕结构[23]。例如,考虑图1:一个最先进的图像字幕框架[8]输出“A sandwich on a table with a table”。网络为这个特定的图像生成一个合理的句子结构(“A上与“)但未能正确填写名词,重复图像中的主要对象(“表”)。应用于此标题的标题编辑模型应该能够识别此错误(名词重复),并将标题修改为“我们提出了一种新的方法,图像字幕的基础上迭代自适应细化现有的字幕,而不是从头字幕生成。在字幕编辑过程的每个解码步骤中,从前字幕中选择一个词,并将其对应的存储器状态复制到LSTM的内部结构中(复制-LSTM)。此Copy-LSTM包括一个单独的选择性复制注意机制(SCMA),使其能够进一步编辑或复制现有单词到最终输出caption中。例如,在图1中,我们的模型选择复制单词“table”的第一个实例,并将第二个实例编辑为“glass”。最终,我们的模型产生:“桌上的三明治和一杯酒”概括而言,我们的贡献如下:• 我们提出了EditNet,这是一个用于编辑现有图像标题的框架,由配备选择性复制记忆注意力的(SCMA)机制。除了EditNet之外,我们还提出了DCNet,这是一种去噪自动编码器,可以学习对之前的字幕进行去噪。我们优化DCNet与一个新的目标函数(MSE之间的隐藏状态),发现它是一个简单而有效的方法来提高我们的解码器的性能。• 我们的方法在MS COCO数据集上实现了新的最先进的性能。• 我们提出了我们的模型的组件的消融分析,证明每个方面都有助于我们的模型的最终性能的非平凡2. 相关工作2.1. 图像字幕图像字幕在计算机视觉和自然语言处理领域已经被广泛研究了几十年。传统的字幕系统主要用于视频字幕,涉及检测关键字并使用这些关键字来填充手工制作的模板[20,19]。这些模型的优点是总是产生逻辑句子结构,但由于需要研究者手动设计模板,它们的表达能力受到严重限制。在过去的五年中,基于神经网络的图像captioning模型已经变得突出。由[27]介绍,这些方法属于更广泛的编码器-解码器模型类别,以及用于机器翻译,摘要,语音识别和许多其他任务的方法[24]。具体来说,[27]提出了一个由CNN编码器和LSTM解码器组成的[28]对[27]引入的模型进行了显著改进,增加了注意力机制。这些机制在序列学习任务中产生了很大的性能改进[28,3,6]。在专门为图像字幕设计的注意力机制中,自下而上和自上而下的注意力(Up-Down;[2])和最近的注意力集中注意力(AoA;[8])已被证明是最成功的。[2]在语言LSTM之前添加了一个自顶向下的注意力LSTM,以选择性地关注空间图像特征。[8],目前最先进的,在语言LSTM和标准注意力机制之后添加了一个注意力模块。该模块旨在测量注意力结果与查询之间的相关性;它转换标准注意力机制的输出,将其按元素乘以注意力门(输出的不同转换,然后是sigmoid函数)。最后,与注意力机制的改进平行,[22]提出了一个新的图像字幕优化目标。传统上,图像字幕模型被训练以最小化它们的单词级输出和地面实况字幕之间的交叉熵。[22]相反,使用强化学习的方法优化序列级目标,如CIDER [26]或METEOR [4]。现在,在文献中通常使用交叉熵和自我批判训练来评估新模型的性能。2.2. 序列到序列编辑在过去的一年中,一种基于编辑序列到序列模型输出的新范式已经被证明可以提高一大类模型的性能。[七]《中国日报》4810图2.我们提出的模型包括两个子模块:左边是EditNet及其解码器(中间)。对于EditNet,现有的字幕首先使用单向LSTM进行编码,其中每个LSTM单元输出一个单词表示(隐藏状态he和内存状态ce)。隐藏状态用于计算注意力权重,然后将注意力权重传递给SCMA机制,t t记忆状态。SCMA选择单个内存状态并直接将其复制到Copy-LSTM,后者在其内部结构中包含自适应复制机制,可以选择文本关注向量被门控以在作为输入与视觉注意向量一起传递到Copy-LSTM之前移除不正确的关注词。 编辑网配备了一个基于LSTM的去噪自动编码器(右),该编码器将现有字幕作为输入,将其编码为压缩表示,然后将压缩表示解码为其预期输出。提出了一种检索和编辑框架,用于从自然语言输入生成序列,例如源代码。作者在代码自动完成任务和炉石卡基准测试中显示出比标准序列到序列模型更强的性能增益;这些结果表明,编辑现有输出可能比从头开始生成新输出更容易。最近,[23]提出了编辑图像标题的任务。[23]使用深度平均网络将现有字幕(由传统的序列到序列模型输出)编码为向量,并将此向量的门控输出与LSTM输出一起添加,使LSTM能够对“残留”信息进行建模该模型改进了一些基线方法的性能,但在图像字幕方面未能超越最先进的水平。在这项工作中,我们为[23]中提出的编辑任务引入了一个新的框架与[23]和图像字幕生成的最新技术(如上所述)[8]相比,我们在图像字幕度量方面显示出显着的性能改进。3. 拟议方法我们的模型包括两个子模块:EditNet和DC-Net.在下面的部分中,我们将详细描述每个子模块。我们的模型的完整概述是如图2所示。3.1. 编辑网EditNet是一个模型,旨在学习是否复制或编辑输入标题中的每个单词。它有一个编码器-解码器结构,有两个组件:(1)选择性记忆注意力机制(SCMA)和(2)复制- LSTM解码器。我们将在以下小节中详细描述这些部分3.1.1EditNet架构我们将EditNet的一般结构基于[2]中广泛使用的给定一幅图像,我们的编码器使用基于R-CNN的网络提取一组36个视觉特征。我们用V={v1,v2,. . .,vk},其中v i∈R2048且k是对象的数量(在我们的例子中,k=36)。给定编码器的输出和输入标题,解码器产生输入字幕的编辑版本。像[2]一样,我们的解码器包含一个注意力LSTM和一个语言LSTM。与以前的工作不同,我们添加了一个输入字幕LSTM和一个 新 的 SCMA 模 块 , 并 将 LSTM 语 言 替 换 为 Copy-LSTM。首先,我们使用单向单层LSTM对输入字幕进行编码(参见图2中的红色虚线框)。在以下部分中,我们将编码的输入标题表示为h s=[h e. . .其中,n是在1N4811不不不不我我我S思兮输入标题。 我们将相应的LSTM单元的存储器状态表示为cs=[c e。- 是的- 是的 c e]。1N接下来, 我们将以下输入输入给注意力LSTM:单词嵌入向量,最后一个隐藏状态在字幕编码r中,平均池化图像特征v=1vi,以及语言的前一个隐藏状态ki1e2ΣLSTM。也就是说,我们输入xt =wt;hn;v<$;ht−1其中;表示串联。注意,这个注意力LSTM是这是一个标准的LSTM,而不是一个Copy-LSTM,因为它不接受来自SCMA模块的输入。注意力LSTMh1的输出用于计算两个注意力向量,一个是视觉特征,另一个是文本特征。这些与门控机制融合在一起,并用作Copy-LSTM的输入对文本特征的注意力权重也被用作SCMA模块的输入;该模块可以被认为是学习从输入字幕LSTM中选择和复制,并且其输出被用作复制LSTM的输入。Copy-LSTM将注意力LSTM的输出以及视觉注意向量和门控文本向量作为输入。它输出一个隐藏状态h2,该状态被传递到最终的线性层,以预测词汇表上的softmax概率分布。最后,此分布与去噪自动编码器的输出(在第3.2节中描述)融合,以产生最终输出字。3.1.2选择复制记忆注意(SCMA)SCMA(图3)使我们的模型能够选择和复制与输入标题中的单词相对应的内存状态我们测量当前初始解码器输出h1和前一个字幕hs中的每个单词使用一个浅层神经网络和一个softmax:图3.SCMA的操作流程注意力权重(灰色)从输入字幕的编码输出计算,并根据语言模型中当前生成的单词突出显示每个单词的重要性。注意力权重然后用于计算两个掩码:与每个字的相应注意权重相乘的二进制掩码MB,以及将乘法结果移位为1的移位掩码MS。最后,每个结果元素乘以相应的- ING内存状态。最后,所有的记忆状态都被消除,除了具有最大注意力权重的记忆状态,这是最终的复制输出。图4.我们的Copy-LSTM的结构(公式4-6)。. T.¯1ΣΣαp= softmax瓦丹Ws hs+Whht(一)例如,如果最大值的注意权重word为0.8,则mbi= 1且msi= 0.2。 因此与传统的注意机制不同所提取的存储器状态将是C e(0. 8·1+0。2)= c e.我我我们不直接使用αp。 相反,我们利用正确的-响应输入字幕编码器LSTM中的存储器状态准确地说,我们从具有最高相似性的输入字幕编码器复制对应的存储器状态c e(即,最高softmax输出(来自αp)。类似地,如果非最大词的注意力权重为0.3,则mbi= 0且msi= 0。在这种情况下,c c(0. 3·0+ 0)=0,则ce将被消除。 因此,具有低于最大值的概率的所有字将被乘以0,并且具有最大值的存储器单元ce将被乘以0。值得注意的是,这种索引操作是不可微的。到为了解决这个问题,我们采用了重新参数化最大的可能性仍然存在。我们利用复制的存储器状态,表示为Ce,在技巧[12]。我们构造两个掩码,一个二进制掩码和一个移位掩码。二进制掩码mb在softmax输出αp的最大概率值的索引中包括1,而移位掩码ms包括将最大字的αpmb的结果移位为1的残差值在数学上,该操作是:Σn复制LSTM如下所述。3.1.3Copy-LSTM为了将来自输入字幕和SCMA模块的信息合并到语言解码器中,我们使用自适应复制机制来增强LSTM单元。我们的模-ce=(αp mb+ms)cei=1(二)我们称之为Copy-LSTM的固定LSTM单元包括:一个4812Snnny|y∗ ∗从SCMA模块相对于其他输入源(视觉特征和隐藏状态)。和Σnct=αp he(九)我们现在给出一个Copy- LSTM的数学公式。与标准LSTM一样,遗忘门、输入门、输出门和存储器状态计算如下:ft=σ(Wf·[ht−1,xt]+bf)it=σ(Wi·[ht−1,xt]+bi)我我i=1注意,公式7与[25]不同,在[ 25 ]中,我们在激活函数之前包括门及其互补。我们发现,这种操作在完全去除atten中不需要的元素方面表现得C~t = tanh(WC·[h t−1,xt]+bC)(三)矢量 还要注意,方程9中的αp与方程式1。我们发现共享参数会更好-Ct=ft<$Ct−1+it<$Ctot=σ(Wo[ht−1,xt]+bo)此外,我们还引入了一个复制门cgt,它可以被认为是计算复制的内存状态与当前生成的单词之间的相似度:计算相似性得分并减少总参数的数量。3.2. 去噪字幕(DCNet)与EditNet并行,我们使用一个去噪自动编码器(表示为DCNet)来对输入字幕进行去噪。去噪自动编码器传统上用于重构噪声cgt =σ(Wn·[Ct,Ce])(4)图像.在我们的例子中,我们可以将输入标题看作是然后,我们计算从两个内存状态中获取的量,并将LSTM内存状态修改为:真实字幕的嘈杂版本。DCNet由一个双向LSTM编码器组成,它将嘈杂的字幕编码成压缩的表示,Cap =cgCe+(1−cg)和一个LSTM解码器,它解码COM。tt t t然后用新构造的记忆状态的双曲正切激活函数乘以输出门来计算隐藏状态ht=ottanh(Capt)(6)通过这些修改,Copy-LSTM能够将所需信息合并到其输出表示ht中。它将这个隐藏状态传递给输出层,输出层预测标题中的下一个单词注意如果压代表。请注意,DCNet只对文本特征进行操作,而不对任何视觉特征进行操作。此外,DCNet中的参数不与EditNet中的参数共享有关DCNet的进一步详情见补充材料。3.3. 目标我们首先通过优化交叉熵(XE)损失来训练我们的模型门Cgt为1,则完全复制来自输入字幕的单词,并且如果门Cgt为0,则忽略先前的字幕并且重新生成单词。关于Modi-ΣTLXE(θ)=−t=1.对数pθ.ΣΣ不1 :t−1(十)LSTM(Copy-LSTM)的内部结构如图4所示。3.1.4上下文门控如前所述,我们的模型关注现有标题的文本特征h。直觉上,对文本特征的过分关注可能会误导语言在使用交叉熵进行训练之后,我们还使用语言模型的最后一个解码器隐藏状态与地面实况字幕的最后一个隐藏状态之间的均方误差来优化我们的语言解码器。该地面实况字幕隐藏状态通过使地面实况字幕运行通过去噪自动编码器的编码器来获得总而言之,这一损失为:当现有标题包含不正确的信息时的LSTM。受到神经机器LMSE= 1Σn. hd−hg(十一)在翻译过程中,我们引入了一个即:ni=1其中,我们线性地投影语言模型h2的最后隐藏状态,而不使用任何激活函数:hd=Wd h2+bd(12)cm=zttanh(Ws ct)+(1−zt)tanh(Wt·[wt;ht]))n n4813哪里(七)zt=σ(WZ·[wt;ht;ct])(8)我们在第二节中提供了关于该方案的消融研究4.4,其中我们证明DCNet的CIDER评分从1.171增加到1.183。 该优化方案4814我简单,不局限于我们的模型;它可以应用于一般序列到序列或向量到序列任务。我们的最终损失(对于非序列级训练)是:L=LXE(θ)+LMSE(13)最后,为了与其他作品进行比较,我们使用序列级训练直接优化CiDEr-D [22]。在[22]中,政策梯度是:其中r(Cs)是采样字幕的CIDEr分数,并且b是Greatest解码字幕的CIDEr分数[22]。3.4. 实现细节EditNet:对于视觉功能,我们使用[2]中的自底向上功能。对于文本特征,我们使用[8]中的标题。1我们将LSTM编码器和解码器网络的嵌入和隐藏大小设置为1024,注意力维度设置为512。我们使用交叉熵训练EditNet 15个epoch请注意,对于EditNet,我们在使用交叉熵进行训练后不使用MSE优化然而,我们仍然提供消融研究训练的编辑网络与MSE优化。我们使用ADAM优化器[11],批量大小为80,初始学习率为5e-4,每3个epoch将学习率衰减0.8倍。我们每5个epoch将预定采样概率增加0.05 [5]。我们优化了CIDER-D分数与序列级训练的另外25个时期,初始学习率为5e-5,并退火0.5时,CIDER-D分数显示没有改善一个时期。我们不使用标签平滑。DCNet:DCNet完全基于文本特性运行,不使用任何视觉特性。对于编码器LSTM,我们将每个方向的隐藏大小设置为512,最终两个方向的尺寸都为1024。对于解码器,我们选择隐藏大小为1024的自顶向下解码器[2]。嵌入维度设置为1024,注意维度设置为512。我们使用交叉熵训练DCNet 4个时期,如公式10所示,并使用MSE优化它一个额外的时期,如公式13所示我们将批处理大小设置为60,并使用与EditNet相同的优化设置(用于XE和CIDER-D优化)。4. 实验4.1. 数据集我们在流行的MS COCO数据集[14]上评估了我们提出的方法,该数据集包含123,287张图像,每个图像由5个不同的人标记为5个标题。公司现采用国际1我们使用预训练模型:https://github.com/husthuaan/AoANet标准我们将所有句子转换为小写,并从词汇表中删除出现次数少于3次的单词,最终词汇表为13,368个单词。为了进行评估,我们使用4种不同的指标:BLEU( 1 至 4 克 ) [21]、 ROUGE-L [13] 、 CIDEr-D [26]和SPICE [1]。所有度量都是用标准的公共评估代码计算出来的24.2. 定量分析离线评估:我们在表1和表2中报告了我们的模型与当前其他技术相比的性能。这些模型包括NIC [27],它使用一个普通的CNN-LSTM编码器-解码器框架;SCST [22],它使用不可微的指标优化了标准的基于注意力的模型;自适应[15]使用视觉哨兵消除对非视觉单词的视觉注意; Up-Down [2]使用注意力LSTM来处理从Faster R-CNN模型中提取的图像特征; RFNet [9]使用相互连接的多个CNN和LSTM; GCN-LSTM [29]预测图像场景图并将其与视觉特征融合以产生更好的特征向量;最后是AoANet [8],它使用基于transformer的语言模型,并从参与的视觉向量中过滤出不正确的元素。对于表1中的交叉熵损失训练阶段,我们的单个模型在所有指标上都获得了最高分,除了SPICE,其分数略低于[8]。对于序列级优化阶段,我们的模型也在所有指标中获得了最高分数,除了CIDER-D,其中略低于[8]发布的结果,等于[8]发布的预训练模型。当使用交叉熵训练时,我们的模型也显著优于唯一的其他字幕编辑模型,修改网络(MN)[23](MN的序列级结果未报告)。在线评价:我们的模型在官方MS-COCO在线测试服务器上的性能在补充材料中提供。4.3. 定性分析图5和图6显示了我们的编辑框架生成的一些结果。在图5中,我们可以看到当前最先进的框架[8]生成了一个句子,它识别了正确的对象,但未能以正确的格式排列它们(站在人身上)。使用这些标题作为我们编辑框架的输入,我们的模型能够固定句子并将对象排列在正确的格式中(站在地板上)。 图5的右侧显示了2https://github.com/tylin/coco-caption网站4815表1.我们的单一模型和其他最先进的模型在交叉熵训练下对MS-COCO“Karpathy”测试分割的性能。所有值均报告为百分比(%)。* 表示从公开可用的预训练模型获得的结果。- 表示不提供结果†表示来自先前训练为编辑字幕而不是生成字幕的模型的结果模型交叉熵损失度量BLEU-1BLEU-2BLEU-3BLEU-4ROUGE-LCIDEr-D香料[27]第二十七话---29.652.694.0-SCST [22]---30.053.499.4-自适应[15]74.258.043.933.254.9108.519.4上下[2]77.2--36.256.4113.520.3[23]第二十三话76.961.247.336.156.4112.320.3RFNet [9]76.460.446.635.856.8112.520.5GCN-LSTM [29]77.3--36.857.0116.320.9AoANet [8]77.4--37.257.5119.821.3AoANet*[8]77.361.647.936.957.3118.421.6ETN(我们的)77.962.548.938.057.71.20021.2表2.我们的单一模型和其他最先进的模型在CIDER-D评分优化下对MS-COCO“Karpathy”测试分割的性能。所有值均报告为百分比(%)。* 表示从公开可用的预训练模型获得的结果。- 表示不提供结果。模型序列级优化度量BLEU-1BLEU-2BLEU-3BLEU-4ROUGE-LCIDEr-D香料[27]第二十七话---31.954.3106.3-SCST [22]---34.255.7114.0-上下[2]79.8--36.356.9120.121.4RFNet [9]79.163.148.436.557.3121.921.2GCN-LSTM [29]80.5-38.258.3127.922.0AoANet*[8]80.565.250.139.158.9128.922.7AoANet [8]80.2--38.958.8129.822.4ETN(我们的)80.665.351.139.258.9128.922.6检测到的单词(y轴)和现有单词(x轴)。由此,我们可以看到SCMA机制选择并复制到Copy-LSTM的单词。图6展示了我们的模型还能够替换重复的单词并向标题添加细节。前三个例子表明,当AoANet无法识别图像中的正确细节时,它经常重复单词(例如,一个火车站,一个炉子,一个长凳)。我们的编辑模型通过重新放置重复的单词成功地解决了这些问题。图6中的最后一个示例演示了我们的模型可以向现有标题添加额外的细节,即使图像中的视觉特征很小(起落架放下)。4.4. 消融研究在本节中,我们提供了在训练后使用均方误差(MSE)优化的消融研究,交叉熵,以及单独使用Copy-LSTM和SCMA机制。表 3 给 出 了 使 用 和 不 使 用 MSE 优 化 的 EditNet 和DCNet的结果。不使用MSE的结果是在交叉熵(XE)损失的情况下训练每个子模块后获得的,而使用MSE优化的结果是在使用XE(首先单独)和MSE(与XE一起)优化EditNet后获得的。对于DCNet,增加一个MSE训练时期可以提高BLEU-4评分从36.9至37.2,CIDEr-D评分从117.1到118.3我们还单独检查了我们的Copy-LSTM的性能:我们删除了视觉特征,上下文门和DCNet子模块 , 并 且 我 们 用 交 叉 熵 ( 没 有 MSE 优 化 ) 训 练EditNet 。 我 们 对 BLEU-1/BLEU-2/BLEU-3/BLEU-4/ROUGE-L/CIDER-D的评分分别为77.3、61.7、48.0、37.0、57.2和57.2。117.3分。这意味着,4816图5.当提供来自AoANet [8]的输入字幕时,由我们的编辑框架生成的字幕,以及其视觉注意力地图(左)和文本对齐图(右)。对齐图可视化了由SCMA机制选择并复制到Copy-LSTM的单词。图6.与AoANet相比,我们模型的结果更多[8].一些指标的预训练AoANet模型和其他指标的非常小的改进。此外,我们在没有任何视觉功能的情况下检查了EditNet子模块中上下文门的性能,发现上下文门将CIDER-D得分从117.3提高到117.5。相比之下,具有视觉特征和文本上下文门控的EditNet在所有最后,我们研究了SCMA机制中不可微索引的性能。我们发现,简单地使用软注意力的记忆状态实现了CIDER-D得分为119.2,这是低于实现的得分1.200时,使用不可区分的索引。表3.交叉熵训练后使用MSE优化的效果B-4表示BLEU-4,C表示CIDEr-D。模型DCNet编辑网度量B-4CB-4C无MSE优化36.9117.138.0118.0带MSE优化37.2118.338.0118.55. 结论在本文中,我们提出了一个框架,编辑图像字幕的基础上迭代自适应细化现有的字幕。这个新的视角使我们的框架能够专注于修复现有字幕的细节,而不是从头开始生成新的字幕具体来说,我们的模型由两个新的子模块组成:(1)EditNet,具有自适应复制机制(Copy-LSTM)和选择性复制记忆注意机制(SCMA)的语言模块,以及(2)DCNet,基于LSTM的去噪自动编码器。在MS COCO数据集上的实验表明,我们的方法在图像字幕度量上达到了最先进的性能。在未来,我们的框架可能会扩展到相关的任务,如视觉问答和神经机器翻译。引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在ECCV,2016年。6[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。 2018IEEE/CVF计算机视觉和模式识别会议,第6077- 6086页,2017年。一二三六七[3] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。ICLR,2015年。24817[4] Satanjeev Banerjee和Alon Lavie。Meteor:一个自动的评 估 指 标 , 与 人 类 的 判 断 有 更 好 的 相 关 性 .InIEEvaluation@ACL,2005. 2[5] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。2015年,在NIPS中。6[6] JanKChorowski , DzmitryBahdanau , DmitriySerdyuk,Kyunghyun Cho,and Yoshua Bengio.用于语音识别的基于注意力的模型神经信息处理系统的进展,第577-585页,2015年2[7] 辰 范 湾 Hashimoto , Kelvin Guu , Yonatan Oren , andPercy Liang.用于预测结构化输出的检索和编辑框架。NeurIPS,2018。2[8] Lun Huang,Wenmin Wang,Jie Chen,and Xiao-YongWei. 注 意 注 意 图 像 字 幕 。 ArXiv , abs/1908.06954 ,2019。一二三六七八[9] Wenhao Jiang,Lin Ma,Yu-Gang Jiang,Wei Liu,andTong Zhang.用于图像字幕的递归融合网络。在ECCV,2018。六、七[10] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义CVPR,2015。6[11] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。6[12] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。CoRR,abs/1312.6114,2013。4[13] 林金耀。Rouge:一个用于自动评估摘要的软件包。在ACL 2004,2004。6[14] 作者:Michael Maire,Serge J.卢博米尔?罗斯?布尔德夫放大图片作者:James Hays,Pietro Perona,DevaRamanan,C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。Microsoftcoco : 上 下文 中 的 公 共对 象 。 2014年 , 在ECCV。6[15] Jiasen Lu ,Caiming Xiong,Devi Parikh,and RichardSocher. 知 道 什 么 时 候 看 : 自 适 应 注 意 力 通 过 视 觉sentinel图像字幕。2017年IEEE计算机视觉和模式识别会议(CVPR),第3242- 3250页,2016年。六、七[16] Jiasen Lu ,Caiming Xiong,Devi Parikh,and RichardSocher. 知 道 什 么 时 候 看 : 自 适 应 注 意 力 通 过 视 觉sentinel图像字幕。在Proceedings of the IEEE conferenceon computer vision and pattern recognition , 第 375-383页,2017年。1[17] Haley MacLeod , Cynthia L Bennett , Meredith RingelMorris,and Edward Cutrell.用计算机生成的社会媒体图像字幕理解盲人的经历。 在2017年CHI计算机系统人为因素集,第5988ACM,2017。1[18] Vicente Ordonez , Xufeng Han , Polina Kuznetsova ,Girish Kulkarni,Margaret Mitchell,Kota Yamaguchi,Karl Stratos , Amit Goyal , Jesse Dodge , AlyssaMensch , et al. 大 规 模 检 索 和 图 像 描 述 生 成 。International Journal of Computer Vision,119(1):46-59,2016. 1[19] Jia-Yu Pan , Hyung-Jeong Yang , Pinar Duygulu , andChristians Faloutsos.自动图像字幕。在2004年IEEE国际多媒 体 会 议 和 博 览 会 ( ICME ) ( IEEE Cat. No. 04 TH8763),第3卷,第1987-1990页。IEEE,2004年。24818[20] Jia-Yu Pan,Hyung-Jeong Yang,Christos Faloutsos,and Pinar Duygulu. Gcap:基于图形的自动图像加帽。在2004年计算机视觉和模式识别研讨会上,第146-146页IEEE,2004年。2[21] Kishore Papineni,Salim Roukos, Todd Ward , andWei-Jing Zhu. Bleu:一种机器翻译的自动评测方法。在ACL,2001年。6[22] 史蒂文·J·雷尼,艾蒂安·马切雷特,优素福·穆鲁,杰瑞特·罗斯,和瓦瓦瓦·戈埃尔.图像字幕的自我批判序列训练。2017年IEEE计算机视觉和模式识别会议(CVPR),第1179-1195页,2016年。二六七[23] 法瓦兹·萨马尼和马哈茂德·埃尔赛义德查看并修改:用 于图 像 字幕 的 修 改网 络 。英 国机 械 视觉 会 议(BMVC),abs/1909.03169,2019。二三六七[24] Ilya Sutskever,Oriol Vinyals和Quoc V Le。用神经网络进行序列到序列学习神经信息处理系统的进展,第3104-3112页,2014年2[25] 涂兆鹏,杨鹏. Liu,Zhengdong Lu,Xiaohua Liu,and Hang Li. 用 于 神 经 机 器 翻 译 的 上 下 文 门 。Transactions of the Association for ComputationalLinguistics,5:87-99,2016. 5[26] Ramakrishna Vedantam , C. 劳 伦 斯 · 齐 特 尼 克 和 德维·帕里克Cider:基于共识的图像描述评估。2015年IEEE计算机视觉和模式识别会议,第4566-4575页,2014年。二、六[27] Oriol Vinyals,Alexander Toshev,Samy Bengio,andDu- mitru Erhan.展示和讲述:神经图像字幕生成器。在IEEE计算机视觉和模式识别会议论文集,第3156-3164页,2015年。二六七[28] Kelvin Xu , Jimmy Ba , Ryan Kiros , KyunhyunCho,Aaron C.放大图片作者:Richard S. Zemel和Yoshua Bengio。显示、出席和讲述:具有视觉注意的神经图像字幕生成。ICML,2015。一、二[29] Ting Yao,Yingwei Pan,Yehao Li,and Tao Mei.探索图像字幕的视觉关系。在ECCV,2018。二六七[30] Quanzeng You , Hailin Jin , Zhaowen Wang , ChenFang,and Jiebo Luo.具有语义注意的图像字幕。在IEEE计算机视觉和模式识别会议论文集,第4651-4659页,2016年。1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功