没有合适的资源?快使用搜索试试~ 我知道了~
112466好消息,各位!上下文驱动的实体感知新闻图像字幕AliFurkanBiten,LluisGomez,MarcalRusin ol,DimosthenisKaratzas计算机视觉中心,UAB,西班牙{abiten,lgomez,marcal,dimos}@ cvc.uab.es摘要当前的图像字幕系统仅在描述性水平上执行,基本上列举场景中的对象及其关系。相反,人类通过整合几种关于世界的先验知识来解读图像.在这项工作中,我们的目标是采取一个步骤更接近生产字幕,提供一个合理的解释的场景,通过整合这样的上下文信息到字幕管道。为此,我们专注于用于说明新闻文章的图像我们提出了一种新的字幕方法,能够利用上下文信息与图像相关联的新闻文章的文本提供我们的模型能够有选择地从视觉线索引导的文章中提取信息,并动态地将输出字典扩展到出现在上下文源中的词汇表外的命名实体。此外,我们还介绍1. 介绍人们通过建立因果模型来理解场景,并利用它们来撰写解释他们感知观察的故事[19]。人类的这种能力与智能行为有关比奈-西蒙智力测验[34]中的认知任务之一三个性能水平被定义,从列举的对象在场景中,到内容的基本描述和最后的解释,其中上下文信息被用来组成一个解释的描述事件。当前的图像字幕系统[37,2,16,31,23,11]如果不限制在枚举部分,则最好在描述级别执行,同时未能在所产生的字幕中集成任何先前的世界知识。先前的世界知识可能以社会、政治、地理或时间背景、行为线索或记忆的形式出现。图1:图像字幕的标准方法无法正确考虑任何上下文信息。我们的模型是能够产生的标题,其中包括词汇表命名的实体,利用现有的上下文知识的信息。关于实体的自然构建的知识,例如人、地点或地标。在这项工作中,我们的目标是采取一个步骤更接近生产字幕,提供一个合理的解释的场景,通过整合这样的上下文信息到字幕管道。这带来了许多新的挑战。一方面,需要对上下文源进行编码,并在视觉场景内容的指导下选择性地从中提取信息。另一方面,需要将显式上下文信息适当地注入到所产生的自然语言输出中,所述显式上下文信息通常以命名实体(诸如专有名称、价格、位置、日期等)的形式找到,所述命名实体通常是字典外的术语或者在所使用的字典的统计中充其量是未充分表示的当前可用的图像字幕数据集不地面真相:乔安·法莱塔在克莱因汉斯音乐厅领导布法罗爱乐乐团的演出。&[37]一群人围着桌子站着。我们的:乔安·法莱塔在布法罗爱乐乐团演出。112467适合于开发具有上述特征的字幕模型,因为它们提供通用的、枯燥的、重复的和非上下文化的字幕,而同时对于每个图像没有上下文信息可用。 对于手头的任务,我们考虑了其他图像源,例如历史档案图像或说明报纸文章的图像,对于这些图像,标题(即,由档案管理员提供的描述,由期刊管理员提供的标题)和某些上下文信息(即,历史文本、新闻文章)是现成的,或者可以通过合理的努力来收集。在这项工作中,我们专注于用于说明新闻文章的图像的字幕。报纸是一个很好的工具,可以向人性化的标题过渡,因为它们提供了可以建模和利用的现成的上下文信息。在这种情况下,上下文信息由相关联的新闻文章的文本以及诸如标题和关键字之类的其他元数据提供。与此同时,有现成的地面真理的形式,现有的标题写的领域专家(期刊),这是无价的本身。最后,数据可以在网上大规模免费获得。为此,我们将文献中最大的新闻字幕数据集GoodNews与超过466,000张图像及其各自的标题和相关文章放在一起。据我们所知,生成式新闻图像字幕在文献中几乎没有被探索[12,33,30]。与[30]类似,我们从相关文章中提取关于图像的上下文不像[30]其使用世界级编码,我们在句子级对文章进行编码,因为语义相似性在该粒度下更容易建立。此外,我们引入了注意力机制,以便有选择地从图像的视觉内容引导的文章中提取新闻文章及其相应的新闻图像标题,与常见的图像标题数据集(如MSCOCO [21]或Flickr [29])不同,包含大量的命名实体。命名实体1给当前的字幕系统带来了严重的问题这包括[30],其中命名实体的使用被隐式地限制在训练集中出现在足够统计数据中的实体。与现有的方法不同,我们在这里提出了一个端到端的两阶段过程,其中产生第一模板标题,其中命名实体占位符与它们各自的标签一起被指示。这些随后通过从article中选择最佳匹配实体来替代,使我们的模型能够产生包括词汇表外单词的标题。本工作的贡献如下:• 我们提出了一种新的字幕方法,能够杠杆-1命名实体是可以用适当的名称表示的对象,[26日]年龄上下文信息以在场景解释级别产生图像字幕。• 我们提出了一个两阶段,端到端的架构,使我们能够动态地扩展输出字典的词汇表命名的实体出现在上下文源。• 我们介绍了GoodNews,这是文献中最大的新闻图像字幕数据集,包括466,000个图像字幕对以及元数据。我们比较了我们提出的方法对现有方法的性能,并展示了最先进的结果。比较研究表明正确处理命名实体的重要性,以及考虑上下文信息的好处最后,与人类表现的比较突出了任务的难度和当前评估指标的局限性。2. 相关工作由于深度学习在计算机视觉和自然语言处理方面的进步,自动图像字幕最近受到了越来越多的关注[4,5]。最新的最先进的模型[39,23,31,2]通常遵循注意力引导的编码器-解码器策略,其中通过深度CNN从图像中提取视觉信息,然后使用RNN生成自然语言描述尽管根据标准的性能评估指标,当前最先进的模型开始产生良好的结果,自动图像字幕仍然是一个具有挑战性的问题。现今的方法倾向于产生重复的、简单的句子[9],以一致的风格书写,通常限于列举或描述视觉内容,而不提供任何更深层次的语义解释。最新的尝试,生产更丰富的人类一样的句子,集中在收集新的数据集,可能是不同的写作风格的代表。例如,使用众包工具收集不同风格的字幕(消极/积极,浪漫,幽默等)。如[25,13],或利用浪漫小说的使用来改变标题的风格,如[24]中的故事般的句子。尽管收集具有不同风格的注释有助于减轻输出的语气的重复性,但内容方面的标题仍然是视觉内容的详细描述。自动字幕仍然存在巨大的语义鸿沟,即图像和语义概念之间缺乏相关性[33]。新闻图像字幕的特定领域在过去已经被探索为将上下文信息结合到所产生的字幕中。在[12] 3K新闻节目是从BBC新闻收集的然后通过选择文章中最接近的句子或使用基于模板的语言方法来生成图像标题在[33]中,从《时代》杂志收集了10万张图像,并对Feng等人提出的字幕策略进行了改进。al. [12]第10段。112468更 接 近 我 们 的 工 作 , Ramisa 等 。 [30](BreakingNews)使用新闻文章的预训练word2vec表示与CNN视觉特征相连接,以提供生成的LSTM。在这种情况下,上下文信息是否被正确地结合的一个明确指示是检查所产生的图像标题在多大程度上包括给定上下文的正确命名实体。这是一个具有挑战性每个图像提供5个不同的地面实况字幕,而MSCOCO每个图像提供5个不同的地面实况字幕。然而,好新闻标题是由专家记者撰写的,而不是众包的,这对文本的风格和丰富性有影响。表1:字幕数据集的比较。因为在大多数情况下,这种命名的实体只是-在测试时可用。尽管这在新闻图像字幕的情况下特别重要,但据我们所知,现有方法都没有解决命名实体包含,而是采用封闭式词典。然而,处理命名实体的问题已经在通用(非上下文驱动)图像字幕中进行了探索在[35]收集Instagram数据后,CNN用于识别名人和地标以及诸如水、山、船等的视觉概念。然后,使用置信度模型来选择是否产生具有专有名称或具有视觉概念的字幕。在[22]中,模板标题是使用命名实体标签创建的,后来使用知识库图填充上述方法需要一组预定义的命名实体。与这些方法不同的是,我们的方法在文本中查找,同时产生标题并“注意”不同的句子以进行实体提取,这使得我们的模型考虑命名实体出现的上下文,以在所产生的标题中包含新的词汇表外的3. GoodNews数据集为了组装GoodNews数据集,我们使用了纽约时报API来检索2010年至2018年的新闻文章的URL我们将提供文章的URL和脚本来下载图像和相关元数据,发布的脚本也可以用来获取167年的新闻。然而,出于图像说明的目的,我们将我们的收集限制在过去8年的数据,主要是因为它涵盖了图像被广泛用于说明新闻文章的时期。我们总共收集了466,000张图片,包括标题、标题和文字文章,随机分为424,000张用于训练,18,000张用于验证,23,000张用于测试。GoodNews与MSCOCO等通用字幕的当前基准数据集 存 在 重 要 差 异 , 虽 然 它 在 性 质 上 类 似 , 但 比BreakingNews大五倍,BreakingNews是目前最大的新闻 图 像 字 幕 数 据 集 。 表 1 总 结 了 关 键 方 面 与BreakingNews类似,GoodNews数据集的平均标题长度比MSCOCO等通用标题数据集更长,这表明新闻标题往往更具描述性。好消息只包括一个单一的地面真相上限-命名实体代表了GoodNews标题中20%的单词,而命名实体是通过设计完全没有出现在MSCOCO的标题中。在句子层面,GoodNews中95%的标题句和73%的文章句至少包含一个 命 名 实 体 。 此 外 , 我 们 观 察 到 , GoodNews 比BreakingNews在令牌级别和句子级别上都有更多的命名实体。通过分析词性标记,我们发现GoodNews和BreakingNews的形容词数量都比MSCOCO少,但动词数量都比MSCOCO多,代词和名词数量也明显高于MSCOCO。鉴于新闻图像标题的性质,这是预期的,因为它们不描述场景对象,而是提供场景的上下文解释。我们的数据集和BreakingNews之间的一个关键区别,除了GoodNews有五倍多的样本之外,我们的数据集包括更广泛的事件和故事,因为GoodNews跨越了更长 的 时 间 段 。 另 一 方 面 , 我 们 必 须 指 出 ,BreakingNews提供了更广泛的元数据,因为它的目标是比新闻图像字幕更多的任务。4. 模型如图2所示,我们的上下文驱动实体感知字幕模型由两个连续的阶段组成。在第一阶段,给定图像和相应新闻文章的文本,我们的模型生成一个模板标题,其中引入占位符来指示命名实体的位置在随后的阶段中,我们的模型选择正确的命名实体来填充这些占位符,并在新闻文章的文本上使用注意力机制我们使用SpaCy我们通过将命名实体替换为它们各自的标签来创建模板标题。在文章级别,我们存储命名实体,以便以后在MSCOCO新闻中心新闻资讯数量的样本120k110k466k平均标题长度(单词)11.3028.0918.21命名实体(Word)0%的百分比15.66%百分之十九点五九命名实体(句子)0%的百分比百分之九十点七九95.51%名词33.45%55.59%46.70%形容词27.23%7.21%百分之五动词百分之十点七二12.57%11.22%112469命名实体插入的外部在输入图像CNN特征提取的的在地方(14×14×256)输入文本句子级全局向量视觉关注句话关注(GloV edim×#sentences)在我们即将迎来新年的时候,您可能希望订购一些适合纽约 人阅读 的书籍 :“New 林肯中心 的奠基仪式SarahM. 亨 利 ,博物 馆的副馆 长和首席馆 长,编辑了 这本精心 设计的书。 她用富有 启发性的文 字装饰了 生动的照片 和其他插图 ,主题从革命中 的纽约到纽约最好和 最勇敢的人 。作为博物 馆馆长苏珊·亨肖 ·琼斯在介绍中写道:“纽约人 继续以一个 世纪前无法 想象的方 式重塑他们 的城市,不 断更新它, 使其成为地球上最 令人兴奋的 地方之一。 ”这本书重塑 了你对这座 城市400年历史的 看法。再说说 改造!布鲁克 林音乐学院 成立于1859年,是美国 最古老 的表演艺 术中心。它 展示了著名 的表演者 和前卫的新 人,并幸存 下来的城市枯萎 病重新出现 , 原本下哈维利希滕斯 坦作为的宝石在布鲁克林 的扩大文化皇冠现在 ,你可 以重温它的 历史,在“BAM:全集 ”( Quantuck巷出版 社),由史 蒂芬塞拉芬 编辑。在这些奢 华的照片 旁边是 富有洞察力的文章和 简介, 其中包括菲 利普·洛帕特 (PhillipLopate)的一 段历史,回忆 了学院在拉斐特大道的第二个家的计划:“结构必须庞大而灵活,以满足各种各样的目的:音乐,教育,戏剧和社会。这本书也是如此 。外部ORG纽约布鲁克林音乐学院图2:我们的模型概述,其中我们结合了视觉和文本特征,首先生成模板标题。然后,我们用在输入文本上获得的注意力值填充这些模板。(Best颜色显示)命名实体插入阶段(见4.3小节)。例如,标题“阿尔伯特·爱因斯坦1921年在普林斯顿大学任教”被转换为下面的标题:“在组织中学习的人”。以这种方式创建的模板标题包括我们用来训练模型的训练集地面实况。我们的模型被设计为一个双流架构,结合了视觉输入(图像)和文本输入(新闻文章的编码)。我们的模型wt+1=softmax(Wie ot),ΣNL=−log(wt+1)(1)t=0其中,We、Wie是可学习的参数,At表示关注的物品特征,并且It表示关注的图像特征。时间步t处的关注图像特征是根据前一时间步的隐藏状态和使用深度CNN模型提取的图像特征来获得的:If=CNN(I),将其用作第二输入流,同时在文本特征上采用注意机制。用于编码It=Att(ht−1,If(二))对于输入文本文章,我们使用了全局向量(GloVe)词嵌入[28]和聚合技术来获得文章句子级别的特征。注意力机制为我们的模型提供了在每个时间步关注文章的不同部分(句子)的能力此外,它使我们的模型端到端,能够使用attention在每个时间步在模板标题中插入正确的命名实体,参见图2。4.1. 模板标题生成对于模板字幕生成阶段,我们遵循与最先进的字幕系统[39,23,2]中相同的公式,其是在给定先前产生的单词和参与的IM的每个时间步产生单词每一步的年龄特征,用交叉熵训练更正式地说,我们产生一个句子s i:={w0,w1,...,其中w i是第i个单词的独热向量,如下所示:x t= W ew t,其中t ∈ {0,1,.,N −1},o t= LSTM(concat(x t,It,A t)),其中ht−1是时间t−1的隐藏状态,I是输入图像,并且If是从输入图像中提取的输入图像的特征。在ImageNet上预训练的ResNet [14]网络[32]。在下一节中,我们将描述三种不同的文章编码技术,我们已经使用这些技术来获得具有输入article的句子级别特征的固定大小矩阵Af稍后,我们将详细解释如何在每个时间步t计算关注文章特征At。4.2. 文章编码方法受语义文本相似性任务[3]的最新技术水平的启发,我们使用句子级别的编码来表示我们模型中的新闻文章,因为域,目的和上下文在句子级别得到了更好的保留。通过使用句子级编码,我们克服了与词级编码相关的两个缺点。首先,以单词粒度对文章进行编码需要更高维的矩阵,这使得模型训练和收敛速度较慢其次,单词级编码不能对句子提供的流(或上下文)进行编码,例如,注意力RNNLSTMLSTMLSTMLSTMLSTMLSTMLSTM112470JFFfjf前者是麻省理工学院,它是一个组织,而后者是一个国家。形式上,为了获得第i篇文章,A i :={s art,s art,.,s art},其中s art=4.3. 命名实体插入在生成模板标题之后,我们根据它们的类别插入命名实体。如果存在多于0 1个月j个人、组织、位置等一个标签。{w0,w1,...,w N}是文章的第j个句子,w k是从预训练的GloVe模型获得的词向量,我们我首先对文章的每句话使用了一个简单的平均词在排名靠前的句子中,我们按照出现在句子中的顺序来选择命名实体为了将我们的方法与标准的图像字幕模型进行比较,我们提出了不同的插入技术,A平均值=J1挪威克朗jNJi=0时其中j = 0,1,.,男(3)两个可以与仅可视的体系结构一起使用(即,不考虑文章的文本特征):随机插入(RandIns)和基于上下文的插入(CtxIns)。而第三个是基于一个关注机制,作为替代方案,我们还考虑使用根据其平滑的逆频率的词向量的加权平均,因为词向量的简单平均具有沿着语义上无意义的方向的巨大分量[3]:Nj引导插入的文章(AttIns)。随机插入(RandIns)为探索的其他插入方法提供了一个基线,它包括为模板标题中生成的每个命名实体占位符从文章中随机挑选同一类别的命名实体AwAvg=1一p(w)w,p(w)=(四)对于上下文插入(CtxIns),我们使用预fjNj我我i=0时a+tf(w)训练的GloVe嵌入对文章的句子进行根据生成的模板,最后,我们探索了难以击败的基线(TBB)的使用[3],它包括从文章编码的加权平均值中减去PCA的第一个分量,因为根据经验,数据集的顶部奇异向量似乎大致对应于语法信息或常用词:AwAvg=UrV,JX=UrV,其中X是第一个元素(5)ATBB=AwAvg−X文章编码注意:在获得文章句子级特征后,Af∈R M×Dw,其中M是固定句长,D w是文章的维数。词嵌入,我们设计了一种注意力机制,它通过将句子级别的特征与注意力向量βt∈RM相乘来工作:Af=GloV e(Ai),标题嵌入,然后基于该排名插入命名最后,对于我们的注意力插入方法(AttIns),我们使用在模板标题生成的每个时间步t生成的文章注意力向量βt来插入命名实体,而不使用任何外部插入方法。4.4. 实施细节我们在PyTorch中编写了模型我们使用ResNet-152的第5层[14]进行图像关注,层LSTM,维度大小为512。我们将每张图像重新调整为256×256,然后随机裁剪为224×224。我们通过删除出现少于4次的单词来创建词汇表,从而产生35K单词,同时我们还将长句截短到最大长度31个字对于文章编码,我们使用SpaCy在95%的情况下,文章的句子少于55的情况下At=βt Af(六)对于超过55个句子的文章,我们在第55个句子处对其余句子的平均表示其中,给定LSTM的前一个时间步长ht−1和文章特征Af,我们通过完全连接的层学习注意力θt=FC(ht−1,Af),(七)βt=softmax(θt)如下所述,除了改进模板标题的生成之外,注意力的使用使我们维度在我们所有的模型中,我们使用Adam [18] opti-mizer,0。002学习率随学习率衰减0. 在每8个时期的10个时期之后8个时期,其中丢弃概率设置为0。二、我们制作了带有光束大小的1.一、代码和数据集可在线获取2.5. 实验在本节中,我们提供了几个实验,以评估生成的图像字幕的质量,还可以选择要包含在112471注意力矢量的基础2https://github.com/furkanbiten/GoodNews112472表2:不使用任何文章编码的最新字幕模型(顶部)和使用不同文章编码策略的方法(底部)的模板字幕生成中间任务的结果蓝-1蓝-2蓝-3蓝-4流星胭脂-L苹果酒香料[39]第三十九话11.537%5.757%2.983%1.711%13.559%20.468%17.317%22.864%Att2in2 [31]10.536%5.176%2.716%1.542%12.962%19.934%16.511%23.789%上下[2]10.812%5.201%2.649%1.463%12.546%19.424%15.345%23.112%[23]第二十三话7.916%3.858%1.941%1.083%12.576%19.638%15.928%25.017%我们的(平均)13.419%6.530%3.336%1.869%13.752%20.468%17.577%22.699%加权平均(WeightedAverage)11.898%5.857%3.012%1.695%13.645%20.355%17.132%23.251%我们的(TBB)12.236%5.817%2.950%1.662%13.530%20.353%16.624%22.766%表3:新闻图片字幕的结果。RandIns:随机插入; CtxIns:手套插入; AttIns:注意插入; No-NE:不插入命名实体。Bleu-1 Bleu-2 Bleu-3 Bleu-4流星红CIDER香料显示出席告诉-不-NE8.80% 3.01% 0.97% 0.43% 2.47% 9.06% 1.67% 0.69%显示出席告诉+ RandIns 7.37% 2.94% 1.34% 0.70% 3.77% 11.15% 10.03% 3.48%Att2in2+ RandIns 6.88% 2.82% 1.35% 0.73% 3.57% 10.84% 9.68% 3.57%涨跌+随机指数6.92% 2.77% 1.29% 0.67% 3.40% 10.38% 8.94% 3.60%自适应属性+随机属性5.22% 2.11% 0.97% 0.51% 3.28% 10.21% 8.68% 3.56%显示出席告诉+ CtxIns 7.63% 3.03% 1.39% 0.73% 4.14% 11.88% 12.15% 4.03%Att2in2+ CtxIns 7.11% 2.91% 1.39% 0.76% 3.90% 11.58% 11.58% 4.12%涨跌+ CtxIns 7.21% 2.87% 1.34% 0.71% 3.74% 11.06% 11.02% 3.91%自适应属性+ CtxIns 5.30% 2.11% 0.98% 0.51% 3.59% 10.94% 10.55% 4.13%最新消息 *- No-NE [30] 5.06% 1.70% 0.60% 0.31% 1.66% 6.38% 1.28% 0.49%我们的(平均值)+ CtxIns 8.92% 3.54% 1.60% 0.83% 4.34% 12.10% 12.75% 4.20%我们的(Wavg.)+ CtxIns 7.99% 3.22% 1.50% 0.79% 4.21% 11.86% 12.37% 4.25%我们的(TBB)+CtxIns 8.32% 3.31% 1.52% 0.80% 4.27% 12.11% 12.70% 4.19%我们的(平均值)+代理8.63% 3.45% 1.57% 0.81% 4.23% 11.72% 12.70% 4.20%我们的(Wavg.)+ AttIns 7.70% 3.13% 1.44% 0.74% 4.11% 11.54% 12.53% 4.25%我们的(TBB)+AttIns 8.04% 3.23% 1.47% 0.76% 4.17% 11.81% 12.79% 4.19%人类†- (估计值)14.24% 7.70% 4.76% 3.22% 10.03% 15.98% 39.58% 13.87%* :报告的结果基于我们自己的执行情况。†:指示性表现,基于两个受试者我们在GoodNews数据集上的模型。首先,我们比较所获得的结果与最先进的图像字幕使用标准的指标。然后,我们分析了我们的方法的精确度和召回的特定任务命名实体插入。最后,我们提供了一个人的评价研究,并显示一些定性的结果。正如文献[8,10,17,38,6]中广泛讨论的那样,图像字幕的标准评估指标有几个缺陷,在许多情况下,它们与人类判断无关。虽然我们在Bleu [27],METEOR [7],ROUGE [20],CIDER [36]和SPICE[1]因此,我们认为,对于新闻图像的图像字幕的特定场景,最合适这是因为METEOR和SPICE都使用同义词匹配和词元化,命名实体很少有任何有意义的同义词或词元。对于Bleu和ROUGE,每个词都会同等地改变度量:例如,遗漏停止字具有与缺少命名实体相同的影响。这就是为什么我们相信CIDER,虽然它有自己的缺点,是分析我们的结果的最翔实的指标,因为它淡化了停止词,并通过使用tf-idf加权方案把更多的重要性放在“独特”的5.1. 新闻图片字幕我们的新闻图片字幕渠道分为两个层次。首先,它生成模板标题,然后用文本中的命名实体替换占位符。表2示出了在不使用任何上下文信息(“仅视觉”,即,忽略新闻文章),并将它们与我们使用不同文章编码策略(“视觉文本”)的方法的结果进行比较&。我们意识到该结果不同于在其他标准基准上获得的结果,如MSCOCO,其中[2,31,23]已知优于我们相信这种差异可以解释,因为这些架构更善于识别输入图像中的对象及其关系,但当图像及其标题在对象级别上松散相关时,正如许多GoodNews样本中的情况一样,这些模型无法捕获图像和标题之间的潜在语义关系。视觉文本仅目视检查112473(一)GT:西德尼·克罗斯比在第二节庆祝了他的进球,这似乎让瑞典队泄气了。温哥华的克罗斯比在几个赛季中赢得了克罗斯比。V+T:加拿大的克罗斯比在第二节进了致胜球。(b)第(1)款GT:福特女士和她的丈夫埃里克·艾伦·福特在他们的小屋里。V:琳恩·福特和福特在厨房。V+T:福特和福特在回声公园的家中。(c)第(1)款GT:上个月在加沙城的哈马斯政府领导人伊斯梅尔·哈尼亚。V:哈尼亚离开,马哈茂德·阿巴斯在加沙城。V+T:哈马斯发言人哈尼亚星期三离开加沙市的一个会议。(d)其他事项GT:最高法院提名人罗伯特·博克在参议院司法委员会作证。V:博克离开了,在GPE的博克战役。V+T:1987年,最高法院院长博克在参议院作证。图3:定性结果; V:仅目视检查,V+T:目视检查和文本检查,GT:地面实况因此,我们决定使用“Show Attend and Tell”的架构作为我们自己的模型设计的基础。我们建立了我们的两个流架构,该架构结合了视觉输入和文本输入。从表2中,我们可以看到,通过简单地平均其句子的GloVe描述符来编码文章,在基于模板的标题的中间任务上获得比加权平均和难以击败的基线(TBB)方法稍好的分数。总的来说,我们的双流(视觉和文本)架构的性能与此任务中的基线结果相当。在表3中,我们通过使用不同的命名实体插入策略为两种方法(仅视觉和视觉+文本)生成完整的最终字幕:随机插入(RandIns)、基于GloVe的上下文插入(CtxIns)和注意插入(AttIns)。我们的架构在每个指标上都始终优于“仅限视觉”管道。此外,如果没有我们介绍的两阶段公式尽管所提出的方法产生比先前技术状态更好的结果,并且适当地处理字典外的词(命名实体),但是与在诸如MSCOCO的更简单的数据集上的典型结果相比,总体低的结果指示问题的复杂性和当前字幕方法的 限 制 为 了 强 调 这 一 点 , 我 们 在 表 3 中 提 供 了 对GoodNews数据集上完整字幕生成任务中人类表现报告的数字表明2名受试者的平均表现,为20幅图像及其相关文章的一个小子集创建标题。最后,我们在图3中提供了一个定性的比较,比较了“仅可视”(Show,Attend和Tell+CtxIns)和“可视+文本”(Avg+AttIns)架构的最佳性能模型我们赞赏将文本内容考虑在内会导致更多的上下文标题。我们还提出了一些失败的情况下,不正确的命名实体已被插入。5.2. 命名实体插入的评估表2的结果表示理论上的最大值,因为完美的命名实体插入将为我们提供与完整字幕生成任务相同的结果。然而,从表2的结果到表3,每个指标都有4到18点为了进一步量化上下文插入和注意插入之间的差异,我们在表4中提供了精确匹配和部分匹配命名实体插入的精确度和在完全匹配评估中,我们只接受插入的名称为真阳性,如果它们按字符匹配地面真值字符,而在部分匹配设置中,我们认为令牌级别匹配是正确的(即,“Falletta”被认为是“JoAnnFalletta”实体的真阳性)。在表4中,我们观察到所提出的按注意力插入(使用建议的文本注意力机制,使我们能够处理命名实体插入在一个端到端的方式,消除了需要任何单独的处理。不过,请注意,这并不是由肛门透露的112474max(votes,votes+t)表4:命名实体插入的精确度和召回率。被认为比“Show Attend and Tell + CtxIns”更好53%的案件。在图5中,我们将结果分析为完全匹配部分匹配P R P RShow Attend Tell + CtxIns 8.19 7.10 19.39 17.33评价者的共识程度的函数,每个图像。我们的目的是从分析中排除那些对赌注没有明确共识的评价者之间的评价为此,我们定义共识度C=1−min(votesv,votesv+t),其中V V投票v和投票v+t表示每个法在C的每个值处,我们拒绝具有较小一致性的所有图像。然后,我们报告有多少样本的大多数投票是“视觉”或“视觉+文本”的方法。如可以理解的,结果表明对“视觉+文本”变体的10080显示出席告诉+CtxIns我们的(平均值)+ AttIns拒绝605650402056565048565149444740434139343631242100.00.10.20.30.40.50.60.70.80.901.0图4:命名实体插入召回(蓝色)和每个命名实体类别的训练样本数量(红色)。分析表3,其中所有插入策略似乎具有类似的效果。这部分是由于图像字幕评价指标未能对命名实体赋予任何特殊权重。直觉上,人们更喜欢正确插入命名实体的标题为了进一步分析这个实验的结果,我们在图4中提供了我们的方法(Avg+AttIns)在每个单独的命名实体标签上的命名实体插入召回。我们观察到的召回值的相关性与每个命名实体类别的训练样本的数量这表明,整体命名实体插入性能可以通过更多的训练数据来提高。5.3. 人工评价为了提供更公平的评价,我们进行了一项人类评价研究。我们请了20位人类评估者来比较表现最好的“视觉”输出,+ 文本”模型(平均+ AttIns)与性能最好的“仅可视”模型(带有Ctx命名实体插入的“Show Attend and Tell”)在106个随机选择的图像的子集上进行比较向评估者呈现一幅图像、其地面实况说明以及由这些方法生成的两个说明,并要求他们选择他们认为与地面实况最相似的说明。我们总共收集了2101份回复。比较研究表明,我们的模型是每-程度的共识图5:关于人类判断的“仅视觉”和“视觉+文本”模型的比较6. 结论在本文中,我们提出了一种新的字幕流水线,旨在更进一步生产的标题,提供一个合理的解释的场景,并将其应用到特定的情况下,新闻图像字幕。此外,我们还介绍了GoodNews,这是一个包含466K样本的新数据集,是迄今为止最大的新闻字幕数据集。我们提出的管道集成了上下文信息,在这里给出的形式的新闻文章,引入了一个注意力机制,允许字幕系统选择性地从上下文源中提取信息此外,我们提出了一个两阶段的过程中实现的一个端到端的方式,将命名实体的标题,专门设计来处理字典外的实体,只有在测试时可用。实验结果表明,该方法产生的国家的最先进的性能,而它令人满意地结合命名实体信息中产生的字幕。确认这 项 工 作 得 到 了 项 目 TIN 2017 -89779-P 、 Marie-Curie( 712949 TECNIOspring PLUS ) 、 aBSINTHE ( Fun-dacio′nBBV A2017)、CERCA计划/加泰罗尼亚政府、NVIDIA公司和UAB博士奖学金的支持。0.280.140.110.060.070.030.010.010.000.01 0.00 0.00 0.00 0.00 0.0079K55K39K23K22K16K14K11K4K2K2K 777231K206K201K410K人ORG日期GPE红衣主教NORPFAC序数LOC事件时间产品数量百分钱语言图片数量我们的(平均值)公司简介8.177.2319.5317.88我们的(WAvg.)公司简介7.806.6819.1417.08我们的(TBB)+CtxIns7.846.6419.6017.11我们的(平均值)+AttIns9.198.2121.1719.48112475引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice:语义命题图像帽评估。在2016年欧洲计算机视觉会议[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和VQA。arXiv预印本arXiv:1707.07998,2017。[3] Sanjeev Arora,Yingyu Liang,and Tengyu Ma.一个简单但难以击败的句子嵌入基线。在2017年国际学习表征会议[4] 双柏和善安。图像字幕自动生成技术综述神经计算,311:291[5] Raffaella Bernardi , Ruket Cakici , Desmond Elliott ,Aykut Erdem,Erkut Erdem,Nazli Ikizler-Cinbis,FrankKeller,Adrian Muscat,and Barbara Plank.从图像自动生成描述:对模型、数据集和评估措施的调查。人工智能研究杂志,55:409[6] Yin Cui,Guandao Yang,Andreas Veit,Xun Huang,and Serge Belongie.学习评估图像字幕。IEEE计算机视觉和模式识别会议,2018年。[7] Michael Denkowski和Alon LavieMeteor通用:针对任何目标语言的特定语言翻译评估统计机器翻译研讨会,2014年。[8] Jacob Devlin,Hao Cheng,Hao Fang,Saurabh Gupta,Li Deng,Xiaodong He,Geoffrey Zweig,and MargaretMitchell. 图像字幕的语言模型:怪癖和什么工作。arXiv预印本arXiv:1505.01809,2015。[9] Jacob Devlin,Saurabh Gupta,Ross Girshick,MargaretMitchell,and C Lawrence Zitnick.探索图像字幕的最近邻方法。arXiv预印本arXiv:1505.04467,2015。[10] 德斯蒙德·艾略特和弗兰克·凯勒。比较图像描述的自动评估措施。在计算语言学协会的年会上,2014年。[11] 放 大 图 片 作 者 : Hao Fang , Saurabh Gupta , ForrestIandola,Rupesh K. Sri-vastava,LiDeng ,PiotrDolla'r,JianfengGao,XiaodongHe,Margaret Mitchell,John C.普拉特角劳伦斯·齐特尼克和杰弗里·茨威格。从标题到视觉概念再到后面。在IEEE计算机视觉和模式识别会议上,2015年。[12] Yansong Feng和Mirella Lapata。新闻图像的自动字幕IEEE Transactions on Pattern Analysis and MachineIntelligence,35(4):797[13] Chuang Gan,Zhe Gan,Xiaodong He,Jianfeng Gao,and Li Deng. Stylenet:使用样式生成有吸引力的视觉标题。2017年在IEEE计算机视觉和模式识别会议上发表[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别上,2016年。[15] 马修·霍尼巴尔和伊内斯·蒙塔尼。SpaCy
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Cucumber-JVM模板项目快速入门教程
- ECharts打造公司组织架构可视化展示
- DC Water Alerts 数据开放平台介绍
- 图形化编程打造智能家居控制系统
- 个人网站构建:使用CSS实现风格化布局
- 使用CANBUS控制LED灯柱颜色的Matlab代码实现
- ACTCMS管理系统安装与更新教程
- 快速查看IP地址及地理位置信息的View My IP插件
- Pandas库助力数据分析与编程效率提升
- Python实现k均值聚类音乐数据可视化分析
- formdotcom打造高效网络表单解决方案
- 仿京东套餐购买列表源码DYCPackage解析
- 开源管理工具orgParty:面向PartySur的多功能应用程序
- Flutter时间跟踪应用Time_tracker入门教程
- AngularJS实现自定义滑动项目及动作指南
- 掌握C++编译时打印:compile-time-printer的使用与原理
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功