没有合适的资源?快使用搜索试试~ 我知道了~
13035Transform and Tell:可感知新闻图像字幕Alasdair Tran,Alexander Mathews,LexingXie澳大利亚国立大学{alasdair.tran,alex.mathews,lexing.xie}@ anu.edu.au摘要我们提出了一个端到端的模型,它生成的标题嵌入在新闻文章中的图像。新闻图像提出了两个关键挑战:它们依赖于真实世界的知识,特别是关于命名实体的知识;并且它们通常具有包括不常见单词的语言丰富的标题。我们通过将标题中的单词与图像中的面部和对象相关联来解决第一个挑战,通过多模态,多头注意力机制。我们解决了第二个挑战与国家的最先进的trans-former语言模型,使用字节对编码生成- erate字幕作为一个序列的单词部分。 关于善--新闻数据集[3],我们的模型在CIDEr得分(13→54)方面优于先前的最这种性能提升来自于语言模型、单词表示、图像嵌入、人脸嵌入、对象嵌入以及神经网络设计我们还介绍了NYTimes800k数据集,它比GoodNews大70%,具有更高的文章质量,并包括文章中图像的位置作为额外的上下文线索。1. 介绍互联网是大量图像的家园,其中许多图像缺乏有用的说明。虽然越来越多的工作已经发展出叙述一般图像内容的能力[10,49,12,19,39,30,1,6],但这些技术仍然有两个重要的弱点。第一个弱点是世界知识。大多数字幕系统知道通用对象类别,但不知道名称和地点。此外,生成的标题往往与常识知识不一致。第二个弱点是语言表达能力。社区已经观察到,生成的标题往往比人类书写的标题更短,多样性更少[50,24]。大多数字幕系统依赖于一个固定的词汇表,不能正确地放置或拼写新的或罕见的单词。新闻图片字幕是解决这两个挑战的一个有趣的案例研究。新闻标题不仅图1:实体感知新闻图像标题的示例。给定一篇新闻文章和一张图片(上图),我们的模型通过关注上下文来生成相关的标题(下图)。在这里,我们显示了当解码器生成单词“Morgan”时,图像补丁和文章文本具有较高关注度的图像块具有较浅的阴影,而高关注度的单词则为红色。橙色的线表示高出勤率的地区。描述特定的人、组织和地点,但是相关的新闻文章也提供丰富的上下文信息。新闻中使用的语言在不断发展,词汇和风格都随着时间的推移而变化。因此,新闻字幕方法需要适应较长时间内出现的新词和概念(例如,20世纪90年代的walk-man或2000年代的mp3播放器)。现有的方法[44,37,3]依赖于文本提取或模板填充,这防止了结果比模板生成器在语言上更丰富,并且由于难以对实体进行排序以进行空白填充而容易出错新闻图像字幕的成功策略可以推广到具有其他类型丰富上下文的域中的图像,例如网页,社交媒体帖子和用户评论。我们提出了一个端到端的模型,新闻图像字幕与序列到序列神经网络,语言表示学习,视觉子系统的新组合。特别是,我们通过计算文章中的单词以及从图像中提取的面部和对象的多头注意力来解决知识差距。我们用一种灵活的字节对编码来解决语言上的差距,这种编码可以生成看不见的单词。我们从我们的模型生成的标题美国队的中锋亚历克斯·摩根在对泰国队的比赛中打进了第一个进球。13036使用动态卷积并混合不同的语言表示层,以使神经网络表示更丰富。我们还提出了一个新的数据集,NYTimes800k,比GoodNews大70%[3],并且具有更高质量的文章以及额外的图像位置信息,mation 我们观察到性能增益为6。BLEU-4(0. 八十九→六。05)和4。1×在CIDEr(13. 1→53。与以前的工作相比[3]。 在这两个数据集上,我们观察到consis-在我们的语言、视觉和知识感知系统中,每个新组件都能带来收益。我们还发现,我们的模型生成了在训练过程中看不到的名字,从而产生了语言上更丰富的标题,其长度(平均15个单词)比之前的最新技术(平均10个单词)更接近地面事实(平均我们的主要贡献包括:1. 一个新的字幕模型,它结合了transformers,一个以注意力为中心的语言模型,字节对编码,以及对四种不同形式(文本,图像,面部和对象)的注意力。2. 在所有指标上都有显著的性能提升,相关的消融研究使用BLEU- 4、CIDEr、命名实体和稀有专有名词的精确召回以及语言质量指标量化了我们主要建模组件的贡献。3. NYTimes800k是迄今为止最大的新闻图像字幕数据集, 包含来自 《纽约时 报》的 445K文章和793KNYTimes800k 建 立 并 改 进 了 最 近 提 出 的GoodNews数据集[3]。它有70%以上的文章,并包括文章文本中的图像位置。数据集、代码和预训练模型在GitHub1上可用。2. 相关作品图像字幕系统的一个流行设计选择涉及使用卷积神经网络(CNN)作为图像编码器,使用具有封闭词汇表的递归神经网络(RNN)作为解码器[19,10,49]。在“Show,Attend and Tell”[ 53 ]中引入了使用多层感知的图像补丁注意力进一步的扩展包括使用自下而上的方法来提出要关注的区域[1],并特别关注图像中识别的对象区域[51]和视觉概念[55,25,51]。新闻图像字幕包括作为输入的文章文本,并关注新闻文章中使用的图像类型。这里的一个关键挑战是生成正确的实体名称,特别是罕见的实体名称。现有的方法包括使用n-gram模型组合现有短语[13]或简单地检索最具代表性的1https://github.com/alasdairtran/transform-and-tell第44话在文章中Ramisa等人[37]构建了一个端到端的LSTM解码器,将文章和图像作为输入,但该模型仍然无法生成在训练期间看不到的名称。为了克服固定大小词汇表的限制,已经提出了基于模板的方法。LSTM首先生成一个模板句子,其中包含命名实体的占位符,例如:”““人在建筑物上说话。[3]的文件。然后,通过实体组合的知识图[29]或通过句子相似性[3]选择每个占位符的最佳候选者。我们提出的模型和以前的方法[3,29]之间的一个关键区别是,我们的模型可以直接使用命名实体生成标题,而无需使用中间模板。最近在许多自然语言处理任务中取得成功的一个工具是Transformer网络。trans-former在语言建模[36],故事生成[11],summarization [43]和机器翻译[4]方面一直优于特别是,基于transformer的模型,如BERT[9] , XLM [22] , XLNet [54] , RoBERTa [27] 和ALBERT [23]能够产生适合迁移学习的高级文本表示。此外,使用字节对编码(BPE)[41]将不常见的单词表示为子字单元序列,使transformers能够在开放的vocabulary设置中运行。迄今为止,唯一使用BPE的图像字幕工作是[57],但他们没有将其用于罕见的命名实体,因为这些实体在预处理期间被删除。相反,我们显式地检查BPE生成罕见的名称,并将其与基于模板的方法进行比较。变形金刚已被证明在生成通用MS COCO字幕时产生有竞争力的结果[58,25]。Zhao等人[57]更进一步,训练transformers在Conceptual Captions数据集中产生一些命名实体[42]。然而,作者使用了使用Google CloudVision API提取的Web实体标签作为模型的输入。在我们的工作中,我们没有显式地给模型一个实体列表来显示在标题中。相反,我们的模型自动识别相关的实体,从所提供的新闻文章。3. transform and Tell模型我们的模型由一组预训练的编码器和解码器组成,如图2所示。编码器(第3.1节)生成图像、人脸、物体和文章文本的高级矢量表示。解码器(第3.2节)关注这些表示,以生成子字级别的字幕。3.1. 编码器图像编码器:从在 Im 上 预 训 练 的ResNet-152 [17]模型获得整体图像表示。13037我输出标题字节对令牌文章图像Transformer解码器以 前 的字 节 对令牌对象图2:转换和告知模型概述。左:具有四个Transformer块的解码器;右:编码器的文章,图像,面孔和对象。解码器将字节对标记的嵌入作为输入(底部的蓝色圆圈)。例如,最后一个时间步中的输入14980表示来自前一个时间步的“Varshini”中的“arsh”。灰色箭头显示每个块中最后一个时间步的卷积。彩色箭头表示对右侧四个域的关注:文章文本(绿线)、图像补丁(黄线)、面部(橙线)和对象(蓝线)。最终的解码器输出是字节对标记,然后将其组合成完整的单词和标点符号。ageNet.我们使用池化层之前的最终块的输出作为图像表示。这是一套置信度小于0.3,并选择最多64个具有最高置信度分数的对象通过ResNet-15249种不同的载体xI∈R2048,其中每个向量对应-在ImageNet上进行预训练。 与图像编码器相比,在图像被分割分成大小相等的7乘7块。 这就给了我们XI={xI∈RDI}MI,其中DI=2048且MI=49我们把池化层之后的输出作为代表,每个物体的位置。 这给了我们一组物体向量XO={xO∈RDO}MO,其中对于ResNet,DO=2048i i=1i i =1ResNet-152。使用这种表示允许解码器关注图像的不同区域,已知这可以提高其他图像字幕任务的性能[53]并且已被广泛采用。人脸编码器:我们使用MTCNN [56]来检测图像中的人脸边界框。然后,我们最多选择四个面孔,因为大多数字幕最多包含四个人通过将边界框传递给FaceNet[ 40 ]来获得每个人脸的矢量表示,FaceNet[40]是在VGGFace2数据集[5]上预先训练的。每个图像是XF={xF∈RDF}MF,其中对于FaceNet,DF=512152,MO是对象的数量文章编码器:为了对文章文本进行编码,我们使用RoBERTa [27],这是对流行的BERT [ 9 ]模型的最新改进。RoBERTa是一个预先训练的语言表示模型,为文本提供上下文嵌入。它由24层双向Transformer块组成。与GloVe [35]和word2vec [31]嵌入不同,其中每个单词只有一个表示,Transformer中的双向性和注意力机制允许单词根据周围上下文具有不同的向量表示。最大的GloVe模型的词汇量为1.2i i=1MF是面的个数如果图像中没有面,则XF是空集。即使人脸是从图像中提取的,将它们视为单独的输入域也是有用的。这是因为专门的人脸嵌入模型被调整用于识别人,因此可以帮助解码器生成更准确的命名实体。对象编码器:我们使用YOLOv3 [38]来检测图像中的对象边界框。我们用一个万虽然这个值很大,但许多罕见的名称仍然会映射到未知的标记。相比之下,RoBERTa使用BPE [41,36],它可以编码任何由Unicode字符组成的单词。在BPE中,每个字首先被分解成一个字节序列。然后使用贪婪算法合并公共字节序列。在[36]之后,我们的vo- cabulary由50 K最常见的字节序列组成。灵感来自Tenneyet al。[46]他表明BERT中的不同层代表传统中的不同步骤进步活动家在气候问题上将民主党推向左翼。 现在怎么办?罗伯塔....底特律--今年4月,自由环保组织“日出运动”(SunriseMovement)的年轻活动人士在韦恩州立大学(WayneStateUniversity)举行了一场集会,支持采取激进措施遏制气候变化。他们的目标是:让民主党总统候选人公开支持绿色新政ResNet-152....MTCNNYOLOv3FaceNet面临0 881615839 17 27 29 1031 736 6 46814980....ResNet-152881615839 17 27 29 1031 736 6 468149802531日出‘ S 执行主任、瓦尔希尼13038阿勒特z∈拉克什拉克什我我γz(7)拉克什ℓtℓz+W拉克什E特赫特特赫特}:在传统的NLP流水线中,我们混合了RoBERTa层以获得更丰富的表示。给定长度MT的输入,预训练的RoBERTa编码器将返回25个序列,z∈RDE.给定核大小K和H个注意头,对于每个头h ∈{1,2,., H},我们首先使用前馈层投影当前和最后K-1步,以获得嵌入,G={g∈ i∈R2048 :∈{0,1,.,24},i∈RDE拉吉/H:{1、2、…M T}}。这包括最初的无语境化嵌入和24个Transformer中每一个的输出层。 我们对所有层进行加权求和,′拉吉=GLU(WZz)+bZ)(6)文章嵌入xA:xA= Σ24=0(1)对于j∈{t-K+1,t-K+2,.,t}。这里GLU是门控线性单元激活函数[7]。每一个的输出head其中α是可学习的权重。因此,我们的RoBERTa编码器产生一组令牌嵌入XA={xA∈RDT}MT,其中DT=1024zht=Σtj=t−K+1′吉吉我在罗伯塔。3.2. 解码器i=1其中,权重γhj是输入的线性投影(因此称为解码器是一个按顺序生成字幕标记的函数。在时间步t,它将以下作为输入:嵌入式-γhj=Softmax.(wγ)T′Σ拉吉(八)在前一步骤中生成的标记的嵌入,z0t∈ RD,其中D E是隐藏大小;所有其他错误生成的标记的嵌入Z0=8样本中的发生次数表2:NYTimes800k培训、验证和测试部分培训确认测试文章数量433561 2 978 8 375图片数量763 217 7 777 21 977开始月份Mar 15 May 19 Jun 19结束月份Apr 19 May 19 Aug 19图3:NYTimes800k训练数据中面孔和人名的共现蓝色条计算有多少图像包含一定数量的面孔。橙色条计算有多少标题包含一定数量的人我们根据时间划分训练集、验证集和测试集,如表2所示。与GoodNews中使用的随机分割相比在我们测试字幕中的10万个专有名词中,有4%从未出现在任何训练字幕中。5. 实验本节介绍神经网络学习、基线和评估指标的设置,然后讨论关键结果。5.1.培训详细信息继Wuet al. [52]中,我们将隐藏大小D E设置为1024;磁头数量H设置为16; Transformer块数量L设置为4,内核大小分别为3、7、15和31。 对于参数优化,我们使用具有以下参数的自适应梯度算法Adam[21]:β1=0。9,β2=0。98,π=10−6。我们在前5%的训练步骤中将学习率预热到10−4,然后线性衰减我们将L2正则化应用于所有网络权重,权重衰减为10−5,并使用修正[28]将学习率与正则化参数相乘我们裁剪梯度范数0.1.我们使用的最大批处理大小为16,并且在模型看到660万个示例后停止训练。这相当于GoodNews上的16个时代和NYTimes800k上的9个时代。训练管道使用AllenNLP框架[15]在PyTorch [34]中编写。RoBERTa模型和动态卷积码改编自fairseq [32]。训练是以混合精度完成的,以减少内存占用,并允许我们的完整模型在单个GPU上进行训练完整的模型需要5天的时间在一个Titan V GPU上训练,并有2亿个可训练的参数-请参阅补充材料了解每个模型变体的大小。5.2. 评估指标我们使用BLEU-4 [33]和CIDEr [48]分数,因为它们是评估图像标题的标准。这些是使用COCO标题评估工具包3获得的。补充材料还报告了BLEU-1、BLEU-2、BLEU-3、ROUGE [26]和METEOR [8]。注意CIDEr特别适合于评估新闻标题模型,因为它比其他指标更重视不常见的单词。此外,我们评估的精度和召回命名实体,人的名字,和罕见的专有名称。命名实体使用SpaCy在地面实况标题和生成的标题中标识。然后,我们计算地面真值和生成的实体之间的精确字符串匹配。对于人名罕见专有名词是出现在测试标题中但没有出现在任何训练标题中的名词5.3. 基线和模型变量我们展示了两个以前的最先进的模型:Biten(Avg+ CtxIns)和Biten(TBB + AttIns)[3]。为了提供公平的比较,我们使用了Biten等人发布的完整标题结果。[3]并在一个稍小的测试集上用我们的评估管道重新评估(由于URL损坏,一些测试图像不再如果四舍五入至最接近的整数,则最终指标与最初报告的相同。我 们 评 估 几 个 关 键 的 建 模 选 择 : 解 码 器 类 型(LSTM vs Transformer)、文本编码器类型(GloVe vsRoBERTa vs加权RoBERTa)以及附加上下文域(位置感知、面部关注和对象关注)。位置感知模型选择图像周围的512个标记,而不是文章的前512个标记。请注意,我们所有的模型都在解码器中使用自适应softmax的BPE。我们确保每个模型的可训练参数总数在彼此的7%以内(1.48亿到1.59亿),除了面部注意力(1.71亿)和物体注意力(2亿),因为后两者有额外的多头注意力模块。GoodNews报告的结果基于仅在GoodNews上训练的模型,使用[3]的原始随机分割,以便与以前的工作进行比较。3https://github.com/tylin/coco-caption的样品13042表3:GoodNews(第1-10行)和NYTimes 800 k(第11-19行)的结果。我们报告了BLEU-4、ROUGE、CIDER和命名实体、人名和稀有专有名词的精确度(P)召回率(R)。准确率和召回率以百分比表示。图1-图3这些模型只有图像注意力(IA)。14是我们的基准RoBERTa Transformer语言模型,它只有文章文本(而不是图像)作为输入。在此基础上,我们首先关注图像补丁(行7 - 15)。然后,我们取RoBERTa嵌入的加权和(行8和16),并注意图像周围的文本,而不是文章的前512个标记(行17)。最后,我们在图像中的面部(行9 18)和对象(行1019)上添加注意力。BLEU-4 ROUGE CIDER命名实体人名P R P R(1)咬合(平均值+CtxIns)[3] 0.89 12.2 13.1 8.23 6.06 9.38 6.55 1.06 12.5(2)Biten(TBB + AttIns)[3] 0.76 12.2 12.7 8.87 5.64 11.9 6.98 1.58 12.6(3)LSTM + GloVe + IA 1.97 13.6 13.9 10.7 7.09 9.07 5.36 0 0(4)Transformer + GloVe + IA 3.48 17.0 25.2 14.3 11.1 14.5 10.5 0 0(5)LSTM + RoBERTa + IA 3.45 17.0 28.6 15.5 12.0 16.4 12.4 2.75 8.64(6)Transformer + RoBERTa 4.60 18.6 40.9 19.3 16.1 24.4 18.7 10.7 18.7(7)+图像关注度5.45 20.7 48.5 21.1 17.4 26.9 20.7 12.2 20.9(8)+加权ROBERTa 6.0 21.2 53.1 21.8 18.5 28.8 22.8 16.2 26.0(9)+面部关注6.05 21.4 54.3 22.0 18.629.3 23.315.5 24.5(10)+物体注意力6.05 21.453.822.2 18.729.2 23.115.6 26.3(11)LSTM + GloVe + IA 1.77 13.1 12.1 10.2 7.24 8.83 5.73 0(12)Transformer + GloVe + IA 2.75 15.9 20.3 13.2 10.8 13.2 9.66 0(13)LSTM + RoBERTa + IA 3.29 16.1 24.9 15.1 12.9 17.7 14.4 7.47 9.50(14)Transformer + RoBERTa 4.26 17.3 33.9 17.8 16.3 23.6 19.7 21.1 16.7(15)+图像关注度5.01 19.4 40.3 20.0 18.1 28.2 23.0 24.3 19.3(16)+加权ROBERTa 5.75 19.9 45.1 21.1 19.6 29.7 25.4 29.6 22.8(17)+位置感知6.36 21.4 52.8 24.0 21.9 35.4 30.2 33.827.2(18)+面部关注6.26 21.5 53.9 24.2 22.1 36.5 30.8 33.4 26.4(19)+物体注意力6.30 21.7 54.4 24.6 22.2 37.3 31.1 34.227.05.4. 结果和讨论表3总结了GoodNews和NYTimes800k的评估指标,而图4比较了不同模型变体生成的标题。我们的完整模型(第10行)在所有评估指标上的表现都明显优于现有的最新技术[3]在GoodNews上,完整模型的CIDEr评分为53.8,而先前的最新技术水平[3]的CIDEr评分仅为13.1。我们最基本的LSTM模型(第3行)与Biten等人不同。[3]因为我们在字幕解码器中使用BPE而不是模板生成和填充。CIDER的轻微改善(从13.1到13.9)表明BPE提供了模板填充方法的有竞争力的端到端替代方法。这证明在剩余实验中使用BPE是合理的。使用GloVe嵌入(第3名词,精确度和召回率为0。 这是因为编码器会跳过不属于固定GloVe词汇表的单词。这促使从GloVe切换到RoberTa,它具有无限的词汇量。这种转换在稀有专有名词的生成中表现出明显的优势在NYTimes800k上,即使是使用RoBERTa(第13行)的表现最差的模型也能达到7.47%的精度,9.50%的召回率,以及比没有RoBERTa(第11行)的模型12.8点的CIDER差距。另一个重要的建模选择是字幕解码器的函数形式。我们发现,Transformer架构在所有评估指标方面都比LSTM有了实质性的改进。例如,当我们将LSTM与Transformer 交 换 时 ( 从 第 13 行 到 第 15 行 ) ,NYTimes800k上的CIDER得分从24.9跳到40.3。在面孔上添加注意力可以提高人们名字的回忆 它对其他实体类型没有显著影响(参见补充材料,新闻资讯纽约时报800k13043日本急需更多的日托工作者。 新妈妈不需要申请。东京--从孩提时代起,艾丽卡·高登(EricaTakato)就只想和小孩子们一起工作。 在她任期的几个星期后,她要求医生给她安排卧床休息的时间。....工会官员和前教师列举了实现这一愿望的一个主要障碍....地面实况字幕一位幼儿园老师向全班展示一只虫子Transformer+RoBERTa女士 出生在日本的Takato因为怀孕而被迫退出日托计划。+形象关注女士 Takato和她的儿子Kishiko以及他们的孩子,从左起,3岁的Kaiti和3岁的Kaitama,在东京的一家日托中心。+加权Roberta女士Takato和她的儿子Shiro以及儿子在东京的家中。女士怀孕的Takato说,她“非常沮丧,失去了工作的希望。”+位置感知东京的一家日托中心+面子关注东京的一家托儿所。 政府渴望让更多的妇女加入劳动大军,并试图为母亲提供足够的儿童保育。+对象注意力东京的一名日托工作者。 政府正试图让更多的妇女加入劳动力大军,政府正试图为母亲们提供足够的儿童保育服务,让她们重返工作岗位。图4:来自NYTimes800k测试集的示例文章(左)和相应的新闻标题(右)。无法接触到这张图片的模特会做出一个合理但错误的猜测,那就是这张图片是关于史密斯女士的。高登由于图像出现在文章的中间,只有位置感知模型正确地指出图像的焦点是日托中心。详细的分类)。重要的是,人名是新闻标题中最常见的实体类型,因此我们也看到了CIDER的改进。对对象的关注也提高了大多数指标的性能,特别是在NYTimes800k上。更广泛地说,这一结果表明,引入专门的视觉模型调整到常见类型的对象,如组织(通过徽标或地标)是一个有前途的未来方向,以提高新闻图像字幕的性能。位置感知模型(第17-19行这种对上下文的简单关注为CIDEr提供了很大的改进这表明图像和最接近的文本之间有很强的对应关系,可以很容易地利用它来生成更好的标题。补充材料还报告了三个字幕质量指标:标题长度、类 型 - 标 记 比 率 ( TTR ) [45] 和 Flesch 阅 读 容 易 度(FRE)[14,20]。TTR是字幕中唯一单词的数量与单词总数的比率FRE将单词和音节的数量考虑根据FRE的测量,我们的模型生成的字幕显示出更接近地面真相的语言复杂度。此外,由我们的模型生成的标题平均为15个单词,这比由先前的最新技术状态生成的标题(10个单词)更接近地面事实(18个单词)[3]。6. 结论在本文中,我们已经证明,通过使用从机器学习中的多个子领域中提取的最新技术的精心选择的新颖组合,我们能够为新闻图像字幕设置新的SOTA。我们的模型可以将真实世界的知识实体在不同的模态和生成文本更好的语言多样性。关键的建模组件是可以输出任何单词的字节对编码、文章文本的上下文化嵌入、专门的人脸对象编码和基于transformer的标题生成。这一结果为具有上下文知识的其他图像描述任务(诸如网页、社会媒体馈送或医学文档)提供了有希望的步骤。未来有希望的方向包括为更广泛的实体(如国家和组织)提供专门的视觉模型,将当前文章的图像上下文扩展到最近或链接的文章,或为其他图像和文本域设计类似的技术。确认这项研究得到了数据决策合作研究中心的部分支持,该中心的活动得到了澳大利亚联邦政府合作研究中心计划的资助。该研究还得到了澳大利亚研究委员会的部分支持,项目编号为DP180101985。我们感谢NVIDIA 通 过 其 GPU 赠 款 计 划 为 我 们 提 供 Titan VGPU。13044引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月[2] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。[3] Ali Furkan Biten,Lluis Gomez,Marcal Rusinol,andDi- mosthenis Karatzas.好消息,各位!用于新闻图像的上下文驱动的实体感知字幕。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。[4] Ond Bagrej Bojar,Christian Federmann,Mark Fishel,Yvette Graham , Barry Haddow , Philipp Koehn , andChristof Monz.2018年机器翻译会议(WMT18)在第三届机器翻译会议论文集:共享任务文件,第272 -303页,比利时,布鲁塞尔,10月。2018.计算语言学协会。[5] 曹琼,李申,谢伟迪,Omkar M.帕克希,还有安德鲁·齐瑟曼。VGGFace2:用于识别姿势和年龄的人脸数据集2018年第13届IEEE自动人脸手势识别国际会议(FG 2018),第67-74页[6] 玛塞拉·科尼亚,洛伦佐·巴拉迪,丽塔·库奇亚拉.显示、控制和告知:一个框架,用于生成可控和接地字幕。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。[7] 扬N. Dauphin,Angela Fan,Michael Auli,and DavidGrangier.用门控卷积网络进行语言建模。第34届国际机器学习集,机器学习研究论文集第70卷,第933-941页,澳大利亚悉尼,2017年8月6日至11日PMLR。[8] Michael Denkowski和Alon LavieMeteor通用:针对任何目标语言的特定语言翻译评估第九届统计机器翻译研讨会论文集,第376-380页,美国马里兰州巴尔的摩,2014年6月计算语言学协会。[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼苏达州明尼阿波利斯,2019年6月。计算语言学协会。[10] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉与模式识别会议(CVPR),2015年6月。[11] Angela Fan,Mike Lewis,and Yann Dauphin.分层神经故事生成。在计算语言学协会第56届年会论文集(第1卷:Long Papers),第889-898页,澳大利亚墨尔本,2018年7月。计算语言学协会[12] 放 大 图 片 作 者 : Hao Fang , Saurabh Gupta , ForrestIandola,Rupesh K.李登,何晓东,高建峰,何晓东,玛格丽特·米切尔,约翰·C.普拉特角劳伦斯·齐特尼克和杰弗里·茨威格。从标题到视觉概念再到后面。IEEE计算机视觉与模式识别会议(CVPR),2015年6月。[13] Yansong Fen
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功