没有合适的资源?快使用搜索试试~ 我知道了~
1基于共享多模态嵌入伊罗·莱纳Technische Uni versitaütMüncheniro. tum.de牛津大学chrisr@robots.ox.ac.ukNassirNavabTechnischeUni versitatétMünchennassir. tum.de摘要在没有明确监督的情况下理解图像已经成为计算机视觉中的一个重要问题。在本文中,我们通过生成场景的语言描述来解决图像字幕问题,而不需要从注释的图像及其字幕对中学习。我们方法的核心组成部分是一个由视觉概念构成的共享潜在空间。在这个空间中,两种模态应该是不可区分的。首先训练一个语言模型,将句子编码成语义结构化的嵌入。翻译到这个嵌入空间的图像特征可以通过相同的语言模型解码成描述这种翻译是从弱配对的图像和文本中学习的,使用对噪声分配和条件对抗组件具有鲁棒性的损失。我们的方法允许exploit大型文本语料库以外的图像/字幕数据的注释分布。我们的实验表明,拟议的领域对齐学习一个语义上有意义的表示,优于以前的工作。1. 介绍为图像生成自然语言描述已经引起了人们的关注,因为它旨在教会机器人类如何看待,理解和谈论世界。帮助视觉受损的人[23,62]和人机交互[12,39]是图像字幕重要性的一些例子尽管人类描述场景的内容是简单的,但是图像描述的机器生成是一个具有挑战性的问题,其需要将图像的合成感知翻译成语义和语法正确的句子。传统上,图像字幕已经使用由人类注释者给出的图像-字幕对的形式的完全监督来执行。众包字幕是一项繁琐的任务,需要广泛的质量控制和进一步的手动清理。由于注释者通常是按图片付费的此外,当前的字幕基准[38,49]包括图1. 方法概述。我们的模型学习了一个由视觉概念及其共现构成的语言和图像特征的联合嵌入空间。图像和文本来自不相交的来源。在推理过程中,模型将图像嵌入到共享空间中,从中可以解码字幕。有限数量的对象类别,并且集中在不完美的评估度量下的性能。因此,在这样的数据集上开发的方法可能不容易在野外被采用。尽管如此,已经做出了很大的努力来将字幕扩展到域外数据[3,9,69]或不同的风格,而不仅仅是事实描述[22,55]。在这项工作中,我们探索无监督字幕,其中图像和语言源是独立的。不是超级-7414ImageDomain-视觉概念男子网球狗飞盘男子摩托车网球拍草停止标志树共享嵌入空间共享解码器“A. . .语言领域视觉词共现一个人正准备用网球拍击球。 在球场上拿着网球拍的人。. . .一只小狗正在抓红色的飞盘。 狗嘴里叼着一个飞盘。. . .骑摩托车的人正在通过一个停车标志。 一个骑摩托车的人在两棵树之间。. . .7415视觉设置可以受益于几乎无限量的未标记或弱标记图像以及读取-容易获得的大型文本语料库,而不需要倾向于偏见和昂贵的人工注释。虽然在其他无监督任务中已经取得了重大进展[15,34,54,70],但图像描述的无监督生成仍然大多未被探索。我们的方法的构建块是语言模型和图像到语言域的翻译。在语言方面,我们首先学习一个语义结构化的嵌入空间,即。描述类似视觉概念的句子(例如,女人和人)和类似的上下文用类似的嵌入编码。然后,我们在图像特征和利用图像中的视觉概念的学习文本嵌入之间执行弱监督域对齐这种对齐允许利用句子和图像之间的视觉概念的共现统计。例如,单词boat和water可能经常在语言域中一起出现,类似于大多数包含船的图像也包含水的事实当语言和图像来自不同的来源时,需要一些微弱的监督信号来将视觉概念的人-ifold与文本域对齐。与之前的工作类似[18],我们使用预先训练的对象检测器来生成文本源以及可以在图像中检测到的视觉实体。我们表明,我们确实可以学习预测有意义的图片,超出了有限的能力的对象检测器的标题。由于视觉概念同现,模型学习产生文本描述,包括不一定包含在对象检测器海滩)。这表明对齐是有意义的,两个域的统计数据有助于发现更多的视觉概念。量化,我们的无监督方法几乎匹配一些早期的监督方法的性能,并优于以前的无监督方法。最后,我们的方法使得利用各种语言来源成为可能,例如来自不同语言或具有特定风格-诗意(莎士比亚),有趣,讲故事-这些都不能通过众包轻松获得。2. 相关工作完全监督。基于神经的图像字幕的开创性工作[27,60]建立了卷积神经网络(CNN)图像编码器的常用框架,然后是递归神经网络(RNN)语言解码器。与标准的CNN-RNN方法相比,已经取得了重大进展。 Xuet al. [63]引入了注意力的概念,并随后提出了几种专注于注意力机制的方法,以可视化图像上下文上的单词基础并有效地指导生成。cess [4,41,64,68].值得注意的努力还包括生成视频描述[14]或图像区域上的密集字幕[26],利用属性[67]或视觉关系[66]等附加信息以及优化评估指标[40,50]。其他方法专注于生成具有对抗性模型的多样化和自然的字幕[11,36,53,61],超越了事实描述,[19,55]或解决性别偏见[5]。新颖的物体字幕。最近的方法还探索了新对象字幕的任务,以利用来自现成数据集的大规模视觉对象识别,例如ImageNet [51]。他们的目标是解决传统模型在没有显式训练对的情况下将新实体集成到图像描述中的局限性。在[45]中,这个问题是通过从一些新类别的标记对中学习来解决的。在[6,65]中采用了语义机制将知识从配对数据转移到域外对象,而[59]则联合利用来自独立图像和文本源的语义信息。另一种方法是生成句子模板并使用检测到的概念填充插槽[42]。不是训练模型来处理新概念,[2]建议将波束搜索评估限制在目标词上。部分监督。最近的工作进一步推动了该领域在更具挑战性的设置下生成图像描述,例如未配对或无监督。Chen等人[9]解决跨域字幕,其中源域由图像字幕对组成,目标是通过评论家利用目标域的未配对数据。在[69]中,跨域问题用循环目标来处理。类似地,不成对的数据可以用于生成风格化的描述[22,46]。安德森等。[3]提出一种方法来完成部分序列数据,例如,一系列检测到的视觉概念,而不需要配对的图像-字幕数据集。Gu等人[20]从不同的角度解决未配对的图像字幕,使用配对数据可用的中间语言,然后使用并行语料库将字幕翻译为目标语言。然而,这些方法的目标与我们的不同,因为它们通常将包含有限配对或未配对数据的目标域与源域对齐。一个通用的图像字幕首先建立在源域的全面监督,然后适应不同的语言域或新的对象类别。与我们的工作最密切相关的是[18],它不需要任何图像-句子对。在这种情况下,最好使用视觉概念丰富的语言域。因此,他们(和我们)的目标是利用不相交但兼容的图像和语言源,而不是像跨域方法那样对齐不同的语言源。监督只能通过图像识别模型来实现,这些模型用于检测图像中的对象7416JJJJJJ22JJ多模态嵌入。我们的方法的一个关键组成部分是从两个独立的模态潜在的表征对齐。在无监督机器翻译中,尽管是单峰的,[34,35]为源语言和目标语言创建了一个共享的潜在空间(中间语言)。Kiros等人[29]将字幕设置为翻译问题,并学习多模态嵌入空间,这也允许他们执行向量运算。类似地,联合嵌入空间已在[16]中用于跨模态检索,并在[47]中用于视频字幕。最后,Fanget al. [17]从图像中预测视觉单词以产生字幕候选,并使用联合空间中的图像和句子之间的相似性来对字幕进行排名。3. 方法我们的方法的概述如图2所示。该方法由两部分组成,一个语言模型和图像和文本之间的域对齐模型。语言模型独立地将来自语言域的样本编码为语义感知表示。领域对齐的目标是将图像表示转换到由语言模型学习的嵌入空间中,并将这些嵌入解码为有意义的图像描述。在没有成对的图像-字幕数据的情况下,这是一项具有挑战性的任务。我们考虑一个视觉域I和一个图像Ii∈I,由它所包含的视觉实体的集合表示Vi={vk|k∈N,1≤k≤Ni},(1)其中i迭代图像样本的总数,Ni是图像i中视觉概念的总数。类似地,在语言域L中,文本序列sj∈L可以用一大堆词来描述Wj={wk|k∈N,1≤k≤Mj},(2)其中j是长度为Mj的序列.为了这项工作的目的,我们假设图像域和语言域不是完全不相交的。例如,试图基于经济学文本语料库描述自然图像似乎是不合理的。因此,在本发明中,由解码器G重构回相同句子的潜在表示:f(s)=φ, g(φ)=s<$,φ∈Φ<$Rd.(三)RNN是f和g最常见的选择。典型地,通过最小化s和s之间的n_g_i_v_e_log-lik_k_per_w_order来训练这种结构的语言模型。对潜在空间没有任何约束的模型将学习语法和句法嵌入。相反,我们主要感兴趣的是创建一个编码视觉语义的这意味着我们必须鼓励模型学习由视觉概念构成的流形。正如我们稍后所展示的,我们的表示编码了强语义属性,在这个意义上,具有相似内容的句子在嵌入空间中具有较低的距离。由于我们的目标是图像字幕,我们对相似句子内容的概念源于视觉概念-句子中具有视觉基础的单词-以及它们的共现统计。我们在具有三重损失的φ的流形上施加基于视觉概念的结构,定义为Lt(φ,φ+,φ−)=max(0,φ−φ+φ2−φ2+m)(四)它对嵌入φ的三元组进行运算。 损失是最小的-当锚嵌入φ到正对φ+的距离比到负对φ−的距离小至少一个mar ginm∈R+时,最小化。正对和负对可以基于以下来定义:存在于句子中的视觉概念对于一个给定的句子sj,我们定义否定对的集合S−为没有任何共同S −={s k|k∈N,Wk<$Wj=<$}.(五)类似地,我们将至少具有两个共同概念的句子的集合定义为句子对集合S+S+={sk|k∈N,k=fj,|WkWj|≥2}。(六)我们忽略只有一个重叠概念的句子对,以减少错误的对齐。例如,由于许多语言数据集是以人为中心的,因此涉及一个人的每个句子将是彼此的正对,而不考虑上下文。语言模型我们假设语言和图像共有一套普遍的概念<$=V <$W我们指的是LLM(sj)=LCE(g(φ),sj)+λtLt(φj,φ+,φ−)。(七)概念,如人,作为视觉概念。3.1. 语言模型要创建域对齐的基础,我们的第一步是创建一个有意义的文本域。我们通过在文本语料库上训练语言模型来学习非监督的句子嵌入,遵循标准的序列到序列方法和最大似然估计[57]。编码器f将输入句子s嵌入到d维在训练过程中,一个独立的句子s+∈S+是从一个概率与重叠概念的数量成比例的多项式分布中采样的。这件事vors肯定对句子与许多相似的概念。我们从S-中统一抽取一个否定句s-。三重态的损失给我们带来了一种视觉上的结构,嵌入空间视觉内容相似的句子被鼓励靠近对方,而不同语境的句子将被推开。 这74171. 语言模型编码器联合嵌入空间一骑自行车的人一辆自行车下来一路φ+拉φ推φ-一骑自行车的人解码器鉴别器一狗抓飞盘2. 畴对准翻译员假的(翻译)CNN视觉概念抽取图2. 无监督图像字幕架构。 我们首先学习一个语言模型,它具有三重损失公式,嵌入φ使用来自句子的视觉概念。然后,我们使用鲁棒的对齐方案和特征空间中的对抗训练来学习从图像到嵌入空间的映射。对结构的外部强调是重要的,因为不受约束的语言模型更可能将具有相似单词和语法的句子分组直观地,生成图像描述依赖于视觉内容,因此结构化嵌入空间可能是手头任务的更有意义的基础。在补充材料中可以找到视觉约束和无约束嵌入空间3.2. 联合图像和语言域我们已经学习了一个编码器,它将文本投影到结构化嵌入中。下一步是将图像特征投影到相同的嵌入空间中,以便它们可以被解码器类似地解码成句子要做到这一点,我们需要在独立的图像和文本源之间进行初始对齐,因为我们依赖于它们共同的视觉概念。 我们建立一个二分图图G(L,I,P),图像Ii和句子sj作为节点。边Pi,j表示i和sj之间的弱赋值,根据重叠概念Pi,j=|ViWj|.(8)在训练期间,对于I i,我们以概率采样s j可以通过在每次迭代时对图像-字幕对进行单独使用教师强制训练这个模型,会崩溃为描述图像集的某些字幕模式。可以使用任何预先训练的图像识别方法从图像中提取视觉概念。然而,这往往只会导致有限数量的类别。为了在词汇上丰富匹配句子的搜索空间,我们还查询预测的视觉概念Vi,即文本源概念Wi中与预测概念具有某种关系的词(例如,人对人,小狗对狗)。3.3. 学习语义对齐初始对齐允许我们学习从图像到文本的映射我们从Ii使用标准的预训练CNN提取图像特征。现在的任务是在图像特征域i∈到视觉上的结构域φj∈Φ。随机排列图G被期望是非常嘈杂的并且充满了不精确的对应。因此,我们提出了一个强大的训练,该方案利用潜在的共现信息,同时忽略有问题的匹配。我们学习平移函数h:φ→Φ,其中h可以是简单的多值,p(s)j|Ii)=Pi,j. ΣPi,kKΣ−1.(九)层感知器(MLP),使用对应关系(sj,Ii)以及以下目标。我不想让你失望。 如果我们用一个模拟器来训练校准F或无重叠的重叠像对p(s,j|Ii)=0pleL2=h(j2他们被排除在训练之外。高度视觉化-将是条件平均值h(i)=jp(φj|Ii)φj将以更高的概率对延迟的对进行采样。 在这个我们创建了一个随机训练集,这可能不是一个最佳的或口头丰富的句子,因为它可以在分布模式之间着陆。74182因此,我们建议使用鲁棒公式来学习特征对齐,该公式鼓励映射接近真实的句子嵌入:实作详细数据。我们对所有自然语言数据集进行标记和处理,用未知标记替换最不常用的单词。下一步是提取VI-LR(λi)= minφ φ p(s|I) h((十)常见的同义词 我们使用视觉基因组[31] ob-将同义词集作为引用并查找名词(或名词j j i由于匹配集非常大,我们通过对每个图像采样φj的固定量K并计算该子集中的最小值来近似损失对抗训练。到目前为止,鲁棒对齐鼓励学习坚持概念文本嵌入的结构的翻译h然而,我们需要确保映射不会从图像特征向量中丢弃重要的概念信息。这是必要的,以便解码器可以解码直接对应于图像中的视觉概念为此,我们使用条件判别器进行对抗训练由于离散序列上的对抗训练是有问题[8,56],我们在特征空间Φ中执行它类似于[56]。使用一组正/真实样本和一组负/假样本来训练RND:Φ×RND→R。在我们的例子中,一个积极的例子是一个翻译的特征h(hi)与图像概念Vi的独热编码的级联。一个类似的反例是采样对的t e xt嵌入φ j和图像概念V i的级联 因此,学习者学会了图像概念和文本嵌入的相关性,进而鼓励映射H正确地编码图像否则,翻译器可以容易地从翻译的图像特征中识别出真实的句子特征。在实践中,我们使用WGAN-GP 公式[21]来训练CNOD,以最大化假样本的输出,并最小化真实样本的输出当训练h时,我们因此最大化翻译的时间。Ladv=−D(h(i),Vi)(11)完全损失。我们的最终模型是用上述三个目标训练的:L总 =λCELCE+λRLR+λadvLadv,(12)其中权重因子λCE,λR,λadv∈R平衡三种损失的贡献。4. 实验和结果评价的结构如下。首先,我们在Microsoft COCO[38]上的未配对设置中进行消融实验,以评估我们方法的每个组件的效果其次,我们报告的结果在无监督设置独立的图像和语言源。我们使用Flickr30k图像[49]与COCO标题配对,以及COCO图像与Google最后,我们展示了不同文本源的图像描述的定性结果短语)通过使用Stan-ford CoreNLP工具包解析每个句子来提取[44]。这导致了COCO的1415个同义词集和GCC的3030个同义词集,它们描述了视觉实体。在使用等式4对语言模型进行语义感知训练期间,使用该同义词集词汇表来定义正和负的帽对。语言模型的编码器和解码器使用具有200个隐藏单元的门控递归单元(GRU)[10]实现。编码器的最后隐藏状态通过线性层投影到256维文本特征φ中。解码器后面是一个线性层,它将其输出映射到一个固定大小的词汇向量。我们使用200-d GloVe嵌入[48]作为语言模型的输入。与句子对类似,我们基于(视觉)同义词集构建弱为了丰富视觉概念,我们使用OpenImages-v4数据集[30,33],它由174万张图像和600个注释对象类别组成。使用在OpenImages上训练的Faster R-CNN detec[25]提取视觉概念,该检测器已公开提供1。请注意,我们只使用类标签,而不依赖于图像区域(边界框),以保持最小的监督量。因此,可以替代地使用任何多标记分类器。我 们 的 图 像 标 题 的 基 线 基 于 [60] , 并 使 用 在ImageNet上预训练的ResNet-101 [24]提取的图像特征,而无需微调。翻译器h用大小为512的单层MLP来实现,以映射φ∈ R256。培训详情。我们训练语言模型,直到收敛,批量大小为64。编码器和解码器的初始学习速率被设置为10−4和10−3re-time,λ t= 0。1 .一、 当训练对齐时,模型,我们进一步微调解码器,使其适应联合嵌入空间。 我们使用Adam [28]进行优化,学习率为10−3,λ CE= λ R= 1,λadv= 0。1 .一、评估指标。我们使用-COCO COCO评估代码评估我们的方法,并在常用指标BLEU 1-4 [10],ROUGE [37]下报告性能[13 ][14][15][16][17][184.1. 不成对字幕COCO上的未配对设置允许我们评估所提出方法的有效性,并使用相同的受控设置与先前的工作[18]进行比较这是一1https://github.com/tensorflow/models/tree/master/research/object_detection7419缩写LCEL2LRLADVB-1 B-2 B-3 B-4胭脂红CIDER SPICEWMD组件评估监督基线67.450.035.424.822.650.180.215.917.9Oracle49.131.221.216.018.738.750.412.214.5仅对齐C47.025.411.55.215.535.929.48.79.1仅MLEC59.940.226.017.119.143.757.911.613.0关节,基线CC59.740.225.816.618.343.153.810.812.6接头,坚固CC61.542.328.018.819.744.962.412.514.3接头,稳健(λt=0)CC60.741.126.717.618.343.855.611.013.0共同对抗CCC61.742.828.619.320.145.463.612.814.4表1. COCO测试集上的消融实验[27]。图像和语言数据不成对; COCO地面实况对象类别用于初始对准。我们的域对齐模型的每个组件都提高了字幕任务的性能。由于图像和它们的解压缩来自相同的分布,因此简化了问题;然而,我们不使用地面真值对应并且不成对地处理图像和文本。我们使用与[27]之前方法相同的数据分割,得到113,287个训练,5,000个验证和5,000个测试图像。每个图像最初都有5个描述,导致超过560k的训练标题。在基于视觉同义词集将初始图像标题生成为图G中剩余150k个唯一字幕。消融研究。我们通过消融实验评价了所提出的组件(表1)。在这些实验中,我们使用80个可用的COCO对象类别作为视觉概念。我们比较以下几种模型。Oracle:我们首先使用Oracle来评估弱分配这个可以与图像的视觉概念有最高的重叠。由于可能有多个标题具有同样高的概率,我们随机抽样并报告100次运行中的最佳结果。这个基线得分通常很低,因为最初的分配非常嘈杂。仅对齐:通过仅训练图像特征到句子man-ifold中的映射h来执行对齐。我们保持解码器冻结,使用来自预训练语言模型的权重。该模型显示了对场景中主要视觉概念的理解,这意味着相关类出现在输出句子中。然而,这些句子在语法上是不连贯的,因为解码器不能适应投影图像特征和训练它的真实句子嵌入之间的潜在空间差异。因此,对于随后的实验,我们还联合微调解码器。仅限MLE完整模型使用图像标题和教师强制的弱对进行训练,该模型容易出现常见的偏差在MLE模型中,例如重复子短语。关节,基线:除了MLE训练之外,还通过最小化h(λ)和φ之间的L2距离来执行域对齐。这两个结构域的简单比对并没有比仅MLE基线更好。联合,鲁棒:代替L2,该模型使用所提出的鲁棒对准损失(10)进行训练我们随机抽取K= 10个句子作为每个训练图像的候选对。联合,鲁棒(λt= 0):为了评估嵌入空间的重要性,我们还针对来自仅使用LL M:=LCE训练的语言模型的句子嵌入来训练上述模型,即 没有三重态损失。它的表现更差,这表明该语言模型确实有益于字幕。共同对抗:完整的模型还包括以视觉概念作为分类输入的对抗训练。我们观察到,我们的未配对模型达到的性能接近其完全监督的对应模型[60],并且与图像字幕的早期工作相当。持续的改进表明,我们的模型能够学习超出初始弱分配的概念。与最先进技术的比较。没有图像-字幕对的图像字幕领域只是最近才被探索。在表2中,我们将我们的方法与以前的方法进行了比较。我们在COCO上遵循相同的未 配 对 设 置 [18] 。 我 们 使 用 在 OpenImages(OpenImage)上训练的对象检测器来预测视觉概念,以便在对抗训练期间创建图像标题分配和调节报告的结果对应于我们用K= 10个样本训练的完整模型的预测,并使用光束大小为3进行评估。我们的方法在这个问题上开创了一个新的领域。定性评价。我们在图3中显示了我们的完整模型的定性结果,将未配对设置中预测的字幕与使用不同视觉概念提取器(COCO和COCO)训练的两个变体进行了比较。我们发现7420可可一只泰迪熊坐在椅子上一架大型客机停在机场停机坪上一座侧面有钟的建筑物路边的红绿灯公司简介一只猫和一只泰迪熊躺在床上一只泰迪熊和一只猫猫在浴缸里吗一架在空中飞行的大飞机一架在跑道上的客机这架飞机在空中吗一座有钟楼的大建筑物城市中的钟楼几点了?街道上的交通信号灯和路标右边的交通灯是什么颜色COCO一列沿着铁轨行驶的客运列车一只猫坐在笔记本电脑键盘上一只长颈鹿站在树旁的草地在网球场上拿着网球拍的男子公司简介一列火车沿着火车轨道行驶,旁边是一个树火车站。火车在轨道上吗一只猫躺在一台笔记本电脑的顶部在一张桌子上一只猫与一台笔记本电脑猫在笔记本电脑上吗一只长颈鹿站在树旁的草地上一只斑马在长颈鹿长颈鹿站直了吗在网球场上拿着网球拍的女子在比赛中网球运动员和球那个网球运动员戴着头带吗图3. 定性结果。我们展示了COCO数据集图像上的字幕预测。COCO和Coco是来自我们的未配对模型的结果,该模型使用来自在相应数据集上训练的检测器的弱对进行训练GCC和VQA是指分别使用概念标题和VQA-v2数据集在COCO图像上训练的无监督COCO模型和COCO模型都能很好地捕捉图像内容,而COCO模型显然受益于更丰富的对象检测。例如,在最后一张图像中,COCO模型生成了关于一个男人的描述-可能是由于偏见。这是因为在COCO中只有per-son是一个类别,而不是男人或女人,因此在弱分配给每个图像的标题中不可能有性别区分。用模糊概念训练的模型具有解决这种模糊的能力,并正确地识别最后一幅图像中的女性我们注意到,对象检测器只在训练期间使用(对于弱赋值和递归),而不是在推理期间使用。说明器学习从图像域的标记类别中推断;例如.所生成单词{tracks,airport,tower,passenger,grass}是模型根据同现推断的未标记概念带有标签的概念,如火车、飞机、时钟等。4.2. 无监督字幕当以无监督方式训练图像字幕时,语言模型使用外部文本源进行预训练我们进行了两个跨域实验:COCO图像与GCC句子和Flickr 30k图像与COCO标题。在表3中可以看到有和没有对抗训练的模型变体的定量结果。对抗性训练不断改进我们的模型。当然,我们并不期望与非配对设置的性能相匹配,因为不同的语言域意味着词汇,con-文本和样式不同于COCO中的地面真实标题。首先,我们在图3中显示了在COCO图像和GCC字幕上训练的模型的预测字幕(表示为GCC)。当使用GCC作为语言域时,我们发现初始图像标题分配更加嘈杂,这导致模型产生简短的描述。然而,我们也看到,这个模型已经学习了一些有趣的概念,不存在于未配对的设置中,例如飞机在地面或空中之间的差异为了产生具有不同风格的描述,扩展到字幕数据集之外,语言do- main的选择并不简单,因为它应该具有丰富的视觉描述。因此,我们使用VQA-v2 [7]作为语言测试,使用数据集提供的问题作为句子源。模型学习询问有关图像内容的问题,而不是标题(图3,VQA)。4.3. 关节嵌入可视化最后,为了验证我们的训练创建了一个有意义的联合潜在空间,我们将t-SNE嵌入可视化[43] 图 4 中 的 句 子 ( 标 记 为 [L] ) 和 图 像 投 影 特 征([I])。由于我们在训练过程中对模型施加的约束,整体嵌入是按视觉类别结构化的。在聚类中,图像和文本特征很好地混合在一起。这意味着模型已经学习了一个联合嵌入,其中不可能将文本与图像分开。7421方法度量B-4MRCSGu等人[20个]5.413.2-17.7-Feng等人[18个国家]18.617.943.154.911.1我们19.320.245.061.812.9表2.在[18]的非配对设置下,与COCO测试集[27]的最新技术水平进行比较OpenImages [30]类别用于概念提取。方法1B-4 M R C WFlickr图片参与COCO字幕表3.使用独立来源的图像和字幕在无监督环境下进行评估。5. 限制和讨论尽管我们的方法在未监督的图像字幕中设置了最先进的技术,但仍然存在一些限制。如前所述,为了生成初始赋值,语言源需要包含与图像域重叠的足够的视觉概念。我们相信,通过从具有不同内容和风格的文本源的组合中学习,可以缓解这个问题。另一个局限性是该模型的能力,以扩大到新的组成和非典型场景的描述。我们观察到两个因素决定了模型在这方面的行为。首先,基本字幕本身的能力,即。无监督训练不会解决即使对于监督模型也存在的限制[60]。在我们的实验中,输出通常会折叠成足以描述一组图像的通用标题模式;这导致大约20%的所生成的字幕实际上是唯一的,而16%的新字幕在训练集中没有找到。这与[60]的发现是一致的。第二个因素是可解释的视觉概念的数量。例如,当只知道比萨饼的概念时,不可能发现整个比萨饼和比萨饼的切片之间的差异,除非切片也出现在其他上下文中。当然,从更多的概念中学习有可能带来更多的多样性。我们可以通过在已知视觉概念集合中包含谓词来丰富弱赋值的搜索空间,从而依赖于关系图4. t-SNE嵌入。我们展示了我们模型的学习联合嵌入的投影,并放大到一个集群中,以可视化来自文本语料库的句子(由[L]表示)与图像嵌入[I]一起位于视觉语义组中。颜色是由一组视觉概念产生的。该图的放大图见补充材料。侦测。这可以极大地帮助解决诸如一个人骑自行车或携带自行车的模糊性,但它违背了监管不力或没有监管的想法。6. 结论我们已经提出了一种新的方法来对齐图像和文本在一个共享的潜在的representation,是通过视觉概念结构。我们的方法是最低限度的监督,在这个意义上说,它需要一个标准的,预先训练的图像识别模型,以获得初始的噪声correspondence之间的图像和文本域。我们强大的训练方案和从图像特征到文本的翻译的对抗性学习允许该模型快速学习字幕任务。在我们的实验中,我们展示了图像和文本源的不同组合,并在未配对的COCO设置中改进了最先进的技术。在未来,我们有兴趣研究几个方向。人们可以用典型的组件(如注意力)来改进解码器架构,或者遵循模板方法来鼓励对象的新颖组合。总的来说,无监督图像字幕是一个即将到来的研究方向,正在获得牵引力的社区.鸣谢。 克里斯蒂安·鲁普雷希特是由ERC Stg GrantIDIU-638009支持。(bat,baseball,player)(球棒,棒球,球员)站在本垒板上拿着棒球棒的棒球运动员一个拿着球棒的女孩站在田野[我]一个小孩子挥舞着球棒棒球比赛[I]棒球运动员接球场地中的球[我]一个戴着头盔和制服的男孩拿着球棒[I]a baseballplayerwearingachatchersmittona field一个棒球运动员在球一个棒球运动员在棒球上挥动球棒一个击球手,一个裁判,一个人在球场[我]一个穿着橙色球衣的棒球在挥棒棒球比赛投棒球(airplan(厨房,炉灶,微波炉)(盘子,食物,桌子)(风筝)(海滩)(cat、小猫)(skateboard,skateboarder(计算机、鼠标)(dog、小(房间,沙发,桌子)(stop,sign,Ours(w/oadv)5.910.9 31.18.27.0我们7.913.0 32.89.97.5COCO图像参与式概念字幕Ours(w/oadv)5.511.1 30.1 20.86.77422引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在European Conference on Computer Vi-sion,第382-398页中。施普林格,2016年。5[2] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould.带约束波束搜索的引导开放词汇图像字幕。在EMNLP,2017年。2[3] 彼得·安德森、斯蒂芬·古尔德和马克·约翰逊。部分监督图像字幕。神经信息处理系统的进展,第1879-1890页,2018年。一、二[4] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集,第6077-6086页2[5] Lisa Anne Hendricks , Kaylee Burns , Kate Saenko ,Trevor Darrell和Anna Rohrbach。妇女也滑雪:克服偏见的字幕模式.在欧洲计算机视觉会议(ECCV)的会议记录中,第7712[6] Lisa Anne Hendricks、Subhashini Venugopalan、MarcusRohrbach 、 Raymond Mooney 、 Kate Saenko 和 TrevorDarrell。深度合成字幕:在没有配对训练数据的情况下描述新的对象类别。在IEEE计算机视觉和模式识别会议论文集,第1-10页,2016年。2[7] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。2015年,国际计算机视觉会议(ICCV)。7[8] Liqun Chen , Shuyang Dai , Chenyang Tao , HaichaoZhang,Zhe Gan,Dinghan Shen,Yizhe Zhang,GuoyinWang,Ruiyi Zhang,and Lawrence Carin.通过feature-mover的距离生成对抗性文本神经信息处理系统的进展,第4671-4682页,2018年5[9] 陈增宏、廖元宏、庄景耀、徐婉婷、傅建龙、孙敏。展示、改编和讲述:跨域图像捕获器的对抗训练。在IEEE计算机视觉国际会议论文集,第521-530页一、二[10] KyunghyunCho,BartVanMerrieünboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio.使用RNN编码器-解码器学习短语表示arXiv预印本arXiv:1406.1078,2014。5[11] Bo Dai,Sanja Fidler,Raquel Urtasun,and Dahua Lin.通过有条件的GAN实现多样化和自然的图像描述。在IEEE计算机视觉国际会议论文集,第2970-2979页,2017年。2[12] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose MF Moura、Devi Parikh和Dhruv Ba- tra。可视化对话框。在IEEE计算机视觉和模式识别会议论文集,第326-335页1[13] Michael Denkowski和Alon LavieMeteor通用:针对任何目标语言的特定语言翻译评估第九届统计机器翻译集,第376-380页,2014年。5[14] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition,pages 2625-2634,2015中。2[15] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗 性 特 征 学 习 。 arXiv 预 印 本 arXiv : 1605.09782 ,2016。2[16] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和SanjaFidler。VSE++:用硬否定词改进视觉语义嵌入arXiv预印本arXiv:1707.05612,2017。3[17] Hao Fang,Saurabh Gupta,Forrest Iandola,Rupesh KSri-vast av a , LiDeng , PiotrDoll a´r , JianfengGao ,XiaodongHe,Margaret Mitchell,John C Platt,et al.从标题到视觉概念再到后面。在Proceedings of the IEEEconference on computer vision and pattern recognition,第1473-1482页,2015中。3[18] 杨峰,林马,刘伟,罗杰波。无监督图像字幕。arXiv预印本arXiv:1811.10787,2018。二五六八[19] Chuang Gan,Zhe Gan,Xiaodong He,Jianfeng Gao,and Li Deng. StyleNet:使用样式生成吸引人的视觉标题。在IEEE计算机视觉和模式识别集,第3137-3146页,2017年。2[20] Jiuxiang Gu,Shafiq Joty,Jianfei Cai,and Gang Wang.基于语言旋转的不成对图像字幕。在欧洲计算机视觉会议(ECCV)的Proceedings中,第503-519页,2018年。二、八[21] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展,第5767-5777页,2017年。5[22] 郭龙腾,刘静,姚鹏,李江伟,卢汉庆.多风格的图像字幕与不成对的风格化文本。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。一、二[23] Danna Gurari , Qing Li ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功