没有合适的资源?快使用搜索试试~ 我知道了~
6485创造力:使用变分自动编码器UnnatJain UIUCuj2@illinois.edu西北大学zzhang@u.northwestern.edu亚历山大·施温aschwing@illinois.edu摘要为给定图像生成不同的问题是计算教育、娱乐和AI助手的重要任务。与许多传统的预测技术不同的是,需要算法来生成一组不同的合理问题,我们称之为在本文中,我们提出了一个创造性的算法,视觉问题的生成,结合了变分自动编码器与长短期记忆网络的优势。我们证明,我们的框架是能够产生一个大的一组不同的问题给一个单一的输入图像。1. 介绍创造力是一种可以培养的心态,而创新不是一种天赋,而是一种可以训练的技能在本文中,我们进一步推动这一思路,提出以下问题:为什么机器,特别是计算机没有创造力?这是因为我们的环境在大尺度上通常是完全可预测的吗?是因为我们的生活模式提供了方便的捷径,而创造力不是在这样的环境中脱颖而出的必要条件吗?在机器上复制人类特征是一个长期的目标,最近采取了显着的措施来有效地从数据中提取表示[7,41],已经缩小了人类水平的性能和计算机似乎不需要有创造力。然而,如果现有的知识结构不能产生预期的结果,创造力是至关重要的.我们不能指望把所有的逻辑规则编码成算法,或者把所有的观察编码成特征,或者把所有的数据编码成表示。因此,我们需要新的框架来自动挖掘和隐式特征化知识数据库,我们需要在组合这些数据库条目方面具有创造性的算法生成式建模工具可用于这些任务*表示平等缴款。图1:我们的方法生成的问题-字面 到推理,即,视觉内容之后的问题和需要场景理解和关于对象的先验信息的问题。因为它们的目的是表征从中采样数据点的分布经典的生成模型,如限制玻尔兹曼机[27],概率语义索引[30]或潜在的狄利克雷分配[8]从复杂的分布样本。相反,近年来,生成建模的重大进展表明,从简单的分布中采样,并随后通过函数逼近器转换变分自编码器[36,35]和对抗网[25]是遵循这种范式的算法之一。变分自编码器和对抗网络都已成功地应用于图像生成、句子生成等各种任务。在这项工作中,我们将使用这些算法的视觉问题生成的新任务,而不是视觉问题回答。可视问题生成在吸引用户很重要的各种领域中是有用的,用于计算教育,人工智能助手,或娱乐。保持持续的兴趣和好奇心在所有这些领域都是至关重要的,只有当开发的系统不断展示新的方面,而不是重复一套手工制作的特征时,才能实现。视觉问题生成关闭了问答的循环,多样化的问题使对话变得有趣,帮助AI系统,如驾驶助理,聊天机器人等,在图灵测试中表现更好具体地说,考虑一个旨在教孩子们描述图像的程序。即使6486粗体框图2:VQG算法生成的问题示例。 颜色较深的方框包含更多推理性的问题。我们的问题包括查询数字和稀疏的云显示其视觉识别能力。关于事件,运动类型和运动的问题展示了理解场景和动作的能力。 不像关于颜色、数量和形状,中的问题是我们模型多样性的范例。它融合了视觉信息用上下文来问一些不能简单地通过看图像来回答的问题。它的答案需要事先(像人一样)理解物体或场景。带有粗体标记的问题是由我们的VQG模型生成的,在训练过程中从未发生过(我们称之为提供了100个令人兴奋的问题,该程序甚至将为了缓解这个问题,我们认为,创造性的机制是重要的,特别是在域,如问题生成。在本文中,我们提出了一种技术,用于生成不同的问题,是基于生成模型。更具体地说,我们遵循变分自动编码器范式,而不是对抗网络,因为训练似乎更稳定。我们学习将一个给定的问题和相应图像的特征嵌入到一个低维的潜在空间中。在推理过程中,即,当我们得到一个新的图像时,我们通过从潜在空间中采样来生成一个问题,然后将样本与图像的特征嵌入一起解码,以获得一个新的问题。 我们在图中展示了一些图像和生成的问题的子集。图1和图2。请注意生成的问题的多样性,其中一些更直接,而另一些则更具推理性。在本文中,我们在VQG-COCO,Flickr和Bing数据集上评估了我们的方法[50]。我们证明,所提出的技术是能够问一系列非常不同的问题,只有一个图像作为输入。2. 相关工作当考虑从图像生成文本时,标题和段落生成[32,4,11,18,19,20,13,33,37,40,48,60,64,69],以及视觉问题的答案-ing [2,22,47,52,57,67,68,71,21,34,74,1,15,31,72,#36825;,46,45,31,46,47,48,49 我们首先重新-在更详细地讨论与可视化问题生成和生成建模相关的工作之前,请先查看这些任务。视觉提问和字幕是近年来受到广泛关注的两项任务。两者都假设输入图像在推理过程中可用对于视觉问题回答,我们还将提供一个问题.对于这两种任务,已经提出了各种不同的模型,注意力机制已经成为一种有价值的工具,因为它们允许瞥见通常难以解释的神经网络模型所关注的内容可视化问题生成是最近提出的一项任务,仍然是一个开放式的话题。Ren等人[52]提出了一种基于规则的算法,将给定的句子转换为具有单个单词答案的相应问题。Mostafazadeh等人[50]是第一个使用人类创作的问题而不是机器生成的标题来学习问题生成模型的人。他们专注于创造一个“自然和引人入胜”的问题。最近,Vijayakumaret al. [63]也显示了这项任务的初步成果。我们认为,视觉问题生成是一个重要的任务,有两个原因。首先,任务是双重的视觉问题回答,并通过解决这两个任务,我们可以关闭循环。其次,我们认为这项任务在精神上类似于“未来预测”,因为模型中必须编码合理数量的创造性。特别是后者在目前的文献中很少涉及。例如,Mostafazadehet al.[50]通过生成最佳结果6487φQ每个图像使用图像特征通过LSTM或门控递归单元(GRU)层的前向传递的单个问题。Vijayakumar等人[63]示出了通过遵循与COCO-QA相同的图像字幕生成模型[64],但是通过添加多样性波束搜索步骤来提高多样性的问题生成的早期结果这两种技术都产生了令人鼓舞的结果。 然而,在[50]中,每个图像只生成一个问题,而[63]中讨论的方法通过从复杂的能量景观中采样来生成各种问题,这通常是棘手的[23,5]。相比之下,在本文中,我们遵循最近的生成建模范式,采样形式的编码空间中的分布。编码随后被映射到一个高维表示,在我们的例子中,使用LSTM网络,然后我们使用它来生成问题。数据的生成建模是一个长期的目标。第一次尝试,如k均值聚类[43]和高斯混合模型[16],严重限制了所考虑的分布类别,这导致在考虑建模对象(如句子)所需的复杂分布时出现重大建模隐马尔可夫模型[6],概率潜在语义索引[30],潜在狄利克雷分配[9]和限制玻尔兹曼机[59,27]扩展了经典技术。当仔细调整到特定任务时,这些扩展工作得很好,但很难对图像固有的高度模糊性进行建模。图3:我们方法的高级VAE概述3.1. 变分自编码器的背景遵循潜变量模型的常见技术,VAE假设更容易优化定义在变量x(在我们的情况下是句子的单词)以及潜表示z上的参数分布pθ(x,z)。通过引入一个数据条件潜在分布φ q(z|x)数据 点x 的对数似然,即,lnpθ(x)可以重写为:最近,深度网络已被用作生成建模的函数逼近器,并且,与许多其他领域的深度网络性能类似,它们产生了前Σlnpθ(x)=qφzΣ(z|x)ln pθ(x)p( x,z)Σp(z |x)令人鼓舞的结果[25,17,51]。两种非常有趣的方法被称为生成式对抗法,=q φ(z|x)lnzθq φ(z|x)-q φ(z|x)lnθq φ(z|x)线性网络(GAN)[25]和变分自动编码器(VAE)[36]。然而,他们的成功依赖于各种技巧的成功训练[53,25,51,10]。变分自动编码器(VAE)首先由Kingma和Welling[36]引入,并迅速在不同领域得到采用。他们进一步被证明是有用的半监督设置[35]。Yan等人最近考虑了条件性VAE。[70]。此外,Krishnanet al.[38] Archeretal.[3]如何将VAE与连续状态空间模型相结合。此外,Gregoret al.[26]和Chunget al.[14]演示了如何将VAE扩展到序列建模,其中他们专注于RNN。=L(q φ(z|x),p θ(x,z))+ KL(q φ(z|x),p θ(z|X))。(一)由于KL散度是非负的,L是对数似然lnpθ(x)的下界 。 注 意 , 由 于 未 知 且 通 常 难 以 处 理 的 后 验 p θ(z),KL散度的计算是不可能的|X)。然而,当选择参数分布q φ(z)时,|具有足够大的容量来拟合后验p θ(z|x),对数似然率w.r.t. θ通过最大化下界w.r.t. θ和φ。注意,L的最大化w.r.t. φ减小了下限L和对数似然lnpθ(x)之间的差。而不是直接最大化等式中给出的下限L。(1)w.r.t. θ,φ,处理联合分布pθ(x,z)可以通过以下方式避免:3. 方法L(qφΣ,pθ)=qφz(z|x)ln p θ(x|z)p θ(z)q φ(z |x)对于可视化问题生成任务,演示了pθ(z)在图2中,我们依赖于变分自编码器(VAE)。因此,在下文中,我们首先提供关于=q φ(z|x)lnzφ+(z|x)q φ(z|x)ln p θ(x|z)z在介绍拟议的方法之前进行VAE=−KL(q φ(z|x),p θ(z))+Eq(z|x)[ln pΣ6488θ(x|z)]。(二)6489图4:Q分布:词汇表(蓝色)的V维1-hot编码通过We∈RE× V(紫色)线性嵌入。嵌入和F维图像特征(绿色)是LSTM的输入,经过转换以适应H维隐藏空间。我们将最终的隐藏表示通过两个线性映射来估计均值和对数方差。注意,p θ(z)是潜在空间上的先验分布,q φ(z)是潜在空间上的先验分布。|x)是对难以处理和未知的后向p θ(z)进行建模|X)。直观地说,模型分布用于指导可能性评估,重点是高概率,有能力的地区。在下一步骤中,模型分布qφ上的期望用N个样本zi=qφ 来近似,即,在简化KL(q φ (z|x ),p θ(z))与KL(q φ,p θ),我们得到:1ΣN图5:P分布:LSTM 单元的输入是F维图像特征f(I)、M维样本z(在训练期间转换)和E维单词嵌入。为了得到一个预测,我们把H维的潜在空间变换成V维的logitspi.详细我们先从学习设置开始,然后再深入到推理的细节。学习:如前所述,当使用变分自动编码器时,选择适当的q和p分布至关重要。我们展示了一个高级概述,我们的方法在图。3并为编码器(q分布)和解码器(p分布)选择LSTM模型。学习相当于找到两个模的参数φ和θ我们在下面详细介绍了我们对这两种分布的选择,并提供了有关模型可训练参数的更多信息。Q分布:q分布将给定的句子和给定的图像信号编码为潜在表示。由于此嵌入仅在训练期间使用,因此我们可以min KL(qφ,pθ)−φ,θNi=1lnp θ(x|z i),s.t. z i<$qφ。(三)假设图像和问题可在以下-ing. 我们编码图像和问题的技术是基于长短期记忆(LSTM)网络[29]。我们...为了以端到端的方式解决此程序,即,以优化w.r.t.模型参数θ和表征潜在空间上的分布的参数φ都需要通过采样过程来区分。为此,Kingma和Welling [36]建议使用“重新参数化技巧”。 对于前-例如,如果我们限制q φ(z|x)是独立的高斯函数,每个分量的均值为μ j,方差为σ jz jin z=(z1,. . .,z M),那么我们可以通过zi=μj+σj·i其中i <$(0,1)。平均值μj(x,φ)使图1中的计算简单化。4.第一章形式上,我们使用神经网络计算所提供的图像I的F维特征f(I)∈RF,Simonyan和Zisserman讨论的VGG网[58]。的LSTM单元首先使用矩阵WI∈RH×F将图像特征线性映射到其H维潜在空间。为了简单起见,我们在这里和下面忽略偏置项此外,每个V维1-hot编码xi∈ x =(x1,. . . .,XT)选择E维词嵌入E×V从矩阵We∈R得到的j向量,这是学习。的和方差σj(x,φ)是参数函数,由编码器提供VAE的一般概述是提供于图3 .第三章。3.2. 可视化问题生成在下文中,我们描述了我们的技术,用于学习高维嵌入和在更大的LSTM 单 元 采 用 另 一 个线 性 变 换 , 使 用 矩阵 W e ,2∈RH× E将单词嵌入投影到LSTM单元内使用的H维空间中。我们将更复杂的嵌入(如[65,24])的使用留到将来的工作中。给定F维图像特征f(I)和E维词嵌入,LSTM内部主要6490采样蓝色流星Oracle平均值0.6N1,1000.3560.3930.1990.219N1,500 0.352 0.401 0.198 0.222U10,100 0.328 0.488 0.190 0.275U10,500 0.326 0.511 0.186 0.291U20,100 0.316 0.544 0.183 0.312U20,500 0.3110.5790.1770.342表1:准确度指标:BLEU和METEOR指标的平均值和oracle值的最大值(在历元上)。通过均匀分布对潜在空间进行采样会导致更好的预言得分。通过正态分布对潜在空间进行采样可以获得更好的平均度量。在SEC的解释四点三。VQG-Flickr和VQG-Bing的表格相似,并包含在补充材料中。0.50.40.30.20.10.00 5 10 15 20时代(a) 平均-BLEU和oracle-BLEU评分(图例如下所示)得到一个H维表示。我们发现,在第一步中提供图像嵌入,并在随后的步骤中嵌入每个单词,以执行最佳。 在有-通过对图像嵌入和单词嵌入的解析,我们提取出最终的隐藏表示h T ∈RHfrom0.350.300.25LSTM的最后一步我们随后应用两个线性变换到最终的隐藏表示,以便获得M变量高斯分布的均值μ=Wμ hT和对数方差log(σ2)=Wσ hT,即,Wμ∈RM×H和Wσ∈RM×H。 在培训期间,0.200.150.10鼓励零均值和单位方差,即,我们在等式中使用先验pθ(z)=N(0,1)(三)、p分布:p分布用于重建问题x{\displaystyle x{\displaystylex}},在我们的情况下,图像表示0.050.0005 10 15 20时代f(I)∈RF,M-变量随机样本z.持续时间推断样本是从标准正态N(0,1)中抽取的。在训练过程中,该样本被偏移,并通过获得的均值μ和方差σ2进行缩放,从编码器(重新参数化技巧)。 对于p分布和q分布,我们使用相同的图像特征f(I),但学习不同的单词嵌入矩阵,即,对于译码器Wd∈RE×V.我们观察到不同的-为编码器和解码器提供了更好的寝具矩阵,实证结果我们再次省略了偏差项。与编码器类似,我们使用LSTM网络进行解码,如图所示五、我们再次提供F维图像表示f(I)作为第一输入信号。与编码器不同的是,我们然后提供随机抽取的M变量样本z<$N(0,1)作为第二个LSTM单元的输入,该样本被移位在训练过程中,通过平均值μ和方差σ2进行ing. 输入到第三个和所有后续LSTM单元的是开始符号的E维嵌入,并且随后是单词嵌入Wd xi。至于编码器,这些输入由LSTM单元转换到其H维操作空间中。为了计算输出,我们使用H维隐藏表示hi,通过V×H线性变换,(b) Average-METEOR和oracle-METEOR分数图6:准确度指标:VQG-COCO的BLEU和METEOR评分。各种取样方案与 基 线 模 型 性 能 相 比 的 数 据 和 结 果 [50] ( 黑 色 线条)。VQG-Flickr和VQG-Bing的结果相似,已包含在补充材料中维矩阵转换为logits的V维词汇这导致在第三LSTM单元处的词汇表上的概率分布p0在训练过程中,我们最大化句子中下一个单词的预测对数概率,即,x1。对于所有后续的LSTM单元也是如此。在我们的框架中,我们共同学习单词嵌入We∈RE×V以及V×H维输出嵌入、M×H维编码和LSTM到H维操作空间的投影在我们的情况下,参数(包括偏置项)的数量是来自字嵌入矩阵的2个V E,一个用于编码器,另一个用于解码器;HV+V以及2(HM + M)分别来自解码器和编码器的输出嵌入;(FH+H )+2(EH+H )+(MH+H)+(HH+H)内部LSTM单位变量。Avg. 指标Oracle指标N(0,I),100例患者N(0,I),100例患者N(0,I),500例患者N(0,I),500例患者U(-10,10),100例患者U(-10,10),100例患者U(-10,10),500例U(-10,10),500例U(-20,20),100例患者U(-20,20),100例患者U(-20,20),500例U(-20,20),500例流星分数BLEU分数6491N1,100 1.98 10.76N1,500 2.32 12.19U10,100 9.82 18.78U10,500 16.14 24.32U20,100 22.01 19.75U20,500表2:多样性度量:在VQG-COCO测试集上的最大(在各个时期)生成强度和创造性值。通过均匀分布对潜在空间进行采样,导致更多的独特问题以及更多的不可见问题。VQG-Flickr和VQG-Bing的表格相似,并包含在补充材料中。推理:在学习了由图像和问题对组成的数据集上的模型参数后,我们获得了一个解码器,该解码器能够在给定图像I的嵌入f(I)∈RF和范围的情况下生成问题。从一个标准的,标准正态分布或均匀分布。 重要的是,对于输入向量z的每个不同选择,我们生成新的问题x=(x1,,xT)。因为没有真实的V维嵌入是有用的-因此,在推理期间,我们使用来自连续时间步的预测作为输入来预测当前时间步的单词。3.3. 实现细节在整个过程中,我们使用16层VGG模型[58]的4096 维fc6 层作为我们的图像特征f (I ),即,F=4096 。 我 们 还 修 复 了 词 汇 表 的 1-hot 编 码 ,V=10849 , 是 我 们 从 数 据 集 中 收 集 的 单 词 数 量(VQA+VQG,在下一节中详细介绍我们研究了单词嵌入(E),隐藏表示(H)和编码空间(M)的不同维度我们发现,M=20,H=512,E=512可以提供足够的表征能力来训练从大约126,000张图像中获得的大约400,000个我们发现初始学习率为0。01,以快速减少损失并给出良好的结果。我们每5个epoch将学习率降低一半。4. 实验在下文中,我们在VQG数据集[50]上评估了我们提出的技术,并提出了各种不同的方法来证明性能。我们首先描述数据集和指标,然后提供我们的结果。4.1. 数据集:VQA数据集:VQA数据集[ 2 ]的图像是从MS COCO数据集[42]获得的,并被分成82,783个训练图像、40,504个验证图像和40,504个验证图像。504030201000 5 10 15 20时代(a) 生成强度:图像数量上的唯一问题平均数。3025201510500 5 10 15 20时代在训练集中从未见过的唯一问题该图像图7 :多样性指标:生成强度和创新性,在VQG-COCO测试集中的所有图像上取平均值。VQG-Flickr和VQG-Bing结果相似,并包含在补充材料中。40775张测试图片。训练和验证集中的每个图像都用3个问题进行注释。VQA数据集中提供的答案对于我们解决的问题并不重要VQG数据集:Visual Question Generation [50]数据集由来自MS COCO,Flickr和Bing的图像组成。每一组都包含大约5000张图片,每张图片有5每个集合分为50%的训练,25%的验证和25%的测试。VQG是一个自然和引人入胜的问题数据集,它超越了简单的基于文字描述的问题。VQG数据集的目标是“自然问题生成”这一雄心勃勃的问题然而,由于其非常小的尺寸,训练适合问题的高维性质的更大规模的生成模型是一个挑战。通过我们的努力,我们发现问题数据集大小类似于采样创造力创造力(%)(%)百分比计数/图像(b)创造性:100,N1500,N1100,U10500,U10100、U20500、U20100,N1500,N1100,U10500,U10100、U20500、U206492名称的如何是是的是VQG-COCO这一什么是彩色是种名称的人许多如何是女人是的是VQG-Flickr这一什么颜色是善良的是的他们名称该男子许多如何是是的是VQG-Bing这一这什么颜色是善良的具的(a) VQG-COCO(b) VQG-Flickr(c) VQG-Bing图8:多样性的朝阳图:可视化为每个VQG数据集生成的问题的多样性第iring捕获生成的问题的第i个词在词上的频率分布对着的角度center与单词的频率成正比。虽然有些单词的频率很高,但外圈说明了与发布的数据集类似的单词的精细混合[50]。为了便于阅读,我们将图限制为5个环。VQA数据集的大小是非常有益的。VQA+VQG数据集为了解决这个问题,我们将VQA和VQG数据集结合起来。VQA足够的数据来学习我们基于LSTM的VAE模型的参数。此外,VQG增加了额外的多样性,因为问题更吸引 人, 更 自 然。 组 合训 练 集具 有 125 ,697 个 图 像( VQA 训 练 + VQA 验 证 + VQG-COCO 训 练 -VQG-COCO验证-VQG-COCO测试+VQG-Flickr训练+ VQG-Bing培训),共399,418个问题。我们确保我们训练的图像和我们评估的图像由于不同的图像可能具有相同的问题,因此所有训练问题中的唯一问题的数量为238,699。4.2. 度量BLEU:BLEU最初是为评估机器翻译任务而设计的,是第一批与人类判断实现良好相关性的指标之一。它计算BLEU-4考虑多达4个字,并已广泛用于评估现有的机器翻译作品,生成字幕和问题。METEOR:METEOR评分是另一个与人类判断相关的机器翻译指标。F度量是基于单词匹配来计算的。返回通过将候选问题与每个参考问题进行比较而获得的分数中的最佳分数在我们的例子中,VQG测试集中的每个图像都有五个参考问题。尽管BLEU和METEOR有相当大的缺点(详见[62]),但两者都是比较流行的指标。Oracle-metrics:直接使用BLEU和METEOR等机器翻译指标来评估字幕和问题的生成方法存在一个主要问题。第二代与其他旨在创建类似于“参考”的标题或问题的方法不同,像[64,63]和我们的生成方法会产生多种多样的创造性结果,这些结果生成包含所有可能问题的数据集是可取的,但却是虚幻的。重要的是,我们的算法可能不一定生成仅是地面实况问题的简单变化的问题,因为潜在空间的采样提供了产生各种各样的问题的能力。[64,63]强调了这个问题,并通过使用[63]所谓的oracle-metrics来陈述他们的结果来解决这个问题。例如,Oracle-BLEU是在k个潜在候选问题的列表上的BLEU分数的最大值。使用这些指标,我们将我们的结果与[50]等方法进行比较,这些方法推断每个图像的一个问题旨在与参考问题相似。多 样 性 评 分 : 流 行 的 机 器 翻 译 指 标 , 如 BLEU 和METEOR,提供了对生成问题的准确性的深入了解。除了显示我们在这些指标上表现良好外,我们还感到缺乏一个捕捉多样性的指标。当对一个引人入胜的系统感兴趣时,这个指标尤其重要。为了证明多样性,我们在两个直观的指标上评估我们的模型,这两个指标可以作为未来试图产生不同问题的工作我们使用的两个指标是每个图像生成的独特问题的平均数量,以及这些问题在训练时从未见过的百分比第一个指标评估我们所谓的生成强度,后者代表了我们这样的模型的创造性4.3. 评价在下文中,我们首先使用上述度量来定量地评估我们提出的方法,即,BLEU评分、METEOR评分和建议的多样性评分。随后,我们提供了额外的定性结果IL-6493破坏了我们方法的多样性。我们展示了两种采样技术的结果,即,均匀地对z进行采样以及使用正态分布对z进行BLEU:BLEU分数近似于语料库级别的人类判断,如果用于单独评估句子,则不一定相关。因此,我们陈述了语料库BLEU评分的结果(类似于[50])。[ 50 ]中提出的性能最好的模型的corpus-BLEU为0。192,0。117和0。VQG-COCO,VQG-Flickr和VQG-Bing数据集分别为123 为了说明这一基线,我们在图1中的图上用黑线突出显示这些数字。第6(a)段。METEOR:在图6(b)中,我们展示了VQG-COCO数据集上模型的METEOR评分。与BLEU类似,我们计算语料库级别的分数,因为它们与人类判断的相关性更高。[ 50 ]中提出的最佳性能模型的语料库METEOR为0。197,0。149和0。VQG-COCO,VQG-Flickr和VQG-Bing数据集分别为162 为了说明这一基线,我们在图1中的图上用黑线突出显示这些数字。第6(b)段。在选项卡中。1我们编译了语料库和甲骨文度量六个不同的抽样方案。表格底部所列结果的抽样不太一致,罚金抽样方案越接近N(0,1),我们生成的问题语料库就越接近参考文献。数据集的问题。另一方面,抽样方案越具有探索性,最佳可能性就越好(因此,增加了Oracle指标)。多样性:图7说明了我们的模型在z的不同采样方案下的生成强度和创新性。对于使用500个点的U(-20,20)的最佳z采样机制,我们平均获得46.10个唯一问题,在时期19之后,COCO的每个图像的次数(其中26.99%在训练集中不可见);对于Flickr,在第19个时期之后,平均有59.57个独特的问题(32.80%未被发现);对于Bing,在第15期之后,平均有63.83个独特的问题(36.92%未被发现)。在选项卡中。2,即使潜在空间上的训练先验是N(0,1)分布,从探索性U(-20,20)分布中采样也会导致所生成问题的更好多样性。为了进一步说明所产生问题的多样性,我们使用图1所示的朝阳图。COCO,Flickr和Bing数据集的8。尽管事实上,大量的问题以“什么”和“是”开头定性结果:在图2中,我们展示了我们模型的成功案例。我们的模型生成了一系列从字面到推理的问题,有些问题需要对物体及其相互作用有很强的先验在前面的小节中,我们展示了我们的模型在准确性和多样性方面表现良好在图9中,我们说明了两类故障情况。识别失败,预先学习的视觉特征无法正确图9:基于识别和共现的故障案例:左:一架特殊的飞机被认为是多架“飞机”(两组机翼而不是一组机翼可能会导致混淆),因此,出现了错误的问题(用蓝色标记)。右:由于绿色蔬菜/食物/水果在食物图像中非常频繁地同时出现,我们的VQG模型生成关于绿色蔬菜的问题(用绿色标记),即使它们缺失。这五个小图像是训练集食物图像几乎总是包含绿色的几个例子。提出各种问题所需的信息。如图所示,一架复杂的飞机看起来像两架飞机。因此,我们的系统生成与这种感知一致的问题。第二种是基于故障的共现。这是使用薯条和热狗的图像来说明的。 此外- 对于一些正确的问题,一些关于绿色食品/水果/蔬菜的问题不可避免地出现在食物图像中(即使是没有任何绿色的图像)。类似地,在一些树木的非鸟图像中生成关于鸟的问题。这可以解释为每当图像分别包含食物或树木时,关于绿色或鸟类的参考问题非常频繁地同时出现。5. 结论在本文中,我们建议结合优势,使用长短期记忆(LSTM)单元的变分自动编码器来获得一个“创造性”框架,该框架能够在给定单个输入图像的情况下生成一组不同的问题。我们展示了我们的框架在各种图像上的适用性,并设想它适用于计算教育,娱乐和驾驶助理聊天机器人等领域。在未来,我们计划使用更结构化的推理[12,56,44,49,55,54]。鸣谢:我们感谢NVIDIA提供用于本研究的GPU。6494引用[1] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩用神经模块网络回答深度组合问题.在Proc. CVPR,2016中。2[2] S. Antol,A. Agrawal,J. Lu,M.米切尔,D。巴特拉角L. zitnick 和 D. 帕 里 克 VQA : 可 视 化 问 答 。 在 Proc.ICCV,2015中。二、六[3] E. 阿彻岛 M. 帕克湖,澳-地 Buesing,J.坎宁安,以及L.帕宁斯基状态空间模型的黑箱变分推断。在ICLR研讨会,2016年。3[4] K. Barnard,P. Duygulu,D. Forsyth,N. D. Freitas,D.M. Blei和M. I.约旦.匹配文字和图片。JMLR,2003年。2[5] D.巴特拉P.亚多拉普尔,A.古兹曼-里韦拉,以及G.沙赫纳洛维奇马尔可夫随机场中的多样M-最佳解在Proc.ECCV,2012中。3[6] L. E. Baum和T.皮特里有限状态马尔可夫链概率函数的统计推断。数学统计年鉴,1966年。3[7] Y. Bengio,E. Thibodeau-Laufer,G. Alain和J.与信-斯基。可通过反向传播训练的深度生成随机网络。在JMLR,2014年。1[8] D. Blei和M. I.约旦. Dirichlet过程混合物的变分推断。贝叶斯分析,2006年。1[9] D. Blei、A.Y. Ng和M.I. 约旦. 潜Dirichlet分配JMLR,2003年。3[10] Y.布尔达河Grosse和R. R.萨拉赫季诺夫重要性加权自动编码器。InProc. ICLR,2016. 3[11] X. Chen和C. L.齐特尼克Mind 在proc CVPR,2015年。2[12] L- C. ChenJiang,A. G. Schwing, A. L. Yuille和R. 乌塔松学习深度结构化模型。在Proc.ICML,2015中。*同等贡献。8[13] K. Cho,A.C. Courville和Y.本吉奥。使用基于注意力的编码器-解码器网络描述多媒体内容IEEETransactions on Multimedia,2015年。2[14] J. 钟K.卡斯特纳湖Dinh,K.Goel,A.C. Courville和Y.本吉奥。序列数据的递归潜变量模型。在Proc.NIPS,2015中。3[15] A. Das,H.阿格拉瓦尔角L. Zitnick,D. Parikh和D.巴特拉视觉问答中的人类注意力:人类和深度网络会关注相同的区域吗?在EMNLP,2016。2[16] A. P. Dempster,N. M. Laird和D. B.鲁宾通过EM算法从不完整数据中获得最大似然。皇家统计学会,1977年。3[17] E. Denton,S. Chintala、A. Szlam和R.费格斯。使用拉普拉 斯金 字塔 的对 抗网 络的深 度生 成图 像模 型在Proc.NIPS,2015中。3[18] 多纳休湖A. Hendricks,S. Guadarrama,M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期在Proc.CVPR,2015中。2[19]H. Fang,S. 古普塔F. 扬多拉河 斯利瓦斯塔瓦湖邓小平说,P. 多尔,J。Gao、X.他,M。我的朋友,J.C. 普拉特角L. 青春痘6495nick和G.茨威格从标题到视觉概念再到后面。在Proc.CVPR,2015中。2[20] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨,C. Rashtchian,J. Hockenmaier和D.福赛斯Every picturetells a story:Generating sentences from images. 在procECCV,2010年。2[21] A. 福井D.H. 帕克D。Yang,杨树A.Rohrbach,T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在EMNLP,2016。2[22] H. 高,J.毛,J.Zhou,Z.黄湖,澳-地Wang和W.徐你在跟机器说话吗?多语言图像问题分类的数据集和方法。 在Proc.NIPS,2015中。 2[23] K. Gimpel,D.巴特拉湾Shakhnarovich和C.戴尔机器翻译多样性的系统探索载于EMNLP,2013年。3[24] Y. 龚, L. 小王,M. 霍多什, J. Hockenmaier,以及S. Lazebnik使用大型弱注释照片集改进图像-句子嵌入在proc ECCV,2014年。4[25] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在Proc.NIPS,2014中。第1、3条[26] K. 格雷戈尔岛Danihelka,A.Graves和D.维尔斯特拉DRAW:用于图像生成的递归神经网络。在procICML,2015. 3[27] G. Hinton和R. R.萨拉赫季诺夫用神经网络减少数据的维数。Science,2006. 第1、3条[28] G. E.欣顿湖Deng,D. Yu,G. E. Dahl,A. R. 穆罕默德N. Jaitly,A.Senior,V.Vanhoucke,P.阮氏T.N. Sainath和B.金斯伯里 用于语音识别声学建模的深度神经网络:四个研究小组的共同观点。IEEE信号处理杂志,2012年。1[29] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,1997年。4[30] T. 霍夫曼 可能潜在语义索引。在SIGIR,1999年。第1、3条[31] A. 贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。在Proc. ECCV,2016中。2[32] J. Johnson,A. Karpathy和L.飞飞DenseCap:用于密集字幕的全卷积定位网络在Proc. CVPR,2016中。2[33] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在Proc.CVPR,2015中。2[34] J. - H. 金 , S.- W. L. D.- H. Kwak , M.- O. Heo , J.Kim,J.- W.哈,B。-T. 张某多模态残差学习在视觉品质分析中的应用。在Proc. NIPS,2016中。2[35] D. P. Kingma,D.J. Rezende,S.Mohamed和M.威林深度生成模型的半监督学习在Proc.NIPS,2014中。第1、3条[36] D. P.Kingma和M.威林自动编码变分贝叶斯。见ICLR,2014年。一、三、四[37] R.基罗斯河Salakhutdinov和R. S.泽梅尔统一视觉语义嵌入与多模态神经语言模型。InTACL,2015. 26496[38] R. G.克里希南U. Shalit和D.桑塔格深度卡尔曼滤波器在NIPS研讨会,2015年。3[39] A.克里热夫斯基岛Sutskever,和G. E.辛顿Imagenet分类与深度卷积神经网络。InProc. NIPS,2012. 1[40] G. 库尔卡尔尼河谷Premraj,S.Dhar,S.Li,Y.Choi,A.C. Berg和T. L.伯格。婴儿语:理解和生成简单的图像描述。CVPR,2011。2[41] Y. LeCun,Y. Bengio和G. E.辛顿深度学习自然,2015年。1[42] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象。在Proc.ECCV,2014中。6[43] S. P·劳 埃 德 。 PCM 中 的 最 小二 乘 量 化
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功