基于上下文无关监督的图像标题生成与歧视性评价

98 浏览量更新于2023-10-15 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于上下文无关监督Ramakrishna Vedantam1Samy Bengio2Kevin Murphy2Devi Parikh3Gal Benghik21弗吉尼亚理工大学3佐治亚理工学院2谷歌1vrama91@vt.edu3parikh@gatech.edu2{bengio，kpmurphy，gal} @ google.com摘要我们引入了一种推理技术，仅使用通用上下文无关训练数据（描述概念或图像的标题）来产生区分上下文感知图像标题（描述图像或视觉概念之间差异的例如，给定“暹罗猫”和“老虎猫”的图像和标题我们的主要新颖之处在于，我们展示了如何在一个与上下文无关的语言模型和一个区分密切相关概念的监听器上进行联合推理。我们首先将我们的技术应用于合理化任务，即描述为什么图像包含特定的细粒度类别，而不是CUB- 200-2011数据集的另一个密切相关的类别然后，我们研究歧视性的图像captioning生成的语言，唯一地指的是两个语义相似的图像在COCO数据集中的一个。具有歧视性的地面真相的评价和歧视性图像字幕的人类研究表明，我们的方法优于基线生成和说话者-听众方法的歧视。1. 介绍语言是交流和表达知识的主要形式。为了传达相关的信息，我们通常会在使用语言时考虑到语境。例如，人们可能不以“字面”的方式描述一种情况，而是务实地强调选定的方面，以便具有说服力、影响力或有效性。考虑图中左下角的目标图像。1.一、字面描述为此目的，一个更实际的描述将是，该描述知道上下文，即干扰项图像也具有飞机。人们不断地、毫不费力地使用这种务实的考虑，图1：本文中探讨的两个需要语用推理的任务的说明。1)理由：给定一张鸟的图像，一个目标（地面实况）类（绿色）和一个干扰项类（红色），描述目标图像以解释为什么它属于目标类，而不是干扰项类。干扰物类图像仅用于说明，并不提供给算法。2)区别性图像字幕：给定两个相似的图像，产生一个句子来从干扰图像（红色）中识别目标图像（绿色）。我们的内省扬声器模型提高了上下文无关的扬声器。教学、对话和讨论。在这种情况下，赋予机器实用推理是可取的一种方法是收集在上下文中使用的语言的训练数据，例如，来自在其他图像的上下文中描述图像的人的区别性地面真实话语，或者解释为什么图像包含目标类而不是干扰物类的理由（图11）。①的人。不幸的是，收集这样的数据具有过高的成本，因为对象在可能的上下文中的空间通常太大。此外，在某些情况下，我们希望成为语用学家的语境可能是先天未知的。例如，自由形式的对话代理可能必须根据对话的历史以上下文感知或区分的方式进行响应。这样的场景也出现在人机交互中，例如，机器人可能需要推理人要的是哪个勺子。因此，在本文中，我们专注于获得prag-matic（上下文感知）的行为只访问通用（上下文不可知）的地面真理。251252我们研究了两个性质不同的现实世界的视觉任务，需要务实的推理。第一个是证明，模型需要证明为什么图像对应于一个细粒度的对象类别，而不是一个密切相关但未描述的类别。合理化对于业余爱好者和领域专家来说是一项重要的任务：鸟类学家和植物学家经常需要解释为什么一幅图像描绘的是特定的物种，而不是一个密切相关的物种。证明的另一个潜在应用是机器教学，其中算法指导非专家人类了解新概念。我们的第二个任务是区分图像字幕，目标是生成一个句子，描述一个图像的上下文中的其他语义相似的图像。该任务不仅具有语用学的基础，而且与场景理解任务相交叉，以检验精细图像理解。它在人机交互方面也有潜在的应用。Andreas和Klein [1]最近的工作仅使用上下文无关数据导出虽然我们的动机是类似的解释，但我们在[1]中工作的关键算法新颖性是一个统一的推理过程，它可以更有效地搜索判别句（Sec.（五）。我们的方法是基于这样一种认识，即人们可以简单地重用生成模型中的采样分布，而不是训练一个单独的模型来评估区分度[1]。这对从业者也有重要的影响，因为人们可以很容易地适应现有的上下文无关的字幕模型，用于上下文感知字幕，而无需额外的培训。此外，虽然[1]应用于抽象场景数据集[43]，但我们将我们的模型应用于两个定性不同的真实图像数据集：细粒度鸟类数据集CUB- 200-2011 [38]和COCO [21]数据集，其中包含具有常见对象的真实场景。总之，本文的主要贡献是：• 一种新颖的推理过程，该过程对内省说话者（IS）进行建模，允许说话者（S）（例如通用图像字幕模型）在没有额外训练的情况下推理语用行为。• 研究歧视行为的两个新任务，and pragmatics语用学，grounded基础in vision 视觉：对正方式和区别性图像字幕。• 一个新的数据集（CUB-Justify），用于评估细粒度鸟类图像上的调整系统，其中包含3161个（图像，目标类，干扰物类）三元组的5个标题。• 我们对CUB-Justify的评估，以及人类评估，COCO上的测试表明，我们的方法在诱导歧视方面优于基线方法。2. 相关工作语用学：研究语境如何影响语言使用的语用学Grice [13]的工作，他分析了合作的多智能体语言智能体如何能够对彼此的行为进行建模以实现共同的目标。因此，许多语用学文献研究了代理人的高级行为，包括会话含义[5]和格赖斯准则[37]。这些作品的目的是得出务实的行为，对个人代理人的假设最少，通常使用手工调整的词汇和规则。最近，在将强化学习（RL）技术应用于这些问题方面取得了令人兴奋的进展[25，7，19]，需要更少的手动调整。我们也有兴趣在派生务实的行为，但我们的重点是在缩放上下文敏感的行为视觉任务。其他作品从语用学的角度出发，通过在线游戏学习语言[39]或人类-机器人合作[32]。本着类似的精神，我们在这里感兴趣的是应用语用学的思想来建立能够提供理由的系统（第二节）。4.1），并提供有区别的图像字幕（第4.1节）。4.2）。与我们的工作最相关的是Andreas和Klein最近在抽象场景中使用剪贴画导出语用行为的工作[1]。与他们的技术不同，我们提出的方法不需要训练第二个听众模型，并支持更有效的推理（第二节）。3.3）。更多详情见第二节。第3.1条Beyond Image Captioning：图像字幕，为图像生成自然语言描述的任务，已经看到了快速的进展[10，11，36，40]。最近，研究已经超越了图像字幕，解决了视觉问题回答等任务[2，12，23，42]，指的是表达，[18，24，26，30]和填空[41]。本着类似的精神，我们在这里介绍的两个任务，调整和区别性图像字幕，可以被视为Sadovnik等人[29]他首先研究了一个区别性的图像描述任务，目标是从一组图像中区分出一幅图像。他们的方法结合了可辨别性和显著性等线索，并使用手工设计的规则来构建句子。相比之下，我们开发了推理技术，以诱导神经模型中的歧视行为。[1]中的引用游戏也可以被看作是对剪贴画制作的抽象场景的区分性图像字幕任务，而我们感兴趣的Mao等人关于生成指称表达式的工作。[24]在给定上下文感知监督的情况下，生成涉及图像中的特定对象的区别性字幕。我们的工作是不同的，在这个意义上，我们解决了一个实例的语用推理的常见情况下，上下文相关的数据是不可用的训练。研究：有几项工作研究了机器如何理解人类的理性，包括通过询问人类的解释来丰富分类[9]，以及在主动学习中引入人类的理性[6，27]。在253相反，我们专注于机器为人类提供理由。这可能会允许机器向人类教授新概念（机器教学）。其他最近的工作[14]着眼于分类决策的事后解释。与其解释为什么一个模型认为一个im-话语S是。因此，语用推理说话者RS的任务是选择根据生成模型p是好句子并且根据f是有区别的话语：RS（I，ct，cd）=arg max λp（s|I，c t）+（1−λ）f（s，c t，c d）年龄是一个特殊的类，[14]描述了为什么图像是s（一）分类器预测的类。与此不同的是，我们的正义-fication任务需要从distractor类中推理出明确的上下文。此外，我们对提供分类决策的合理化不感兴趣，而是对向人类解释混淆概念之间的差异感兴趣。我们在[33]中展示了与[14]的比较，证明了背景对于证明的重要性。使用修改的目标进行波束搜索：Beam搜索是一种近似的、贪婪的序列模型推理技术。我们对一个改进的目标进行波束搜索，以使我们的内省说话人模型能够引起区分。这在精神上类似于最近在波束搜索中诱导多样性的工作[35]，以及序列到序列模型的最大相互信息推断[20]。3. 方法我们描述了我们的方法，用于诱导上下文感知语言：1）对齐，其中上下文是另一类，以及2）区别性图像字幕，其中上下文是语义相似的图像。为了清楚起见，我们首先描述了制定理由，然后讨论了歧视性图像字幕的修改。在调整任务（图。1 top），我们希望基于在干扰项概念c d的上下文中的目标概念c t的给定图像I来产生由单词序列{s i}组成的句子s。所产生的理由应该捕捉图像的方面，区分目标和干扰概念。注意，不向算法提供干扰项类的图像。我们首先使用Reed等人的训练数据训练一个通用的上下文无关的图像字幕模型（从这里开始称为扬声器）。[28]他在CUB-200-2011数据集上收集了描述鸟类图像的字幕[38]。除了图像外，我们还以ct为模型的条件也就是说，我们对p（s）进行建模|I，c，t）。这不仅有助于产生更好的句子（为模型提供更多的信息），而且也是我们的定罪方法的基石（第12节）。3.2）。我们的语言模型是递归神经网络，代表了最先进的语言模型。其中0≤λ≤1控制句子的语言充分性和区分性之间的权衡。类似的推理说话者模型形成了[1]的方法的核心，其中p和f使用多层感知器（MLP）来实现。如[1]中所述，从这样的推理说话者中选择话语提出了几个挑战。首先，在这个模型中，在指数大的句子空间上的精确推理是难以处理的。第二，一般来说，人们不会期望函数f跨单词进行因式分解，这使得推理扬声器目标的联合优化变得困难。因此，Andreas和Klein [1]采用了基于抽样的策略，其中p被认为是提案分布，其样本通过p和f的线性组合进行排名（等式2）。①的人。重要的是，这种分布是在完整的句子上，因此这种公式的有效性在很大程度上取决于由p捕获的分布，因为在所有字符串的空间上的搜索仅基于说话者。这是低效的，特别是当上下文无关（生成）和未知上下文感知（区分）句子分布的统计数据不匹配时。在这种情况下，我们必须借助大量的样本来寻找好的区分句。3.2. 内省的演讲者我们用于结合上下文行为的方法是基于对收听者f（等式10）的简单修改。①的人。给定生成器p，我们构造一个监听器模块，它希望使用以下对数似然比来区分ct和cdf（s，c，c）= log p（s|ct，I）。（二）tdp（s|c d，I）这个监听器只依赖于生成模型p（s|c，I），对于两个类c t和c d。我们将其命名为“intropector”，以强调此步骤重用了生成模型，并且不需要训练显式的侦听器模型。将内省者代入Eq。1归纳出下面的内省说话人模型用于辨别：语言建模跨一系列流行的任务，如图像字幕[36，40]，机器翻译[3]等。3.1.推理演讲者为了从语言模型中诱导出话语中的区别，自然会考虑使用生成器，或者（I，ct，cd）联系我们内省的说话者=arg max λ log p（s|c t，I）塞韦什扬声器+ （1− λ）log p（s|ct，I）p（s|c d，I）联系我们内省器、（三）扬声器，其模拟p（s|I，c t）连同一份清单-tener函数f（s，ct，cd），其对其中λ权衡了给予生成的权重，并且内省（类似于Eq.①的人。总的来说，我们希望254当Ct和Cd相似时提供合理结果的方法。也就是说，我们期望人类以相似的方式描述相似的概念，因此p（s|c t，I）不应与p（s）相差太大|c d，I）。因此，内省者不太可能在等式中压倒说话者3在这种情况下（对于给定的λ）。请注意，对于足够不同的概念，说话者本身可能就足以进行区分。也就是说，孤立地描述一个概念可能足以歧视一个不同或不相关的概念。对内省说话人模型的仔细检查揭示了与以前的工作相比的两个理想特性[1]。首先，内省模型不需要训练，因为它只依赖于p，即原始的生成模型。因此，现有的语言模型可以很容易地重用，以产生上下文感知的输出条件的cd。我们在第二节中展示了这一点的经验验证五、这将有助于将该方法扩展到其中不知道先验哪些概念需要被区分的场景，与训练单独的监听器模块的方法形成对比。第二，它导致了一个统一的，有效的推理，内省的发言者（方程。（3）我们接下来描述。3.3. 用于RNN的发射抑制器（ES）波束搜索我们现在描述一个搜索算法，用于实现方程中的最大化3，我们称之为发射极抑制器（ES）波束搜索。我们使用束搜索[22]算法，这是一种启发式图搜索算法，通常用于递归神经网络[15，35]中的推理。我们首先将内省说话者方程（Eq. 3）p（s|c t，I）=图2：射束尺寸为1的发射器抑制器射束搜索，用于区分“黑喉蓝莺”的图像与干扰物类“黑白莺”。Green：语言模型p（s|ct，I）产生了一个标题“白色的腹部和乳房...“.红色：喂食干扰物类到语言模型，由于两只鸟共享出现在图像中的属性white belly，因此术语“white”被高度抑制。蓝色：为发射器挑选可能的单词，而为抑制器挑选不太可能的单词，产生区别性标题“蓝色喉咙.."。请注意，发射器和抑制器共享历史（以前生成的单词）。我们运行波束搜索以保持等式中具有最高ES比率的前B句子。4.第一章图2示出了针对波束大小为1的该ES波束搜索。重要的是要考虑权衡参数λ如何影响所产生的句子。对于λ= 1，模型生成忽略上下文的描述。在另一个极端，低λ值可能会使生成的句子与训练集中的任何句子（重复的单词，不合语法的句子）非常不同。这不是小事QTp（s|S，c，I），表示s={s}T（s假设存在足够宽的λcreat范围，τ=1τ1：τ−1t1：Tτ τ=11：0对应于空字符串）。T是句子的长度然后，我们结合从方程项。3，为内省的说话者产生以下发射器-抑制器目标：使用既有区别性又结构良好的句子我们的研究结果（SEC）。5）表明实际上存在这样的λ范围ΣTC（I，c，c）= argmax发射器联系我们p（s τ|s1：τ−1，c t，I）log.3.4. 区别性图像字幕不Dsp（s|S，c，I）1−λ我们给出一个目标图像It和一个干扰项Id，τ=1τ1：τ−1d联系我们抑制器（四）我们希望区分类似于用于正义化任务的两个类我们为此构建一个扬声器（或生成器）发射器（方程式中的分子）4）是以目标概念Ct为条件的生成模型，决定在给定时间步长选择抑制器（方程中的命名器4）以干扰物概念cd为条件，任务通过训练标准图像字幕模型。给定这个扬声器，我们构建一个发射器抑制器方程（如方程。4）：发射器向发射器发送要避开哪些令牌的视频信号。这是直观的（I，IΣT）= arg max联系我们p（s τ|s1：τ−1，I t）log.（五）匹配ct，但避免发出匹配cd的字。t dsτ=1p（sτ |s1：τ−1，I“我的天d）1−λX我们最大限度地提高发射器-抑制器目标（方程。四、使用波束搜索。如通常在语言模型中使用的，香草波束搜索在每个时间步长处修剪输出空间，保持到目前为止255具有最高对数概率的前B（通常不完整）句子（等式中的说话者）。（3）第三章。相反地，抑制器我们重新使用了SEC的发射器抑制器光束搜索机制。3.3，使发射器适应于目标图像It，并且使抑制器适应于干扰项图像Id。2564. 实验装置我们提供了CUB数据集的详细信息，用于评估的CUB-Justify数据集的详细信息，以及用于调整任务的说话人训练设置的详细信息。然后，我们讨论了实验协议的歧视性图像字幕。4.1. 理由CUB数据集：加州理工UCSD鸟类(CUB)数据集[38]包含200种北美鸟类的11788张图像数据集中的每张图像都已由Reed等人用5个细粒度标题进行了注释。[28]第10段。这些说明提到了关于这只鸟的各种细节（ “ 这是一只带白色斑点的鸟，长着长而尖的黑喙。”）但没有提到鸟类的名字。CUB-调整数据集：我们收集了一个新的数据集（CUB-Justify）与地面真理的理由，以评估正义。我们首先从一个超类别中抽取目标和干扰物类，该超类别是根据CUB中200个物种的民间名称的姓氏创建的例如，“rufous hummingbird”和“ruby throated hummingbird”都属于超类别“hummingbird”。我们引入了37个这样的超范畴。最大的单一超类别是“鸣鸟”，有25个类别。然后我们选择一个子集（近似值）。从CUB-200- 2011[38]的测试集中为200个类别中的每个类别选择15个图像，以形成CUB-Justify测试分割。我们将其余部分用于扬声器训练（CUB-Justify训练分割）。例如，然后向工作人员展示“rufous hummingbird”的图像还向他们展示了鸟类形态学的图表，显示了各个部分，如跗骨，臀部，翼杆等。（类似于Reedet al.[28]）。指令是描述目标图像，使其不会与干扰项类中的图像混淆。有些鸟类最好通过非视觉线索来区分，如它们的叫声或迁徙模式。因此，我们从最初的三胞胎名单中删除了那些被工作人员标记为难以区分的鸟类类别。在这个过程结束时，我们剩下3161个三元组，每个三元组有5个标题。我们将该数据集分为1070个验证（用于选择λ的最佳值）和2091个测试示例。关于接口的更多细节可以在[33]中找到。演讲者培训：我们实现了一个类似于 Xu 等人的“Show，Attend，and Tell”的模型。[40]，修改原始模型以提供类作为输入，在精神上类似于[14]。我们的模型架构的确切细节在[33]中给出。我们在CUB-Justify列车分割上训练模型。回想一下，这只是来自[28]的上下文不可知的标题为了评估我们的扬声器模型的质量，我们在这里使用CIDEr-D度量[34]报告数字，该度量通常用于图像字幕[14，17，36]。[28]第28话我们的字幕模型与图像，类作为输入达到了50.2 CIDEr-D的验证分数，而原始的仅图像字幕模型达到了49.1 CIDEr-D分数在与现有CUB字幕方法类似的范围内[14]。合理性评价：我们衡量CUB-Justify上的（上下文感知）对齐标题使用CIDEr-D度量的区别性字幕。CIDEr-D通过它们的逆文档频率（IDF）对n-gram进行加权，对具有“内容”n-gram（“红喙”）的句子给予比通用n-gram（“这只鸟”）更高的权重此外，CIDEr-D捕获图像的n元语法的重要性。例如，如果“红喙”在人类的辩护中使用得更频繁，那么它会强调“红喙”而不是“黑肚皮”。我们还报告了METEOR [4]的完整性评分。有关指标的更详细讨论可参见[33]。4.2. 区别性图像字幕数据集：我们想测试，如果推理上下文与内省的发言者可以帮助区分对非常相似的图像从COCO数据集。为了构造一组易混淆的图像对，我们遵循两种策略。首先，容易混淆：对于验证（测试）集中的每个图像，我们在预训练的VGG-16 CNN的FC 7空间中找到其最近的邻居[31]，并为1000个随机选择的源图像重复这个邻居查找过程第二，硬混淆：为了进一步缩小到语义相似的混淆图像列表，我们然后在最近邻居图像上运行说话人模型，并计算其生成句子的单词级重叠（交集）。然后，我们选择重叠最多的前1000对。有趣的是，前539对有相同的帽子。这反映了图像标题模型的输出缺乏多样性的问题，并且似乎是模板化的[8，36]。演讲者培训和评估：我们使用neuraltalk2项目[ 16 ]中实现的[ 36 ]模型训练我们的生成扬声器用于发射器抑制器波束搜索。我们使用[17]中的train/val/test拆分。我们训练和微调的扬声器模型在测试集上达到如在Eq中看到的。5、此任务不使用类别信息。我们评估的approaches判别图像字幕的基础上，他们帮助人类选择正确的图像对的图像。5. 结果5.1. 理由方法和基线：我们评估以下模型：1.一、IS（λ）：来自等式的内省扬声器。3; 2. IS（1）：标准的字面扬声器，它生成一个以图像和目标类为条件的标题，但忽略257p（s|c）d方法CIDEr-D流星IS（λ）18.4 ±0.226.5半盲IS（λ）18.5±0.227.5RS（λ）15.8 ±0.226.5IS（1）12.3 ±0.125.3盲态IS（λ）16.1 ±0.226.8图3：CUB-Justify确认结果：CIDEr-D与CUB上的λ-验证依据。我们的内省说话人方法（IS（λ）和半盲IS（λ））模型表现最好，其次是仅类内省说话人（盲IS（λ））。半盲IS（λ）在更宽的λ范围内优于其他方法。所有关于语用推理的方法都击败了基线生成方法IS（1）。误差条表示验证集估计的平均评分的标准误差分心物类; 3.第三章。半盲-IS（λ）：内省的扬声器，其中听者没有访问图像，但扬声器有; 4. blind-IS（λ）：内省的说话者，不接触图像，仅以类为条件;五、RS（λ）：我们对Andreas和Klein [1]的实现，但使用了我们（更强大的）语言模型，以及Eq.3，监听器对p（s）进行建模|ct）（类似于半盲-IS（λ））进行排序样本（与经过训练的MLP [1]相反，可比）。除非另有说明，否则所有方法都使用10个波束/样本验证性能：图3示出了作为λ的函数的CUB-Justify验证集的性能，λ是控制扬声器和内省器之间的权衡的超参数（等式2）。（3）第三章。对于RS（λ）基线，λ代表句子的对数概率与样本重新排序的RISK函数的得分之间的权衡。出现了一些有趣的观察结果。首先，我们的IS（λ）和半盲IS（λ）模型在λ值的中间范围内都优于基线。IS（λ）模型总体上更好，但半盲IS（λ）模型在更宽的λ范围内具有更稳定的性能。这表明，当以图像为条件时，内省器必须具有高度的辨别力（低λ值）以克服来自图像的信号，因为辨别力是在类别之间的。第二，当λ从1开始减小时，大多数方法都会随着句子变得更具区分性而改进，但当λ变得太低时又会变得更糟。这很可能发生，因为当λ太低时，模型会探索罕见的标记和在训练过程中没有看到的输出空间部分，导致格式不好的句子（图2）。4）. IS（λ）模型的这种效果比RS（λ）模型更强，因为RS（λ）在来自生成器的样本上搜索输出空间①的人。有趣的是，在λ= 1（无区分）时，从发生器采样的RS（λ）方法也比使用波束的其他方法性能更好。表1：CUB-Justify测试结果：CIDEr-D和METEOR评分（越高越好）在CUB-Justify测试集上计算。每个模型都使用在验证集上选择的最佳 λ （图 1 ）。（ 3 ）第三章。误差值是平均值的标准误差（METEOR的SEM小于0.05半盲IS（λ）方法优于其他方法。搜索以选择高对数概率（上下文不可知）句子。这表明，在没有地面实况证明的情况下，在搜索歧视性和搜索高度可能的上下文不可知的句子之间确实存在差异。我们执行与RS（λ）基线的更多比较，扫描来自生成器的{10， 50， 100}个样本以用于收听者重新排序（等式11）。①的人。我们发现，使用100个样本，RS（λ）获得的CIDEr-D评分（18.8）（但METEOR评分较低）与波束大小为10的半盲IS（λ）方法相当。这表明我们的半盲IS（λ）方法在探索输出空间时计算效率更高为了完整性，我们还区分性地训练了一个侦听器模块，并将其用作RS（λ）的排名器。我们发现这达到16.2 ± 0.3 CIDER-D（在λ= 0. 5）在验证上，低于IS（λ），表明性能的瓶颈是采样，而不是收听者的区分度。更多的细节可以在[33]中找到。测试性能：表. 1详细介绍了上述模型在CUB-Justify测试集上的性能，每个模型在验证集上使用其最佳性能λ（图1）。（3）第三章。两种内省说话者模型都强烈优于基线，半盲IS（λ）略微优于IS（λ）模型。这可能是由于半盲IS（λ）的性能对λ的精确选择不太敏感（见图3）。在基线中，性能最好的方法是盲IS（λ）模型，大概是因为该模型进行发射器-抑制器波束搜索，而另外两种基线方法分别依赖于采样和常规波束搜索。定性结果：接下来，我们展示了一些定性结果，这些结果证明了1）语用学的各个方面，以及2）由我们性能最好的半盲IS（λ）模型捕获的上下文依赖性。图4展示了内省的说话者说出的句子如何随λ变化。在λ= 1时，句子很好地描述了图像，但忽略了上下文（干扰项类）。一个小的鸟有一个非常长和尖的法案。蜂鸟与其他鸟类有区别，但蜂鸟之间没有区别在λ= 0处。七、258目标形象与阶级绿翠鸟牵引器类翡翠基本事实依据•这是一种有深绿色冠羽的鸟。•这是一只有着黑色和绿色冠和绿色外套的鸟Blind-IntrospectiveSpeaker：（基线）这只鸟是蓝底红的它的胸部和有一个长而尖的喙内省演讲者：(our办法）这是一只绿色的绿色和黑色的鸟，有一个绿色的王冠。图4：上下文权重的影响：在另一种蜂鸟类型的上下文中的“棕褐色蜂鸟”的图像。生成（上下文盲）描述将鸟描述为具有长喙，但此特征不具有区分性。当考虑到上下文时，中间λ值产生突出显示棕褐色是棕色的，喉部是红色当λ= 0时，该模型不强制句子格式良好图5：上下文类的效果：“田纳西莺”的图像，它有浅绿色的翅膀和白色的眉毛。当描述一只哀莺时，它有绿色的色调，描述突出了目标鸟有白色的眉毛。当在“黑白莺”的上下文中描述时且λ= 0。5、模型捕捉了诸如“红脖子”、“白肚子”和“红喉咙”等区别性特征。有趣的是，在λ = 0时。模型避免了说“长喙”，这是两种鸟共有的特征。接下来，图5展示了所选择的话语如何基于上下文而改变。我们的方法的一个局限性是，由于模型从来没有看到有区别的训练数据，在某些情况下，当鼓励在推理时有区别时，它会产生重复的单词（最后图图6说明了视觉推理对于合理化任务的重要性。细粒度的物种通常具有较大的类内方差，盲目的证明方法会忽略这些方差。因此，良好的调整方法需要在图像信号中扎根，以挑选适合于给定实例的区别性线索。5.2. 区别性图像字幕正如在第二节中所解释的。4.2我们创建两组语义相似的目标和干扰物图像：仅基于FC7特征的容易混淆，以及基于FC7和从说话者生成的句子（图像字幕模型）的难混淆。我们感兴趣的是了解是否发射抑制推理有助于识别目标图像比生成说话人基线。因此，这两种方法是说话者（S）（基线）和内省说话者（IS）（我们的方法）。我们使用λ= 0。3根据图6：在细粒度的分类中，视觉信号对于调整的重要性.给定绿色翠鸟（左）的图像，盲IS（λ）模型认为鸟的“胸部是红色的”，这对于该图像是不准确的，并且“长尖喙”，这不是该上下文的区分特征。同时，半盲IS（λ）模型提到了“绿冠”，避免了说出“红胸”。鉴于鸟类类别中复杂的类别内不变性（右），直观地说，图像信号对于调整很重要。方法易混淆（%）难混淆（%）S（基线）74.652.5IS（我们的）89.074.1表2：基于COCO中的描述，被人类正确区分的图像对的百分比。内省的发言者（IS）是更好地指向目标图像给出了一个令人困惑的干扰图像在两个简单的，和硬的数据分裂比发言者（S）。标准误差低于我们报告数字的精度。我们在CUB数据集上的结果。我们以2的波束大小运行所有方法（通常最适合COCO [16]）。人体研究：我们设置了一个两个注释的强制选择（2AFC）研究，我们向评分者展示了一个标题，要求他们“选择一个句子更有可能描述的图像”。针对生成的字幕测试每个目标干扰项图像对。我们检查一种方法导致目标图像被人类拾取的次数。一个有区别的图像字幕方法被认为是更好的，如果它使人类能够识别目标图像更频繁。研究结果总结见表。二、我们发现，我们的方法优于基线扬声器（S）的容易混淆以及硬混淆分裂。然而，我们的方法在硬混淆分裂上的收益更大，这是直观的。定性结果：我们的COCO实验的定性结果如图所示。7.第一次会议。成功识别后，目标图像将以绿色边框显示。我们展示了我们的模型在前两行中更好地识别目标图像的示例，以及第三行中的一些失败案例请注意，当从λ = 1（说话者）到λ = 0时，模型如何能够修改其绝对值以考虑上下文和语用。3（内省的演讲者）。请注意，这些句子通常尊重语法结构，尽管被迫是有区别的。6. 讨论描述概念的缺失和引入比较语言是未来法学研究的令人兴奋的方向类内方差绿翠鸟259图7：由通用字幕扬声器基线（S）生成的字幕相同的图像对。我们应用我们的内省扬声器（IS）技术，以区分图像的左边从右边的每一对。当IS生成的句子能够正确识别时，目标图像（左）显示为绿色边框。请注意，内省的说话者通常更明确地提到目标图像。例如，对于绵羊图像（左中），IS生成的句子提到绵羊在郁郁葱葱的绿色田野中吃草。在下面的一行中，我们展示了一些失败的例子。左下角的例子很有趣，模型称停车标志为警察。在某些情况下（婚礼蛋糕图像），发射器捕获的分布和抑制器RNN是相同的，我们的化例如，当证明为什么一个图像是狮子而不是老虎时，能够说“因为它没有条纹”将是有用的或者“因为它的脸上有更多的头发”除了语用学之外，辩护任务与人类的学习也有着有趣的关系事实上，我们都经历过，当有人花时间证明或解释他们的观点时，我们学得更好人们可以想象这样的理由对“机器教学”是有帮助的从上下文不可知的监督中诱导上下文感知的字幕存在一些基本的限制。例如，如果两个不同的概念非常相似，人类生成的上下文无关描述可能是相同的，我们的模型（以及基线）将无法提取任何有区别的信号。事实上，如果没有上下文感知的基本事实，就很难解决这种情况。我们相信，通过重用语言模型的抽样分布来建模高阶推理（如语用学）是一个强大的工具。它可以适用于其他高阶推理，而不必在奖励函数上设置策略梯度估计器。事实上，我们的推理目标也可以被公式化用于训练。然而，最初的实验并没有产生显著的效果。铁路超高性能改进。7. 结论我们介绍了一种新的技术，从循环神经网络语言模型，即图像字幕模型，考虑到一个干扰类或干扰图像的上下文派生语用语言。我们的技术可以在推理时使用，以更好地区分概念，而无需看到有区别的训练数据。我们研究了视觉和语言领域中需要语用推理的两个任务：调整-解释为什么图像属于一个类别，而不是另一个类别，以及区别性图像字幕- 描述一个图像，以便人们可以区分它密切相关的图像。我们的实验证明了我们的方法在生成基线上的优势，以及对以前工作的适应性。我们将在网上提供代码和数据集。鸣谢：我们感谢Tom Duerig的支持和指导，以塑造这个项目。我们感谢David Rolnick，Bharadwaja Ghali，Vahid Kazemi对CUB-Justify数据集的帮助。我们感谢Ashwin Kalyan分享了一个经过训练的检查点，用于区分图像字幕实验。我们还要感谢Stefan Lee、AndreasVeit和Chris Shallue。这项工作的部分资金来自NSF CAREER，ONRYIP ， Sloan Fellow-ship ， ARO YIP ， Allen DistinguishedInvestigator ， Google Faculty Research Award ， Amazon AcademicResearch Award to DP。260引用[1] J. Andreas和D.克莱恩与神经听者和说话者的语用学推理。在EMNLP，2016。二三四六[2] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克Vqa：可视化问答。2015年，国际计算机视觉会议（ICCV）2[3] D.巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译。CoRR，abs/1409.0473，2014。3[4] S. Banerjee和A.拉维Meteor：一种用于mt评估的自动度量，具有与人类判断的改进相关性。第65-72页，2005年。5[5] L. Benotti和D. R.创伤口语对话主体比较含义2009年2[6] A. Biswas和D.帕里克基于相对反馈的分类器属性在IEEE计算机视觉和模式识别会议（CVPR），2013年。2[7] A.达斯，S。Kottur，J. M F. Chelsea，S. Lee和D.巴特拉用深度再训练学习协作视觉对话代理。 arXiv ：1703.06585 [cs]，2017年3月。arXiv：1703.06585。2[8] J. Devlin，S.古普塔河，巴西-地B.格尔希克M Mitchell和C. L.齐特尼克探索图像字幕的最近邻方法。CoRR，abs/1505.04467，2015。5[9] Donahue和K.格劳曼图像分类与标注依据。2[10] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CoRR，abs/1411.4389，2014年。2[11] H. Fang，S.古普塔F. N.扬多拉河斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。 M i tagh，J. C. 普拉特角L. Zit-nick和G.茨威格从标题到视觉概念再到后面。CoRR，abs/1411.4952，2014年。2[12] D. Geman，S.Geman，N.Hallonquist和L.尤尼斯计算机视觉系统的视觉图灵测试。Proceedings of the NationalAcademy of Sciences，112（12）：3618-3623，2015. 2[13] H.格莱斯逻辑与对话在语义学和语义学中。学术出版社，1975年。2[14] L. A. 亨德里克斯 Z. 赤田 M. 罗尔巴赫 J. 多纳休B. Schiele和T.达雷尔。生成视觉解释。在ECCV，2016年。三、五[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9：1735-1780，1997。4[16] A. 卡帕西 Neuraltalk2 图片说明。网址： http ：//github.com/karpathy/neuraltalk2五、七[17] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。5[18] S. Kazemzadeh，V. Ordonez M. Matten和T. L.伯格。推荐游戏：指自然景物照片中的物体。在EMNLP，2014年。2[19] A. Lazaridou、A.Peysakhovich和M.巴罗尼多智能体合作和（自然）语言的出现。arXiv：1612.07182 [cs]，2016年12月。arXiv：1612.07182。2[20] J.李，M.加利角Brockett，J. Gao和W. B.多兰一种神经元转换模型的多样性促进目标函数。在HLT-NAACL，2016年。3[21] T.- Y. 林， M 。迈尔， S 。 J. 贝隆吉， J.Hays ，P.Perona，D.Ra-manan ， P.Doll a'r 和C. L. 齐特尼克Microsoftcoco ：上下文中的通用对象。2014 年，在ECCV。2[22] B. T. Lowerre和D. R.雷迪在现有体制下的鹰身女妖演讲。语音识别趋势，1980年。4[23] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。在NIPS，2014。2[24] J. 毛，J.Huang，黄背天蛾A.托舍夫岛Camburu，A.L. 尤尔，还有K. 墨菲无歧义对象描述的生成和理解2016. 2[25] I. Mor

下载后可阅读完整内容，剩余1页未读，立即下载