通过绘画学习单词和视觉属性的对应关系

52 浏览量更新于2023-10-19 收藏 1.05MB PDF 举报

图像描述

视觉属性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2029通过绘画图像学习单词Adria` RecasensDavid Bau David Harwath James Glass Antonio Torralba麻省理工{didac，recasens，davidbau，dharwath，glass，torralba}@csail.mit.edu*表示等额缴款摘要我们提出了一个通过绘画学习的框架。我们的目标是从图像的口语描述数据集中学习spo- ken单词和抽象视觉属性之间的对应关系。基于最近的发现，GAN表示可以被操纵来编辑生成的输出中的语义概念，我们提出了一种新的方法来使用这种GAN生成的图像来训练使用三重丢失的模型。为了应用该方法，我们开发了Audio CLEVRGAN，这是GAN生成的CLEVR图像的音频描述的新数据集，我们描述了一个训练过程，该过程创建了GAN生成的图像课程，该课程将训练集中在以特定的信息方式不同的图像对上。除了口头字幕和GAN之外，培训是在没有广告监督的情况下完成的。我们发现，与以前的结果相比，利用GAN生成的编辑示例进行训练可以提高模型学习属性的能力。我们提出的学习框架还导致模型，可以将口语与一些抽象的视觉概念，如颜色和大小相关联。1. 介绍创造是人类学习的基本过程：简单地绘制一个对象需要学习如何组成它的部分、属性和关系。绘画可以帮助孩子们学习那些原本不会被注意到的细节[12]。相比之下，机器学习系统还没有展示出通过绘画学习的能力。虽然生成对抗网络（GAN）在学习合成逼真图像方面取得了巨大的成功[32，43]，但尚未开发出从GAN中提取其他类型知识的方法。在这项工作中，我们的目标是发现视觉属性和音频词之间的对应关系，从描述的图像。因为我们使用的是未注释的原始音频语音，而不是文本标题，所以我们的模型不仅要学习单词的含义，还要学习单词是什么-我们的设置a)编辑后的示例b)学到的概念图1：在本文中，我们提出了一个通过生成的图像进行学习的框架在a）中，将两个编辑的示例与左侧的原始生成的图像进行比较。在b）中，我们展示了我们的系统在使用编辑的示例进行训练时所学习的概念。省略了由转录文本提供的结构化监督。以前关于这个问题的研究[24]表明，三重丢失可以用来学习一个视觉上的语音模型，可以关注相关的视觉对象，但是学习抽象视觉属性（如颜色和形状）的单词是遥不可及的。相比之下，最近的结果表明GAN通过学习绘画来学习组成视觉概念[9]。然而，语言和GAN学习的知识之间的联系却缺失了。我们提出了一种训练方法，该方法使用GAN学习的知识来生成用于训练口语的视觉基础模型的课程[24]。从一组带有音频描述的图像开始，我们通过使用GAN来合成许多真实但有意义的不同训练图像（图1a）来教模型学习属性这一代人是没有任何超越原来的音频字幕的超级视觉。这些生成的示例帮助模型专注于与音频单词对应的特定抽象视觉属性（图1b）。立方体紫色2030我们做出以下贡献。首先，我们展示了如何使用干预措施来从GAN学习其关键思想是应用新的结果，这些结果表明GAN可以学习内部解纠缠表示，其中可以控制生成图像的特定语义方面[9]。这使得我们的系统能够生成人工训练样本，其中包含影响图像的一小部分和受控部分的目标差异。其次，我们将这一思想应用于音频图像描述模型的多模态训练。为了实现这一点，我们引入了一个新的基于GAN的数据集，其中包括GAN生成的CLEVR图像的人类和合成音频。2. 相关工作概念学习：人们对通过学习组合概念来建立模型的兴趣越来越大。据观察，学习对场景进行分类的深度网络也学习将这些场景分解为组成对象类[11，8，45]。然而，如果没有学习适当的概念，模型很容易因为错误的原因而正确：例如，关于图像的问题的答案可以在不观察问题中单词的顺序的情况下猜测[46，27]。有人认为，[39]通过监控和塑造输入梯度，可以训练模型将注意力集中在正确的概念上。一个核心挑战是教会网络通过将学习到的规则应用于新的情况来进行推断，而不仅仅是在类似的输入之间进行插值。为了诱导深层网络学习抽象推理，[7]训练模型类似于人类智商测试的组合问题数据集。在[34]中，抽象属性（如颜色、形状或功能）是通过将属性建模为将对象相互关联的运算符来学习的在[3]中，可重用神经模块的显式组合架构用于问题回答课程学习：训练课程应该根据学习者不断变化的需求进行定制的建议是机器学习的基础[16，10]。课程学习仍然是当前研究的一个活跃领域，具有最新的理论进展[21，28]和实践应用[26，19]。我们目前的工作重新制定的课程问题，提出的训练数据可以由一个GAN代表的专家教师合成。CLEVR数据集：我们的数据集来自CLEVR数据集[29]，这是一个合成的视觉数据集，由具有可组合颜色，形状，和材料属性。CLEVR已用于研究抽象视觉推理、问题回答和模型可解释性[30，41，33]。我们使用CLEVR作为一个高度控制的视觉领域，其中组成属性是明确的，并且GAN可以很好地学习绘画。生成对抗网络：图像生成的质量和多样性来自GAN[20]从生成简单的数字和面孔[20]到合成自然场景图像[38，14]，已经迅速改进。我们使用最新的ProgressiveGAN [32]方法来生成高分辨率的真实感图像以创建训练数据。此外，最近发现GAN可以通过直接干预其内部表示来添加，删除和修改场景中的对象[9];我们使用该方法来修改训练示例。音频和图像：现实世界的物体不仅是通过它们的外观来表示的，而且还通过它们的声音来表示。最近提出的学习这些对应关系的模型可以用于执行诸如视觉引导音频源分离或定位图像或视频中的声音源[35，44，42，17，1，18，5]。其他工作也证明了视听特征在监督分类任务[4，6]或预测物体发出的声音[36，37]中的实用性另一部分研究集中在从视觉图像的口头描述中这个想法可以追溯到[40]的开创性工作，他引入了学习将日常物体的图像与音素序列相关联的模型。最近，[25，22，24]表明，经过训练将视觉图像与波形级别的spo-ken字幕相关联的模型可以隐式地发现视觉对象和口语之间的其他的著作也研究了不同种类的语言现象的出现，例如子词单位和音素，在类似的模型中[13，2，15，23]。3. 音频CLEVRGAN数据集在本文中，我们介绍了一种使用GAN生成的图像来学习口语的方法。为了应用我们的方法，我们构建了一个新的数据集，其中包含GAN生成的图像的语音字幕由于我们的目标是学习属性，因此我们训练生成系统来合成CLEVR数据集中的简单渲染图像，其中可以控制图像中出现的属性和对象尽管我们的方法可以应用于自然图像，但合成受控环境的简单性有助于人类注释者提供图像中属性的详细描述，并且它也使得获得可靠的属性分割用于评估成为可能。为了生成图像，我们用CLEVR数据集中的图像训练Progressive GAN我们对生成模型进行随机抽样，以生成20，000张图像，这些图像由Amazon MechanicalTurk中的人类使用与[25]类似的界面进行注释，其中人类提供每张图像的口头解释。我们特别要求注释者提到图像中不同对象的属性和关系。转录注释的示例如图2所示。我们还生成了一个合成音频数据集2031A（38854）和（10467）（22575）（8594）第22402章（7930）汽缸（16103）右（7890）（12596）球（7712）（11434）蓝色（7662）小号（10891）左侧（7024）在（10794）绿色（6492）大（10768）紫色（6418）标题长度分布图2：生成的图像和人工注释的音频示例在该图中，示出了音频的传输而不是音频，但是在训练或评估期间的任何点处都不使用文本传输我们还提供了音频CLEVRGAN数据集的一些字幕，使用来自先前训练的属性分割网络的信息。每个标题描述了其关联图像中所有对象的所有属性;我们对来自GAN的50，000张随机采样图像进行了这项工作，其中包括20，000张由人类注释的图像。4. 编辑培训示例通过口头描述学习属性是一项具有挑战性的任务。描述中的属性词不是孤立地观察的，并且通常与其他属性或名词相关联，这使得系统难以发现单个属性词并隔离它们的含义。为了克服这个问题，我们引入了通过编辑图像内的单个视觉属性来生成有针对性的底片从与详细描述配对的图像开始，我们改变图像中的单个视觉属性，之后图像将不再匹配原始音频描述。这种编辑的训练示例将用于引导系统学习个体视觉属性和相关音频词之间的对应为了编辑视觉属性，我们受益于GAN学习的丰富的内部表示[9]。这些表示使我们能够创建原始图像的编辑版本，其中修改了单个属性，如图3所示在本节中，我们将描述如何生成此类编辑的训练示例。然后在第5节中，我们使用这种方法来学习一个可以隔离抽象属性并匹配音频具有特定视觉属性的单词。4.1. 生成图像编辑经过训练的GAN生成器通过一系列卷积处理随机采样的矢量来合成图像，以产生逼真的图像。已经发现，GAN生成器包含专门用于生成不同属性和对象的不同卷积滤波器集合这些卷积滤波器的激活可以被修改以改变、添加和删除输出中的对象。把图像。在本文中，我们使用这种技术来修改特定对象中的某些属性。令g：R100−→I表示我们数据集的训练渐进GAN生成器，其中I是图像域。每个噪声向量z∈R100产生一个图像Iz=g（z）. 与[9]中一样，我们通过操纵隐藏的表示在生成器的第四卷积层我们可以将g（z）写为两个函数的合成，g（z）=gDgE（z），其中h4=gE（z）对应于四个初始卷积层的输出，gD对应于卷积层的输出。剩下的几层。第四层的表示是张量h4∈R512×8×8，其中512个维度中的一些维度对应于某些对象或属性的生成。我们可以随机地消融这些值来随机地改变对象的属性。图3显示了随机烧蚀微粒尺寸和位置的结果。为了烧蚀维度d中的特征图像素（x，y），我们设置h4[d，x，y]= 0。正如预期的那样，对应于消融位置的对象的一些属性发生只要在音频字幕中提到了超像素（x，y）中的对象，新图像就可以用作不匹配的示例4.2. 编辑特定属性为了进一步改进训练，我们希望改变与音频描述相关的特定属性，而不是任意属性。我们通过选择要消融的滤波器而不是随机消融滤波器来实现这一点。设s：I → {0，1}c× w × h是一个分割函数，它输出一个预测图像像素是否包含感兴趣属性的每像素二进制分类。通过收集样本的统计数据，我们根据与S的相关性。遵循[9]中的方法，然后我们消融与s最高度相关的h4的特定滤波器，以便从生成的图像中移除由s在[9]中，分割函数s被预先训练为中间有个蓝色的球。在它的右边有一个较小的金色球，蓝色球后面有一个红色的小圆柱体，蓝色球的左边是一个棕色的圆柱体，也很小。在最后的中间有一个灰色的立方体是有光泽的，在它前面是一个微小的紫色圆柱体是哑光的。圆柱体的右边是一个闪亮的青色立方体，然后一直到左边是一个红色的小立方体。2032原始随机黄色聚类图3：使用随机编辑和有针对性的干预措施创建的编辑样本示例在左列中，原始图像与红色的目标对象。在第二列中，随机消融单元，应用于相同的特征图。结果范围从对象的扭曲或完全改变（第一和第三行），通过有用的语义变化（第四行），几乎不明显的变化（第二行）。在最后一列中，通过烧蚀对应于黄色簇的单元生成的图像。这些单位的重复使用会使黄色发生变化，因为簇表示此属性。识别地面实况类，但在我们的设置中，没有地面实况分割可用。相反，在第5.5节中，我们将在训练期间从我们的模型中导出猜测的属性分割函数，并使用这些猜测的分割函数来选择要消融的过滤器。5. 通过绘画图像学习单词我们现在描述如何使用编辑的训练示例来提高多模态网络区分非常相似的概念的能力。我们建立在以前的工作基础上，通过使用从训练集中提取的负面例子从口语字幕中学习概念[24]。我们增加培训使用编辑的GAN图像来提高模型这是在多步训练过程中完成的，该过程使用随着训练的进行而逐渐更有针对性的编辑图像培训过程包括以下步骤。首先，我们在没有任何编辑过的示例的情况下训练基本系统。其次，我们使用编辑的例子，其中神经元被随机消融。这改进了对象和属性的内部表示。最后，我们根据同现的聚类单元划分的视听表示的空间。这些聚类中的每一个对应于字幕中存在的不同概念，诸如颜色、大小、形状等。我们使用这些聚类来生成针对上述概念量身定制的编辑示例。该系统如图4所示。5.1. 结构和三重态损失我们训练[24]中介绍的DaveNet模型该架构的示意图如图4所示。DaveNet由两个主要网络组成：音频网络fA和视觉网络fI。音频网络计算给定窗口中每个音频样本的512维特征表示。同样，图像网络在图像中生成每个超像素的512维表示。为了获得分数，两种表示通过点积运算m（fI（I），fA（A））进行组合，该运算为空间和时间中的每个点产生标量匹配值的映射;我们称此映射为匹配映射。匹配图激活揭示了模型中彼此相关的视觉对象和口语单词的位置和时间。稍后我们将使用匹配图学习的对应关系，通过聚焦编辑来指导编辑示例的生成最突出的属性和对象。图像I和音频描述A之间的最终相似性得分f（I，A）通过聚集匹配图激活、在图像空间维度上取最大值并在音频时间维度上取平均值来计算。f的目标是最大化训练集给出的相关对（I，A）的得分，同时最小化不相关对（In，A）的相似性。按照[24]的方法，我们使用三重态损失训练fL（I，A，In）=max（f（In，A）−f（I，A）+β，0）（1）其中β是偏移参数。类似地，我们也将L（I，A，An）最小化.这两种损失在训练中结合在一起。5.2. 使用编辑过的图像作为反面例子反例的选取一直是计算机视觉中的一个重要课题以前的工作[24]提出使用随机样本或网络分类最接近阈值的不匹配样本。这些方法都假定有一组封闭的图像可供选择，但没有一种方法考虑到创建不匹配图像的可能性2033a）、b）、c）、GAN干预GAN球体集群分类为集群音频网络图像网络图像网络音频特征音频特征积极图像特征负图像特征积极匹配图负匹配图损失d）、贴标机zz图4：干预示意图：a）基本模型，其中计算原始图像和音频特征以及它们的匹配图。b）集群：将高度激活的图像特征分类到聚类中，并且计算干预以生成编辑的示例。c）生成编辑的示例。噪声向量z与a）中的相同。d）三胎丢失。帮助学习的样本。我们在GAN中使用干预来生成理想的反例，以与每个正面图像配对经过编辑的反例将提高最令人困惑的案例的表现。我们将使用gn来表示我们的负样本生成算法。给定一个图像I和一个音频A，它将产生一个编辑过的负样本In=gn（I，A），它将只在一小部分特征上不同于I。使用第4.1节的技术，生成器gn将使用用于生成I的相同表示h4来生成In，但是通过消融编辑内容的位置中的一些神经元来修改一个关键问题仍然存在：我们如何选择要切除的神经元来生成最好的编辑样本？以下部分描述了一个多步骤的训练过程，该过程确定这些单元，以便随着训练的进行而获得越来越有针对性的编辑。5.3. 模型初始化在该过程的第一步中，模型使用随机采样的否定进行预训练，如[24]所示。使用原始的三重态损失，并且编辑的示例不是合成大小的。该初始化引导模型，使得匹配图可以检测图像中对描述显著的区域这个预训练的模型可以定位对象，但它不能完全解开特定的对象属性。5.4. 随机编辑的示例下一步是用随机编辑的示例训练网络。通过使用匹配图m（f I（I），f A（A））来识别正图像-字幕对中的最显著位置，然后在图像中的该位置处随机消融GAN特征通道，来生成每个编辑图像。每个通道以概率p = 0消融。2，其增加直到编辑的I n不同于原始I。如图3所示，这种随机消融策略生成了各种各样的编辑示例。虽然一些修改后的图像是提供信息的底片，在字幕中伪造了一个单词，但其他图像可能与正面图像太相似，以至于无法对应任何字幕变化;而其他的可能不同到足以对应于许多单词的差异。虽然这种编辑过的示例的混合比从输入批次中选择的随机底片图像信息量更大，但我们执行另一个训练阶段以生成更高质量的底片。5.5. 聚类理想的编辑示例与原始图像的区别仅在于一个对象的一个属性;最小的更改将在所有单词中匹配原始标题，除了一个。然而，由于我们处理的是连续的音频，2034我我音频球微小红图像最后，我们生成有针对性的编辑示例，这些示例通过消融与wk相关联的GAN单元来进行影响集群wk的更改。这通过改变图像的被猜测为对应于一个概念的方面来修改图像：这避免了太相似或太不同的随机编辑的示例。请注意，为了使这种方法有效，我们必须将已经携带一些关于分解概念的信息的单元聚类。这些单元最初可以通过随机编辑的示例进行训练来学习。5.6. 通过有针对性的编辑示例进行培训为了创建编辑过的不匹配示例，我们使用以下过程，如图4所示：图5：我们展示了模型学习的三个集群示例，由主要激活每个集群的图像表示。为了清晰起见，我们用文本表示音频集群，但所有的学习都是在音频域中完成的。如图所示，该系统能够学习颜色、形状和大小。1. 给定一对图像和音频（Ii，Ai），我们计算fI（Ii）和fA（Ai）。2. 我们确定最突出视觉感知ptwi=fI（I，i）（x，y）其中x，y，t=argmaxx，y，tfI（Ii）（x，y）·fA（Ai）（t）.信号，单词边界是未知的，并且必须学习这些最小概念。在这个阶段，我们通过聚类f的学习特征来创建一组类似单词的概念。这种分组使我们能够选择如何干预GAN以改变单个描述性单词。为了构建概念集群，我们通过我们的视听模型处理完整的我们通过只考虑前1%百分位数的激活来对这些进行二进制化。最后，我们计算二值化特征的共生矩阵来衡量每对神经元共同激活的程度。这使我们能够使用树状图划分神经元空间，将具有高共现的单元分组。单位空间中的这种聚类导致匹配图的共享嵌入空间中的语义聚类。图5显示了集群的一些示例。图像簇是连贯的，通常表示图像空间中的概念，而音频通常表示具有相同含义的一个或几个口语单词。我们将单位簇称为wk。学习如何从图像中删除概念：如第4.2节所述，定位图像中概念的分割函数s（I）可以用于识别在图像中生成该概念的GAN单元[9]。虽然我们没有对抽象的视觉属性进行地面实况分割，但我们可以使用聚类推断分割来实现相同的效果。我们定义一个二进制段-作用函数s（I|w k），以选择激活匹配图表示f I（I）的w k个单位的像素位置。然后，我们应用4.2中描述的程序来确定生成器负责生成对应于聚类wk的视觉概念。3. 我们计算wi和每个聚类wk之间的相似度。我们随机抽取一个概率与该分数成比例的聚类wk4. 使用干预程序，我们消融与wk相关的GAN神经元，以生成该特定属性的编辑示例：I n= g n（Ii）.5. 然后我们使用f I（I n）作为负数，并使用反向传播训练模型。6. 实验在本节中，我们将在各种实验环境中评估所提出的学习对于我们所有的实验，我们使用与[24]中相同配置的DaveNet网络。它由一个图像和一个音频分支组成，这两个分支完全卷积。对于人类注释的数据，我们增加了音频模型的深度，在最后添加了三个额外的卷积层。对于合成数据集，我们保持原始大小。为了训练Progressive GAN，我们使用了与[32]中相同的参数。6.1. 合成数据集创建为了更好地了解我们模型的不同可能性为此，我们在原始CLEVR数据集中训练了一个分割器，该数据集包含有关属性和对象的地面实况使用这些片段，我们为每个图像创建了一个描述，其风格与人类字幕相似。该描述包括所有对象及其相应的属性，以及它们之间的空间关系。2035图6：在此图中，我们显示了使用我们的目标算法编辑的图像的多个示例。注意，系统能够修改对象的特定属性。标题选定图像地面实况有一个金色的金属立方体。在左手边和后面有一个金色的金属球一个黄色的正方形，旁边是一个金色的大圆球。标题选定图像地面实况在这张照片中，我有两个立方体在后面，黄色和青色，在前面的援助，直到圆柱体，他们都是大对象。在一个大的绿色垫球前面有一个蓝色的小球。图7：我们的系统选择给定标题的图像的示例。请注意，检索到的图像通常与给定的描述密切相关。6.2. 评价设置为了理解系统是否已经学习了一个概念，有必要将其与其他概念隔离神经网络可以学习创建全局表示，但无法表示特定属性。在本节中，我们提出了一个语义测试，在这个测试中，我们测试模型来识别孤立的属性。对于每个属性，我们生成成对的图像，一个包含属性，另一个不包含属性。然后，我们为音频网络创建一个输入，其中包含要以口语单词的形式进行评估的孤立属性。我们可以计算系统在选择具有属性的图像和不具有属性的图像除了语义测试，我们还展示了随机否定词的召回，其中500个图像-音频对的保持测试集通过网络，检索召回从计算音频到图像和从图像到音频6.3. 方法为了评估，我们比较了许多不同的训练方法。DaveNet：[24]中的训练过程，其中使用了随机否定。Hard Negatives：选择负图像和音频作为Minibach中具有最高损失的样本。随机编辑的示例：通过GAN中隐藏表示的随机消融产生的示例。有针对性的编辑范例：根据所干预对象的语义产生的范例。硬否定+随机编辑：我们结合随机编辑的例子与硬否定的损失。在训练中，我们使用两种方法中最难的否定。硬否定+有针对性的编辑：我们将有针对性的编辑示例与硬否定损失相结合。编辑原始2036人体数据集DaveNet50.360.886.872.267.6随机编辑52.048.987.891.370.0目标编辑54.163.086.291.373.7硬性阴性53.660.888.487.872.7HN+随机编辑54.863.087.987.873.4HN+目标编辑56.267.487.988.775.1合成数据集DaveNet72.663.351.198.071.2随机编辑70.997.854.096.979.9目标编辑69.397.557.995.480.1硬性阴性75.691.362.297.681.7HN+随机编辑73.394.570.595.183.3HN+目标编辑77.796.966.697.184.6表1：语义准确性：我们评估了不同模型检测图像中特定属性给定一个只有属性的音频，我们要求系统区分有属性和没有属性的图像人类数据集合成数据集R@1R@5R@10R@1R@5R@10DaveNet8.426.338.514.943.762.2随机编辑12.533.849.860.689.095.1目标编辑14.137.252.275.195.598.5硬性阴性20.545.160.773.494.697.6HN+随机19.348.363.094.899.799.9HN+目标20.349.361.993.499.699.9表2：音频CLEVRGAN数据集中的结果：对于不同的方法，两个数据集的再调用结果（以%计），显示更精细的干预获得更好的结果。在随机测试中召回超过500个样本。在训练中，我们选择两种方法中最难的否定。请注意，随机编辑模型已使用DaveNet进行初始化训练，目标编辑模型已使用随机编辑模型进行初始化训练。相同的程序用于具有硬阴性的模型。6.4. 结果在表1中，我们报告了我们的方法的准确性和语义测试的基线，在人类captioned数据集和合成生成的数据集中。我们将结果分解为数据集中的不同属性正如预期的那样，基本的DaveNet模型在这个测试中表现不佳，这表明系统无法学习特定的孤立概念。此外，使用有针对性的编辑的模型在预测特定属性方面具有更好的能力最后，人类模型将更多的注意力集中在辨别颜色上，因为它们在au中被更多地提及。dio字幕。然而，当使用合成字幕时，其中属性是均匀分布的，性能在区分颜色上下降，但在其他属性上增加在表2中，我们报告了所有模型在500张图片中的图片标题和图片标题回忆的平均值首先，使用编辑过的图像已经提高了DaveNet基线的性能，这表明编辑过的示例对学习过程有积极的贡献。此外，当与硬负损失混合时，模型显着提高其召回能力。请注意，合成数据集中的性能始终较高，因为描述信息量更大。在图6中，我们展示了系统编辑图像的能力。它能够修改对象的不同属性，如形状或颜色。我们发现，我们的系统成功地改变了88%的编辑标题内容。最后，在图7中，我们展示了在测试集上使用我们的方法检索图像的一些示例。我们的系统确实会检索到与标题基本匹配的图像，只缺少一个特定的对象或属性。6.5. 推广到真实图像区分概念和属性在可以应用于原始图像时是有用的，而不仅仅是在GAN生成的域中。为了测试知识如何转移到原始的非GAN生成的CLEVR图像，我们创建了一个由1000个原始CLEVR图像及其相应的编辑示例（仅更改一个对象的一个属性）组成的测试数据集。给定一个合成帽，系统必须在正面和负面之间进行选择（概率为50%）。在原始CLEVR图像上训练的模型，使用没有编辑示例的常规DaveNet，准确率为54%，这表明常规模型很难学习特定属性。在GAN生成的图像上训练的模型，即使没有在原始图像上训练，也具有59%的准确率。这表明我们的方法可以转移到原始图像域。我们期望这些收益随着GAN算法的改进而提高。有了CLEVR渲染器，我们可以通过编程来合成编辑过的示例。用这些编辑过的图像训练系统，我们在这个测试中得到了89%的上限准确率7. 结论我们提出了一个学习框架，通过绘制图像来学习单词我们利用了这样一个事实，即生成模型已经学习了许多关于视觉词的概念这些编辑过的图像被用来训练一个视听系统，该系统可以定位图像中的单词。我们展示了如何使用模型本身来改进编辑后的图像。最后，我们在音频CLEVRGAN数据集中评估了所提出的方法。2037引用[1] T. Afouras，J.S. Chung和A.齐瑟曼。对话内容：深度视听语音增强。在INTERSPEECH，2018年。[2] A. Alishahi，M. Barking和G.克鲁帕拉在接地语音的循环神经模型中的音系编码。InCoNLL，2017.[3] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩学习组成用于问答的神经网络。在计算语言学协会北美分会2016年会议的会议记录中：人类语言技术，第1545计算语言学协会[4] R. Arandjelovic和A.齐瑟曼。看，听，学。InICCV，2017.[5] R. Arandjelovic和A.齐瑟曼。会发出声音的物体在ECCV，2018年。[6] Y. 艾塔尔角Vondrick和A.托拉尔巴Soundnet：从未标记的视频中学习声音表示。神经信息处理系统进展29，第892-900页。2016.[7] D. G. T. Barrett，F.Hill，A.Santoro，A.S. Morcos和T.小家伙。在神经网络中测量抽象推理。在Dy 和 A. Krause ，editors ，Proc. 35th Int. 马赫会议学习. ，第511-520页，斯德哥尔摩，瑞典，2018年。PMLR。[8] D. 鲍湾Zhou，中国古柏A.科斯拉A.Oliva和A.托拉尔巴网络剖析：量化深层视觉表征的可解释性在CVPR，2017年。[9] D. Bau，J.-Y. Zhu，H.斯特罗贝尔特湾Zhou，J.B. 特南鲍姆W. T. Freeman和A.托拉尔巴可视化和理解生成对抗网络。在2019年国际学习代表会议上[10] Y. Bengio，J. Collobert和J.韦斯顿当前学习。第26届国际机器学习年会论文集，第41-48页。ACM，2009年。[11] A. T. Bolei Zhou ， Aditya Khosla ， Agata Lapedriza ，Aude Oliva.对象检测器出现在深度场景CNN中。在国际会议学习中。代表。，2015年。[12] S. Butler，J. Gross，and H.海恩绘画对幼儿记忆表现的影响。发展心理学，31：597[13] G.赫鲁帕拉湖Gelderloos，和A.阿利沙希视觉接地语音信号模型中的语言表征。在ACL，2017年。[14] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS[15] J. Drexler和J.玻璃.无监督语音识别的视听特征分析在Grounded Language Understanding Workshop，2017年。[16] J. L.埃尔曼神经网络的学习和开发：从小事做起的重要性。Cognition，48（1）：71-99，1993.[17] A. 埃弗拉特岛莫塞里岛朗，T.Dekel，K.Wilson，A.哈-西迪姆，W。T. Freeman和M.鲁宾斯坦Looking to List-ten at the Cocktail Party：A Speaker-Independent Audio-Visual Model for Speech Separation.SIGGRAPH ， 37 ：112：1[18] R.加奥河，巴西-地Feris和K.格劳曼通过观看未标记的视频学习分离物体声音在欧洲计算机视觉会议（ECCV），2018年9月。[19] C.龚氏D. Tao，S. J. Maybank，W. Liu，G. Kang和J.杨半监督图像分类的多模态课程学习。IEEE图像处理学报，25（7）：3249[20] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。[21] A. 格雷夫斯山 G. Bellemare，J.梅尼克河穆诺斯，以及K. Kavukcuoglu神经网络的自动课程学习。arXiv预印本arXiv：1704.03003，2017。[22] D. Harwath和J.玻璃. 从联合视听分析中学习单词类单位在ACL，2017年。[23] D. Harwath和J.玻璃.更倾向于视觉化的子词单元发现。在ICASSP，2019年。[24] D. Harwath ， A.Recasens ， D. 苏尔赫斯湾 Chuang ，A.Torralba和J.玻璃. 从原始感觉输入中联合发现视觉对象和口语单词2018年欧洲计算机视觉会议[25] D. Harwath，A. Torralba和J. R.玻璃.具有视觉上下文的口语无监督学习。在NIPS，2016年。[26] E. Ilg，N. Mayer，T. Saikia、M. Keuper，A. dosovitskiy和T.布洛克斯流动网络2.0：利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议（CVPR），第2卷，第6页，2017年。[27] A.贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。欧洲计算机视觉会议，第727-739页。施普林格，2016年。[28] L. Jiang，中国粘蝇D.孟角，澳-地Zhao，S.Shan，和A.G. 豪普特曼自定进度的课程学习。在AAAI，第2卷，第6页，2015中。[29] 约翰逊湖Fei-Fei，B.哈里哈兰角L.齐特尼克湖Van DerMaaten和R.娘娘腔。CLEVR：一个用于组合语言和基本视觉推理的诊断在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。[30] J. 约翰逊湾哈里哈兰湖Van Der Maaten，J.霍夫曼L. Fei-Fei，C. L. Zitnick和R.娘娘腔。推理和执行程序的视觉推理。2017年国际计算机视觉会议（ICCV）[31] H. Kamper，S.安静，G。Shakhnarovich和K.Livescu 虚拟接地学习的关键字预测从未转录的语音。在INTERSPEECH，2017年。[32] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞在ICLR，2018年。[33] D. Mascharka山口特兰河，巴西-地Soklaski和A.玛朱达尔透明设计：缩小视觉推理中的性能和可解释性之间的差距。继续-2038IEEE计算机视觉和模式识别会议，2018年。[34] T. Nagarajan和K.格劳曼属性作为运算符。2018年欧洲计算机视觉会议[35] A. Owens和A.埃夫罗斯具有自我监督多感官特征的视听场景分析。在欧洲计算机视觉会议（ECCV）上，2018年9月。[36] A. Owens，P. Isola，J. H. McDermott，A. Torralba，E.H. Adelson和W. T.弗里曼。视觉指示的声音。在2016年IEEE计算机视觉和模式识别会议上，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27日至30日，第2405-2413页[37] A. Owens，J. Wu，J. H.麦克德莫特W. T. 弗里曼和A. 托拉尔巴环境声音为视觉学习提供监督，第801-816页。2016年。[38] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。[39] A. Ross，M. C. Hughes和F.多希-贝莱斯因为正确的理由而正确：通过约束可微模型的性质来训练可微模型。在国际人工智能联合会议（IJCAI），第2662[40] D. Roy和A.彭特兰从视觉和声音中学习单词：计算模型。认知科学，26：113[41] A. Santoro，D. Raposo，D. G. T. Barrett，M. 马林诺夫斯基R. Pascanu，P. Battaglia，and T. Lillicrap一个用于关系推理的简单神经网络模块。神经信息处理系统会议（NIPS），2017年。[42] A. Senocak，T.H. 哦，杰。金，M.-H. 杨和我所以奎恩。学习在视觉场景中定位声源。在IEEE计算机视觉和模式识别会议上，2018年6月。[43] H.张岛Goodfellow，D. Metaxas和A. Odena自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。[44] H. Zhao，C. Gan、A.鲁迪琴科角Vondrick，J. McDer-mott和A. 托拉尔巴像素的声音在欧洲计算机视觉会议（ECCV），2018年9月。[45] B. Zhou，等，中国藓类D. Bau、A. Oliva和A.托拉尔巴通过网络解剖解释深度视觉表示。IEEE Transactions onPattern Analysis and Machine Intelligence（2017）[46] B. Zhou，Y. Tian，S. Sukhbaatar，A. Szlam和R.费格斯。简单的视觉问答基线。 arXiv 预印本 arXiv ：1512.02167，2015。

下载后可阅读完整内容，剩余1页未读，立即下载