组合性和语境性：视觉概念的组合与上下文建模

67 浏览量更新于2023-10-16 收藏 1.45MB PDF 举报

学习方法

上下文建模

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从红葡萄酒到红番茄：语境下的卡耐基梅隆大学摘要组合性和情境性是智能的关键组成部分。它们允许我们组合已知的概念，以生成新的和复杂的概念。然而，transmitting学习方法并没有对这两个特性进行建模，并且需要大量的标记数据来学习小蛇柠檬大象小象熟咖啡新概念。现有技术的很大一部分，例如。使用后期融合，构成概念，但不能对上下文建模。例如，红葡萄酒中的红色与红番茄中的红色不同在本文中，我们提出了一个简单的方法，尊重上下文，以组成分类已知的视觉概念。我们的方法建立在直觉上，分类器位于一个光滑的空间，其中可以模拟合成变换我们展示了它如何可以generalize看不见的概念组合。我们的结果组成的属性，对象以及组成的主题，谓词和对象证明了其强大的泛化性能相比，基线。最后，我们对该方法进行了详细的分析，并突出了它的性质.1. 介绍想象一只蓝色的大象。从未见过罪恶-作为这种生物的一个例子，人类不难想象它，甚至认识它。从柏拉图的泰阿泰德到十九世纪早期弗雷格的作品，组合性通常被认为是智力的标志。其核心思想是，一个复杂的概念可以通过组合多个简单的概念。事实上，在计算机视觉领域也探索了同样的想法：以属性[13，54]或SVO（主语-宾语-动词三元组）的图形模型的形式[53]。虽然从简单概念构建复杂概念的想法似乎很直观，但当前用于识别或检索的最先进方法遵循更多数据驱动的方法，其中使用成百上千的标记示例而不是组合来学习复杂概念。为什么会这样？有趣的是，即使在哲学中，组合性的概念和语境性原则之间也存在明显的张力。语境性原则指出，自行车旧自行车笔记本电脑旧笔记本电脑图1：像对象和属性这样的视觉概念是组合的。这种组合性取决于上下文和组合的特定实例。小象比小蛇大得多我们令人惊讶的简单方法模型组合性和上下文性，以学习视觉分类器。我们的方法的结果表明，它组成，同时尊重上下文。不能创建一个没有上下文的简单概念的模型。这经常被认为是反对属性的主要论点之一：红葡萄酒中的红色分类器明显不同于红番茄或甚至红汽车中的红色分类器。图1显示了更多这样的例子。这种组合性和语境性之间的直接张力导致了本文的基本探索：当前的视觉算法是否具有这样的合成性质？我们能不能尊重语境性原则，同时创造出组合视觉分类器？捕获上下文的一种方法是使用文本本身来学习修饰符应该如何行为。例如，像“red”这样的修饰语应该对相关概念（如西红柿和浆果）显示类似的视觉修饰。[38]等方法试图使用文本来捕捉这个想法并组成视觉分类器。但是，我们真的需要分类法和语言知识来捕捉语境吗？在本文中，我们提出了一种方法，直接在模型空间中对它们进行推理来我们的直觉是，模型空间是平滑的，并捕捉视觉相似性，即，番茄分类器比汽车更接近浆果分类器。因此，修饰语应同样适用于类似的分类器。我们考虑的一个任务是组成属性（形容词）和对象（名词）视觉17921793classifiers来获取（属性，对象）对的分类器。如图1所示，属性的视觉解释取决于它们所耦合的对象，例如，小象还是比小蛇大得多。我们的方法尊重这样的上下文，因为它是以所有的视觉概念为条件，并将它们放在一起，而不是孤立地建模我们表明，我们的组合变换捕捉对象和属性之间的这种关系，并可以为他们创建视觉分类。正如我们的实验所示，我们的方法能够将这种组合性和上下文性一般化到看不见的属性一红色老蓝色复杂概念ab火车测试B视觉概念的组合（第4节）。我们的方法酒电视大象狗番茄对象自然扩展到组成两个原语之外。我们展示了将主语、宾语和动词类词组合成看不见的主语-动词-宾语三元组组合的结果（4.3节）。在所有这些任务上，我们的方法显示出超越现有方法的泛化能力第5.5节还展示了我们的方法最后，在第5节中，我们分析了我们的方法的各个组成部分及其各种属性。2. 相关工作我们的工作深受组合性原则的影响。这一原则在哲学、心理理论、神经科学、语言、数学、计算机科学等领域有着悠久的历史。由于如此广泛的在其最基本的形式中，该原则指出，新的概念可以从原始元素中构造出来。这一原则与统计学习相关，因为它为以低样本复杂度进行训练的模型铺平了道路。组合模型可以从大量样本中学习原语，然后组合这些原语以使用有限的样本学习新概念[18，23，63，68]。最早使用复合词的例子之一-视觉识别的最重要的理论是Biederman组合性是许多现代视觉识别系统的基本原则[34]。卷积神经网络[37]已被证明可以在多个语义和部分层次结构中捕获特征表示[64]。基于零件的系统，如可变形零件模型[15]，语法[25，44，59，62，67，69]和AND-OR图[54，61，66]也依赖于对象的组合性来构建识别系统。组合性也是用于视觉问题回答[4，5]、手写数字[32，33]、零拍检测[31]、分割和姿态估计[59，62]。在本文中，我们专注于组合性组成看不见的组合的原始视觉概念。这已经在零射击学习范式下进行了经典研究[35]。Zero-shot学习试图在没有看到任何训练示例的情况下推广到新的视觉概念根-图2：我们假设复杂的视觉概念可以用原始的视觉概念组成。通过观察一些这样的复杂概念和它们的组成视觉原语，我们的目标是学习一个组合性变换，可以组成看不见的原语组合。通常，这些方法[2，3，9，35，41，50，65]依赖于底层的嵌入空间，例如属性，以便识别不可见的类别。假设在底层嵌入空间中明确地知道不可见类别由于这种明确的知识并不总是可用的，另一条工作路线[10，21，38具体来说，他们利用分布词表示来捕捉分类和相似性的一些概念。然而，在本文中，我们不假设这种常见的底层嵌入或外部知识库的可用性我们的目标是纯粹在视觉领域探索组合性。与我们的工作相关的另一个领域是迁移学习[7-镜头识别[14，16，17，58]。这些方法利用从已有范畴中获得的知识推广到新的范畴。像我们的方法一样，它们依赖于看不见的类的视觉相似性来概括现有的分类器或特征。然而，与我们的方法不同，这些方法需要训练“看不见”的类的示例。我们建立在[60]的见解之上，即有意义的转换可以直接在模型空间中学习，而无需外部知识来源。我们在两个著名问题的背景下研究视觉识别中的组合性-对象和属性[13，28，29，46，48]，以及主谓宾（SVO）短语[24，39，53，57]。这两个问题都捕捉到了原始视觉概念的组合性。在这两个问题中，上下文是构成原语的一个重要方面，并导致不同的视觉外观：例如，小象vs.小蛇或坐在椅子上的人一个人坐在沙发上。正如在[39，53]中所指出的，复合或复杂视觉概念的注释在数量上远远因此，我们的工作具有重要的实际应用，因为它可以组成视觉1794概述ConvNet进近详情D图像特征（fc7）火车：看到几个组合。学习测试：使用D一基元（分类器）D三维变换网络3D/ 2（a，D图像标签（大象和大象）点积拉瓜组合分类器图3：我们的方法从不同类型的原始视觉概念组成分类器。在训练时，我们假设可以访问有限的组合集，例如，（大的，象）这些原始人的。我们通过学习线性分类器（w）来对这些基元进行建模然后，我们学习一个转换网络，该网络将这些分类器作为输入，并将它们组合起来，为它们的组合生成一个分类器在测试时，我们证明了这种变换可以推广到不可见的基元组合（第4.2节和第4.3节），甚至是不可见的基元（第5.5节）。原语来识别看不见的复杂概念。3. 方法我们的目标是组成一组视觉概念原语，以获得一个复杂的视觉概念作为输出。作为一个简单的例子，如图2所示，考虑由属性和对象的组合所跨越的复杂概念。给定一个属性large和一个对象elephant的现有分类器，我们想学习组合它们以获得一个用于large elephant的（attribute，object）对的分类器。我们通过训练识别它们的分类器来表示我们的视觉基元。然后，我们学习这些输入视觉分类器的变换，以获得表示复杂视觉概念的分类器。如图3所示，我们通过深度网络参数化我们的转换，该深度网络接受基元的线性分类器作为输入，并产生复杂视觉概念的线性分类器作为输出。由于多层网络可以捕获复杂的非线性函数，我们希望这样的网络可以学习在捕获上下文的同时组成视觉基元我们表明，这样的网络可以推广到看不见的视觉原语的组合，并组成它们。3.1. 直觉视觉组合性的证据存在于神经科学中，并已被广泛研究[1，19]。直接在分类器空间中进行组合背后的直觉是，分类器本身表示视觉相似性，例如，大象的分类器更接近于动物分类器而不是板分类器。因此，可以通过使用分类器空间中的这种视觉相似性来查看“看到的”组合来组成类的“看不见的”组合的分类器3.2. 方法详情我们现在描述如何从两个或多个简单的视觉分类器组合复杂的视觉分类器的方法在不失一般性的情况下，我们将解释我们的方法结合两个分类器的情况下的细节，但我们的方法可以概括为结合更多类型的原语，如我们的实验中所示。让我们假设我们想要组合两种不同类型的原语。我们将这些基元集合（Va，Vb）。这些素数iv e被组合以形成表示为V a b的复数x素数iv e。作为一个例子，考虑Va作为属性的集合，Vb作为对象，因此Vab由属性、对象对形成的复杂概念组成。我们用a，b，（a，b）分别表示Va，Vb，Vab中的元素. 继续我们的属性和对象的类比a ， b ，（ a ， b ）可以表示 large ， elephant 和（large，elephant）。我们假设我们的词汇表由M个第一类型的primitiv（Va）和N个第二类型的primitiv（Vb）组成。我们还假设我们有一些K个复杂概念的训练数据，这些概念组合了M和N原始人我们首先为每种类型的原语训练一个线性分类器（SVM）。因此，基元由线性分类器的权重向量使用训练数据，我们得到M+N个基元的权重向量让我们把primit iv esa∈Va，b∈Vb的权向量表示为wa，wb。我们还可以使用可用的训练数据a来训练用于复杂概念（a，b）∈Vab的SVM w a b。然而，由于（a，b）对的训练数据与为了分别训练a和b的数据，直接训练单独的wab分类器是困难的（实验见第4节）。相反，我们想使用wa和wb直接学习复杂的概念（a，b），而不需要看wab。如图3所示，我们想学习一个函数T，它变换两个本原向量（wa，wb）的权重，并输出复杂概念（a，b）的权重：w∈ab=T（wa，wb）.（1）我们的训练数据包含对（wa，wb）。然而，在训练时，我们没有所有可能的组合，的（a，b），但很少的组合（K MN）。为了在测试时检测出看不见的组合，我们希望使用组合性，并学习组合两个不同的基元a和b以获得组合（a，b）。我们使用多线性感知器来参数化函数T，并描述结构和损失函数。一AB变换网络B列车试验学习如何作曲反向传播完全连接交叉熵损失基元完全连接LeakyReLU完全连接LeakyReLU17952第体系结构：变换网络T是具有三个全连接层的前馈网络。我们在层之间使用LeakyReLU [26]非线性给定n个SVM（对于n个原始概念），每个SVM的维度为D 作为输入，三层的输出大小为（ n +1 ） D 、（n+1）D和D。损失函数：我们计算变换T的输出和输入图像特征φ（I）之间的得分。视觉概念的组合，即，一个现代化的城市也可以有狭窄的街道，并且这些标签中的一个或两个可以缺失。为了解释这一点，我们遵循[51]并使用top-k分类准确度度量。我们还通过计算每个类的平均精度并取平均值来报告平均精度[11]（mAP）特点和分类：我们使用来自VGG-M-1024网络[ 55 ]的fc 7表示，该网络在Ima-geNet[5 1]上进行了预训练。我们学习我们的基本视觉分类器（wa，wb），p= S形.⊤T（wa，wb）Σφ（I）在这些fc7特征上进行线性SVM，并选择SVM参数，使用liblinear [12]进行4倍交叉验证。这个分数反映了模型转换和图像之间的兼容性。我们希望这个分数只有在图像包含复杂概念（a，b）时才高，否则就低。举个例子，我们只希望（large，elephant ）的分数高，而希望包含 elephant 或large（不是两者）或两者都不包含的图像的分数低。我们训练变换网络T的参数最小化二进制交叉熵损失L（I，wa，wb）=ylog（p）+（1−y）log（1−p），（2）其中只有当图像具有复杂概念（a，b）时，图像标签y才是1。在训练过程中，我们使用来自图元的各种组合的正/负图像来训练单个变换网络。3.3. 实现细节我们使用线性支持向量机，例如，wa，wb在来自VGG-M-1024 [55] ConvNet的fc 7层表示上训练这个ConvNet是在ImageNet数据集上预先训练的[51]。每个输入分类器是 1024 维的。变换网络 T 由具有LeakyReLU [26]非线性的3个完全连接的层组成。我们将LeakyReLU的斜率设置为0。1.一、我们不更新ConvNet的权重，以确保与基线的公平比较在测试时，我们首先输入基本元组并缓存复杂概念的分类器给定一个图像，然后我们运行一个向前传递来获取图像特征，并使用缓存的分类器计算分数。4. 实验我们现在量化我们的方法在基准数据集上的性能。我们在两个设置中这样做- 1）在MITStates数据集上组成对象和属性分类器[28]; 2）在Stanford VRD数据集上组成三个原语主体，预测和对象分类器[39]。4.1. 常见设置我们首先描述了用于这些实验的共同实验装置。：在[35]之后，我们测量了测试分割中类的多类分类准确度。现有的数据集没有被详尽地标记[39，43]，培训详情：我们在3.3节中描述了变换网络T的结构。我们训练它220k次迭代，小批量大小为256，动量为0。9，学习率为0。01在200k次迭代之后下降10倍。我们形成每个minibatch，其中25%的阳性样本在空间中均匀采样，复杂的视觉概念。ConvNet权重不会更新以进行公平比较。补充材料包含端到端学习的其他实验评估设置：由于我们的方法不假设有关不可见图元或复杂对象的先验知识，因此无法与类似于[35]的传统零拍摄学习方法进行比较。相反，我们比较了可以在零拍摄设置中直接“合成”的方法，而不知道在训练时与看不见的类的关系。没有组合性或背景性的基线：这些基线不明确地对组合性或上下文性进行建模，而是直接作用于基础分类器wa、wb的预测。我们将它们表示为：• 单独：这组基线不使用组合性。复杂概念（a，b）出现在图像中的概率被认为是基元a或b中只有一个的概率，即p（a，b）=p（a）或p（a，b）=p（b）。对于三个基元a、b、c，我们还可以考虑通过将一个基元排除在外而形成的对，例如，p（a，b，c）=p（a）p（b）等。• 视觉产品：这个基线的灵感来自于Vi-sualOnly方法来自[39]。它不模拟上下文-质量，并且通过p（a，b）=p（a）p（b）.这可以被认为是晚期融合。不幸的是，由于[39]的检测器或训练代码在提交时不可用，因此我们无法直接与其实施/结果进行比较。没有视觉分类器的基线组成：这些基线使用单词嵌入来捕捉视觉相似性，例如，动物的文字嵌入比纸张更接近大象。他们使用标签的词嵌入，而不是视觉分类器。• 标签嵌入（LE）：这个基线是从[10，38]的工作中得到启发的。为了实现这种方法，我们修改了我们的方法来计算嵌入式上的变换T1796小象大象现代时钟古代时钟湿猫干猫Crackedegg鸡蛋香蕉皮浓烟淡烟图4：我们显示了MITStates数据集上的顶级检索[28]。这些检索是在看不见的（属性，对象）对组合上计算的。我们看到，我们的方法学习组合属性和对象，同时尊重它们的上下文。最后一行显示了我们的方法的一些失败案例。而不是分类器。我们使用完全相同的网络来计算T（ea，eb），其中ea是本原iv ea的嵌入。我们使用一个300维的词嵌入[42]，外部语料库（Google News）。• 仅标签嵌入回归（LEOR）：这个基线是从[10，53，60]的工作中得到的启发。它的实现类似于标签嵌入，除了损失函数我们将损失函数实现为对复杂视觉概念的分类器的回归，在（属性，对象）对上训练的SVM。因此，反式-训练形式T（ea，eb）以最小化到分类器wab的欧几里得距离，其中wab是直接在（a，b）对上训练的SVM。• 使用回归（LE+R）的标签嵌入：这基线将来自LE的损失函数和而这一点，也可以看作是一种变化[1]。4.2. 组合对象和属性在本节中，我们将学习两组视觉基元的转换：MITState上的对象和属性数据集[28]。我们首先描述更多的细节，实验设置，然后提出的结果。任务：我们考虑在图像分类设置中预测测试集中给定图像的相关（属性，对象）对的任务。我们的测试集有（属性，对象）对，在训练集中从未见过它们在一起我们确保所有对象和属性在训练分割中单独出现我们使用看不见的（属性，对象）对进行评估，使用平均精度和top-k准确度，如第4.1节所述。数据集：我们使用MITStates数据集[28]，它具有图像的（属性，对象）标签对（每个图像一个标签）。它有245个对象类，115个属性类和大约53k图像。我们将数据集随机拆分为训练和测试拆分，使得两个拆分都具有不重叠的（属性，对象）对。训练分割由1292对34k图像组成，测试集有700对19k图像。因此，训练集和测试集都没有-视觉概念的重叠组合（约35%的未看到的概念），并且适合于我们1797表1：在MITStates数据集上评估看不见的（属性，对象）对[28]。我们在19k图像上对700个看不见的（属性，对象）对进行评估。AP Top-k精度k→123机会-0.140.280.42个体Att.2.2---个体物镜9.2---可视化产品8.89.816.120.6标签嵌入（LE）7.911.217.622.4只有Reg。（LEOR）4.14.56.211.8LE+Reg. （LE+R）6.79.316.320.8我们10.413.121.227.6在补充材料中提供更多细节。基线：我们使用第4.1节中描述的基线。我们将属性和对象的“个体”基线表示为“个体属性”。和“个人目标”分别定量结果：我们在表1中总结了我们的方法的结果和MITStates数据集的基线。我们使用看不见的属性，对象对进行评估。不对组合性或情境性进行建模的“个体”基线方法表现不佳。这是可以预期的，因为只使用大或大象中的一个来预测（大，大象）是相当不适定的。个人属性基线表现最差。我们认为原因是属性图像与对象相比在视觉上非常多样化（也在[48]中指出）。表1还显示，Visual Product基线在AP中提供了强大的性能，但在top-k准确性上表现不佳LE基线具有相反的行为，这表明使用多个指标进行评估是有帮助的。我们观察到，具有高AP/低准确度的方法倾向于获得正确的对象，而具有高准确度/低AP的方法倾向于获得正确的（属性，对象）对，但通常会获得错误的对象我们的方法在所有指标上都我们还看到，LEOR和LE+R基线的性能都比LE基线差。这表明在损失函数中使用回归到wab不是最优的。在进一步的检查中，我们发现，由于（属性，对象）对的veryfewpositiveexamples，与属性和对象单独可用的大量示例相比，wattribute，object训练得很差因此，回归到这些训练不佳的分类器会损害性能。我们将在第5.1节进一步探讨这一点。定性结果：图4显示了我们的方法的一些定性结果。对于看不见的属性和对象对，我们使用变换T来预测分类器并检索测试集上的顶级结果我们的模型显示了这些概念的组合性和上下文性。它还表明，我们的模型理解的差异-表2：评估看不见的元组上的主谓宾预测。我们使用StanfordVRD数据集[39]进行评估，其中包含1000张图像中的1029个不可见元组。AP Top-k精度k→123机会-0.090.180.27个体附属2.9---个体预测值0.4---个体Ob.3.7---个体提交Pred.2.9---个体预测值Ob.3.6---个体提交Ob.4.9---可视化产品4.93.25.67.6标签嵌入（LE）4.34.17.210.6只有Reg。（LEOR）0.91.11.31.3LE+Reg.（LE+R）3.93.97.110.4我们5.76.39.212.7对象的外观的不同“模式”。补充材料中提供了其他我们提出了进一步的结果（结合看不见的原语等）并在第5节中对我们的方法进行了分析。4.3. 除了两个原语之外：构成主语、谓语和宾语在本节中，我们将学习对三组视觉基元的转换：主语、谓语和宾语。我们首先介绍实验装置的其他细节。任务：我们预测一个相关的（主语，谓语，宾语）元组为一个给定的（地面真理）边界框从图像。测试集具有用于评估的不可见元组我们使用4.1节中描述的平均精度和top-k精度指标。数据集：我们使用最近发表的StanfordVRD [39]数据集。我们使用他们提供的4k/1 k图像的训练/测试分割。该数据集包含SPO主谓宾（主谓宾，SVO）注释，例如，man sitting on a chair坐在椅子上，其中主语-谓语-宾语元组是（man，sittingon，椅子）。在我们的表示法中，该数据集由三种类型的视觉基元v（Va ， Vb ，Vc）分别作为（主语，谓语，宾语）组成。数据集有7701个这样的元组，其中1029只出现在测试集中。该数据集有100个主语和宾语，以及70个谓语。我们使用地面实况边界框和对待的问题分类成SPO元组，而不是检测。基线：我们使用第4.1节中描述的基线。对于“单独谓词”表示仅使用谓词，或“单独谓词”。Ob.“表示使用了谓语和宾语的乘积。定量结果：我们的方法和基线的结果总结在表2中。我们对测试1798集根据第4.2节中观察到的趋势，毫不奇怪，通过考虑仅一个或两个原语的预测来预测（主语、谓语、宾语）元组并不能很好地执行。我们也看到，印度人。附属Ob.基线显示出强大的性能，而Indiv. Pred显示出非常弱的性能。谓词显示出比主体或对象更高的视觉多样性，并且更难以在视觉模型中捕获[39，53]。此外，在表2中，单独的Sub. Ob.和可视化产品基线显示出类似的性能。它再次表明，谓词分类器不泛化。与第4.2节相似，我们看到LEOR和LE+R基线的性能均低于LE基线。在这两种方法中使用的回归损失回归到一个w_s_u_jec_t、p_r_d_i_c_t、o_b_jec_t分类器。由于（主语、谓语、宾语）元组可用的示例有限（与概念单独可用的示例相比），这些分类器表现出较差的性能（也如[39]所述）。我们的方法显示出对所有所有指标的基线方法，表明变换T具有一定的泛化性。5. 仔细的分析我们现在详细分析我们的方法，并量化我们的架构设计决策。我们还分析了我们学习的变换T的其他有趣的性质。对于所有这些实验，我们使用MITStates [28]数据集并遵循第4.2节的实验设置。我们报告来自测试集的700个未见过的配对的结果。5.1. 架构决策我们分析了设计决策对转换网络T性能的影响。损失函数的选择：在第3节中，我们描述了交叉熵（CE）损失函数（等式2）。在这里，我们探索了训练我们的方法的更多选择：• 回归：这个损失函数的灵感来自[10，60]的工作（也在第 4 节中使用）。变换 T （ wlarge ，welephant）被训练以最小化欧几里得表3：我们分析了改变用于训练变换网络T的损失函数和初始化的效果。我们在700个看不见的组合损失初始化性能AP Top-k精度表4：在MITStates数据集上评估看不见的（属性，对象）对[28]。我们改变看不见的对看到的对的比例，并评估我们的方法。不可见比率AP Top-k精度k→1230.1机会-1.53.04.50.1可视化产品28.748.658.166.20.1标签嵌入（LE）29.249.759.269.10.1我们29.851.459.668.90.3机会-0.10.30.40.3可视化产品8.89.816.120.60.3标签嵌入（LE）7.911.117.622.40.3我们10.413.221.227.60.5机会-0.10.20.30.5可视化产品5.96.28.810.50.5标签嵌入（LE）5.97.812.616.90.5我们8.210.417.823.1到分类器的距离w（large，elephant）。• 回归+CE：我们结合交叉熵和回归损失函数（每个损失权重为1）。初始化：我们发现，使用标准的初始化方法，如随机高斯或xavier [22]，我们的转换网络T的性能较低。受[36]的启发，我们初始化网络的权重，作为块对角单位矩阵工作这具有理想的属性，即从初始化开始，网络就可以表3总结了这两种选择的结果。我们注意到回归损失本身表现不佳如4.2节和4.3节所述，这是因为它试图模仿为每个复杂概念训练的单个分类器，例如，（大象）。这些分类器几乎没有可用于训练的数据。在初始化方法中，我们的身份初始化提高了性能。网络深度：我们发现，增加转换网络T中的层数并没有带来显著的改善。我们选择了最小的设计，以获得最佳效果。5.2. 转换是否我们计算变换网络T的输入和产生的输出之间的距离，即， d （ wa ， T （ wa ， wb ）） . 我们在MITStates数据集的未知组合上计算此距离（排序后）在图6中。我们看到转换改变了两个输入，而不仅仅是“复制”它们。在补充材料中，我们证明了预测的5.3. 哪些班级获益最多？图5显示了我们的方法在Visual Product基线上改进的顶级类我们看到，对物体的改进既包括人造物体，也包括自然物体。同样，通过我们的方法改进的属性k→123交叉熵高斯9.810.517.423.3回归高斯3.12.43.85.1跨企业+Reg.高斯7.610.217.022.1交叉熵泽维尔9.910.117.222.3交叉熵身份10.413.221.227.61799钢水小蛇小盒钝刀旧笔记本电脑大碗土豆泥现代图书馆大瓶大柜皱花巨塔风化石裂蛋蒸马跨属性对象对的0 5 10 15 20 2530AP中的平均增益→笔记本电脑钢火花盒碗蛇石猫车库动物轮胎洞穴比萨海对象间的平均增益0 1 2 3 4AP中的平均增益→沉闷的捣碎的年轻的巨大的熔化的充满了大的磨损的阳光明媚的小lighttwt。现代阴暗的旧宽各属性0 1 2 3 4 5AP中的平均增益→图5：我们显示了MITStates数据集上的顶级类和AP在Visual Product基线上的增益。我们显示了（属性，对象）对的增益，以及单个对象和属性（在对之间求平均值后）的增益。d（大象，狗）d（eleph，板）d（大象，动物）表5：我们通过组合看不见的内容来1.81.6属性1.81.6对象属性和对象形成看不见的组合（在-贡品，物品）。我们使用MITStates数据集。1.41.21.00.80.60.40.21.41.21.00.80.60.40.2AP Top-k精度k→ 1 2 3机会-0.7 1.3 2.0视觉产品6.4 7.1 8.6 9.1标签嵌入（LE）8.4 8.2 12.3 17.4我们的9.6 10.1 18.3 22.90100 200 300 400 500 600 700预测的不可见分类器0100 200 300 400 500 600 700预测的不可见分类器5.5. 从看不见的原始组合图6：我们显示了变换网络的输入与其输出之间的距离。对于可视化，我们为属性和对象输入分别对该距离进行我们提供了3对已知类的分类器之间的距离，以供参考。我们看到，转换修改了所有输入。有不同的视觉解释。基线较好的对通常是那些仅预测（属性，对象）对的对象给出最佳性能的对，即，属性不对关于对象外观的很多信息进行建模。5.4. 改变可见/不可见概念我们评估了减少转换网络的训练数据的效果。我们改变MITStates上可见/不可见（属性，对象）对的比率，从[0. 1，0。3，0。5]，并为每个设置训练我们的网络。我们比较了第4.1节中的视觉产品和LE基线。表4总结了结果。我们看到，我们的算法对可用的训练数据量很敏感。它还表明，在所有这些情况下，基线方法都有改进。比较看不见的比率为0时的性能。1比0。5，我们看到我们的方法在基线上的增益随着我们减少训练数据而对看不见的原语在这组实验中，我们从变换网络T的训练集中随机丢弃一组对象和属性基元。网络在训练时从来没有看到这些分类器。在测试时，我们对属性，由这些“丢弃的”原语形成的对象对。具体地说，我们随机丢弃20%的对象和属性：245个对象中的49个和115个属性中的23个我们评估142（属性，对象）对这些下降的原语形成我们在表5中报告了这些结果。我们的方法是能够推广到这些看不见的输入原语，并将它们结合起来，形成看不见的概念对。6. 结论我们提出了一种简单的方法来组成分类器，以生成新的复杂概念的分类器。我们的实验组成的属性和对象表明，我们的方法尊重上下文。我们还表明，我们的方法可以组成多个原语，并可以一般化，不仅看不见的组合的原语，但也看不见的原语。它在不同的指标和数据集上始终提供比基线更好的结果。鸣谢：我们感谢阿比纳夫·什里瓦斯塔瓦、大卫·福伊、艾莉森·德尔乔诺和萨洛尼·波达尔提供的有益反馈。根据CTA计划（协议W 911 NF-10-2-0016），这项工作得到了 ONRMURI N 000141612007和美国陆军研究实验室（ARL）的我们感谢NVIDIA的硬件捐赠，以及Ed Walter在硬件方面的帮助输入距离1800引用[1] M. Abeles ， M.Diesmann ， T. 闪电侠， T 。 Geisel ，M.Herrmann和M.泰彻神经控制中的组合性：对灵长类动物涂鸦动作的跨学科研究。Frontiers in Computational Neuroscience，7，2013.3[2] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的标签嵌入CVPR，2013。2[3] J. Alma za′ n，A. Gordo，A. F或ne's和E。 Valv e ny. Word使用嵌入的属性进行定位和识别。TPAMI，36（12），2014年。2[4]J. Andreas，M.Rohrbach，T.Darrell和D.克莱恩学习-来构建用于问答的神经网络。在NAACL，2016年。2[5] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩神经模块网络。在CVPR，第39-48页，2016年。2[6] I.比德曼按组件识别：一个理论的胡-男人形象理解。Psychological Review，94（2）：115，1987.2[7] R.卡鲁阿纳多任务学习。在学习学习中，页面95-133. Springer，1998年。2[8] J. Choi，M. Rastegari，A. Farhadi和L. S.戴维斯通过学习的属性将未标记的样本添加到类别中。CVPR，2013。[9] J. Deng，N.丁氏Y.Jia，中国茶条A.Frome，K.Murphy，S.本吉奥Y. Li，H. Neven和H. Adam.使用标签关系图的大规模对象分类。在ECCV。Springer，2014.2[10] M.埃尔霍塞尼湾Saleh和A.埃尔加马尔写一个类-fier：使用纯文本描述的零射击学习。在ICCV，第2584-2591页，2013年。二四五七[11] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A.齐瑟曼。PASCAL Visual Object Classes Chal-lenge2007（VOC2007）. 4[12] R.- E. 范，K.-W. 昌角J. 谢，X.-R. Wang和C.-J. 是林书Liblinear：一个用于大型线性分类的库JMLR，2008年。4[13] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象。在CVPR中。IEEE，2009年。一、二[14] L. 费费河Fergus和P.佩洛娜一次性学习对象类别。TPAMI，28（4），2006. 2[15] P. Felzenszwalb，D. McAllester和D. Ramanan区分训练的多尺度可变形零件模型。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-8页。IEEE，2008年。2[16] A. Ferencz，E. G. Learned-Miller和J.马利克建设用于视觉识别的分类级联。在ICCV，第1卷。IEEE，2005年。2[17] M.芬克从一个单一的例子利用对象分类-设置类相关性度量。NIPS，17，2005. 2[18] J. A.福多思想的语言，第五卷。哈佛大学出版社，1975年。2[19] J. A. Fodor和Z. W.皮利辛连接主义和认知-动态架构：批判性的分析。Cognition，28（1-2）：3 3[20] G.弗雷格意义和参考。哲学评论，57（3）：209-230，1948年。1[21] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。NIPS，第2121-2129页，2013年。21801[22] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。在Aistats，第9卷，第249-256页，2010中。7[23] 联合Grenander 一般模式论的数学研究有规律的结构。Clarendon Press，1993. 2[24] S. 瓜达拉马 N. 克里希那穆西 G. 马尔卡南卡，S. 韦努戈帕兰河 Mooney ， T. Darrell 和 K. 萨恩科Youtube2text：使用语义层次和零射击识别来识别和描述任意活动。在ICCV，第2712-2719页，2013年。2[25] F. Han和S.- C.竹自底向上/自顶向下图像解析属性语法。 IEEE Transactions on Pattern Anal-ysisand Machine Intelligence，31（1）：59-73，2009。2[26] K. 他，X。Zhang，S.Ren和J.太阳深入研究整流器：在图像网络分类方面超越人类水平的性能在ICCV，第1026-1034页，2015中。4[27] D. D. 霍夫曼和W.A. 理查兹承认的一部分Cognition，18（1）：65-96，1984. 2[28] P. Isola，J.J. Lim和E.H. 阿德尔森发现图像集合中的状态CVPR，2015。二四五六七[29] D. Jayaraman，F. Sha和K.格劳曼解相关se-通过抵制分享的冲动来控制视觉属性在CVPR，2014年。2[30] A.卡帕西A. Joulin和F. F. F.李用于双向图像句子映射的深度片段嵌入在NIPS，2014。2[31] 诉Krishnan和D.Ramanan 在引擎盖下修补：在-交互式零射击学习与网络手术。arXiv预印本arXiv：1612.04901，2016年。2[32] B. M.莱克河萨拉赫季诺夫Gross和J. B. Tenen-鲍姆一次学习简单的视觉概念。在认知科学学会第33届年会的开幕式上，第172卷，第2页，2011年。2[33] B. M.莱克河Salakhutdinov和J. B. 特南鲍姆反将学习视为运动程序诱导：一项大规模的实证研究。第34届认知科学学会集，第659-664页，2012年。2[34] B. M. Lake，T.D. Ullman，J.B. Tenenbaum和S.J. 德国shman. 制造像人一样学习和思考的机器。arXiv预印本arXiv：1604.00289，2016年。2[35] C. H. Lampert，H. Nickisch和S.伤害。

下载后可阅读完整内容，剩余1页未读，立即下载