没有合适的资源?快使用搜索试试~ 我知道了~
3593基于任务驱动模块网络的零次作文学习Senthil Purushwalkam1马克西米利安镍2Abhinav古普塔1,2马克摘要人类智能的标志之一是能够将学到的知识组合成新的概念,这些概念可以在没有单一训练示例的情况下识别。相比之下,当前最先进的方法需要针对每个可能的类别的数百个训练示例来构建可靠且准确的分类器。为了缓解这种效率上的显著差异,我们提出了一种任务驱动的模块化架构,用于组合推理和样本有效学习。我们的体系结构由一组神经网络模块组成,这些模块是在语义概念空间中运行的小型全连接层。这些模块通过以任务为条件的选通函数进行配置,以产生表示输入图像与所考虑的概念这使我们能够将任务表示为子任务的组合,并通过重新加权一组小模块来概括看不见的类别此外,网络可以有效地训练,因为它是完全可微的,并且它的模块在小子空间上操作我们集中我们的研究问题的组成零杆分类的对象属性类别。我们在我们的实验中表明,目前的评估指标是有缺陷的,因为他们只考虑未看到的对象属性对。当将评估扩展到一般化设置时,也考虑了训练过程中看到的配对然而,我们的模块化网络能够在两个广泛使用的基准数据集上胜过所有1. 介绍机器如何可靠地识别大量可能的视觉概念?例如,即使是像“信封”这样简单的概念,也按尺寸(大,小),颜色(白色,黄色),类型(平原,窗口),或条件(新的,起皱,盖章)。此外,它经常被·在Facebook AI Research实习。 建议的数据集拆分和代码可在此处获得:http://www.cs.cmu.edu/Spurushw/projects/compositional.html图1.我们研究如何建立一个分类器上的飞行,一个新的概念(“湿狗”)相关的概念(“可爱的狗”,“可爱的猫”,和“湿猫”)的知识。 我们的方法包括一个模块化的网络在语义特征空间。通过重新连接其原始模块,网络可以识别新的结构化概念。观察到视觉概念遵循长尾分布[28,34,31]。因此,大多数类都是罕见的,然而人类能够在没有观察到哪怕一个实例的情况下识别它们。虽然这是一个令人惊讶的事件,但大多数人都不难认出“坐在树枝上的紫色条纹小象”。然而,对于机器来说,这将是一个令人生畏的挑战。为所有可能的类别的长尾收集足够的训练示例是不切实际的,如果不是不可能的话,更何况当前的学习算法是数据饥渴的,并且依赖于大量的标记示例。我们如何构建算法来应对这一挑战?一种可能性是利用预测任务的组成虽然机器可能没有观察到任何“起皱信封”的图像,但是它可能已经观察到更多的“白色信封”以及“白纸”和“起皱纸”的如果机器能够进行组合推理,它可能能够将“起皱”的概念从“纸”转移到“信封”,并且在不需要实际“起皱信封”的额外示例的情况下进行组合推理中的一个关键挑战是情境性。一个属性的意义,甚至一个对象的意义,可能是相互依赖的。例如,“皱纹”如何模块化模块化可爱的猫湿猫分类器分类器特征特征特征模块化可爱的狗分类器3594“狗”与它如何改变“狗”的外观是非常不同的。实际上,语境性超越了语义范畴。“wrinkled”修改“dog”的两个图像的方式强烈地依赖于实际输入的狗图像。换句话说,模型应该捕捉图像、对象和属性之间复杂的相互作用,以便执行正确的推理。虽然最新的方法[21,22]捕获了对象和属性之间的上下文关系,但它们仍然依赖于足够丰富的原始特征空间,因为推理需要将图像特征匹配到对象-属性对的嵌入向量在本文中,我们专注于组合学习的任务,其中模型必须预测输入图像中存在的对象(例如,“信封”),以及其相应的属性(例如,“起皱的”)。我们认为需要两个关键要素:(a)学习可能对转移概念有用的高级子任务,以及(b)捕捉图像、对象和属性之间的丰富交互。为了捕捉这两个属性,我们提出了任务驱动的模块化网络(TMN)。首先,我们通过在CNN的高级语义空间中采用模块化网络来解决传输和可重用性问题[15,8]。直觉是,通过在概念空间中模块化,模块现在可以表示可以进行“推理”的常见高级子任务:为了识别新的对象-属性对,网络只需通过适当地重新加权新任务的模块来除了可重用性和可移植性,模块化还有其他好处:(a)样品效率:迁移简化为计算如何选通模块,而不是如何学习它们的参数;(b)计算效率:由于模块在更小维度的子空间中操作,因此可以使用更少的计算来执行预测;以及(c)可解释性:由于模块专门化并且相似的计算路径用于视觉上相似的对,因此用户可以检查网络如何操作以理解哪些对象-属性对被认为是类似的,其属性急剧改变外观等(§4.2)。第二,该模型提取有用的特征,以评估输入图像和对象属性对之间的联合兼容性虽然之前的工作[21,22]通过仅基于图像提取特征来映射对象和属性的嵌入空间中的图像,但我们的模型提取的特征取决于输入三元组的所有成员。输入对象-属性对用于重新连接模块化网络,以最终产生对输入对不变的特征虽然在以前的工作中的对象和属性可以从输出功能中提取,在我们的模型功能专门优化,以区分输入三元组的有效性我们在§4.1中的实验表明,我们的方法在两个广泛使用的评估基准上,在“一般化”评估协议下的性能优于所有以前的方法。使用广义评估协议,测试看不见的和看不见的对的性能,可以更准确地理解模型的泛化能力[5]。事实上,我们发现,在该评价方案下,基线方法的性能通常超过当前的最新技术水平。此外,我们的定性分析表明,我们的完全可微模块化网络学习聚类相似的概念,并具有直观的解释。2. 相关工作组合零激发学习(Czero-shot learning,Czero-shotlearning)是零激发学习(Zero-shot learning,Czero-shot learning)的一个特例[23,14,13,35]。在学习者观察输入图像和相应的类描述符。在测试时看到的类永远不会与在训练时看到的类重叠,并且学习器必须通过利用其类描述符而没有任何训练图像(零射击)来执行对未见过类的预测。在他们的开创性工作中,Chao et al.[5]表明,CNOL在我们的工作中,我们采用相同的方法和校准技术,尽管在文献中也探索了替代校准技术[4,17]。我们的广义CNOML设置和广义CNOML之间的区别这种对的预测使得任务合成为给定N个对象和M个对象。属性,学习器可以预测潜在的NM个大多数先前的CNOML方法都是基于在图像特征空间中嵌入对象-属性对的思想[21,22]。相反,在我们的工作中,我们建议通过学习依赖于输入三元组的表示来学习输入图像和配对之间的联合兼容性[16这可能更有表现力,因为它可以捕获图像和对象-属性对之间的复杂依赖关系与过去的工作相比,一个主要的新颖性也是使用模块化网络。模块化网络可以解释为分层混合实验的推广[10,11,6],其中每个模块在下面一层的所有模块上保持分布,并且门不依赖于输入图像,而是依赖于任务描述符。这些网络在过去已经被用来加速测试时的计算[1],并提高多任务学习[19,26],强化学习[7],持续学习[30],视觉问答[2,25],3595JJΣk→j1等,但从来没有为cabinet。与我们最接近的方法是Wang等人的同时工作。[33],其中作者分解卷积层并执行取决于输入对象-属性对的组件式门控,因此也使用任务驱动架构。这类似于具有与特征维度一样多的模块,这是一种形式的退化模块,因为单个特征维度不太可能对高级子任务进行建模。最后,我们的门控网络调节识别网络中的计算块,也可以解释为元学习的特定实例[29,32],由此门控网络在识别网络中实时预测任务特定参数(门)的子集。3. 方法考虑视觉分类设置,其中每个图像I与视觉概念c相关联。概念c的表达在视觉世界中是高度结构化的。在这项工作中,我们考虑设置图像是 对 象 的 组 成 ( 例 如 , “envelope”) denoted by“wrinkled”) denoted by 在完全监督的设置中,使用一组人类标记的图像针对每个概念c训练分类器,然后在属于同一概念集的新图像上进行测试。相反,在这项工作中,我们感兴趣的是利用标签的组成性质,在测试时将分类器外推到新概念,即使没有访问这些新类的任何训练示例(零射击学习)。更 正 式 地 , 我 们 假 设 访 问 训 练 集 Dtrain={ ( I(k),c(k))|k=1,2,… Ntrai n}由图像I组成,标记有概念c∈ Ctrain,其中Ctrain<$Co×Ca={(co,ca)|co∈Co,ca∈Ca}其中Co是对象的集合,Ca是属性的集合.为了评估我们的模型的能力,每-我们接下来会描述。3.1. 任务驱动模块化网络我们的架构设计的基础是图像、对象和属性之间的联合兼容性的评分模型[16]。这是由于三元组中的每个成员都表现出与其他成员的复杂依赖关系,即属性如何修改外观取决于对象类别以及特定的输入图像。因此,我们考虑一个函数,它将整个三元组作为输入,并提取它的表示,以便分配一个兼容性得分。训练的目标是使模型将高分分配给正确的三元组(使用提供的标记数据),并将低分分配给不正确的三元组。第二个驱动原则是模块化。由于任务是组合的,我们通过使用模块化网络添加相应的在训练过程中,网络学习将每个识别任务分解为子任务,然后在测试时以新的方式组合,从而产生可推广的分类器。整体模型如图所示。二、它由两个部分组成:选通模型G和特征提取模型F。后者F由一组神经网络模块组成,这些模块是小的、全连接的层但也可以是任何其它参数可微函数。这些模块用于标准ResNet预训练主干之上。直观地说,ResNet主干用于将输入图像I映射到语义概念空间,在语义概念空间中可以执行更高级别的“推理”。我们用x表示在这样的语义空间中映射的I。每个模块的输入是下一层所有模块的输出的加权和,其权重由门控模型G确定,门控模型G有效地控制模块如何组成。设L是F的模部分中的层数,M(i)是第i层中的模块数m(i)是第i层中的第j个模块,并且x(i)是每个模块1的输入,形式零射击学习,我们使用类似的验证(Dval)和测试(D测试)集组成的图像标记的概念,分别从Cval和C测试。 相比于那么我们有:(一)M(i−1)(一)(i−1)完全监督的设置、验证和测试概念不XJ为gk→jok,(1)与培训概念完全重叠,即Cval\C火车站,k=1Ctest\C train/=和C calC train/=,C testC train。在那里-其中,k是标量-向量积,第k因此,经过训练以将训练概念分类的模型还层(i−1)中的模是o(i−1)=m(i−1)<$x(i−1)<$,归纳为K K(i−1)K(一)验证和测试集中的年龄我们称之为学习在mk和mj之间的边上的权表示为设置,广义零拍合成学习,作为(一)k→j∈R. g的集合g={g(i)| i ∈ [1, L], j ∈可见和不可见的概念都出现在验证中,测试集请注意,此设置与先前文献中的标准实践不同,其中不存在常见的验证集,并且在测试集中仅考虑看不见的对[21,22,33]。[1,M(i)],k∈[1,M(i−1)]}共同表示如何组成w个模块来给给定概念打分。选通网络G负责产生集合给定概念c=(c0,ca)作为输入, co和为了解决这种合成零激发学习任务,我们提出了一个任务驱动的模块化网络(TMN)1我们设置o(0)=x,M(0)= 1,M(L)= 1。G35961→1k→j1sc(I,(co,ca))图2.任务驱动的模块化网络(TMN)的玩具插图预先训练的ResNet主干提取输入图像的高级语义然后,这些特征被馈送到模块化网络(在这种情况下,三层,每层有两个模块),其块由选通网络选通(黑色三角形放大器)。门控网络将对象和属性id作为输入。任务驱动的功能,然后投影到一个单一的标量值表示联合的三元组(图像,对象和属性)的兼容性。覆盖的红色箭头显示每个边缘上的浇口强度。ca被表示为整数ID,然后使用学习的查找表2来嵌入。然后,这些嵌入被连接并由多层神经网络处理,该多层神经网络将门控计算为:最后,为了鼓励模型推广到看不见的对,我们使用一种称为ConceptDrop的方法进行正则化。在每个时期,我们选择一个小的随机子集的对,排除这些样本,也不考虑他们的负对候选人。我们交叉验证G(c)=[q(1)(一)2→1(L)M(L−1)→M(L)]、(2)所有模型的ConceptDrop子集的大小。g(i)=Σexp[q(i)].(三)在测试时,给定一个图像,我们对所有存在的对进行在C测试中,选择C训练,并选择产生最大分数的对k→jM(i−1)exp[q(i)]]的一种k′=1k′→j然而,通常模型没有针对看不见的控制进行校准。cepts,因为看不见的概念并不涉及因此,模块的所有输入门控值都是正的。和和为一。特征提取网络F的输出是特征向量r,o(L),其被线性地投影到实值标量中 以产生最终得分sc(I ,(co ,ca))。 这表示输入三元组的兼容性,见图。二、3.2. 培训测试我们提出的训练过程涉及联合学习门控和特征提取网络的参数(无需微调ResNet主干以保持一致性在过去的工作[21,22])。使用上述训练集,对于每个样本图像I,我们计算所有概念c=(co,ca)∈Ctrain的得分,并将得分转换为正态分布。模型的优化因此,我们可以将标量偏差项添加到任何未见过概念的得分中[5]。将偏差从非常大的负值变化到非常大的正值具有将分类分别限制为仅可见对或仅不可见对的总体效果中间价值观在两者之间进行权衡。4. 实验我们首先讨论本文中使用的数据集,指标和基线。然后,我们报告了我们的实验在两个广泛使用的基准数据集CNOML,我们的结论与定性分析,说明如何TMN的运作。数据集我们考虑了两个数据集。麻省理工学院-国家使用softmax的概率:pc= Σ实验[sc]。c′∈C火车 exp[sc′]数据集[9]有245个对象类,115个属性类,然后使用标准(每样本)交叉熵损失来更新F和G的参数:L(I,c)=−logpc,如果c是正确的概念。在实践中,如果Ctrain很大,则计算所有概念的分数在计算上可能太昂贵。因此,我们通过对阴性候选者的随机子集进行采样来近似概率归一化因子[3]。2我们的框架可以简单地扩展到co和ca是结构化的,例如,word2vec vectors [20],能够泛化到新的对象和属性。约53K图像。平均而言,每个对象都与9属性。存在不同的对象类别,诸如“高速公路”和“大象”,并且在属性中也存在很大的变化,例如,“苔藓”和“丁”(见图)。4和7为例)。训练集具有属于1262个对象-属性对(可见集)的大约30 K图像,验证集具有来自300个可见和300个不可见对的大约10 K图像,并且测试集具有来自400个可见和400个不可见对的大约13 K图像。第二个数据集是UT-Zappos 50 k[37,36],m(1)1m(2)1m(3)1我ResNet后备箱m(1)2m(2)2m(3)2co=“信封”[g21,g21]1→2→[g2,g2]的一种1→22→2门控1→2→[g31,g3第1页][g3,g3]的一种c=“起皱”一净1→22→2[g4,g4]12线性,q,q359712个对象类和16个属性类,总共约33K图像。该数据集由不同类型的鞋组成,例如“橡胶运动鞋”、“皮凉鞋”等。并且需要细粒度的分类能力。该数据集已被分成包含来自83对(可见对)的约23K图像的训练集,包含来自15对可见对和15对不可见对的约3K图像的验证集,以及包含来自18对可见对和18对不可见对的约3K图像的测试集。两个数据集的分割与先前工作中使用的不同[22,21],现在允许在广义零射击学习设置中公平交叉验证超参数和评估。我们将使分裂公开可用-能够方便比较,为未来的研究。体系结构和培训详细信息特征提取网络的公共主干是在ImageNet [27]上预训练的ResNet-18 [8],它没有微调,类似于之前的工作[21,22]。除非另有说明,我们的模块网络在每层有24个模块。每个模块在16维空间中操作,即, 尺寸-x(i)和o(i)在等式中的性质 1是16。最后,门网-建议使用对抗训练来为看不见的类生成特征我们遵循Chao等人介绍的相同评价方案。[5]在广义零触发学习中,由于所有先前关于CNOML的工作都只测试了看不见的对的性能,而没有控制看到的对的准确性。最近,Nagarajan et al.[22]引入了一种“开放世界”设置,在评分过程中考虑可见和不可见的对,但实际上只评估不可见的对。正如Chao et al.[5],这种方法是有缺陷的,因为根据系统的训练方式,可见对可以比不可见对评估得更好(通常在使用交叉熵损失进行训练时,会导致不可见对的负偏差)或更差(如[22]中,在训练时排名时,不可见对从未被用作负数,导致对它们的隐式正偏差)。因此,对于给定的校准偏差值(单个标量加到所有校准偏差看不见的对,见§3.2),我们计算两者的准确度可见和不可见的对,(回忆我们的验证和测试)jj集合具有两者的相等数目当我们改变它是一个2层神经网络,有64个隐藏单元。的输入查找表初始化与手套词嵌入dings [24]在以前的工作[22]。该网络通过随机梯度下降与ADAM [12]进行优化,批量大小等于256。所有超参数都是通过验证集上的交叉验证找到的(关于层数和模块数的稳健性,请参见第4.1.1基线我们将任务驱动的模块化网络与几种基线方法进行比较。首先,我们考虑RedWine方法[21],该方法通过CNN特征空间中的SVM分类器权重表示对象和属性,并将这些参数嵌入特征空间中以生成(对象,属性 ) 对 的 复 合 分 类 器 。 接 下 来 , 我 们 考 虑LabelEmbed+[22],这是一个常见的compo- sitional学习基线。该模型涉及使用两个单独的多层神经网络将级联的(对象,属性)Glove词向量和图像的ResNet特征嵌入到联合特征空间中。最后,我们考虑最近的AttributesAsOperators方法[22],它用矩阵表示属性,用向量表示对象。然后将两者的乘积乘以ResNet特征空间的投影,以产生输入三元组的标量分数。所有方法都使用与我们相同的ResNet功能。请注意,与我们的模型相比,[21,22]中的架构具有更多的参数具体来说,红葡萄酒,LabelEmbed+和属性作为运营商有approximat11,3.5和38倍以上的参数(不包括常见的ResNet干线)比建议的TMN。我们还采用了一种更新的CNOML方法[35](称为这项工作校准偏差我们绘制曲线,然后报告其面积(AUC),以描述系统的整体性能。为了与先前的工作进行比较,我们还报告了4.1. 定量分析我们的实验的主要结果报告在表。1.一、在这两个数据集上,我们观察到TMN的性能始终优于其他测试基线。我们还观察到AUC的总体绝对值相当低,特别是在MIT-States数据集上,由于任务的固有模糊性,该数据集具有大约2000个属性-对象对和许多给定图像的潜在有效当直接查看可见-不可见精度曲线时,使用通用评估方案的重要性变得显而易见,见图。3.第三章。这表明,当我们增加校准偏差时,我们提高了未见过对的分类准确性,但降低了已见对的准确性。因此,在不同操作点比较方法是不确定的。例如,当不可见对准确率为0%时,与TMN达到20.2%相比,这几乎不是有用的操作点。为了比较,我们还报告了所有这些方法的最佳可见精度,最佳不可见精度和最佳调和平均值。二、尽管我们的任务驱动模块化网络可能并不总是产生最好的可见/不可见精度,但它显著提高了谐波平均值,表明在3598MMJ表1.麻省理工学院和UT美捷步的AUC(乘以100)列对应于使用k= 1、2、3时的精密度计算的AUCUT美捷步Val AUC检测AUC Val AUC检测AUC模型顶部k→123123123123[22]第二十二话2.56.210.11.64.77.621.544.261.625.951.367.6红葡萄酒[21]2.97.311.82.45.79.330.452.263.527.154.668.8标签嵌入+[22]3.07.612.22.05.69.426.449.066.125.752.167.8[35]第三十五话3.16.910.52.35.78.820.145.161.125.048.263.21TMN(我们的)3.58.112.42.97.111.536.857.169.229.355.369.8表2.最佳可见和不可见精度,以及两者的最佳调和参见附图。3、使用的操作点。麻省理工-州UT捷步达康模型见()不可见(×)HM(◆)看到看不见HMAttrAsOp14.317.49.959.854.240.8Redwine20.717.911.657.362.341.0标签嵌入+15.020.110.753.061.940.6Escherichiacoli24.813.411.261.952.840.0TMN(我们的)20.220.113.058.760.045.02016表3. 消融研究:前1名有效。AUC;详见第4.1.1节。型号MIT-美国UT-ZapposTMN3.536.8a)无任务驱动门控3.232.7b)如a)无联合提取0.820.1C.不使用ConceptDrop3.335.7表4. AUC(*100)在改变每层的模块数量和层数的MIT状态的验证集上。模块128400 5 10 15 20可见配对准确度(%)图3. MIT-States数据集上的Unseen-Seen准确度曲线。先前的工作[22]报告了在不同(未知)可见准确度值下的不可见准确度,使得比较不确定。相反,我们报告AUC值[5],见表1。1.一、两个准确度。我们的模型不仅在AUC方面表现更好,而且训练效率更高。我们观察到它在训练过程中从较少的更新中学习。例如,在麻省理工学院-国家数据集,我们的方法达到了报告的AUC为3.5内4个时期。相比之下,基于嵌入距离的方法,如 AttributesAsOperators [22]和LabelEm- bed+需要400到800个epoch才能达到最佳效果。连接的网络。 如果D是输入和输出隐藏单元的数量,则每个层的全连接版本将具有D 2个参数。相反,我们的模块化网络有M个块,每个块有(D)2个参数。总的来说,模块化网络的一层具有D2/(M(D)2)=少M倍的参数(这也是节省的计算量)。请参阅下一节,了解与完全连接层的进一步类比。4.1.1消融研究我们的第一个对照实验评估了使用模块化网络的重要性,考虑相同的架构,两个修改。首先,我们学习所有概念的一组公共门控;从而去除任务驱动的模块性。第二,我们用ResNet特征和对象-属性对嵌入的级联来填充模块化网络;从而保持三联体的联合建模。为了更好地理解这种选择,考虑图1中模块化网络的第i层的转换。2,它可以等效地重写为:AUC值使用相同的小批量。这部分归因于在TMN的每次更新中处理大量的否定候选对(参见§3.2)。我们的网络的模块结构也意味着,对于一个模拟-Σ(i)1(一)2Σ Σ=ReLU((i)1→1(i)1→2(i)1(一)2(i)2→1(i)2→2RedWineAttr作为OpLabelEmbed+TMN(我们的)未知配对准确度(%)OOGGMMGG层1218243011.86 2.14 2.50 2.5133.23 3.44 3.51 3.4453.48 3.31 3.24 3.1935991Σ Σ(i)1(一)2(i−1)(i−1))2隐藏单元的数量相同,模块化特征提取器与完全假设每个正方形块m(i)是ReLU层。在任务驱动的模块化网络中,门控取决于输入MMOO∗36001对象-属性对,而在该消融研究中,我们使用对任务不可知的门控,因为这些门控仍然是学习的,但在所有任务中共享。每一层都是一个特殊的情况下,一个完全连接的层与更多的约束参数化。这是表a)行中显示的基线。3 .第三章。在这两个数据集的性能恶化,显示使用任务驱动门的重要性。行中显示的第二条基线b) 的Tab。3,与前一个相同,但我们还通过在模块化网络的输出(而不是输入)处提供对象-属性嵌入来使特征对任务不可知这类似于前一节的LabelEmbed+baseline,但是用我们在TMN中使用的相同(更多约束)体系结构替换了完全在这种情况下,我们可以看到性能急剧下降,这表明提取输入图像和对象-属性对的联合表示的重要性。 最后一排c) 评估对ConceptDrop正则化性能的贡献,参见§3.2。没有它,AUC有一个小的,但统计学上显着的下降。最后,我们研究了Tab中每层的层数和模块数的鲁棒性4.第一章除了当模网络非常浅时,AUC对于这些超参数的选择是相当鲁棒的。4.2. 定性分析任务驱动的模块化网络既提高了性能,又改善了可解释性。在本节中,我们将探索可视化它们并检查其内部工作的简单方法。我们从三种方式来想象学习到的门控开始。首先,我们看看哪个对象-属性对在模块化网络的给定边缘上具有最大的门控值。选项卡. 图5示出了一些示例,这些示例指示视觉上相似的对在计算图的相同边缘上表现出大的选通值。同样,我们可以检查模块化架构的模块。我们可以很容易地做到这一点,通过关联一个模块,这些对有最大的总传出门控。这表示模块对所考虑的对的下一层的影响程度。如Tab.所示。6,我们再次发现模块拥有解释特定类型的视觉相似对象属性的表5. 边缘分析MIT-States数据集中前3个对象-属性对(行)的示例,它们在模块化网络中连接块的6条边(列)上响应最强。干河小动物熟意大利面生梨老城干燥森林小动物生面食未熟无花果古城乾溪小蛇热气腾腾的意大利面未成熟的苹果老城表6. 模块分析。根据每对门控中的传出边权重之和,6个随机选择的模块(列)的前3个对象-属性对(行)的示例暗火大树皱裙小象浓汤暗洋小树皱裙小象大锅乌云苔树皱丝小象羹图4.在MIT- States数据集上嵌入属性-对象门控的t-SNE。 颜色表示高级WordNet类别的对象。具有白色背景的文本框指示更改属性导致类似选通的示例(例如,大/小桌子);相反,黑色背景中的对指示属性/对象的改变导致非常不相似的选通的示例(例如,熔化的/刷过的/卷钢,生锈的水/生锈的电线)。对.与所有对象-属性对相关的门控值的t-SNE [ 18 ]嵌入提供了更全面的可视化,如图所示。4.第一章这种视觉化表明,门控主要是由视觉相似性组织的。在此地图中,有对应于具有各种属性的同一对象的聚类。在属性极大地改变对象的视觉外观的情况下,是有趣的例外(“卷钢”VS“钢水”,请参阅其他用深色标签突出显示的示例)。同样,如果对象在视觉上不相似(“生锈的水”VS“生锈的电线”),则共享相同属性的对可能位于遥远的地方最后一个门控可视化是通过由门控引起的拓扑结构,如图所示。图5中仅示出了具有足够大的选通值的边缘。总体而言,对象-属性对之间的边缘重叠程度强烈依赖于它们的视觉相似性。除了门控和模块,我们还可视化了task-dr iv envisualfeatureso(L),就在最后一个线性投影层之前,参见图1B。二、图中的地图。图6示出了有效的(图像、对象、属性)三元组被很好地聚集在一起,而无效的三元组被很好地分布在平面的一侧。这与在图像特征空间中匹配概念嵌入的方法所发现的特征组织完全不同[22,21],后者往往是3601图6.输出特征(倒数第二层)的t-SNE嵌入MIT-States数据集。红色标记显示有效(图像、对象、属性)三元组(来自可见或不可见的对),而蓝色标记显示无效三元组。图5.在TMN中学习的任务驱动拓扑的示例。显示关联权重在该边的最高权重的3%以内的边底部的源特征x被投影到顶部的标量分数。每个子图比较两个对象-属性对的门控。红色边缘是两对之间的公共边缘。绿色和蓝色线段是仅在两对中的一对中处于活动状态的边。左:两组对共享相同的属性,“皱纹”。右图:两组对共享同一个对象“鱼”。上图:视觉相似对的例子。底部:视觉上不相似的对的示例(导致较少重叠的图形)。古钟古宅荒道杂乱的办公桌在线客服按概念组织。虽然TMN使用任务驱动的架构来提取大部分任务不变的表示,但是它们使用任务不可知的架构来产生包含关于任务的信息的表示3。TMN将所有有效的三元组放置在紧密集群上,因为共享的顶部线性投影层被训练为区分有效和无效三元组(与不同类型的概念相反)。最后图7呈现图像检索结果。给定一个看不见的对象-属性对的查询,返回测试集中得分最高的该模型能够检索相关图像,尽管在训练期间没有接触5. 结论高度结构化的视觉概念的分布在本质上是非常重尾的。提高我们当前模型的样本效率是至关重要的,因为标记数据永远不足以用于差异尾部的概念。一个有希望的方法是利用内在3一个线性分类器训练预测输入的对象属性对,在TMN的特征上只能达到5%的准确率图7.当查询一个看不见的对(每个列的标题)时,从测试集中检索图像的示例。标签空间的组合性。在这项工作中,我们使用Zero-Shot Compo- sitional Learning任务作为用例来研究这一研究途径。我们的第一个贡献是一个新的架构:TMN,它优于所有的基线方法,我们认为.它的设计背后有两个重要的思想。首先,对输入图像、对象和属性进行联合处理,以考虑上下文。第二,使用模块化网络,其门控依赖于输入对象-属性对。我们的第二个贡献是提倡使用广义评估协议,不仅测试看不见的概念,但也看到的概念的准确性。实验结果表明,TMN具有较好的性能,同时具有较高的效率和可解释性.在未来的工作中,我们将探索其他领域的门控机制和应用。鸣谢这项工作得到了ONR MURI N000141612007和青年研究者奖的部 分 支 持 。 我 们 要 感 谢 Ishan Misra , Ramakrishna Vedantam 和Xiaolong Wang的有益讨论。3602引用[1] 卡里姆·艾哈迈德和洛伦佐·托雷萨尼。Maskconnect:梯度下降的连通性学习。在2018年欧洲计算机视觉会议(ECCV)的会议记录中2[2] Jacob Andreas,Marcus Rohrbach,Trevor Darrell,andDan Klein.用神经模块网络进行深度合成问题回答。IEEE计算机视觉与模式识别会议(CVPR),2016年。2[3] 约瑟芬·本吉奥和让·塞内卡尔。基于重要性抽样的概率神 经 网 络 快 速 训 练 。 人 工 智 能 与 统 计 国 际 会 议(AISTATS),2003年。4[4] Yannick Le Cacheux , Herve Le Borgne 和 Michel Cru-cianu。从经典到广义零触发学习:简单的适应过程。在2019年第25届多媒体建模国际会议上。2[5] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别中的实证研究与分析。2016年欧洲计算机视觉会议(ECCV)论文集。二、四、五、六[6] D.艾根岛Sutskever和M.兰扎托在专家的深度混合中学习因子表示在2014年学习代表国际会议上的研讨会上2[7] 作 者 : Chris Fernando , Dylan Banarse , CharlesBlundell , Yori Zwols , David Ha , Andrei ARusu ,Alexander Pritzel,and Daan Wierstra.Pathnet:进化通道在超级神经网络中的梯度arXiv:1701.08734,2017年。2[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。二、五[9] Phillip Isola,Joseph J Lim,and Edward H Adelson.图像集合中的逆覆盖状态和变换。在IEEE计算机视觉和模式识别会议论文集,第1383-1391页,2015年。4[10] Robert A Jacobs,Michael I Jordan,Steven J Nowlan,Geoffrey E Hinton,et al.当地专家的适应性混合。神经计算,3(1):79-87,1991. 2[11] 迈克尔岛Jordan和Robert A.雅各布斯专家层次混合与em算法。神经网络国际,1993年。2[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[13] Vinay Kumar Verma、Gundeep Arora、Ashish Mishra和Piyush Rai。通过合成大小的示例进行广义零射击学习。在IEEE计算机视觉和模式识别会议论文集,第4281-4289页,2018年。2[14] Christoph H Lampert , Hannes Nickisch , and StefanHarmeling. 基于属性的零镜头 视觉对象分类。IEEETransactionsonPatternAnalysisandMachineIntelligence,3(36):453-465,2014。2[15] YannLeCun,Le'onBottou,YoeanBengio,PatrickHaf fne r等人,基于知识的学习应用于文档识别,nition. Proceedings of the IEEE , 86 ( 11 ) : 2278-2324,1998. 2[16] YannLeCun , SumitChopra , RaiaHadsell ,Marc'Aurelio Ranzato,and Fu-Jie Huang.关于能量学习的教程。 InG. 巴基河,T. 霍夫曼湾 Schoül k opf,A.Smola和B. Taskar,编辑,预测结构化数据。麻省理工学院出版社,2006年。二、三[17] Shichen Liu , Mingsheng Long , Jianmin Wang , andMichael I.约旦.深度校准网络的广义零触发学习。在神经信息处理系统(NIPS)的进展,2018年。2[18] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化 数 据 。 Journal of Machine Learning Research , 9(Nov):2579-2605,2008. 7[19] 埃利奥特·迈耶森和里斯托·米库莱宁超越共享层次结构:通过软层排序进行深度多任务学习。在2018年国际学习表征会议(ICLR)的会议记录中。2[20] Tomas Mikolov,Kai Chen,Greg Corrado,and JeffreyDean.向量空间中词表示的有效估计。CoRR,abs/1301.3781,2013。4[21] Ishan Misra,Abhinav Gupta,and Martial Hebert.从红酒到红番茄:有背景的作文。IEEE计算机视觉与模式识别会议(CVPR),2017年。二三四五六七[22] Tushar Nagarajan和Kristen Grauman。作为运算符的属性:分解看不见的属性-对象组合。欧洲计算机视觉会议(ECCV),2018年。二三四五六七[23] Mark Palatucci,Dean Pomerleau,Geoffrey E Hinton,and Tom M Mitchell.使用语义输出代码的零触发学习。神经信息处理系统的进展,第1410-1418页,2009年。2[24] 杰弗里·潘宁顿,理查德·索彻,克里斯托弗·曼宁.Glove:单词表示的全局向量。在自然语言处理经验方法会议上,2014年。5[25] 伊森·佩雷斯,弗洛里安·斯特鲁布,哈姆·德·弗里斯,文森特·杜莫林,和亚伦·库维尔
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 彩虹rain bow point鼠标指针压缩包使用指南
- C#开发的C++作业自动批改系统
- Java实战项目:城市公交查询系统及部署教程
- 深入掌握Spring Boot基础技巧与实践
- 基于SSM+Mysql的校园通讯录信息管理系统毕业设计源码
- 精选简历模板分享:简约大气,适用于应届生与在校生
- 个性化Windows桌面:自制图标大全指南
- 51单片机超声波测距项目源码解析
- 掌握SpringBoot实战:深度学习笔记解析
- 掌握Java基础语法的关键知识点
- SSM+mysql邮件管理系统毕业设计源码免费下载
- wkhtmltox下载困难?找到正确的安装包攻略
- Python全栈开发项目资源包 - 功能复刻与开发支持
- 即时消息分发系统架构设计:以tio为基础
- 基于SSM框架和MySQL的在线书城项目源码
- 认知OFDM技术在802.11标准中的项目实践
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功