没有合适的资源?快使用搜索试试~ 我知道了~
830条件相似网络Andreas Veit1Serge Belongie1Theofanis Karaletsos2,3{av443,sjb344} @ cornell.edu,Ekanis. gmail.com1康奈尔大学康奈尔理工学院计算机科学系2个Uber人工智能实验室,3计算生物学,斯隆凯特琳研究所摘要是什么让图像相似?为了度量图像之间的相似性,它们通常被嵌入到特征向量空间中,在该特征向量空间中,它们的距离保持相对相异性。然而,当学习这种相似性嵌入时,通常会做出简化的假设,即图像仅与一个唯一的相似性度量进行比较。一个主要原因是,矛盾的相似性概念不能在一个单一的空间。为了弥补这一缺陷,我们提出了条件相似度相似颜色相似范畴类似场合学习嵌入的网络(CSN)区分为语义上不同的子空间,这些子空间捕获了不同的相似性概念。CSN联合学习解纠缠嵌入,其中不同相似性的特征被编码在单独的维度以及掩码中,该掩码选择并重新加权相关维度以诱导编码特定相似性概念的子空间我们表明,我们的ap-proach学习可解释的图像表示与视觉相关的语义子空间。此外,当评估来自多个相似性概念的三重问题时,我们的模型甚至优于通过分别为每个概念训练单独的专用网络所获得的准确性。1. 介绍理解图像之间的视觉相似性是计算机视觉中的一个关键问题。为了度量图像之间的相似性,将它们嵌入到特征向量空间中,在该空间中,它们的距离保持相对不相似性。通常,卷积神经网络被训练成将图像转换成相应的特征向量。我们称之为相似性网络。当从成对或三重(不)相似性约束中学习此类网络时,通常会做出简化假设,即根据一个唯一的相似性度量来比较对象。然而,对象具有各种属性,并且可以根据多个语义方面进行比较。图1. 示例说明如何根据多个相似性概念对对象进行比较。在这里,我们展示了三个直观的概念,对于必须将对象嵌入到距离保持相对相异性的特征空间中的机器视觉算法来说,这是一个挑战:鞋子属于同一类别;红色物体在颜色方面更相似;运动鞋和T恤在风格上更接近。要考虑的一个说明性例子是彩色几何形状的比较,幼儿经常接触的任务考虑一下,红色三角形和红色圆圈在颜色方面非常相似,比红色三角形和蓝色三角形更相似。然而,三角形在形状上比三角形和圆形更相似。一个最佳的嵌入应该最小化感知相似对象之间的距离。在上面的示例中以及在图1中的实际示例中,这创建了相同的两个对象在语义上同时被重新定位和绘制到彼此的标准的三元组嵌入忽略了相似性的来源,并且不能共同满足竞争的语义方面。因此,一个成功的嵌入必然需要考虑对象所比较的视觉概念。解决这个问题的一种方法是为每个相似性方面学习单独的三元组网络。然而,这个想法在所需的参数、参数的冗余以及对训练数据的相关需求方面是浪费的。831图像卷积网络解缠包埋嵌入空间的条件条件相似子空间远嘉苏密切古苏比较一根据:选择子空间“色”不同的维度为特定的相似性概念编码特征每个维度具有学习缩放参数的掩码密切类别bspacelorbspace图2. 所提出的条件相似性网络由三个关键组件组成:首先,学习卷积神经网络作为特征提取器,其学习解纠缠嵌入,即,不同的维度对相似性的特定概念的特征进行编码。第二,根据哪个视觉概念图像应该被比较来编码的条件。第三,一个学习的掩蔽操作,在给定的条件下,选择相关的嵌入维度,诱导一个子空间,编码查询的视觉概念。在 这 项 工 作 中 , 我 们 引 入 了 条 件 相 似 性 网 络(CSN),一个联合架构来学习一个非线性嵌入,优雅地处理多个概念的相似性在一个共享的嵌入使用共享的特征提取器。相似性的不同方面被纳入通过分配责任权重到每个嵌入dimen- sion相对于每个方面的相似性。这可以通过导致分离的语义子空间的掩码操作来实现。图2概述了拟议框架。图像通过卷积网络并投影到非线性嵌入中,使得不同的维度对特定相似性概念的特征进行编码。随后的掩码指示嵌入的哪些维度负责相似性的单独方面。然后,我们可以通过选择适当的掩码子空间,根据各种相似性概念来比较对象。在所提出的方法中,学习解纠缠嵌入的卷积网络以及学习选择相关维度的掩码被联合训练。在我们的实验中,我们通过学习嵌入看不见的三元组的能力来评估学习嵌入的质量我们证明,CSN明显优于单个三元组网络,甚至是专家三元组网络,其中有更多的参数可用,每个网络都是朝着一个相似性概念训练的。此外,我们表明CSN的编码,在不同的维度不同的相似性的表示可解释的我们的贡献是:a)制定条件相似性网络,这种方法允许使用共享特征提取器来学习在共享嵌入中包含多个相似性方面的非线性嵌入,b)证明所提出的方法在各种硬预测视觉任务以及c)证明我们的方法成功地将嵌入特征分解成有意义的维度,从而使表示可解释。2. 相关工作基于相似性的学习已经成为现代计算机视觉中一个广泛的兴趣领域,并已在许多情况下使用。与输入图像断开连接,基于三元组的相似性嵌入可以使用人群内核来学习[24]。此外,Tamuz et al.[21]介绍一个三胞胎的概率处理,并学习一个自适应人群内核。Amid和Ukkonen [1]以及Van der Maaten和Hinton [23]已经将类似的工作推广到多视图和聚类设置。Wilber等人提出了一种三重嵌入与输入核的组合。[27],但这项工作没有包括联合特征和嵌入学习。将输入特征与嵌入相联系的早期方法是通过排名来学习图像相似性函数[4]。将相似性与神经网络模型相结合以从相似性中学习视觉特征的基本工作路线围绕着Siamese网络[6,10],该网络使用成对距离来区别地学习嵌入与成对比较相比,三元组具有关键优势,因为它们在捕获各种高阶相似性约束而不是对的二进制相似/不相似陈述方面具有灵活性。Wang等人已经使用神经网络从基于三元组的相似性中学习视觉特征。[25] Schroff et al.[17]用于面部验证和细粒度视觉分类。这些工作的一个关键见解是,当处理高维分类问题时,三元组嵌入捕获的语义是表示复杂类结构的自然方式,并且极大地提高了模型在类之间共享信息的能力。{远{832解开表示是最近机器学习文献中的主要主题,并且例如已经由Reed等人使用玻尔兹曼机来解决。[16]第10段。Chen等人[5]提出信息理论因子分解来改进无监督对抗网络。在这一研究流中,最接近我们的工作是Karaletsos等人的工作。[12]关于表示学习,它引入了一个关于输入和三元组的联合生成模型来学习一个因子分解的潜在空间。然而,重点是,条件选择掩码嵌入特征口罩特定子空间工作是对低维数据的概念应用的解纠缠表示和证明的生成方面。我们的工作介绍了一种卷积嵌入架构,它放弃了生成路径,有利于探索嵌入高维图像数据的应用程序。因此,我们证明了不需要生成解释来获得条件相似性网络的好处,并特别证明了它们在常见计算机视觉任务中的使用。我们工作的一个主题是通过分解(或解开)潜在空间,在同一系统中对单独的相似性度量进行建模。我们注意到这些目标与表征学习中使用的各种方法的关系。多视图学习[20,26]已用于3D形状推断,并且通常被证明是学习因子分解潜在空间的好方法。 多核学习[3,19]采用不同核中编码的信息,使用合成的复杂特征空间提供预测,并且还被McFee和Lanckriet [15]用于基于相似性的学习。当来自不同来源或使用不同假设的信息可以有利地组合用于最终预测任务时,使用多任务学习方法[7]。事实上,我们的门控机制可以被解释为多任务三联体学习神经网络中的一种新颖架构。与我们的工作类似,多线性网络[14]也努力使表征因子化,但不同之处在于它们忽略了弱的附加信息。一个有趣的链接也存在于多重相似性学习[2]中,其中类别特定的相似性被用来近似细粒度的全局嵌入。我们的全局分解嵌入可以被认为是一种直接通过特征学习在共享空间中捕获相似信息的方法。我们还讨论了在我们的工作中的注意力的概念,通过采用门参加的推断嵌入的子空间时,专注于特定的视觉任务。这个术语可能会与DRAW模型[9]中使用的空间注意力相混淆,但它具有相似性,因为它表明将模型的焦点选通到相关维度(在我们的情况下是潜在空间而不是观察空间)的能力对我们模型的语义和定量性能都是有益的。图3.掩码操作选择相关的嵌入di-月经,给定条件指数。掩蔽可以被看作是一种软门控功能,用于处理特定的概念。3. 条件相似网络我们的目标是从图像x学习一个非线性特征嵌入f(x)到特征空间Rd中,使得对于一对图像x1和x2,f(x1)和f(x2)之间的欧氏距离反映了它们的语义不相似性。特别地,我们努力使语义相似对象的图像之间的距离小,并且使语义不同对象的图像之间的距离大。这种关系应独立于成像条件。我们认为y=f(x)是将观测图像x嵌入到特征空间y中的坐标中。这里,f(x)=Wg(x)阐明了嵌入函数是任意非线性函数g(·)和线性投影W,对于W∈Rd×b,其中d表示di-m表示嵌入的维数,b表示非线性函数g(·)的输出的维数。一般来说,我们用θ表示函数f(x)的参数,表示所有的滤波器和权重。3.1. 条件相似三元组除了观察图像x之外,我们还从一个oracle(如人群)中采样了一组我们在下面定义三元组约束。给定未知的条件相似性函数sc(·,·),诸如cro wd的预言机可以根据条件c来比较图像x1、x2和x3。 一个条件被定义为某种相似性的概念,可以比较哪些图像。图1给出了几个示例概念,根据这些概念,可以比较时尚产品的图像。条件c用作关注的视觉概念之间的开关,并且可以有效地在不同的相似性函数sc之间进行门控。使用图像x1作为参考,预言机可以应用sc(x1,x2)和sc(x1,x3),并决定x1是否更类似于x2或x3,条件是c。 然后,神谕在这两个距离上重新排序, 我们称之为三连音t。 一个三元组被定义为一组内-骰子{参考图像,较远图像,较近图像},例如{1,3,2}如果sc(x1,x3)大于sc(x1,x2)。833k=1我们将与条件C相关的所有三元组的集合定义为:T={(i,j,l; c)|sc(xi,xj)> sc(xi,xl)}。(一)我们无法访问穷举集T,但可以使用oracle从它中采样K次以产生有限样本TK={tk}K。3.2. 向三胞胎我们的模型所覆盖的特征空间由函数f( ·)给出。为了学习这种非线性嵌入并与观察到的三元组保持一致,我们定义了三元组上的损失函数LT(·)来模拟图像上的相似性结构通常使用的三重态损失是LT(xi,xj,xl)=max{0,D(xi,xj)−D(xi,xl)+h}(二)其中D(xi,xj)=<$f(xi; θ)−f(xj; θ)<$2。是图像xi和xj的表示之间的欧几里得距离。标量余量h有助于防止平凡解。的一般的三重丢失不能捕获由多个相似性概念引起的结构。为了能够对条件相似性进行建模,我们在嵌入上引入掩码m,其中m∈Rd×nc,其中nc是可能的相似性概念的数量。我们定义一组相同维数的参数βm,图4. 字符特征空间的两个学习子空间的2D嵌入的可视化。子空间通过关注图像表示中的维度的不同子集来获得。左边的子空间按字符类型对图像进行分组,右边的子空间根据字体样式对图像进行分组。为了清晰的视觉表现,我们将空间离散成网格,并从每个单元格中随机选取一幅图像。3.3. 鼓励定期嵌入我们希望鼓励嵌入从单位球中提取,以保持潜在空间的规则性。我们将其编码在嵌入损失函数Lw中,由下式给出m使得m=σ(β),其中σ表示一个修正的lin-2 2所以σ(β)=max{0,β}。 因此,我们将mc表示为维度为d的第c个掩码列的选择(在伪码mc=m[:,c]中)。掩模起到按元素选通函数的作用,选择需要关注的嵌入的相关维度。特别的概念。掩蔽操作的作用如图3所示。两个图像xi和xj之间的掩蔽距离函数由下式给出:D(xi,xj; mc,θ)=<$f(xi; θ)mc− f(xj;θ)mc<$2。 (三)虽然看起来是一个小的技术变化,但包含三重损失的掩蔽机制,一个非常重要的影响。掩模在相关嵌入维度上诱导子空间,有效地只关注被查询的视觉概念的相关维度。在上面的损失函数中,这转化为调制成本,逐步消除不相关特征维度之间的欧几里得距离,同时保留相关特征维度的损失结构。给定在观察到的图像的索引上定义的三元组t={i,j,l}和对应的条件索引c,最终的三元组损失函数LW(x;θ)=f(x;θ)2=y2(5)分离的子空间被计算为f(x)mc。为了防止掩模扩大嵌入并鼓励稀疏掩模,我们增加了一个损失来调节掩模:LM(m)=100000(6)在没有这些项的情况下,优化方案可以选择膨胀嵌入以创建用于新数据点的空间,而不是学习适当的参数来编码语义结构。3.4. 卷积CSN的联合公式我们定义了一个损失函数LCSN,通过将定义的损失函数放在一起来给定图像x、具有关联条件{t, c}的三元组约束以及掩码m和嵌入函数θ的参数,CSN损失被定义为:LCSN(x, {t, c};m,θ)=LT(xt0,xt1,xt2,c;m,θ)+λ1LW(x,θ)+λ2LM(m)(七)834LT(xi,xj,xl,c;m,θ)=max{0,D(xi,xj;mc,θ)−D(xi,xl;mc,θ)+h}(四)参数λ1和λ2对三元组项相对于常规嵌入项的贡献进行加权。835(a) 根据闭合机制(b) 嵌入组的靴子,拖鞋,鞋和凉鞋图5.通过CSN学习的子空间的2D嵌入的可视化空间根据(a)鞋的闭合机制和(b)鞋的类别清楚地组织这表明CSN可以成功地分离子空间。本文将非线性嵌入函数定义为f(x)=Wg(x),其中g(x)是一个卷积神经网络。在掩码学习过程中,掩码学习选择嵌入中与给定相似性概念相关联同时,f(·)学习编码视觉特征,使得嵌入中的不同维度编码关联特征。与相似性的特定语义概念有关然后,在测试期间,每个图像可以通过f(·)映射到这个嵌入。通过观察图像表征的不同维度相似性的概念。我们称之为一个功能与此属性解开跨越的特征空间,因为它保留了通过测试时间的相似性概念的分离。4. 实验我们的实验重点是评估学习的嵌入及其子空间的语义结构以及底层的卷积滤波器。4.1. 数据集我们在两个不同的数据集上进行实验首先,为了说明的目的,我们使用Bernhardsson收集的字体1的数据集该数据集包含310万个单个字符的灰度图像,每个图像的大小为64 × 64像素。该数据集根据以下因素表现出变化:1http://erikbern.com/2016/01/21/analyzing-50k-fonts-using-deep-neural-networks/字体样式和字符类型。特别是,它包含50,000种字体中的62个不同字符,我们使用前1,000种字体。其次,我们使用Yu和Grauman收集的Zappos50k鞋数据集[28]该数据集包含50,000张带有丰富注释的鞋子的图像,每张图像的大小为136 × 102像素,我们将其调整为112 × 112。图像呈现出多种复杂的变化。具体而言,我们正在研究四个不同的特征:鞋的类型(即,鞋、靴子、凉鞋或拖鞋),鞋的建议性别(即,对于女性、男性、女孩或男孩)、鞋跟的高度我们还使用鞋子的品牌信息来执行细粒度的为了监督和评估三元组网络,我们从数据集的注释中抽取三元组约束。对于字体数据集,我们对三元组进行采样,使得两个字符具有相同的类型或字体,而一个是不同的。对于美捷步的数据集,我们以类似的方式对三个分类属性进行了三元组采样。对于鞋跟高度,我们有数字测量,因此对于每个三重,我们选择两个具有相似高度的鞋子和一个具有不同高度的鞋子。首先,我们将图像分为三部分:70%用于训练,10%用于验证,20%用于测试集。然后,我们在每个集合中抽取三个样本。对于每个属性,我们收集200k训练,20k验证和40k测试三元组。4.2. 基线和模型变量作为我们实验的初始模型,我们使用在ImageNet上预训练的ConvNet。所有模型变体都是在同一组三元组上进行微调的,只是训练方式不同。我们比较了四种不同的方法,如图6所示。标准三元组网络:从三元组约束学习的常见方法是单个卷积网络,其中嵌入层从等式2中定义的三元组损失接收监督。因此,它的目的是从所有可用的三元组中共同学习,就好像它们来自一个单一的相似性度量。任务特定的三元组网络集:第二,我们与一组独立的三元组网络专家进行比较,每个专家都是在一个相似性概念上训练的。这克服了所有比较都来自单一相似性度量的简化假设然而,这是以更多参数为代价的。这是目前可用方法可实现的最佳模型条件相似网络-固定不相交掩码:我们比较了条件相似网络的两种变体.两者都扩展了一个标准的三元组网络,对嵌入向量进行掩码操作,并使用等式4中定义的损失来监督网络。第一个变量学习卷积滤波器和嵌入。的836(一)(b)第(1)款(a)(b)预定义的掩码,我们将嵌入维度的1/nc当学习掩码时,我们使用均值为0.9、方差为0.7的正态分布初始化βm在ReLU之后,这会产生初始掩码值,为每个相似性度量引入随机子空间。我们观察到,不同的随机子空间比所有子空间都从相同值开始的设置执行得与预定义掩码类似地被初始化为不相交的掩码执行与随机掩码类似的操作,但是不能学习共享特征。4.4.学习子空间图6.我们展示了在我们的实验中使用的四种不同的模型变体,并以三个对象为例,根据两个相互矛盾的相似性概念(绿色和红色)进行比较(a)同等对待所有三元组的标准三元组网络(b)分别专门针对绿色或红色的n个c-许多三元组网络专家的集合(c)具有被预先设置为不相交的掩码的CSN,使得在嵌入中,每个维度编码用于特定相似性概念的特征(d)学习的CSN,其中掩码被学习以选择与相应相似性概念相关的特征掩码被预定义为在不同的相似性概念之间是不相交的。这确保了学习的嵌入是完全解开的,因为每个维度必须编码描述特定相似性概念的特征。条件相似性网络学习掩码:第二种变体学习卷积滤波器,嵌入和掩码参数。这允许模型学习子空间的独特特征以及跨任务共享的特征。该变体具有额外的益处,即学习的掩码可以提供关于不同相似性概念如何相关的有趣见解。4.3. 培训详细信息我们为两个数据集训练不同的卷积网络。对于字体数据集,我们使用VGG架构的变体[18],具有9层3乘3卷积和两个完全连接的层,我们从头开始训练。对于Zappos数据集,我们微调了一个在Imagenet[8]上预先训练的18层深度残差网络[11]。我们移除一个下采样模块以调整较小的图像尺寸。 我们用256的小批量训练网络,并使用ADAM [13]进行优化,α=5E-5,β1=0。1,β2=0。001。对于我们所有的实验,我们使用64的嵌入维数,嵌入损失的权重为λ1=5E-3和λ2=5E-4。在每一个小批量中,我们对每种条件以相等的比例均匀地抽取三个样本我们对每个模型进行200个epoch的训练,并执行早期停止,因为我们在测试集上评估具有最高验证性能对于我们的CSN变体,我们在字体数据集的嵌入式上使用两个掩码,在Zappos数据集上使用四个掩码,每个相似性概念使用一个掩码的车型我们根据各自的相似性概念,直观地探索学习到的嵌入的一致性我们强调,所有这些语义表征都发生在由同一网络产生的共享空间中。这些表示被分解,以便每个维度为特定的相似性概念编码一个特征这允许我们使用简单的掩码操作来查看特定的语义子空间。图4显示了Fonts数据集中两个子空间的嵌入,我们使用t-SNE [22]将其投影到二维。学习的特征被成功地分解,使得由第一掩码选择的维度描述字符类型(左),而由第二掩码选择的维度描述字体样式(右)。图5和图7显示了在Zappos50k数据集上使用CSN学习的四个子空间的嵌入图5(a)示出了用于鞋的闭合机构的子空间编码特征。图5(b)示出了涉及鞋的类型的子空间。嵌入明确区分不同类型的鞋到靴子,拖鞋等。突出显示的区域揭示了一些有趣的细节。例如,右上方的高亮区域显示了附近的相同类型(“鞋”)的图像,这些图像根据所有其他方面完全不同。这意味着所选择的特征维度成功地只关注类型方面,而不编码任何其他概念。图7(a)示出了用于鞋的建议性别的子空间该子空间分离,是为女性和男性买家以及鞋为成人或青年买家。学习的子流形占据了一个旋转的正方形,其轴由性别和年龄定义。最后,图7(b)显示了鞋跟高度的连续嵌入,这是一个微妙的视觉特征。4.5. 子空间的定性分析CSN的关键特征是它们可以使用掩蔽机制来学习嵌入中的分离的语义子空间。我们在图8中可视化了常见模型选择的掩码。我们展示了传统的三重态损失,其中每个维度对于每个三重态都被同等地考虑。此外,我们展示了用于将嵌入分解为完全不相交不相交掩码线性学习面具线性嵌入层线性三胞胎来自不同的相似性线性线性卷积网络83710.5010.5010.5010.500102030405060嵌入维数指数10.5010.5010.5010.500102030405060嵌入维数指数21.510.5021.510.5021.510.5021.510.500102030405060嵌入维数指数(singleuery)(fixddisjointmasks)( learnedmasks)(a) 根据建议的性别(b) 根据鞋跟高度嵌入图7.根据(a)鞋的建议性别和(b)鞋跟的高度的子空间的可视化实验结果表明,CSN可以同时学习分类特征和连续功能.最后,我们展示一个学习的面具。有趣的是,根据上一节中给出的2D嵌入,掩码非常稀疏,这证实了概念是低维的。此外,尽管有许多额外的维度可用,但模型学会了在概念之间共享一些特征。这表明,CSN可以通过相关性确定来学习仅使用所需数量的维度,从而减少选择正确嵌入维度的需要。4.6. 三重预测的结果为了评估不同模型变体的学习嵌入的质量,我们测试了它们推广到看不见的三元组的特别是,我们对来自Zappos50k数据集的保持三元组的测试集进行三元组预测。我们首先在一组固定的三元组上训练每个模型,其中三元组来自四个不同的概念,相似性。在收敛之后,根据概念/查询c,我们针对测试集中具有关联查询{i,j,l,c}的每个三元组评估i和l之间的距离是否小于i和j之间的距离。由于这是一个二元任务,随机猜测的错误率为50%。不同模型的错误率如表1所示。 标准的三元组网络无法捕捉细粒度的相似性,错误率仅为23。百分之七十二特定于任务的三元组网络的集合大大改善了这一点,实现了11的错误率。百分之三十五这表明,简单地学习单个空间无法捕获多个相似性概念。然而,这是以nc为代价图8. 面具的视觉效果:左:在标准的三元组网络中,每个三元组都同等地考虑每个维度。中心:条件相似性网络允许专注于嵌入的一个子集来回答一个三元组问题。在这里,每个遮罩聚焦于四分之一。右:对于学习的面具,很明显,模型学习关闭每个问题的不同此外,一个小的子集是跨任务共享的。更多的模型参数条件相似性网络与固定的不相交的面具达到10的错误率。79%,明显优于单个三元组网络和专家网络集,后者有更多的参数可供学习。这意味着通过将嵌入空间分解为单独的语义子空间,CSN可以成功地捕获多个相似性概念,而不需要更多的参数。此外,CSN受益于在一个模型中共同学习所有概念,利用概念之间的共享结构具有学习掩码的CSN实现了10的错误率。73%,进一步提高性能。这表明了允许模型确定相关尺寸和跨概念共享特征的好处。表1.三元组预测结果:我们评估在学习的嵌入中有多少三胞胎来自四个不同的相似性概念。所提出的条件相似性网络明显优于标准的三元组网络,后者将每个三元组视为来自相同的相似性概念。此外,CSN甚至优于专家三元组网络的集合,其中在训练期间有更多的参数可用,并且每个网络都针对一个相似性概念进行专门训练具有学习掩码的CSN提供最佳性能。方法错误率标准三重网络23.72%一组专门的三重网络11.35%CSN固定不相交掩码10.79%CSN学习面具百分之十点七三此外,我们还评估了训练过程中可用的独特三胞胎数量对性能的影响我们的计算机模型在5,12上训练。每个概念有5个25,5万和20万三胞胎。图9示出了三重态网络通常随着更多可用的三重态而改进。此外,具有固定掩码的CSN始终优于一组特定的三元组网络。最后,具有学习掩码的掩膜4掩模3掩模2掩膜1掩膜4掩模3掩模2掩膜1掩膜4掩模3掩模2掩膜1838标准三重网络专用三元组网络集CSN -固定不相交掩码CSN -学习面具35三重预测性能30252015105k 10k 20k 50k100k200k每个概念图9. 相对于可用的唯一训练三元组的数量的三元组预测性能。具有固定掩码的CSN的性能优于专门的三元组网络。具有学习掩码的CSN通常需要更多的三元组,因为它们需要学习嵌入和掩码。但是,当有足够的三元组可用时,它们提供最佳性能。通常需要更多的三元组,因为它们需要学习嵌入和掩码。但是,当有足够的三元组可用时,它们提供最佳性能。4.7. 基于离线分类我们现在评估不同的学习方法如何影响网络的视觉特征我们比较了标准三重网络和CSN。 两者都是从相同的ImageNet预训练残差网络初始化的,并使用相同的三元组进行微调,并具有各自的损失,如第4.6节所述。我们通过随后在Zappos数据集上进行品牌分类来评估这两种方法所学习到的特征。特别是,我们保持所有卷积滤波器固定,并将两个网络的最后一个我们在Zappos数据集中选择了30个例子最多的品牌,并使用标准的多类分类方法将这30个品牌作为类进行训练。值得注意的是,用于微调的三联体并不包含品牌信息。表2. 使用任务外分类,我们评估了标准的三元组网络和CSN如何影响它们所基于的ImageNet预训练网络的卷积特征。用来自不同相似性概念的三元组天真地训练标准的三元组网络会伤害底层的卷积特征。方法前1名准确度在ImageNet54.00%标准三重网络49.08%条件相似网络53.67%结果示于表2中。在ImageNet上训练的残差网络为一般分类任务带来了非常好的初始视觉特征。从预训练的模型开始,我们观察到标准的三元组学习方法降低了视觉特征的质量,而CSN保留了大部分信息。在4.6节的三重预测实验中,标准的三重网络表现不佳,因为它们自然受到这样一个事实的限制,即在一个单一的空间中不能满足矛盾的概念。这一分类结果表明,问题甚至更深。相互矛盾的梯度不会停留在嵌入层,相反,它们会将整个网络暴露在不一致的学习信号中,并损害底层的卷积特征。5. 结论在这项工作中,我们提出了条件相似性网络学习非线性嵌入,其中包括多个方面的相似性在一个共享的嵌入。所学习的嵌入被解开,使得每个嵌入维度针对相似性的特定方面这允许通过使用逐元素掩码选择适当的子空间来根据各种概念比较对象我们证明了CSN明显优于单个三元组网络,甚至是专家三元组网络,其中有更多的参数可用,并且每个网络都被训练成一个相似性概念。此外,CSN不是一个黑盒预测器,而是定性的高度可解释的,正如我们展示的语义子流形所证明的那样。此外,他们提供了一个功能探索机制,通过学习面具表面的结构之间的不同的相似性方面的私人和共享功能最后,我们根据经验发现,用通过不同相似性概念生成的三元组来天真地训练三元组网络不仅会限制正确嵌入三元组的能力,还会损害底层卷积特征,从而影响泛化性能。建议的CSN是一个简单的实现和易于培训的端到端的替代解决这些问题。对于未来的工作,考虑使用聚类机制从未标记的三元组中学习,以无监督的方式发现相似的子结构,这将是有趣的确认我们要感谢GunnarR? tsch和BaoguangShi提供的有见 地 的 反 馈 。 这 项 工 作 得 到 了 AOL ConnectedExperiences Laboratory 、 Google Focused ResearchAward、AWS Cloud Credits for Research和Facebook设备捐赠的部分支持预测误差率(%)839引用[1] E. Amid和A.乌科宁多视图三元组嵌入:学习多个地图中的属性。 第32届国际机器学习会议(ICML-15)论文集,第1472-1480页,2015年[2] B. Babenko,S. Branson和S.贝隆吉用于分类的相似性度量: 从单 一到 特定 类别 。在 国际 计算 机视 觉会 议(ICCVIEEE,2009年。[3] F. R.巴赫湾R. Lanckriet和M. I.约旦.多核学习、圆锥对偶和smo算法。在第21届机器学习国际会议(ICML-04)上,第6页。ACM,2004年。[4] G. Chechik,V. Sharma,U. Shalit和S.本吉奥。通过排名进行大规模图像相似性在线学习。机器学习研究杂志,11:1109[5] X. Chen ,Y. 段 河 ,巴 西 - 地Houthooft , J. 舒 尔 曼岛Sutskever和P.阿比尔Infogan:通过信息最大化生成对抗网 络 进 行 可 解 释 表 示 学 习 。 arXiv 预 印 本 arXiv :1606.03657,2016。[6] S.乔普拉河Hadsell和Y.乐存。区别性地学习相似性度量, 并应 用于 人脸 验证 。计算 机 视觉 和模 式识 别(CVPRIEEE,2005年。[7] R. Collobert和J.韦斯顿自然语言处理的统一架构:具有多任务学习的深度神经网络。在第25届国际机器学习会议(ICML-08)的会议记录中,第160-167页。ACM,2008年。[8] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别(CVPRIEEE,2009年。[9] K.格雷戈尔岛Danihelka,A. Graves和D.维尔斯特拉Draw:用于图像生成的递归神经网络。arXiv预印本arXiv:1502.04623,2015。[10] R. Hadsell,S.Chopra和Y.乐存。通过学习不变映射来降低维数。在计算机视觉和模式识别(CVPRIEEE,2006年。[11] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。[12] T. Karaletsos,S. Belongie和G. 好吧。带预言机约束的贝叶斯表示在国际会议上学习表示(ICLR),圣胡安,PR,2016年。[13] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。[14] T.- Y. Lin,L.RoyChowdhury和S.玛吉用于细粒度视觉识 别 的 双 线 性 cnn 模 型 在 International Conference onComputer Vision(ICCV[15] B. McFee和G.兰克利特学习多模态相似性。The Journalof Machine Learning Research,12:491[16] S.里德,K. Sohn,Y. Zhang和H.李你学习分解多种相互作用的变化因素。在第31届机器学习国际会议(ICML-14)的会议论文集,第1431-1439页,2014年[17] F. Schroff,D. Kalenichenko和J.菲尔宾Facenet:用于人脸识别和聚类的统一嵌入。在计算机视觉和模式识别(CVPR[18] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。[19] S. Sonnen b u r g,G. Ratsch,C. Schaüfe r和B. Schoülk opf. 大规模多核学习。机器学习研究杂志,7:1531[20] H. Su,S.Maji、E.Kalogerakis和E.学习米勒。用于三维形状识别的多视卷积神经网络在国际计算机视觉会议(ICCV[21] O.塔穆兹角Liu,O. Shamir,A. Kalai和S. J·贝隆吉自适应学习人群内核。第28届国际机器学习会议(ICML-11),第673-680页,2011年[22] L. Van der Maaten和G.辛顿 可视化数据-我的天。Journal of Machine Learning Research , 9 ( 2579-2605):85,2008.[23] L. Van der Maaten和G.辛顿在多个地图中可视化非度量相似性。Machine learning,87(1):33[24] L. Van Der Maaten和K.温伯格随机三重嵌入。信号处理机器学习(MLSP),2012年IEEE国际研讨会,第1-6页。IEEE,2012。[25] J. Wang, Y. 歌、 T. 小良 C. Rosenberg,J. Wang,J. Philbin,B. Chen和Y.吴学习细粒度的图像相似性与深度排名。在计算机视觉和模式识别(CVPR[26] W.王河,巴西-地阿罗拉角 Livescu和J.比尔梅斯 深度多 视 图 表 示 学 习 。在 第 32 届 国 际 机 器 学 习 会 议(ICML-15)的会议记录中,第1083-1092页[27] M. 威尔伯岛S. Kwak、D.Kriegman和S.贝隆吉结合人机经验学习概念嵌入在国际计算机视觉会议(ICCV[28] A. Yu和K.格劳曼细粒度视觉比较与局部学习。在计算机视觉和模式识别(CVPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功