没有合适的资源?快使用搜索试试~ 我知道了~
零次学习的边缘化潜在语义编码器
6191用于零次学习的边缘化潜在语义编码器Zhengming Ding<$ and Hongfu Liu刘宏福美国印第安纳州印第安纳波利斯印第安纳大学-普渡大学计算机信息技术系美国马萨诸塞州布兰代斯大学计算机科学学院网址:zd2@iu.edu,hongfuliu@brandeis.edu摘要零射击学习已经被很好地探索,通过从现有对象获得的视觉语义函数来精确识别新的未观察到的然而,存在两个具有挑战性的障碍:一是人工标注的语义不足以完全描述视觉样本;另一个是现有类和新类之间的域转移。本文尝试在给定的语义不足以描述视觉对象时,利用语义流形中的内在联系,采用边缘化策略增强视觉语义函数的泛化能力。具体来说,我们设计了一个边缘化潜在语义编码器(MLSE),这是学习的增强看到的视觉特征和潜在语义表示。同时,潜在的语义被发现下的自适应图重建方案的基础上提供的语义。因此,我们提出的算法可以丰富的视觉特征,从看到的类,以及推广到未观察到的类。零拍基准测试的实验结果表明,该模型提供了优越的性能比国家的最先进的零拍学习方法。1. 介绍随着数据规模的快速增长和学习模型的不断改进,可视化数据分析技术近年来取得了巨大的进步。传统的视觉识别系统大多采用有监督的策略,需要大量标注良好的实例来寻求高性能的模型。不幸的是,为有效的模型收集足够的训练样本是昂贵的,甚至是禁止的,特别是当这些样本需要细粒度的注释时。因此,建立这样的识别系统是有吸引力和必要的,它可以在测试阶段识别新的类别,而在训练过程中只有有限的甚至没有零触发学习(Zero-shot learning,简称ZRL)近年来兴起,以其良好的性能受到广泛关注语义编码器尾巴黑色毛皮条纹大白色语义表示Z图1.我们的边缘化潜在语义编码器的图示,其中构建语义编码器以桥接在边缘化腐败E(X)中 的 视 觉 特 征 和具有WE(X )Z 的 潜 在 语 义 Z 。此外,潜在语义是通过自适应图(ZAS)在给定的语义A上学习的将知识从观察到的物体推广到看不见的物体[22,8,33,11,6,17,14,31,3,26,7,28]。事实上,在识别未知类的过程中,人类的认知学习机制促使了学习算法的产生。CNOL试图从观察到的对象中发现内在的视觉语义映射,并将其推广到未观察到的类别。最常采用的方法之一是将可见类的视觉特征及其相应的语义嵌入到同一个公共空间中,以耦合两个之间的语义间隙,这意味着不可见类及其语义和视觉样本也嵌入到同一个空间中。大多数现有的视觉语义模型专注于寻求视觉语义功能,仅依赖于提供的视觉数据及其语义[4,22,12,13]。视觉语义功能可以简单地是线性映射[23],或双线性映射[4],或甚至复杂的非线性功能,包括字典学习[8],自动编码器[12,17,3,34]和生成模型[38,31,9,7],其中生成模型通常有希望在训练阶段增加可见类的空间并且更可能覆盖未可见类的空间。虽然现有的知识表示方法在将已知知识推广到非知识表示方面取得了一些有希望的结果狮子老虎狮虎豹美洲狮视觉特征X自适应图S6192见[12,17,3,34],仍然存在两个退化点。首先,它提出了一个普遍的挑战,没有训练数据的不可见的类,这导致模型选择的困难。在可见和不可见类之间的域转移将阻止学习的视觉语义功能的泛化能力。因此,如何在观察对象上学习一个有效的、兼容的视觉语义映射是视觉语义映射问题的关键。其次,基于观察样本的信息一方面,语义属性是主观标注的,不足以跨越视觉特征空间;另一方面,视觉语义映射仅在可见类别上学习,其中可见和不可见类别上的不同视觉分布阻碍了测试阶段中的有效概括。为此,已经做出了巨大的努力来应对上述挑战[38,31,9,7];然而,他们中的大多数人忽略了潜在语义表示中更通用的视觉语义映射学习的巨大潜力。在本文中,我们开发了一种新的边缘化潜在语义编码器(MLSE)来处理前面提到的两个零射击障碍(图1)。我们的主要假设是,潜在语义表示可以更好地描述与人类注释的视觉样本相比,和通用语义编码器能够更好地捕捉看不见的知识,通过扩大可见类的视觉空间,通过边缘化去噪策略。此外,我们利用稀疏残差约束来寻找有意义的语义嵌入空间,并指导潜在语义表示学习。总而言之,我们的贡献如下:首先,我们推导出一个通用的编码器,以适应的内在知识和共享功能的观察类下的边缘化增强。因此,一个通用的语义编码器可以覆盖更多的知识,为看不见的类别,从而推广以及在测试阶段。第二,我们自动学习新的潜在语义,以寻求更有效的原型,从已知的类,通过自适应图重建策略在给定的语义。因此,我们的模型能够学习更有效的信息与给定的人类注释的语义。最后,我们进一步采用一个稀疏正则化器来约束自适应图学习,保持原有的内在信息,并去除离群点和噪声因素。因此,我们的模型能够有效地学习潜在语义。2. 相关工作零镜头学习(Zero-shot learning,简称ZRL)是针对视觉概念的学习模型,没有概念的评价数据。作为在训练过程中,来自这样的未知评估类的视觉知识是不可访问的,因此,CNOL需要外部语义来补偿未知的视觉信息。到目前为止,基于属性的描述被广泛用于定义跨各种类别的共享特征[20,21],这是将视觉特征与其语义联系起来的中间域。早期的BML探索了两阶段方法中的属性,以从看不见的类中预测给定图像的标签一般来说,任何给定图像的属性都是在第一阶段分配的,然后通过使用最近邻分类器搜索类属性表来推断其类标签。直接属性预测(DAP)和间接属性预测(IAP)是两项开创性的研究,它们采用隐藏的属性层作为变量,将图像与标签层解耦[15]。然而,这种两阶段方法存在中间任务和目标任务之间的分布差异,因为目标任务负责分配类标签,而中间任务负责获取属性分类器。最新的研究成果寻求从视觉特征空间到语义空间的直接映射。沿着这条线,Akata et al.优化结构SVM损失以实现双线性兼容性[2]。此外,他们提出通过排名损失在视觉和语义上构建双线性兼容性函数[1]。另一方面,Romera-Paredes et al.利用平方损失获得双线性相容性并显式正则化目标[23]。近日,江等。也采用了字典学习框架来寻找潜在的属性,这不仅是歧视性的,而且还保持语义[11]。Liu等人探索了一种对投影矩阵具有秩约束的语义自动编码器,以保留更多的内在结构[17]。一些生成模型是通过寻找生成器作为视觉语义映射函数而提出的[38,31,9]。他们主要探索语义上的条件生成器,为可见类合成更多的视觉特征,从而有更好的机会减轻可见类和不可见类之间视觉空间的域转移。然而,生成模型通常很难训练,因为它的最小-最大优化。此外,视觉语言学的另一个方向是将视觉和语义特征嵌入到一个共享的中间空间中。在此之后,Zhang etal.将视觉特征和语义特征映射到两个不同的潜在空间中,并通过寻求一个双线性相容性函数来度量它们的相似性[36]。此外,Changpinyo et al.探索了一种混合模型,并通过采用基本分类器的线性组合来构建未见过类的分类器,这些基本分类器是在来自可见类的判别学习框架中训练的[5]。不幸的是,大多数现有的CPDL方法很少关注未知猫的判别信息···6193···∈ǁ· ǁ∈∈∅∈∈2·D{}∞考虑到类内的高度可变性,因此,他们将无法揭示可见类和不可见类之间的共同因此,我们假设所提供的语义不足以描述视觉对象,因此旨在寻求更好的潜在语义表示。同时,我们学习了一个通用的语义编码器与边缘化的增强策略,以有效地处理域转移,发现共享的歧视性特征,在看到的和看不见的类别。3. 该算法3.2.通用语义编码器学习使用破坏分布来增强视觉语义函数的泛化的一种自然方法是通过选择训练样本的每个元素并对其进行k次破坏来探索[18]的精神。对于所看到的视觉特征X,这导致对应的损坏的观测结果。x∈l(其中l=1,,k)。因此,我们提出了一个语义编码器来编码每个损坏的X语言与语义表示,sentationA如下:1k2在这一部分中,我们讨论了我们的小说《边缘人》--minW kl=1 WX l−A S. t. WW=Im,(1)具有潜在语义表示的tic编码器,用于有效的零射击学习。3.1. 企业动机考虑有C个具有n个标记实例的可见类别D={X,A,y}和C u个具有n u个未标记实例的不可见类别u=Xu,A u,y u .每个实例用d维视觉特征向量表示yRn和yuRnu分别表示可见和不可见类别的类标签。更具体地说,看得见的和看不见的类别在类别上是不重叠的哪里F是Frobenius范数,X是第l个corr。X 的 中 断 版 本 。 注 意 , 正 交 约 束 WW=Im(ImRm×m)是为了避免平凡解。虽然属性语义在分类问题中被广泛使用,但有两个问题需要考虑。首先,人类注释的属性并不总是达到相似的重要性的歧视,因此,这将是不可取的,以寻求更丰富的语义。第二,不同属性之间存在相关性;因此,单独学习每个属性是不合适的。血淋淋的信息,也就是说,=.因此,语义表示- m×n换句话说,它太强了,无法强制A成为语义输出. 因此,我们探索学习新的潜在语义,以重新sentations弥补了这一挑战,其中AR和AuRm×nu分别是可见范畴和不可见范畴的m维语义. 对于所看到的类别,A是针对视觉特征X给出的,其被标记为放松约束。此外,我们引入边缘化去噪策略来考虑k趋于. 为此,我们探讨了弱的larr ge数和重新公式化1-kWX表示其核心的二进制或连续属性响应类标签y。相比之下,Au必须被预测,因为看不见的类别没有被注释。的期望公式:.minEkl=1lFΣ2 2直观的认知语言学是学习一个视觉语义函数,W、ZWX−Z+α<$Z−A<$F,(二)发现视觉特征和语义特征的个体维度。由于可见和不可见类别之间的分布差异,在视觉语义功能学习期间减轻这一挑战至关重要。由于可见类别X和不可见类别Xu是从各种视觉特征空间中采样的;幸运的是,A和A u通过彼此共享一些公共语义来补偿。 将基于属性的语义作为例如,可见和不可见类别都可以用二进制或连续的各种值中的人类注释属性来描述。此外,我们注意到人类提供的语义不足以全面描述视觉样本.为此,我们提出了边缘化的潜在语义编码器来处理这两个挑战。首先,我们探索在模型训练过程中使用边缘化去噪策略来多样化所见类其次,潜在语义表示寻求更好地描述视觉样本与自适应图学习。S. t. WW= Im,其中E()是期望算子,α是权衡参数。第二个约束强制Z类似于给定的语义A,这可以帮助确保学习的语义编码器描绘视觉语义关系。异常损失最小化导致语义编码器学习中的数据增加,这将提高所提出的模型的泛化能力,特别是在处理零射击学习问题时。3.3. 自适应图引导潜在语义考虑到来自一个类别的样本位于复杂流形上的现象新月形流形,它显然不是一个正确的方式,直接使用它的中心作为其原型或范例到该类。此外,人工标注的语义通常不足以全面描述视觉样本。但是,不同类别的语义应该共享。因此,我们采用流形学习的思想来揭示潜在的6194⊤ ⊤22nF2˜ ˜⊤FFǁ· ǁF√S=1 n (1n是一个全1n-)nn2Fnn2ǁ −ǁS. t. W W= Im,S =,S≥0,≥语义表示的基础上提供的语义约束图流形的新的重建。因此,在潜在语义学习中,位于同一局部模型中的实例的语义可以相互补偿。为了揭示更多的语义知识,我们提出了自适应图重构项,以如下对齐潜在语义Z和给定语义A:语义编码器具有更好的泛化能力,以un-seen类。3.4. 优化可以直接观察到方程中的三个变量W、S和Z。(4)不能联合优化。为了解决这个问题,我们首先通过引入一个额外的变量Ede将其转换为增广拉格朗日函数,.Σ最小E=22定义为E=S-H(S≥0):W、Z、SWX−Z+αZ−ASF(三)、ΣS. t. WW = I,1<$S=1<$,S≥0,J=EWX +αZ−A S2+βE1mn n.FF(五)简体中文1S−1dim向量)和S≥0,用于保证为了消除约束1S=1得到的图形系数。为了探索S上更多的内在结构,我们考虑具有预定义的图权重ma-H的残差最小化,该图权重ma-H是从谱对偶图计算的。具体地说,我们从视觉特征X和其对应的语义S两个方面来探索数据结构。我们建立了两个k-nn图GX和GA的基础上的视觉和语义特征,分别。我们首先使用余弦相似性来n n有效地,我们通过引入惩罚项来放松约束µ1S12转化为方程(5)和μ是一个正参数,之三.由于Eq.(5)是非光滑和非凸的,因此,我们设计了一个有效的求解方程。(5)分别关于W、S、Z和E学习语义编码器W:给定Z,目标函数w.r.t. W简化为:计算两个图的权重,即,Hx和Ha,则利用一种简单的融合策略来获得权重矩阵HH=Hx+ Ha。 然而,学习的图Gx和GaW=arg minEWW=Im.WXΣ、(6)可能遭受来自数据的任意噪声。 最坏的在这种情况下,它将显著影响潜在语义表征的学习,进而影响语义编码器。为此,为了提升结构信息和抑制噪声数据点的影响,我们首先探索l1-范数来约束H和S之间的残差,以计算出由离群点或其中,E(X)可以通过以下方式计算[18]。 为了解决方程中的非凸问题。 (6)由于正交约束W ∈W =Im,我们探索梯度下降优化[29]。一般来说,我们首先计算Jw.r.t W的梯度为:J.˜˜ ⊤Σ˜⊤噪声样本我们期望S的大多数元素是相似的=2WEXXW-2ZE(X),以保持原始的内在结构,而一些对异常值来说是不同的。因此,我们实现了鲁棒图.Σ其中EXX和E(X) )可按以下方式计算引导语义编码器如下:ing [18]. 在此之后,我们计算了斜对称ma-最小EW、Z、S.ΣWX+αZ−AS2 +βS−H1继续更新W直到我们到达Armijo Wolfe condi[27].⊤1⊤1⊤n n(四)其中β是三个分量之间的折衷。1是矩阵的l1算子,通过学习一个更有效的自适应图来检测原始对偶图中的离群点注:等式中的目标函数。(4)通过边缘化去噪策略和自适应图重构指导的潜在语义表示,同时寻找语义编码器。通过这种方式,我们的SE-MANIC编码器可以有利于人工数据增强,以跨越所见类的视觉特征空间。此外,自适应图重构方案可以帮助学习更有效的潜在语义表示假设给定的语义不足以描述视觉特征。两种策略往往会相互触发,学习自适应图S:给定Z,E,我们放松非负约束,重写目标函数w.r.t. S为:J=<$Z<$−A<$S<$2+tr(ΓS<$),(7)Whe reZ为[αZ,α1n,α1 n(H+E)]和A′=[αA,µ1n,µIn]。对于约束S0,我们引入拉格朗日乘数r,这是一个额外的变量。为了-相应地,我们可以通过以下推导来减轻Γ的优化具体来说,我们得到J对S的偏导数,并将其设置为零,如下所示:其中两个约束,即,16195J−=2A<$S(A<$SZ<$)+Γ=0。S6196⊙⊙F不FF不算法1求解方程中的问题 (五)输入:X、A、H、α、β单位:μm=106,μ0=10−1,ρ=1。3,τ=0。而不收敛1. 通过等式更新Z(10)与其他固定。2. 通过等式更新S、E(8)和(9)与其他固定。3. 通过等式更新W(6)其他固定。4. 更新惩罚μτ+1=min(ρμτ,μm)。5. 检查收敛条件|Jτ+1− Jτ|<10-3 6. τ=τ+1。end while输出:W、S、E、Z。通过KKT条件ΓS=0(即Hadamard乘积),我们可以得到以下公式:表1.四个CNOL基准的统计数据。数据集aP aYAwA2幼崽孙#培训类别2040150645#测试类别12105072样本数量15,33937,32211,78814,340#语义6485312102培训样本5,93223,5277,05710,320测试样本数量1,4835,8821,7642,580未观察到的测试样本数量7,9247,9132,9671,440价值观对于零镜头检索,我们将采用给定的语义at来搜索预测语义WXt上最相似的视觉样本。中文(简体)Σ¯⊤¯ ¯4. 实验2A(AS − Z)+ Γ S = 0。在[37]之后,我们得到S的更新规则:.AAS在这一部分中,我们进行了实验上的四个OWL基准,通过比较我们提出的方法与国家的最先进的OWL从传统的和广义的OWL任务。S=SAZ,(8)4.1. 数据集实验设置其中我们减轻了Γ的优化。在我们优化S之后,E可以进一步更新为下面的L1优化问题:E= arg minβE1+µS−H−E2在我们的实验中评估了四个零射击学习基准,包括SUN属性数据集1,具有属性的动物2(AwA 2)2,Caltech-UCSD Birds 2011(CUB ) 3和aPascal-aYahoo(aP aY)4。表1提供了它们的统计数字。所有这些基准都附有注释E.= signS-HΣMax.βΣ|− 2 µ,0.| −2µ, 0.(九)美德.先知-愿由于这四个基准的原始分割中的一些看不见的测试类别属于ImageNet的一部分[24],学习潜在语义Z:给定W,S,我们可以更新Z通过最小化Eq.(10)w.r.tZ:.ΣZ=argminEWX−Z2+α<$Z−A S<$2Xian等人最近提出了一种新的分割方案[32],以真正的零发射评估为目标。在我们的实验中,我们严格遵循分割协议,并为所有四个基准测试采用2048-D ResNet-101功能[32]。更多-此外,我们利用连续属性来获得更好的可扩展性,Z1=α+1.ΣWE(Xε)+αAS。(十)表演。对于我们的k-nn图模型,我们简单地采用k=10作为各种任务的默认值。The trade-off p.为了更清晰,我们在算法1,其中我们列出了一些变量的初始化。为了确保良好的收敛性,我们用X和A之间的映射初始化W。为简单起见,其他变量用随机矩阵初始化。α和β是两个超参数,将基于验证集来选择。在模拟任务中,有不同的情况进行评估。对于零射击识别,我们要在给定任何参考视觉数据的情况下预测它们的类别。考虑测试数据xi,我们可以首先使用语义编码器计算其预测语义嵌入Wxi,然后与具有Ct类的真实语义表示At进行比较(Ct将覆盖可见类C和不可见类Cu)。对于零注记,我们只是利用预测的语义,通过几个最大的根据对验证集中所见类别的标记样本的评估性能,从范围[10- 2,102]中选择参数。然后直接利用所选参数对原始的可见类和不可见类进行评价。因为不同的初始化会导致我们提出的模型的不同的最佳解决方案,我们运行了五次我们的模型,并报告了每个任务的平均结果。基线:与最新技术水平的比较包括DAP/IAP [16]、CONSE [19]、CMT [25]、SSE [35],1 http://cs.brown.edu/www.example.com。HTML2https://cvml.ist.ac.at/AwA2/3http://www.vision.caltech.edu/visipedia/CUB-200-2011.html4http://vision.cs.uiuc.edu/attributes/6197→→表2.在SUN、CUB、AWA2和aP aY基准测试中,使用ResNet视觉功能进行常规零触发识别(根据前1准确度(%))。方法孙幼崽AwA2aP aY民主行动党[16]39.940.046.133.8[第16话]19.424.035.936.6CONSE [19]38.834.344.526.9[25]第二十五话39.934.637.928.0[35]第三十五话51.543.961.034.0LATEM [30]55.349.355.835.2ALE [1]58.154.962.539.7[第10话]56.552.059.739.8SJE [2]53.753.961.932.9西班牙语[23]54.553.958.638.3同步[5]56.355.646.623.9严重不良事件[12]40.333.354.18.3PSR [3]61.463.856.038.4吉隆坡[34]61.751.770.545.3我们62.864.267.846.2[30][ 31][32][33][34][35][36][37][38][39[12][ 13][14][15][ 最后一其中两个是最近提出的最新算法。PSR还旨在通过挖掘最相似和最不相似的对来探索关系结构,从而可以学习更具区分性的度量。RankKL试图通过探索核函数来学习跨视觉特征和属性空间的非线性映射。请注意,结果直接复制自其他已发表的论文,即,[32,3,14],因为我们探索完全相同的协议和相同的数据集。此外,该方法涵盖了广泛的零射击学习领域。评估指标:Top-1准确度广泛用于衡量单标签分类准确度。也就是说,预测是正确的,因为赋值类标签等于地面实况标签。在零射击学习中,每个类别的前1准确度更受重视,因为高性能在人口密集和人口稀少的类别中都受到鼓励因此,我们对每个类别的准确预测进行独立的平均,然后除以它们的累积和,w.r.t类别的数量[32]。对于广义零激发学习(GSTRL)场景,在评估阶段期间的搜索空间不仅限于未见过的类(U),而且还由已见过的类(S)组成。因此,调和平均值5通过计算训练和测试类别上的平均每类前1名准确度来衡量GALML性能更受欢迎[32]。这种策略能够标记那些过度拟合到可见或不可见类的CNOL模型5https://en.wikipedia.org/wiki/Harmonic_mean4.2. 常规零炮识别本节报告了在前1精度方面对传统零触发识别的比较结果(表2)。从表2中,我们看到,我们提出的算法是能够获得更好的性能,通过比较与其他人。这验证了我们的方法从可见数据中学习更有效的视觉-语义关系,用于不可见数据分析。根据每个基准点的视觉图像的复杂度,所获得的改进是非常一致的,这可以从众所周知的复杂CUB数据集观察到。另一方面,我们的模型在SUN基准测试中仍然表现得很好,SUN基准测试包含更多的类,每个类的训练实例相对较少对于AwA2,只提供类属性,因此我们的模型通过探索不同实例和类别之间的关系来恢复丢失的属性是具有挑战性与PSR和KKL探索非线性神经网络或核函数来连接视觉和语义相比,我们的模型也保留了这种非线性特性。由于我们试图学习一种潜在的语义表征,它为视觉特征和提供的语义之间架起了一座桥梁。特别地,我们利用自适应图来重建潜在语义。所有这些都为学习的通用编码器提供了更大的灵活性,从而能够提高不可见类的泛化能力。此外,定性结果报告我们设计的模型。我们的目标是列出什么样的视觉信息,我们的算法是能够捕捉只有给定的se-mantic表示为看不见的类别。图2报告了CUB数据集中50个看不见的类别中的10个,其中我们显示了前3个准确检索的样本(中间一行为红色),而前3个错误分类的样本(最后一行为蓝色)进入每个看不见的类别。该模型从顶层图像开始观察,仅利用其语义表示,合理地发现每个不可见类别的区分性视觉信息我们进一步注意到,错误分类的视觉图像与指定类别的视觉图像有很大的不同。因此,很难识别它们,即使是人类。4.3. 广义零炮点识别在更一般的应用中,我们不确定测试图像是否属于可见的类别或完全不可见的类别,这从实际的角度来看更有趣。从这个意义上说,许多研究工作都集中在通用化的零射击挑战上,其中测试集建立在可见和不可见的类别数据上。表3报告了所有比较的一般化的CNOL性能,其中UU+S和SU+S表示两种类型的GML,用于评估学习的不可见/可见模型是否相互混淆。H表示谐波意思从表3中,我们可以很容易地注意到,广义的CNOL结果明显低于传统的CNOL6198槽黄头勃兰特古铜色布朗黑嘴的黄嘴的黄腹北部船尾比尔·阿尼黑鸟鸬鹚燕八哥爬行杜鹃杜鹃鹟暴风八哥图2.在CUB基准上对我们提出的模型进行了定性评估,其中10个看不见的类别标签列在顶部。然后,我们报告分配给中间每个类别的前3个样本最后,最后一行显示了前3个错误分类的实例。表3.在四个基准测试中的广义EML识别性能(%)方法孙U→S+U S→S+U幼崽H U→S+U S→S+UAwA2H U→S+U S→S+UaP aYH U→S+U S→S+U H民主行动党[16]4.225.17.21.767.93.30.084.70.04.878.39.0[第16话]1.037.81.80.272.80.40.987.61.85.765.610.4CONSE [19]6.839.911.61.672.23.10.590.61.00.091.20.0[25]第二十五话8.121.811.87.249.812.60.590.01.01.485.22.8[35]第三十五话2.136.44.08.546.914.48.182.514.80.278.90.4LATEM [30]14.728.819.515.257.324.011.577.320.00.173.00.2ALE [1]21.833.126.323.762.834.414.081.823.94.673.78.7[第10话]16.927.420.923.853.032.817.174.727.84.976.99.2SJE [2]14.730.519.823.559.233.68.073.914.43.755.76.9西班牙语[23]11.027.915.812.663.821.05.977.811.02.470.14.6同步[5]7.943.313.411.570.919.810.090.518.07.466.313.3严重不良事件[12]8.818.011.87.854.013.61.182.22.20.480.90.9PSR[3]20.837.226.720.773.832.324.654.333.913.551.421.4吉隆坡[34]20.131.424.521.652.830.618.982.730.810.576.218.5我们20.736.426.422.371.634.023.883.237.012.774.321.7一个。这是因为在搜索空间中包含了可见的类别,这些类别充当了不可见样本的干扰物。一 个 有 趣 的 现 象 是 兼 容 性 学 习 算 法 , 例 如 ,DEVISE、ALE和SJE能够在看不见的类上获得良好的性能。然而,这些方法在可见类上表现良好,因为它们寻求独立的属性或对象分类器,例如,DAP和CONSE。与这些方法相比,我们提出的模型也取得了非常有竞争力的结果,在每个度量,特别是在调和均值测量。在调和均值测量方面,我们提出的方法在SUN、AwA2和aP aY数据集上表现最好,而在CUB数据集上表现第二好,其中ALE优于其他数据集。这也验证了我们所提出的方法在广义任务的有效性。6199MLSE-AMLSE-GMLSE-LMLSE709000800060700060005050004000403000302000100070656055504521.51 0.50.10log(,)-0.1-0.1-0.5-1-1.5-2200-0.5-110.50.1log(单位:升)Sun CUB AwA2 aP aY5101520253035404550-1.5-221.5(a)(b)迭代(c)第(1)款图3.(a)对不同变量的评价;(b)我们提出的算法对四个任务的收敛曲线;(c)使用CUB任务的α和β参数的影响4.4. 实证分析首先,我们评估了我们提出的MLSE的几个变体,以更深入地了解每个组件的功效。①的人。MLSE-L表示我们使用F-范数来代替等式中的l1-范数。(4);(2). MLSE-G表示Eq.(3). MLSE-A表示我们使用预定义的图G来代替等式2中的(3)(即,β=0); MLSE-I是我们将S设置为单位矩阵的版本。 然后,我们对四个基准测试并在图3(a)中报告比较结果,其中我们注意到,当我们直接强制潜在语义Z接近给定A时,性能显著下降。使用图重构格式,性能提高了很多,这表示图重构能够补偿跨各种样本和类别的属性此外,自适应图可以有助于增强不同的语义任务的性能,这意味着自适应图能够自动捕获潜在语义和给定语义之间的关系最后,我们还见证了改进与稀疏l1稀疏正则化。其次,从实证的角度证明了模型的收敛性.我们提出的算法的四个基准的收敛曲线如图3(b)所示,我们观察到我们的模型在几次迭代后具有良好的收敛性,特别是在40次迭代后。实验结果表明,该模型具有较好的收敛性.第三,我们从识别性能的角度验证了参数的影响,以评估两种新的正则化器。我们使用ResNet特征联合评估CUB任务的α和β。从图3(c)中,我们注意到识别性能会随着α和β的值变大而增加,这表明这两个参数在我们的语义编码器中起着重要作用。最后,我们使用ResNet特征作为输入,可视化了10个看不见的AwA2类别及其学习的潜在语义Z。具体来说,我们探索t-SNE6,以将未见过数据点的学习潜在语义嵌入到2-D6https://lvdmaaten.github.io/tsne/100806040200-20-40-60-80电话:+86-10- 88888888传真:+86-10 - 88888888图4.使用学习的语义Z可视化来自AwA2的10个不可见的类数据点。相同的颜色表示相同类别的数据点。平面图4从结果中,我们注意到大多数类是分离的,而一些样本从看不见的类是重叠的。这表明我们的模型是有效的推广到看不见的类。5. 结论本文通过学习自适应的潜在语义表示,提出了一种新的零射击学习算法。具体地说,我们提出了一个有效的知识转移模型,通过共同寻找一个通用的语义编码器和学习潜在的语义表示。为了扩大可见类的视觉空间,我们利用边缘化去噪策略来覆盖不可见类。此外,我们寻求一个自适应的重构系数,通过捕捉更多的内在信息,从给定的语义学习潜在的语义表示。传统的和广义的语义编码器的评估在四个语义编码器的基准测试中被证明是有效的。AwA2SUNCUBaP aYTop1准确度(%)客观价值Top1准确度(%)06200引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特用于图像分类的标签嵌入. TPAMI,38(7):1425- 1438,2016。二六七[2] Z. Akata、S.里德D.沃尔特,H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。在CVPR,第2927-2936页,2015年。二六七[3] Y. Annadani和S.比斯瓦斯为零次学习保留语义关系。在CVPR中,第7603-7612页,2018年。一、二、六、七[4] M. Bucher,S. Herbin和F.朱丽通过度量学习提高零拍分类的语义嵌入一致性在ECCV,第730-746页中。施普林格,2016年。1[5] S. Changpinyo,W.- L. Chao湾Gong和F.煞用于零射击学习的合成分类器。在CVPR,第5327-5336页,2016年。二六七[6] S. Changpinyo,W.- L. Chao和F.煞为零射击学习预测看不见的类的在ICCV,第3476-3485页1[7] L. Chen,H. Zhang,J. Xiao,W. Liu和S.- F.昌零镜头视觉识别使用语义保持的逆向嵌入网络。在CVPR,第2卷,2018年。一、二[8] Z. 丁,M.Shao和Y.Fu. 用于零射击学习的低秩嵌入式在CVPR中,第2050-2058页,2017年。1[9] Z.丁,M. Shao和Y. Fu.通过低秩嵌入式语义词典的生成式零射击学习。TPAMI,2018年。一、二[10] A. 弗罗姆,G。S. Corrado,J.Shlens,S.Bengio,J.迪恩T. Mikolov等人Devise:一个深度的视觉语义嵌入模型。在NeurIPS,第2121-2129页,2013中。六、七[11] H. 江河,巴西-地Wang,S.山,Y.Yang和X.尘学习零射击分类的判别潜在属性在CVPR中,第4223-4232页,2017年。一、二[12] E. Kodirov,T. Xiang和S.龚用于零触发学习的语义自动编码器在CVPR中,第4447-4456页,2017年。一、二、六、七[13] S. Kolouri,M. Rostami,Y. Owechko和K. Kim.零次学习的联合字典。在AAAI,第3431- 3439页,2018年。1[14] 诉Kumar Verma,G.阿罗拉A.Mishra和P.荷伊通过合成的示例进行一般化的零触发学习。在CVPR中,第4281-4289页,2018年。1、6[15] C. H. Lampert,H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类在CVPR,第951-958页,2009中。2[16] C. H. Lampert,H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。TPAMI,36(3):453-465,2014年。五、六、七[17] Y.刘,智-地高杰李杰Han和L.邵通过低秩嵌入式语义自动编码器进行零拍摄学习。在IJCAI,第2490-2496页一、二[18] L. Maaten,M.Chen,S.Tyree和K.温伯格学习边缘化的腐败特征。ICML,第410- 418页,2013年。三、四[19] M.诺鲁齐T.米科洛夫,S。本焦湾Singer,J. 史伦斯A.弗罗姆,G。Corrado,J。Dean.基于语义嵌入凸组合的零次学习。2014. 五、六、七[20] D. Parikh和K.格劳曼相对属性。见ICCV,第503-510页。IEEE,2011年。2[21] P. Peng,Y.彭文斌,中国农业科学院农业科学研究所所长。田氏T. Xiang,Y.湘,四川人Wang和T.煌语义和潜在属性的联合学习。见ECCV,第336-353页。施普林格,2016年。2[22] G.- J. Qi,W. Liu,C. Aggarwal和T.煌联合多式联运和多式联运内标签转让极其罕见或看不见的类. TPAMI,39(7):1360-1373,2017。1[23] B. Romera-Paredes和P.乇一种非常简单的零射击学习方法。第32届机器学习国际会议论文集,第2152-2161页,2015年一、二、六、七[24] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。Bernstein等人图像网大规模视觉识别挑战。IJCV,115(3):211-252,2015. 5[25] R. Socher,M.甘朱角D. Manning和A.Ng. 通过跨模式迁移实现零镜头学习。NeurIPS,第935-943页,2013年。五、六、七[26] J. Song,C. Shen,J. Lei,A.- X. Zeng,K.欧,D.涛和M.歌具有增强属性的选择性零炮分类。在ECCV,第468-483页,2018年。1[27] W.太阳和Y X.元优化理论和方法:非线性规划第一卷Springer Science Business Media,2006. 4[28] X. Wang,Y.Ye和A.古普塔。通过语义嵌入和知识图进行零炮识别在CVPR中,第6857-6866页,2018年。1[29] Z. Wen 和W. 尹正 交约束优 化问题 的一种 可行方法Mathematical Programming , 142 ( 1-2 ) : 397-434 ,2013. 4[30] Y.西安Z. Akata,G. Sharma,Q.阮,M。海因,还有B. 席勒零激发分类的潜在嵌入在CVPR,第69-77页,2016年。六、七[31] Y. Xian,T.洛伦茨湾Schiele和Z.赤田用于零触发学习的特征生成网络在CVPR中,第5542一、二[32] Y.西安湾,澳-地Schiele和Z.赤田零射击学习-好的,坏的和丑陋的。在CVPR中,第3077-3086页,2017年。五、六[33] X. Xu,F.沈,Y.Yang,杨氏D.Zhang,H.T. Shen和J.歌矩阵三因子分解与流形正则化零射击学习。在CVPR中,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功