没有合适的资源?快使用搜索试试~ 我知道了~
10333零触发学习中三重态损失下类间和类内关系的建模Yannick LeCacheux CEA LISTyannick. cea.frHerve 'LeBorgneCEALIST邮箱:herve. cea.frMichel CrucianuCEDRICmichel. cnam.fr摘要识别视觉不可见的类,即.没有训练数据可用的情况下 , 称 为 零 射 击 学 习 ( ZeroShot Learning , 简 称ZRL)。一些性能最好的方法将三元组损失应用于所看到的类,以学习图像的视觉表示与构成类原型的属性向量之间的映射。然而,它们做出了一些隐含的假设,这些假设限制了它们在实际用例中的性能,特别是在包含大量类的细粒度数据集上我们确定了其中的三个假设,并提出了相应的新贡献,以解决这些问题。我们的方法包括同时考虑类间和类内关系,分别通过对相似类之间的混淆更加宽容,以及通过惩罚对它们的类来说非典型的视觉样本。该方法在包括大规模ImageNet在内的四个数据集上进行了测试,其性能显着高于最近的方法,甚至是基于更严格假设的生成方法。1. 介绍零激发识别的任务,也称为零激发学习(Zero-shotlearning,简称ZRL)[1,18,20,26],包括对属于不可见类的样本进行分类,对于这些样本,没有训练样本可用。相反,唯一可用的训练样本来自不同的类,称为所见类;对于每个这样的类,还提供了一个“语义”表示以及训练样本。在测试时,不可见类的语义表示可用于进行预测。虽然可在许多不同的上下文中应用,但它通常指的是样本具有视觉性质并且语义表示(也称为类原型)包含在属性向量中的例如,如果考虑动物的图像,则属性可以是腿或翅膀的数量、毛皮或条纹的存在。在他们的开创性工作中,Lampertet al.”[18]他用了一个比喻。图1. t-SNE [23]来自CUB [37]的前8个训练类的第6类和第7类看起来很相似,比第6类和第2类更接近,第2类的雏鸟与同类中的其他样本相距甚远。我们建议明确考虑这些类间和类内关系。最好用彩色观看。简单分类器的组合,以估计给定视觉特征的属性和类的概率。其他方法[31,32]使用最小二乘回归模型来预测一种模态与另一种模态的关系。三重损失方法更接近最终的分类目标。他们认为,每个视觉样本应该比其他所有样本更类似于对应于其类的原型。如何第3.1条D E V I SE [12]通过简单地对所有训练样本和所有候选类的惩罚进行求和,最直接地利用了这一思想;[3]在所有类别中,SIE只保留最大的此类惩罚; ALE [2]添加了10334权重,以更加强调每个视觉样本的顶级候选类。虽然这 些 后 一 种 方 法 已 经 导 致 了 有 希 望 的 结 果 , 为CNOL,他们没有考虑到几个关键方面的问题。我们认为,这是由于几个隐含的假设,我们确定,并提出通过引入相应的新的贡献来修复。假设类是相同的不同。类之间的关系通常被忽略,即。在三元组损失中,任何两个不正确的类分配之间没有区别。然而,许多数据集包含非常相似的类的组,特别是包含许多类的细粒度数据集有人可能会说,在建立基于相似性的决策模型时,两个几乎无法区分的类别之间的混淆不应该像两个完全不同的类别之间的混淆那样受到惩罚。图1说明了这样一种情况:我们可以看到,来自类别6和7的两个样本比来自类别6和2的两个样本更难以区分。更好地区分不正确的类别可以使得能够学习模态之间更鲁棒的映射。为了这个目的,我们提出了一个灵活的语义余量,它考虑了类原型的一阶和二阶统计量3.2)。假设有意义的边际。在许多三重损失方法中,模型被训练成以固定的余量分离可见的类。虽然在目标的制定中没有严格的必要--对于一个视觉样本来说,它至少比其他原型稍微与它的类原型更兼容应该是足够的--这个余量应该充当正则化器并减少训练集上的过拟合然而,一个视觉样本和一个原型之间的兼容性通常是用点积计算的,它是没有界的,可以通过增加投影视觉样本的范数来任意地增大。因此,由裕度施加的约束被减小到它变得可忽略的程度虽然这在一些情况下可能是期望的,但是通过任意地减少正则化,它也负面地影响所得到的模型的整体我们引入了一个部分规范化,允许学习使用原始视觉嵌入之间的适当权衡,这为模型提供了更大的灵活性,而单位规范化版本则强制使用最严格的边缘(第二节)。3.3)。阶级同质性假设在建立模型时,来自可见类的所有样本通常被认为具有同等代表性;然而,它们在每个类中可能差别很大。特别是,一些样本可能没有表现出通常由其类的大多数成员共享的属性。例如,虽然老虎通常是橙色和条纹的,但也存在白色和白化老虎(这些例子可以在AwA2数据集中找到[19,39])。或者,如图所示。1,一个鸟类物种的几个图像可能代表小鸡(雏鸟),其外观与成年标本有很大不同训练集中离群值的存在对学习的模型有负面影响,这种影响对于基于相似性的模型(如用于CNOL的模型)更强。为了解决这个问题,我们提出了一个相关性加权方案,量化了每个样本的训练类的代表性(节。第3.4段)。因此,我们的贡献的核心是考虑到类间和类内的关系,分别通过对相似类之间的混淆更加宽容,并通过惩罚不代表其类的视觉样本。集成在一个简单的三重损失为基础的方法,我们的方法也确保了约束所施加的利润率是有利的。如消融研究所示,每一项贡献本身都带来了优势(第12节)。(五)。通过广泛的评估,我们表明,完整的提案能够达到优于当前最先进水平的性能水平,特别是在具有大量类的细粒度数据集上(第二节)。4). 此外,它不需要改变WML任务的基本假设:在训练时需要可用的唯一数据由所看到的类的视觉样本和相应的类原型组成。我们在第二节讨论了我们方法的局限性。6、为今后的工作指明方向。2. 相关工作零射击学习。除了在引言中提到的那些,已经提出了许多CNOL方法[28,25,38,33,42]。与我们的工作密切相关的是Annadani等人的工作。 [4]他们考虑属性空间中的类有多接近。该信息被明确地包括在目标函数中,以学习从属性空间到视觉空间的映射。我们的方法来解决这方面是更普遍的,因为它可以应用到一个更大的现有的方法,包括那些基于三重态损失。类似地,Changpinyo等人。 [7,8]包括一个102距离来测量其合成分类器(SYN Cstruct)的结构化损失变量中的类相似性。然而,除了使用高阶统计量来建模类(不)相似性并将其均值和方差调整为超参数之外,我们的整体方法非常不同,因为我们学习了模态之间的直接线性映射,并且不使用幻影类。我们还进一步将这些类别的差异纳入更广泛的框架,这使我们的灵活利润率能够在培训阶段得到充分利用,Changpinyo等人。 [9]提出学习从属性中预测视觉范例,以使用这些预测作为额外的语义信息。该方法可适用于大多数非线性模型,是对本文方法的补充.10335ΣΣ广义零次学习。在ZSL的早期,只有来自看不见的类别的样本被包括在测试数据集中。正如Chao等人所强调的那样。[10],由于用户可能希望识别看不见的类和看不见的类,因此还包括来自可见类的看不见的样本更现实这种设置被称为广义零次学习(GeneralizedZero Shot Learning,GSTML),通常会导致对识别用于学习模型的可见类的强烈偏见,从而降低了当时大多数现有GSTML方法的性能。Xian等人 [41]证明了这一点,他们使用通用方案对最近的BRL方法进行了广泛的评估为了解决这种性能差距,Le Cacheux等人。[21]提出了一种选择几种ZSL方法的一些通用超参数的过程,该过程导致GZSL设置中的显着性能提升。生成方法。最近的一系列研究提出使用可见的类来学习条件生成器,然后为不可见的类生成人工训练样本[36,6,35,40]。然后,可以基于来自所看到的类的真实样本来训练判别模型,并且在细粒度的CPDL基准测试中,我们根据相同的评估原型将我们的方法与它们进行了比较。转 换设 置 。Transductive mathematics 方 法[13 , 17,30,34]假设在训练过程中可以使用来自未见过的类的未标记样本。这自然导致改进的性能。在本文中,我们不采用这样的限制性假设,并认为在训练时没有关于看不见的类的信息。3. 该方法3.1. 标准三重态损失设X=(x1,. . .,xN)n∈RN×D表示N个D维视觉特征向量,y=(y1,. . .,yN)∈{1,. . .,C}N,将它们分配给C个类别中的一个类别的对应标签,并且S=(s1,. . .,sC)<$∈RC×K是类原型。训练集由{X,y,S}组成。利用提供视觉样本x和类原型s之间的兼容性得分f(x,s)的相似性函数f,标准三元组损失旨在强制约束,对于任何xn,从看不见的类中提取假样本。Verma等人。 [36]建议将每个类条件分布建模为f(xn,syn)≥f(xn,sc)+M,nc/=yn(一)指数家族Bucher等人测试了视觉特征的不同生成模型,并使用生成矩匹配网络获得了最佳结果[6]。同样,Xian等人。 [40]使用生成对抗网络来合成以类级别语义信息为条件的CNN特征。Verma等人采用了一种略有不同的方法。[35]他们开发了一种基于条件变分自动编码器的模型,从而生成图像,可以在图像上提取特征,以学习不可见类别的判别模型。这些方法与我们的方法完全不同,因为我们不生成看不见的类的特征或图像再一其中syn是相应的类原型,sc是不同的类原型,M是给定的余量。对三元组强制此约束(xn,syn,sc)采用以下惩罚的形式[M+f(xn,sc)−f(xn,syn)]+(2)其中[·]+表示函数max{0,·}。为了利用这种三重态损失,最直接的方法是-方法是简单地在训练集中所有可能的三元组上求和,如[12]所示:不过,这些贡献可以与我们的贡献结合起来N C然而,我们在这里不包括这样的组合,原因有二。首先,每种方法都有大量的特定超参数要设置,这使得它非常有意义。1[M+f(xN·Cn=1c=1c/=yn,sc)−f(xn,syn)]+(3)有助于进一步加工。其次,我们评估工作的环境比生成方法所实现的环境限制性要小事实上,即使添加了一个新的看不见的类,生成方法也必须首先为该类生成人工阳性样本,然后训练判别分类器(SVM,softmax...)并重新训练先前(已看到和未看到)类的所有分类器。虽然经典的(G)CNOL系统可以立即管理新的看不见的类(从而增量地考虑所有这些类),但生成方法[6,35,40]需要完全定义的CNOL问题,并且每次添加看不见的类时都必须(重新)学习判别模型。然而,由于这些方法报告了一些最好的结果,在测试时,对于视觉样本x的预测y*(x)是候选类Ctest中的类,其原型最大化学习的兼容性函数f:y∈(x)=ar gmaxf(x,sc)(4)c∈C检验3.2. 柔性语义边界为了考虑相似和不相似类之间的区别,我们替换等式中的固定裕度M(2)用函数M(c,c′)度量类c和c′之间的相异性。由于BNL属性往往是相关的[15],因此这样的函数应该采用这些相关性n10336DΣ˜原型φ(s):f(x,s)=θ(x)<$φ(s)(7)图2. 左:与CUB的原始语义距离(以D表示)右:在µD=0时,D中重新缩放的语义距离的直方图。5和σD=0。十五岁(如图)(五)。从所看到的类的原型集合中,我们首先计算属性的协方差矩阵的逆,即n-1由于原型的数量通常比协方差矩阵的维数小,因此我们使用Ledoit-Wolf方法[22]来获得Σ − 1的更稳健估计。这是至关重要的,因为简单地计算-1会导致下面的结果很差。然后,我们计算矩阵D,它由所有可见类原型对(si,sj)之间的马氏距离组成:其中θ是线性变换θ(x)=Wx,φ是[2,3,12]中的恒等式在后一种情况下,由于s通常是单位归一化的,所以φ(s)也是单位归一化的; f(x,s)的值仅成比例地依赖于θ(x)<$2和cos(α),其中α是θ(x)和φ(s)之间的角度。虽然cos(α)显然是有界的,但对于<$θ(x)<$2通常不是这样。<$θ(x)<$2可以任意增大的事实意味着增加的差值f(xn,sc)− f(xn,syn)可以简单地通过<$θ(x)<$2相应地缩放相似度f(x,s)来实现,这不会导致实际增益。在实践中,我们观察到θ(x)2确实随M而增加:图2中的蓝线(对应于γ= 0,如下所述)图3显示了当M = 0时,<$θ(x)<$2如何从1.2增长。2到6.6,在CUB数据集上M= 2[37]这使得M的值几乎不相关,从而减少了由余量提供的正则化。我们观察到,简单地正则化θ通常不能有效地防止这种效应:我们发现,依赖于该正则化的权重,它要么无法防止大的θ(x)2,要么限制性太强,从而限制了模型的学习能力;这些之间没有权衡两个目标能够提供令人满意的折衷。在计算f(x,s)之前完全归一化θ(x)不是al-D=[(s-s)−1(s1-s)]2(五)我们发现完全去除i,j i j i j由于语义空间是高维的,所以构成D的距离通常具有低方差σ2。这是不期望的,因为太接近平均值的语义距离不支持引入可变余量的预期目标。此外,如图-在某些情况下,产生具有一致范数的投影θ(x)因此,我们引入由标量γ∈[0,1]参数化的部分归一化函数,并且适用于任何向量v:1图中2,D中距离的初始平均值µD是任意的,并且可以很大。因此,我们重新缩放γ(v)=γ(·v(8)-1)+1D的元素近似地具有平均值μD和标准值σD,同时保持它们的值为零:定义为γ= 0意味着没有transfor-应用mation-保持v的初始范数-并且Di,j =Di,j−µDσσDD +µD+(六)我们用于灵活语义边界的值是M(c,c′)=Dc,c′。μDε和σDε被认为是模型的型参数。注意,设置σD〜=0是等式:也可以使用固定标记M=µD~。3.3. 部分正规化由方程式我们直觉地认为,较大的M值应该限制模型增加f(xn,s c)− f(xn,s y n)的差,从而更好地区分类c和yn。然而,在大多数三重损失方法中,相容性函数f是视觉特征θ(x)和类的相应投影之间的点积。图3. CUB上投影的视觉特征<$θ(x)<$2相对于M的平均范数,没有(γ= 0)和有(γ >0)部分归一化。部分归一化有助于防止θ(x)2随M增长。2Σ10337NCn^ ^您的位置:P我Q我vnl(x n,sy n,s c)1Ncn¨n⊤i¨2⊤^^^γ= 1意味着Ψγ(v)有单位范数。这种部分归一化应用于初始θ(x)。由于θ(x)的范数仍然可以增加以补偿投影θ和φ由θ [θ,φ]正则化。为了加强稀疏性和减少超参数的数量,将平均范数定义为平均范数的和对于γ(假设γ(1)需要结合参数P1,. . . ,pP和q1,. . . ,q,φ的Q:θ上的正则化。这两种元素的结合-PQ元素有助于防止θ(x)2任意增长同时仍然提供足够的灵活性,以避免限制模型的学习能力因此,它使裕度M以实现其预期目标,这在我们的情况下更加重要,因为M也体现了类相似性。图3显示了部分规范化如何帮助防止与M一起生长的<$θ(x)<$2。3.4. 相关加权值我们通过明确考虑某些样本可能不代表其类别的事实来利用类内关系:因此,我们为每个训练样本xn分配权重vn,以量化其代表性。对于每个类c,令Xc=(xc,. . . ,xc)矩阵其Nc行对应于来自c的视觉样本,[θ,φ]=1|p |+1Σ|Q|(十一)i=1i=1对于三重态(xn,syn,sc),c yn,三重态损失现在采用以下形式:l(xn,syn,sc)=[M(yn,c)+xnsc−xnsyn]+(12)这种损失在所有三元组(xn,syn,sc)上求和,每个三元组由vn加权,vn是xn的代表性。最终损失函数为1Σ。ΣΣN·Cn=1c=1yc是相关的类标签。 我们计算向量所有xc和类中心之间的距离ucC YN其中λ是正则化超参数。uc=?xc−1ΣNc我xcé(九)可以考虑模型的两个设置。第一种方法是将视觉特征x线性投影到类似于[12]语义空间,使得θ(x)=Wθ ·x假设所采用的视觉特征适合于这些距离是有意义的,这给我们提供了图像与同一类中的其他图像有多不同的也可以使用高阶统计量来评估类内关系;但是由于视觉空间通常是非常高维的,每个类的样本很少,因此它们不适合鲁棒估计,并且这种方法不会导致可测量的增益。为了允许在Eq.(9)为了在相同尺度上产生权重而不管初始类内方差如何,我们对uc的每个元素应用累积分布函数以获得权重vc:. uc− µcΣnφ是恒等式。在第二个设置中,我们做一个线性的将x和s投影到与语义空间具有相同维度的公共空间上,使得θ(x)=Wθ·x和φ(s)=Wφ·s。无论是θ和φ都被学习还是仅φ被学习,都被认为是一个超参数。决赛的演示代码模型是使...有用可以在www.example.com iccv2019-triplet-loss.4. 评价4.1. 实验环境数据集。我们在三个标准的CNOL数据集上评估我们的方法:加州理工大学UCSD鸟类200-2011(CUB)[37],vc= 1− Φnσc(十)太阳属性(SUN)[27]和具有属性的动物2[39]. CUB和SUN是细粒度数据集,其中µc和σc分别为平均值和标准偏差。是uc中的距离的乘积,并且Φ(·)是标准正态分布的累积分布对于每个视觉样本xn,我们用相应的vn来加权其对损失的贡献,使得代表性样本具有更大的重要性。3.5.最终模型xn的部分归一化投影表示为xn=<$γ(θ(xn)),类似地sc=<$γ(φ(sc))。我们选择总是完全归一化sc的投影,使得s^c=<$1(φ(sc))=φ(sc)/<$φ(sc)<$2。包括200种鸟类和717个场景对于后者。AwA2是一个更粗粒度的50种动物数据集,它取代了具有属性的动物(AwA)[19]数据集,其图像不再可用。分裂。 包括用于训练视觉特征提取器的类(通常存在于ImageNet [11]中的类)的CPDL测试分割可能会在方法的评估中引起巨大的偏差。因此,我们使用[ 41 ]的+λ[θ,φ](13)10338100/|C测试|·测试1[y(xm)=yn]1/NcDD我们在CUB和SUN的训练集上对于AwA2,所有10个看不见的测试类都不应该在ImageNet中但在40个训练类中,只有8个不在ImageNet中,因此随机选择的交叉验证折叠将包含很少的此类。这可能会在对于交叉验证折叠最佳的超参数值(因为它们将主要包含ImageNet类)和对于真正看不见的类最佳的超参数值之 间 引 入 显 著 差 异 。 因 此 , 我 们 决 定 使 用 包 含ImageNet中没有的所有8个类的单个验证分割。视觉特征。我们采用预训练的ResNet-101 [14]网络作为深度视觉特征提取器,以便与其他最先进的方法,特别是[41]和[21]相比。保持最后一个池化层的激活权重为我们提供了2048维的视觉特征表示。因为我们需要一个鲁棒的表示来计算视觉样本之间的距离,所以我们对原始图像应用10-crop,即每个将256×256图像裁剪为10个224×224图像:每个角一个,中心一个,用于两个原始图像及其y轴对称性。然后对所得图像的视觉最后,对视觉向量进行归一化,使得每个视觉特征具有单位范数。美德.先知-愿我们采用每个RISML数据集提供的标准属性,我们对其进行规范化以获得具有单位范数的类原型。大规模设置。我们还在大规模ImageNet[11]数据集上进行了实验。我们用同样的劈叉方法幼崽孙AwA2Avg* [2]54.958.162.558.5DE VI SE [12]52.056.559.756.0[3]53.953.961.956.6西班牙 *[31]53.954.558.655.6SYN Co-vs-o *[7]55.656.346.652.8PSR [4]56.061.463.860.4我们63.863.567.965.1生成模型†[36]第三十六话49.360.663.857.9[35]第三十五话59.663.469.264.0西安[40]57.360.868.262.1布赫[6]59.460.169.963.1表1.关于[ 41 ]的[39]中报告的结果用 * 标记生成模型,标记为†,依赖于更强的假设,如第二节所解释的。二、 Bucher等人[6]的结果是使用GMMN生成模型的结果; Xian et al. [40]使用Softmax+F-CLSWGAN。我们的结果是10次运行的平均值。层次结构2-跳三跳所有[25]第二十五话7.632.180.95西班牙 *[31]6.351.510.62SYN Co-vs-o *[7]9.262.290.96我们9.812.521.09表2.在大规模ImageNet数据集上的结果。标有 * 的结果对应于[39]中的前3个结果。4.2. 超参数(1K用于训练的类,高达20 K用于测试),属性(在维基 百 科 上 训 练 的 Word 2 Vec [24] ) 和 特 征 ( 使 用ResNet-101提取的2048维向量)[41]。优 化 . 我 们 使 用 ADAM 优 化 器 [ 16 ]训 练 模 型 50 个epoch,参数β1= 0。9,β2= 0。999,学习率为0。001。测试和评估设置。为了与其他最近的出版物进行比较,我们采用与[41]相同的方法来计算每类精度,定义为我们采用以下协议来确定使用验证分割的超参数:对于给定的设置(无论θ和φ都是学习的还是仅学习θ3.5),我们首先将σD和γ设为0,并将µD设为1,因此设置近似于DE VI SE中的设置。我们使用验证集确定最佳λ。然后,我们将该值除以因子10,以避免过度约束模型,并在联合选择γ和µD时使用此新值。 我们选择σD~,同时保持其他类型参数固定。最后,我们探讨了在附近的se-Σ。 ΣNcc∈C1[·]是指示函数。c cΣ选择的四重峰(μ π,σ π,γ,λ)。我们保留了该模型在验证集上产生最佳结果。对于CUB和SUN,3重交叉验证的工作原理如下:对于GALML,我们也使用[41]中的度量AU→U+S表示当候选类由所有可见和不可见类组成时,来自不可见类的样本的准确性AS→U+S类似地定义为来自所见类别的测试(保持)样本的准确度最终的Goglil分 数 是 AU→U+S 和 AS→U+S的调和平均值 H : H=2·AU→U+S·AS→U+S/(AU→U+S+ AS→U+S)。我们报告的结果平均超过10次运行与不同的随机初始化我们的模型参数。往常对于AwA2和ImageNet,由于只有一个验证集,我们使用3个不同的初始化对一组超参数进行评估,以提高估计的鲁棒性。4.3. 标准Zero Shot学习结果表1报告了在标准CNOL设置中的结果,其中测试样本属于未见过的类,并且候选类仅由未见过的类组成(AU→U)。我们比较我们哪里m=110339方法幼崽孙AwA2H¯AU→U+ SAS→U+ SHAU→U+ SAS→U+ SHAU→U+ SAS→U+ SH非生成方法,无需校准* [2]23.762.834.421.833.126.314.081.823.928.2DE VI SE [12]23.853.032.816.927.420.917.174.727.827.2[3]23.559.233.614.730.519.88.073.914.422.6西班牙 *[31]12.663.821.011.027.915.85.977.811.015.9SYN Co-vs-o *[7]11.570.919.87.943.313.410.090.518.017.0PSR [4]24.654.333.920.837.226.720.773.832.331.0我们30.465.841.222.034.126.717.687.028.932.3非生成方法,带校准ALE**[2]--49.2--34.9--56.947.0[12]--42.4--32.5--55.043.3[3]--46.7--36.8--59.447.6爱沙尼亚 **[31]--38.7--11.8--54.435.0SYN Cstruct **[7]--48.9--27.9--62.646.5我们55.852.353.047.930.436.848.583.261.350.4生成性方法†[36]第三十六话0.045.70.00.039.60.02.580.14.81.6SE-GZSL† [35]41.553.346.740.930.534.958.368.162.848.1西安[40]43.757.749.742.636.639.457.961.459.649.6布赫[6]49.155.952.339.737.738.746.377.357.349.4表3.[ 41 ]的“拟议拆分”中GCGL的准确性AU→U和AS→U是不可见和可见的每类精度的前1名阶级尊重我。 H是调和平均值,H是三个数据集的平均值。文献[39]中的结果用*号标注,文献[21]中的结果用 * 号标注,其他文献在文中报道。生成模型,标记为†,依赖于更强的假设,如第二节所解释的。二、Bucher等人[6]的结果是使用GMMN生成模型的结果; Xian et al. [40]是那些使用Softmax+F-CLSWGAN的人。我们的结果是10次运行的平均值。这些结果的几个国家的最先进的方法。我们只报告[39]中最好和最相关的结果,以避免表格过载。在我们的比较中,我们还包括了最近基于生成模型的最先进的BML方法,尽管它们依赖于比我们的方法更强的假设二、出于这个原因,我们清楚地区分了生成方法和非生成方法。我们选择不报告任何转导性的CNOL结果,因为它们依赖于显著不同甚至更强的假设。我们的方法在三个数据集上的性能优于所有非生成方法。令人惊讶的是,它在两个数据集上的表现也优于生成方法,平均值也超过1分。三个生成模型仅在AwA2上获得比我们更好的分数。事实上,最后一个数据集不是细粒度的,数量很大。因此,所提出的方法不太相关。我们还在大规模Ima-geNet数据集上评估了我们的方法(表2),其中它同样优于[39]中报道的其他最先进的方法。4.4. 广义零次学习结果标准广义零次学习。大多数最近的GALML方法也在GALML 上进行了评估在标准评估设置中,AU→U+S和AS→U+S是直接测量,并且最终的GlucoL分数是其调和平均值H。我们报告了我们在这种情况下的结果,以及非生成方法部分中的其他最先进的结果,没有表3的校准。正如已经提到的,通常有一个强烈的不平衡,有利于看到的类,处罚最终得分。因此,最佳GZSL模型通常是具有最佳AU→U+S的模型。校准的广义零射击学习。 正如我们所说在[21]中, 重新平衡或校准AU→U+S和AS→U+S,在预测步骤中,为了看不见的类的利益,稍微惩罚看到的类,因为这更准确地反映了在实际用例中的预期。 我们同意这一观点,因此报告了非生成方法中校准后的结果,校准部分见表3。根据[21]中描述的协议,使用特定于GABEL的训练/验证/测试分割获得最佳校准,并且我们报告了所有模型的得分,其校准的调和平均值H在那里给出([21]没有提供相关的AU→U+S和AS→U+S)。生成模型。 由于生成模型通常不会受到AU→U+S,AS→U+S之间的不平衡的影响,(除了GFPML,它在所看到的类上过拟合),我们简单地报告它们的结果,而不进行校准。10340分析. 平均而言,我们的方法优于其他非生成方法在标准GZSL设置,即。没有校准。在CUB和SUN上也取得了最好的成绩。毫不奇怪,当采用校准时,GALPL分数要高得多;尽管大多数方法都是这种情况,但我们的方法在这种情况下仍然获得了最好的平均分数。CUB的最终分数甚至高于生成方法的最佳报告分数,即使我们的方法可以说是更简单,限制性更少,就底层任务假设而言。5. 消融研究为了评估我们提出的方法的每个组件的影响我们通过在等式中将σ D设为0来使灵活语义边界(FSM)失效。(6);部分正规化(PN)通过在等式中将γ设置为0(8)相关性权重(RW) 方 案 通 过 在 等 式 中 将 所 有 权 重 vn 设 置 为 1(13)。相应地在验证集上重新评估活动超参数。我们还评估了将属性相关性考虑在内的影响,通过将等式中的单位矩阵IK设置为-1来估计类相似性。(5),使得语义距离对应于欧几里德距离。表4显示了CUB数据集的结果。即使对于CUB,模型的最佳性能设置是当θ和φ(Sec. 3.5)是学习的,如在验证集上确定的,我们还包括其他设置的一些结果,即当只学习θ时。我们用θ+φ和θ表示相应的设置。在这两种情况下,部分规范化的影响最大,但灵活的语义标记和相关性加权也显着增加最终得分。它们在一起工作得特别好,因为它们的综合影响比它们的边际影响之和更好表4中的底线对应于接近DE VI SE[12]的方法,并且具有可比结果。6. 讨论我们采用的相关性加权将每个训练样本的影响与其类的代表性相一个典型的情况下,说明了这里的小鸡是视觉上不同的成年鸟类,几乎不存在的鸟类类。通过降低代表给定物种的小鸡的样本的重要性,提高了系统识别该物种的成年人然而,这也使得该物种的幼鸟更难识别。一些物种的小鸡被视为离群值,因为它们是非典型的,而且代表性明显不足,而不是因为它们除了在文献中占主导地位的鸟类或动物物种的情况外,这可能是一些实际情况的一个问题。规避这个问题的一种方法是定义子类,并分别处理每个子类,设置FSM(MD)PNRW评分✓✓✓63.8✓-✓✓61.7θ+φ-✓✓-✓✓61.857.6✓✓-61.7--✓61.0---56.6✓✓✓61.3-✓✓61.1θ✓✓-✓✓-60.055.3---55.0表4. CUB数据集上的消融研究,设置θ+φ和θ(第3.5)。FSM代表灵活的语义边缘,Eq。(六)、MD代表马氏距离,等式(五)、PN代表部分归一化,等式(八)、RW代表相关性加权,等式。(十)、结果平均超过10次运行。每一个都在训练集中得到了充分的体现。在所看到的类上,可以通过聚类视觉特征向量来找到子类。这个问题仍然存在于看不见的类中,除非采用转换设置。我们的方法所表现出的性能是可比的生成方法,而我们依赖于较少的限制性假设比生成方法,因为他们需要有关于所有看不见的类的信息,以生成所需的样本学习的歧视性模型- els。生成方法的另一种选择是使用增量学习系统[29,5],但它通常会导致性能显着下降。因此,我们的建议有一个实际的兴趣,真正的系统,旨在识别看不见的类,其数量定期增加。7. 结论在引入生成式方法之前,大多数性能最好的方法都是基于三重态损失的。这些方法所做的几个假设限制了它们在实际用例中达到最佳性能的能力,特别是在包含大量类的细粒度数据集在本文中,我们确定了其中的三个假设,并提出了新的贡献来解决他们提出的问题。因此,我们提出了在三元组损失方法中建模的类内和类间的关系,通过占类的实际差异和量化的代表性的每个训练样本关于其标签,同时确保由利润强加的约束是有利的。这种方法相对于非生成方法显著提高了性能,甚至优于生成方法,同时做出较少的限制性假设。10341引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。 基 于 属 性 分 类 的 标 签 嵌 入 。 在Computer Vision and Pattern Recognition , 第 819-826页,2013中。1[2] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid。用于图像分类的标签嵌入模式分析和机器智能,38(7):1425- 1438,2016。一、四、六、七[3] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价 。 在 计 算 机 视 觉 和 模 式 识 别 中 , 第 2927-2936 页IEEE,2015年。一、四、六、七[4] Yashas Annadani和Soma Biswas。为零触发学习保留语义在计算机视觉和模式识别中,第7603-7612页,2018年。二六七[5] Eden Belouadah和Adrian Popescu Deesil:Deep-ShallowIncremental Learning。在计算机视觉8[6] 马克西姆·布谢尔,圣·法恩·赫宾,弗雷德里克·朱利。通过生成人工视觉特征进行零炮分类.在RFIAP,2018年。三六七[7] Soravit Changpinyo,Wei-Lun Chao,Boqing Gong,andFei Sha.用于零镜头学习的合成分类器。计算机视觉和模式识别,第5327IEEE,2016. 二六七[8] Soravit Changpinyo,Wei-Lun Chao,Boqing Gong,andFei Sha. 零触发学习的分类器和样本合成arXiv预印本arXiv:1812.06423,2018。2[9] Soravit Changpinyo,Wei-Lun Chao,and Fei Sha.为零射击学习预测看不见的类的视觉样本。在计算机视觉和模式识别,第3476- 3485页,2017年。2[10] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别欧洲计算机视觉会议,第52-68页施普林格,2016年。3[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库 。在计算 机视觉 和模式 识别 ,第 248-255页。IEEE,2009年。五、六[12] 作者:Andrea Frome,Greg S. Corrado,Jon Shlens,Samy Bengio,Jeff Dean,Tomas Mikolov,等. Devise:一个深度视觉语义嵌入模型。神经信息处理系统进展,第2121-2129页,2013年一、三、四、五、六、七、八[13] 放大图片作者:Timothy M.作者简介:王晓刚,陶翔,龚绍刚.Transductive multi-view zero-shot learning.PatternAnalysis and Machine Intelligence , 37 ( 11 ) : 2332-2345,2015。3[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。计算机视觉和模式识别,第770IEEE,2016.6[15] Dinesh Jayaraman,Fei Sha,and Kristen Grauman.装饰-通过抵制冲动来关联语义视觉属性份额在计算机视觉和模式识别中,第1629-1636页,2014年。3[16] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2014年学习表征国际会议。6[17] Elyor Kodirov,Tao Xiang,Zhenyong Fu,and ShaogangGong。无监督域自适应零射击学习。国际计算机视觉会议,第2452-2460页,2015年3[18] 克里斯托弗·HLampert,Hannes Nickisch ,and StefanHarmeling.学习通过类间属性转移来检测不可见的对象类。计算机视觉和模式识别,第951-958页。IEEE,2009年。1[19] 克里斯托弗·HLampert,Hannes Nickisch ,and StefanHarmeling.基于属性的零镜头视觉对象分类。模式分析和机器智能,36(3):453-465,2014。二、五[20] Hugo Laroch
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功