没有合适的资源?快使用搜索试试~ 我知道了~
1基于流形正则化的矩阵三分解零次学习算法北京大学计算机科学与工程学院未来媒体研究中心徐星、沈福民、杨洋、张东祥、沈涛衡、宋景宽中国电子科技大学摘要零镜头学习(ZSL)旨在利用来自另一组可见类的可用训练数据来识别未见类的对象。现有的解决方案集中于探索经由中间语义嵌入(例如,属性)在可见类和不可见类之间共享。在本文中,我们提出了一个新的投影框架的基础上矩阵三因子分解与流形正则化。具体地说,我们通过在语义嵌入和类别标签矩阵的指导下分解视觉特征矩阵来学习语义嵌入投影。通过在视觉数据和语义嵌入上额外引入流形正则化,学习的投影可以有效地捕获驻留在视觉和语义空间中的几何流形结构。为了避免投影域移位问题,我们设计了一个有效的预测方案,通过利用测试时的man-ifold结构。在四个基准数据集上的大量实验表明,我们的方法显着优于最先进的,产生的识别和检索任务的平均改善1. 介绍传统的视觉识别系统通常需要大量的手动标记的训练数据来实现良好的分类准确性,通常需要学习每个类别的数千个图像[8,40]。由于要识别的可用图像和类别的数量不断增加,因此为每个可能的类别标记图像变得不可行例如,在对细粒度对象类进行分类时,这个问题基本上是严重的例如动物的种类或消费产品的品牌,因为这些类别的标记图像的数量可能远远不足以直接构建高质量的分类器。零杆学习(Zero-shot learning,简称ZRL)[19,17]一直被认为是解决上述问题的关键GML旨在认识到* 通讯作者:衡陶深。新出现的实例(例如,图像),其中只有可用于训练的可见类的标记实例。没有标记的例子,未见过的类的分类器,通过转移从看到的类学习的知识这通常是通过探索语义嵌入空间来实现的,在语义嵌入空间中,可见和不可见的类可以相关。大多数现有作品所使用的空间都是基于属性[11,17,27,41]和word2vec表示的。[12,23,24,33]。在这样的空间中,每个类名可以由基于预定义属性本体的高维二进制/连续向量表示,或者通过自然语言处理由大量未标注的文本语料库表示给定语义嵌入空间,不可见类和每个可见类之间的语义关系可以测量为它们的语义嵌入向量之间的距离然而,由于测试图像是用视觉特征向量表示的,因此不能直接用未知类的语义嵌入向量来度量测试图像与未知类的相似度为了解决这个问题,几种现有的CPDL方法[1,12,33,31,42,6,21]依赖于从所见类别的标记图像然后,通过投影函数映射视觉特征并测量与语义嵌入空间中未见过的类的相似性,可以执行对测试图像的预测然而,这些基于投影的方法仍然具有几个主要缺点。首先,在学习投影函数时,存在于视觉特征空间和语义嵌入空间中的内在流形结构没有被很好地其次,这些方法从投影域移位问题[13,16,37]中产生,即从可见类数据学习的视觉特征映射(投影函数)其主要原因是投影空间中不可见类的测试数据分布可能与基于可见类训练数据的学习投影所获得的估计不同。第三,现有的基于投影的方法在广义的GML设置[7]下仍然与理想性能有很大的差距,其中测试数据来自可见和不可见的类,并且它们需要被预测到联合中。37983799兼潔鎚冊史兼潔通冊四券鎚潔鎚桟参史券通潔通桟 参四训练阶段测试阶段兼穴 山券鎚穴散史兼穴山噺抜抜噺抜抜鸟猫马人瓶椅狼杯雕像袋图1. 建议的ZSL MFMR框架。请注意,白色块是观察矩阵,而灰色块是待学习的未知矩阵。 在训练阶段,我们通过所见类的语义嵌入矩阵As和标签矩阵Ys以及潜在投影矩阵来分解所见实例的视觉特征矩阵Xs。在测试阶段,我们使用学习的投影U,与不可见类的语义嵌入矩阵AU,通过分解Xu来推断测试实例的标签矩阵Yu。潜变量受流形正则化约束,这与[ 31 ]中的工作本质上不同。这两种类型的类的标签空间。在本文中,我们解决了上述问题-通过开发一种新的 方 法 , 称 为 流 形 正 则 化 矩 阵 三 因 子 分 解(MFMR),在现有的基于投影的方法,如图1. 具体地说,在训练阶段,MFMR通过将训练实例的视觉特征矩阵分解为三个矩阵来学习投影矩阵,其中两个矩阵是显式提供的,即,所见类的语义嵌入矩阵和类标号矩阵。该约束保证了MFMR学习的投影矩阵利用两个观测矩阵提供的先验监督信息有效地构建了从视觉特征空间到语义嵌入空间同时,在因子分解过程中引入了两个流形正则化器,分别对视觉特征空间和属性空间的流形结构进行建模,增强了学习投影矩阵在两个空间中保持训练数据几何结构在测试阶段,MFMR通过一种有效的预测机制,直接联合估计所有测试实例的特别地,在给定观测投影矩阵(在训练阶段学习)和未见过类的语义嵌入矩阵的情况下,MFMR对测试实例的视觉特征矩阵进行类似的分解过程,同时进一步利用其中的流形结构,从而克服了投影域移位问题.我们工作的主要贡献有三个方面:• 我们提出了一种新的并行计算方法,称为MFMR,通过利用矩阵三因子分解框架,视觉特征和语义嵌入空间上的流形正则化。• 我们为MFMR开发了一个有效的预测方案,以联合估计所有测试实例的类标签,其中测试数据的有益的流形结构被很好地用于性能改进。• 我们在四个基准的CNOL数据集上进行了大量的实验,验证了MFMR在零拍摄识别方面优于最先进的方法。任务和检索任务。MFMR在平衡可见和不可见类别预测方面的稳健性也在一般化的CNOL设置下的额外评估中得到验证。本文的其余部分组织如下。在下一节中,我们将简要回顾一下用于CNOL的相关方法。然后,我们介绍了我们的方法,并在四个基准数据集上进行了综合分析,给出了实验结果最后得出结论。2. 相关工作现有的CNOL方法在如何将知识从可见的类转移到不可见的类方面有所不同。在给定类的语义嵌入的情况下,现有的方法主要分为基于相似性的方法和基于投影的方法。基于相似性的方法[30,25]依赖于学习视觉特征空间中可见类的n相比之下,基于投影的方法首先将测试实例的视觉特征映射到语义空间,然后通过各种语义相关性度量来确定未见过的类和测试实例的相关性[17,1,14,42]。具体来说,与现有的语义嵌入类,Akata等人。[1]提出了一种模式--券通穴 散 四3800我我JJi=1i=1el,隐式地投射视觉特征和语义Au={au}cu,其中ai和aj是j j=1嵌入到一个共同的空间,其中兼容第i-i个可见类和第j个假设可以测量它们中的任何一对之间的ty在[31]中,a我们给出一个训练集DS={(xs,ys)}ns,在i i i=1简单有效的线性模型,有原则的选择在相同的原则下,提出了正则化子的构造方法,得到了更好的结果。 我们的工作还寻求有效的第i个标记图像,xs表示其d维特征vector,ys是具有标签的独热类标签vector属于S。 此外,还构造了一个测试集Du={(xu,yu)}nu 是j jj=1在语义嵌入和类别标签矩阵的指导下,通过分解视觉特征矩阵进行投影。该分解是基于马氏三因子分解完成的,这是不同于这些方法的。与最近的工作[38,20,29,14,37,6]一样,解决了对内在流形结构建模的重要性,我们的工作集成了两个流形正则化器来解释视觉特征和语义嵌入空间的几何信息总体而言,我们的工作empiri- cally显示更准确的预测与高效率。最近Fuet al. [13]解决了在基于投影的方法中潜在存在的投影域移位问题,并且他们提出了一个转换多视图嵌入框架来解决这个问题。Kodirov等人[16],Zhang和Saligrama [44]进一步研究了这个问题,并提出分别通过无监督域自适应方案和结构化预测方案在学习过程中利用看不见的类数据结构。我们的方法还挖掘测试时的数据信息,以提高性能。然而,我们应该指出的是,与上述方法相比,我们的方法在训练过程中无法访问不可见的类数据,因此它是更实用的问题设置的学习。为了评估由CNOL生成的模型,大多数现有的CNOL方法[26,39,15,22,43,6]适应Lampert等人开创性工作中的设置。[17],并专注于在测试阶段区分看不见的类,而没有看到的类的实例这种设置可能是不现实的,因为在现实世界中,在测试阶段经常会遇到可见和不可见类中的实例最近,Chaoet al. [7]提倡一种广义的CNOL集,其中CNOL生成的模型需要预测来自其联合标签空间中的可见和不可见类的测试数据。这种广义的设置能够提供更客观的评价。我们评估我们的方法在这两个设置和结果表明,我们的方法的鲁棒性之间的权衡识别测试数据从看到的类和看不见的类。3. 所提出的方法其中xu也是d维特征向量是从第j个未标记的测试图像中提取的,并且yu是具有来自U的标签的待预测类标签向量。为了简单起见,我们将训练集和测试集的索引表示为I ={s,u}。通常,ZSL固有地是两阶段过程:火车-测试和测试。在训练阶段,从Xs、As和Ys的数据中学习所见类的知识。然后在测试阶段,将学习到的知识转移到看不见的类中,以预测给定Xu和Au的Yu。3.2. MFMR的总体框架我们的方法MFMR背后的主要思想如图所示。1.一、在训练阶段,我们从仅由可见类组成的标记训练实例中学习投影,在具有流形正则化器的矩阵三因子分解框架下。在测试阶段,测试实例的类标签通过利用驻留在它们中的流形结构联合预测。作为一个投影,特征空间和语义嵌入空间是知识从可见类转移到不可见类的桥梁,我们假设一个有效的投影需要1)最大化训练实例和测试实例的视觉特征的经验似然性;以及2)保留驻留在视觉特征空间和语义嵌入空间。3.2.1学习投影为了满足第一个要求,在MFMR中,我们建议学习一个投影,作为训练和测试数据的共同潜在因素。为了实现这一目标,我们将矩阵三因子分解[10]框架定制为来自可见类的标记训练样本的视觉特征矩阵Xs因子分解过程执行特征-实例联合聚类以估计Xs的经验似然性,从而产生三个矩阵,使估计误差最小化为minXs−UAsV2,(1)U, Vss3.1. 问题陈述其中·2是矩阵的Frobenius范数。 由方程式1、设S表示一个cs可见类的集合,U表示一个cuU={ui}m∈Rd×m是投影,每个ui表示-看不见的班级这两组标签是不相交的,即为每个语义嵌入发送视觉特征聚类。S∩ U =。两个人中的每一个人,都是一个人。Vs={vi}cs∈Rns×cs,每个vi表示一个实例由m维语义嵌入表示(例如,、属性)向量。 seen和seen的语义嵌入不可见的类可以用矩阵As={as}cs表示对于每个可见类的聚类(即,类似的例子,mantics将位于同一簇中)。这两个矩阵是对行向量(fea-i i=13801SSStures)和列向量(实例)。包括最小化特征流形正则化子第三矩阵,即seen的语义嵌入RF=1∑u − u <$2(WF)=tr(U<$(QF−WF)U)。引入类来关联U和V。先进--使用观察到的As作为桥梁的一个好处是,视觉特征和所看到的类之间的映射可以是隐式的-S2ijIJ斯伊季S s(五)李建。类似地,当使用未见类的语义嵌入时,可以完成测试阶段的映射值得注意的是,利用来自所见类的训练实例的类标签矩阵Ys,可以直接获得所见类的实例聚类因此,一个比率策略是强制Vs=YS,以保证从XS分解的实例聚类与从YS得到的实例聚类一致.当特征的每个维度被聚类到se上Mantic嵌入空间,等式中的特征流形正则化器5隐含地反映了语义嵌入空间的流形结构。3.2.3目标函数通过将两个流形正则化器积分成方程。1,用于学习MFM-R中的投影的最终目标函数可以被公式化为min Os=Xs−UAsV2+γRI+λRF,3.2.2对歧管结构U,Vs≥0s s sS.T.U1d=1m,V1n =1c。(六)对于第二个要求,为了保持流形结构,我们分别考虑实例空间(每列)和特征空间(每行)方面的视觉特征矩阵Xs目标是将这些空间的基本几何信息编码到投影矩阵中。ss s其中,γ,λ是正则化系数,并且1<$,<$∈{d,m,c,s}是1的向量U和V的每一列上的101归一化约束用于使优化定义明确。它表明,学习亲-考虑两个实例xs,xsXs(即两个col)在Eq中的喷射函数 6无缝地结合了男人-吉吉UMN向量)。 如果他们接近内在数据mani-fold,那么它们的实例集群也应该很接近(即属于同一个类)。在流形假设下,几何结构可以通过实例空间中的最近邻图来建模。考虑一个有n个顶点(实例)的实例图G.那么亲和力就-在GI中,可以基于视觉上的视觉特征空间和自组织空间的折叠结构Mantic嵌入空间,是Xs上的共聚类过程的基础。如第3.2.1节所讨论,等式中的公式可以通过将Vs设置为等于YS来进一步简化,如在[20 ]第20段。由于所观察到的Ys,RI变成常数变量,因此等式6减小以优化参数U为S s两两实例的相似性[3],如minOs= λXs−UAsYλ2+λRF,(7){cos(xs,xs)xs∈Nk(xs ),或xs∈Nk(xs)U≥0s s(WI)=i吉吉吉吉吉吉斯伊季0,否则(二)S.T.U1d= 1m。其中,Nk(x)表示第i个的前k个最近的n个∑ighbors,3.2.4解决方案实例xs。 通过表示QI=diag((WI)ij),则∗i sis为了最小化实例流形正则化子,提出了一种在Ds我们现在讨论的最优化问题的解决方案,当量7 .第一次会议。如等式7属于约束优化I1∑2I阿吉 尔岛问题,我们为参数URs=2vi−vjIJ(三)然后将其公式化为minOs+tr(s(U1d−1m)(U1d−1m)),(8)U然后考虑Xs(即每行)中特征的每个维度,假设它们是从语义嵌入空间支持的分布中采样的[29]。因此,我们构造了一个特征图GF,它有d个顶点,每个顶点代表集合Ds中的一个特征。类似地,GF中的亲和矩阵WF∈Rd×d可以定义为:{s s其中,εs∈Rm×m是约束U的Lagrange乘子.与[20]中的推导类似,U的更新规则可以通过使用Karush-Kuhn来实现Tucker(KKT)互补条件[4]并将其导数设置为零,这导致以下更新公式:cos(xs,xs)xs∈Np(xs),或xs ∈Np(xs)<$3802S s(WF)=i*吉吉吉吉吉斯伊季0,否则(四)U←UXsYsA+λWIU、(9)UAs Y Ys A+λ QI Us其中,Nk(xs)表示该节点的前k个最近邻居,s s sisF∑F特征x的第i个维度设Qs=diag(i(Ws)ij),其中,表示矩阵的逐元素运算进一步在计算中保留X3803uSJJJu uJuuuj jl算法1具有共同预测方案的MFMR输入:来自Ds的矩阵Xs、As和Ys,矩阵Xu,AufromDu,以及参数k,λ.输出:测试集Du中的实例的Yu。1:用x2标准化对Xs和Xu进行标准化,构建fea-算法2具有联合预测方案的MFMR。输入:矩阵Xu,Au和U,参数p,γ;输出:测试集Dt中的实例的Yu。1:使用X2标准化对Xu进行标准化,构建实例图GI,初始化Vu为随机正矩阵。真图GF,初始化U为随机正矩阵,设Vs=YS。2:重复3:通过等式更新U。9 .第九条。4:通过101归一化来归一化U第五章: 直到Eq.的目标函数7收敛。6:根据等式计算Y10,给定Xu,Au和U。2:重复3:通过等式更新Vu十三岁4:通过N1归一化来归一化Vu的每列第五章: 直到Eq.的目标函数11收敛6:根据等式计算Yu14,给你。同样地,为了求解Vu,我们也加入了拉格朗日乘数Θu∈Rcu×cu,11作为一旦学习了投影U,在测试阶段,给出-minOu+tr(Θu(V∈1n−1c )(V1n−1c))。( 十二)en是第j个测试实例的视觉特征向量xu,它的类标签yu可以通过一个共同的预测来获得uu uu uu uJ与先前基于投影的方法类似的投影方案通过将Vu的导数设为零,[1、18、16]。具体来说,对于xu,其在语义嵌入空间中的投影计算为U−1xu,则为与语义嵌入向量{al}cu相比, 的被配制为Vu← Vu√XUAu+γWFVu .(十三)Vu AU UAu+γ QF Vuul=1u u看不见的类通过余弦距离测量。 最后,你可以可按如下方式获得:yu= arg min dist(U−1xu,au), l∈ [1,c u].(十)L在测试阶段学习到Vs,可以通过选择Vu的每行(Vl)中具有最大得分的实体来获得测试实例的标签,如下所示:Yu= arg max(Vl), l∈ [1,c u].(十四)其中dist(,)表示余弦距离度量。Lu算法1总结了MFMR的细节,共同预测方案。MFMR的学习过程主要执行Eq. 时间复杂度为O(dmns T+d2ns),T是总迭代次数(通常T≤100,因此,MFMR的时间复杂度与训练实例的数量成线性关系,这在实践中是有效的。3.3. 试验时间数据的联合预测由于从训练数据到测试数据的投影域移动,使用普通预测方案的识别性能是次优的。事实上,估计测试时间数据分布有利于学习投影,以精心适应测试实例的投影特征与相应的不可见类的语义嵌入。具体来说,我们开发了一个联合预测方案,其中的标签的测试实例进行联合预测,有效地利用流形结构驻留在测试数据。具体来说,我们分解测试实例的视觉特征矩阵Xu,类似于等式中的训练阶段。6如,minOu=Xu−UAuV2+γRI,(11)算法2描述了具有连接的MFMR的细节测试预测方案。在测试阶段,联合预测方案主要执行等式中的更新规则。13,时间复杂度为O(dmnuT+dn2)(包括最近邻图构造代价)。4. 实验4.1. 实验装置数据集。我们使用四个流行的基准数据集:1)具有属性的动物(AwA)[17],2)加州理工大学UCS-D Birds(CUB)[36],3)aPascal-aYahoo(aPY)[11]和4)SUN Attribute(SUN)[28]。数据集的多样性足以包含不同领域的粗粒度和细粒度类别,包括动物,车辆和自然场景。表1总结了每个数据集中的统计数据。请注意,我们采用了与[1,31,6,42,43]中相同的训练/测试实例和可见/不可见类的分割。语义嵌入。对于AwA和aPY数据集- s,我们直接利用提供的类级别属性vec-的连续值。 对于CUB和SUN数据集,Vu≥0S.T.V 1nu u= 1c。有二进制属性向量图像级,我们采取的平均属性向量的所有图像从相同的类,uu u在Eq. 11是所有测试实例的类标签ma-vu。注意,RI是从测试实例构造的实例流形正则化子。生成类级属性向量。视觉特征。有文献表明,深层特征比低级特征工作得更好,因为它们导致良好的类内分离[2]。因此3804表1. 不同数据集的统计,其中数据集图像属性类AWA24 295/6 1808540 /10幼崽8 855/2 933312150 /50APY12 695/2 6446420 /12孙14,140/200102707 /10对于所有数据集,我们利用从流行的CNN架构中提取的深度特征。具体来说,我们使用两种类型的深度特征:4096-dim VGG [32]功能适用于[ 42 ]提供的所有数据集,1024-dim GoogLeNet [34]功能适用于[ 6 ]提供的AwA,CUB和SUN。实作详细数据。在我们的实验中,我们根据作为MFMR和MFMR联合的预测方案来定义我们的方法的两个变体,分别使用公共和联合预测方案。两种方法中的三个模型参数值得研究:流形正则化系数λ、γ以及特征和实例聚类的数量k。我们报告了他们在每个数据集上选择的最佳参数的五次运行的平均结果。对于每个数据集,我们随机选择了20%的可见类的图像来制定验证集,并使用剩余的图像进行训练。我们的评价是相当全面的,我们比较了我们的方法与10个现有的CNOL方法。我们不仅参考了已发表的结果,还重新评估了其中一些方法,并提供了实现代码,以提供客观的评估。所有的实验都是在一台具有4核3.3GHz CPU和16GB RAM的PC机上进行的。4.2. 基准比较4.2.1零炮识别识别任务涉及每个任务实例的正确性。所以,我们要用准确度来衡量整体。l识别性能。将我们的方法与各种最先进的替代方案进行比较:1)基于分类的方法,即,ConSE [25]; 2)基于投影的方法,即DAP[17] , ALE [1] , ESWL [31] , SSE-INT/ReLU [42] ,JSLE [43]和SynC [6]; TMV HLP [13].在表2中总结了使用两个不同深度特征在所有数据集上评估的不同方法的性能。一般来说,对于我们的两种方法和大多数同行,使用VGG功能获得更好的性能比使用GoogLeNet功能AwA和SUN数据集,但在CUB差因此,这表明两个深度特征都具有依赖于特定数据集的优势。我们的MFMR表现得比ALE和ESWL的典型的基于投影的方法好得多,这表明MFMR比这些方法学习更有效的投影。由于MFMR采用了成对vi-在构造仿射矩阵对训练数据的流形结构进行建模时,它也优于ConSE的基于相似性的方法。总的来说,我们的MFMR可以实现比最近提出的方法,如SynC-struct和JSLE,平均略好的性能,显示了矩阵三因子分解学习投影的有效性和建模流形结构的优势当使用联合预测方案时,我们的MFMR- joint在使用VGG特征的所有数据集上的性能都显着优于JSLE。在所有数据集上,与使用VGG特征的Sync-structure相比,MFMR-joint平均每帧增益7.4%。值得注意的是,我们的MFMR联合也明显优于TMV-HLP,这得益于探索测试实例的数据结构。 因此,我们的方法是更有效地提高学习的投影,并克服测试时间投影域移位问题,而不是TMV-HLP,其中包括测试实例在学习过程中的转换设置下。4.2.2零炮检索结果在检索任务中,使用未看到的类的语义嵌入向量作为查询来检索最匹配的测试图像。性能通过平均精度(mAP)来衡量由于检索任务在先前的研究中没有得到广泛的评估,因此这项工作的重要贡献是与SSE-INT/SSE-ReLU,JSLE和SynC的最新方法进行了全面的表3列出了使用VGG特征的所有数据集的mAP方面的比较结果。我们可以看到,我们的MFM-R获得了56.2%的mAP得分,而SynC-struct的最佳对应物的结果(51.1%)。这再次验证了MFMR在学习更有效的投影方面的优越性。此外,我们的MFMR关节显著且持续地获得了与SynC-struct相比平均31.9%的显著性能提升。MFMR-joint在检索中的优越性能是由于在测试实例中探索了有用的流形结构,这增强了学习的投影,以更好地将测试实例与未看到的类的语义嵌入相匹配。表3.检索性能比较(%)(mAP)。每个数据集上的最佳结果以粗体突出显示。方法APYAWA幼崽孙Ave.SSE-INT [42]15.446.254.758.931.3[42]第四十二话14.142.63.744.626.2JSLE [43]32.766.523.976.549.9SynC-ovo [6]29.664.330.472.149.1SynC结构[6]30.465.434.374.351.1资源部45.670.830.677.456.2MMR-关节55.982.847.583.267.43805表2. 使用VGG和GoogLeNet的深度特征在所有数据集上进行零射击识别任务的准确率(%)比较(括号中的数字)。这里,表示方法的数字来自原始论文,而§表示部分数字来自我们的实现。 每个数据集上的最佳结果以粗体突出显示方法APYAWA幼崽孙平均[17]第十七话38.2(-)57.2(60.5)44.5(39.1)72.0(44.5)- (-)美国航空[1]- (-)61.9(53.8)40.3(40.8)- (53.8)- (-)ConSE [25]37.6(-)61.6(63.3)- (36.2)- (51.9)- (-)爱沙尼亚[31]§24.2(22.1)75.2(64.5)44.5(34.5)82.1(76.7)56.5(49.4)TMV-HLP [13]- (-)80.5(-)47.9(-)- (-)- (-)SSE-INT [42]44.2(39.7)71.5(73.2)30.2(29.3)82.2(77.4)57.0(54.9)SSE-ReLU [42]46.2(43.1)76.3(74.9)30.4(28.6)82.5(78.1)58.9(56.2)[43]§50.4(48.2)79.1(77.8)41.8(38.6)83.8(84.0)63.8(62.1)SynC-ovo [6]§47.2(41.3)77.3(69.7)48.8(53.4)79.5(78.0)63.2(60.6)SynC结构[6]§48.9(44.2)78.6(72.9)50.3(54.5)81.5(80.0)64.8(62.9)资源部48.2(46.4)79.8(76.6)47.7(46.2)84.0(81.5)64.9(62.7)MMR-关节56.8(54.3)83.5(79.3)53.6(51.4)84.5(83.0)69.6(67.0)4.2.3广义零炮识别广义零触发识别测量识别系统在权衡可见和不可见类别的预测方面的能力。在我们的实验中,我们通过将测试数据组合为可见和不可见类的图像组合来重新组织AwA数据集具体来说,我们从可见类中提取20%的数据点,并将它们与不可见类的数据合并以形成测试集,从而产生新的训练/测试分割,其中19,452张可见类图像用于训练,4,843张可见类图像与6,180张不可见类图像相结合用于测试。令T=S U表示可见和不可见类别的联合标签空间,我们根据U → U,S → S,U → T,S → T的准确性和可见-不可见准确度曲线下的面积(AUSUC)来评估识别性能。这些指标的详细定义可以参考[7],所有这些指标都评估了T中可见和不可见类别预测的平衡识别模型。我们比较我们的方法与同行ConSE和SynC,表4.2.3提供了AwA与VGG特征的比较结果。一般来说,所有方法的性能下降下广义的CNOL设置,即。U → U和S → S的准确度得分大于U → T和S → T。然而,值得注意的是,与ConSE和SynC相比,我们的方法在U → U和U → T度量上的收敛性较弱.此外,我们的方法获得了更大的AUSUC分数与同行,和MFMR-joint实现了所有五个指标的最佳性能这表明我们的方法对于在可见类和不可见类之间的预测进行权衡是更鲁棒的此外,在广义的CNOL设置下,对测试时流形结构进行建模始终是有益的.图. 2绘制了在AwA下所有方法的可见-不可见精度曲线[7]。3806一般化的CNOL设置。可以观察到,与对应物相比,我们的方法通常具有更大的面积(对应于表4中的AUSUC分数),这表明我们的方法更有效地平衡U→ T和S → T。表4.我们的方法和几个替代的AwA下的广义BNL设置的比较结果。每项措施的最佳结果以粗体突出显示。方法U → US → SU → TS → TAUSUCConSE [25]72.172.19.869.80.438SynC-ovo [6]76.477.61.175.70.509SynC结构[6]79.676.81.876.10.533资源部79.976.113.475.60.550MMR-关节81.276.918.475.60.5710.80.60.40.200 0.2 0.4 0.6 0.8U →T图2. 在推广的AwA设定下,我们的方法与几种替代方法的可见-不可见精度曲线的比较。4.3. 仔细的分析4.3.1学习投射的效果为了更好地理解通过我们的方法学习的投影的效果,我们采用t-SNE [35]来可视化语义嵌入空间中测试实例的投影特征。图. 图3显示了可视化的分布ConSE:0.438SynC-ova:0.509 SynC结构:0.533MFMR:0.550MFMR-接头:S → T3807AwA(MEMR)CUB(MEMR)AwA(MEMR关节)CUB(MEMR关节)AwA(MEMR)CUB(MEMR)AwA(MEMR关节)CUB(MEMR关节)准确度(%)准确度(%)8585 858080 807070 706060 605050504040400.01 0.1 1 5 10100λ(a) 不同λ2 5 10 20 4080K(b) 不同k0.01 0.1 1 5 10 100γ(c) 不同γ图4.MFMR和MFMR联合对AwA和CUB数据集的参数敏感性(a) MFMR(b)MFMR-接头图3.t-SNE可视化比较MFMR和MFMR-joint在aPY上语义嵌入空间中获得的投影通过MFMR和MFMR-joint对aPY数据集上测试实例的投影VGG特征进行了比较。正如我们可以观察到,在图。3(a),MFMR的投影特征倾向于为12个看不见的类形成单独的聚类,具有相当小的重叠,显示了学习投影的有效性。此外,每个不可见类的聚类变得更加紧凑,并且每个类之间的间隙在MFMR联合的图3(b)中更加清晰这是因为MFMR-joint很好地探索了测试实例的流形结构,这有利于学习的投影将测试实例的投影特征与其对应的不可见类的语义嵌入正确地对齐。4.3.2参数敏感性分析为了研究我们的方法中的参数对看不见的类数据的影响,我们在AwA和CUB数据集上就不同参数值的准确性进行了零射击识别结果。具体地,MFMR和MFMR-joint在训练阶段共享两个参数λ和k,并且MFMR-joint拥有说明联合预测方案的附加参数γ在我们的实验中,我们改变一个参数在每一个时间,而固定的其他两种方法通过使用VGG功能的最佳值图中的三个子图。4说明了每个参数对我们方法的影响。我们可以观察到对于不同的方法,每个参数的最佳值是不同的,有时取决于特定的数据集。例如,MFMR对大范围的λ(例如,,λ∈[0. 01,10]),而MFMR联合是对λ的特定范围敏感(例如,,λ∈[0. 100)和λ∈[0. 1,1]分别在AwA和CUB上)。此外,参数k的取值对MFMR-joint的影响要大于MFMR-joint,在两个数据集上,k∈[10, 20]是MFMR-joint的最优参数。由于测试时间数据分布偏移-MFMR-joint是基于训练数据学习的投影估计,它要求调整适当的k值以正确地模拟测试实例的流形结构。最后,当γ值较大时,例如,,γ∈[5, 100],MFMR-联合增益性能在两个数据集上的改善一致,因为γ再次迫使MFMR-joint更准确地将测试实例的投影与对应的不可见类的语义嵌入相5. 结论在本文中,我们描述了一个简单而有效的框架,能够超越当前的最先进的方法在一个标准的收集ZS-L数据集。其主要思想是利用流形正则化器的矩阵三因子分解技术来减轻以前基于投影的CPDL方法的局限性。此外,一个有效的预测计划,开发利用的流形结构的测试数据,占测试时域偏移的风险。广泛的评估验证了我们的框架对传统的CNOML问题的有效性,并显示其对广义CNOML问题的鲁棒性。鸣 谢。本 研究 得到 了国 家自 然科 学基 金项 目61602089、61502081、61572108、61632007和中央高校 基 础 研 究 基 金 项 目 ZYGX 2014Z007 、 ZYGX2015J055、ZYGX 2016KYQD 114的部分资助。AwA(MEMR关节)CUB(MEMR准确度(%)3808引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的标签嵌入在CVPR,第819一、二、五、六、七[2] Z. Akata、S. E.里德D.沃尔特,H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评价。在CVPR,第2927-2936页,2015年。5[3] M. Belkin和P.新木用于维数缩减和数据表示的拉普拉斯特征映射。神经计算,15(6):1373-1396,2003. 4[4] S. Boyd和L.范登伯格凸优化。2004. 4[5] D. Cai,X.他,X。Wang,H. Bao和J. Han。保局部非负矩阵分解。在IJCAI,第1010-1015页,2009中。4[6] S.昌平约湾Chao湾Gong和F.煞用于零镜头学习的合成分类器。在CVPR,第580-587页一、三、五、六、七[7] W.- L. Chao,S.昌皮纽湾Gong和F.煞一个实验研究和分析广义零射击学习的对象识别在野外。在ECCV,第52一、三、七[8] J. Deng、A.C. Berg,K.Li和L.飞飞对10,000多个图像类别进行分类能告诉我们什么见ECCV,第71-84页,2010年。1[9] J. Deng,J.Krause和L.飞飞细粒度众包,用于细粒度识别。在CVPR,第580-587页1[10] C.丁氏T. Li,W. Peng和H.公园聚类的正交非负矩阵t-因子分解。在KDD,第126-135页,2006年。3[11] A. 法尔哈迪岛Endres、D.Hoiem和D.A. 福赛斯通过属性描述对象。在CVPR,第1778-1785页一、五[12] A. 弗罗姆,G。S. Corrado,J.Shlens,S.Bengio,J.迪恩M. Ranzato和T.米科洛夫Devise:一个深度视觉语义嵌入模型。NIPS,第2121-2129页,2013年。1[13] Y.傅氏T. M. Hospedales,T. Xiang和S.龚trans-ductive多视图零射击学习。TPAMI,37(11):2332一、三、六、七[14] Z.傅氏T. A. Xiang、拟青霉E. Kodirov和S.龚基于语义流形距离的零炮目标识别。在CVPR中,第2635-2644页,2015年。二、三[15] P.坎库库尔,A.卡威旺,S.Tangruamsub,以及O. 长 谷川 在线 增量 式基 于 属性 的零 触发 学 习。 在CVPR,第3657-3664页,2012年。3[16] E. Kodirov,T. Xiang,Z. Fu和S.龚无监督域自适应零射击学习。在ICCV,第2452-2460页,2015年。一、三、五[17] C. H. Lampert,H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类。在CVPR,第951-958页,2009中。一、二、三、五、六、七[18] C. H. Lampert,H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。TPAMI,36(3):453-465,2014年。5[19] H. Larochelle、D. Erhan和Y.本吉奥。零数据学习新任务。在AAAI,第646-651页,2008中。1[20] M. Long,J. Wang,G. Ding,D. Shen和Q. 杨图共正则化的迁移学习。InAAAI,2012. 三、四[21] Y. 朗湖,澳-地Liu,F.Shen和L.邵 从零次学习到传统的监督分类:看不见的视觉数据合成。在CVPR,2017年。1[22] T. Mensink,E. Gavves和C. G. M.斯诺克COSTA:零炮分类的共现统计。在CVPR,第2441-2448页,2014年。3[23] T. Mikolov,K. Chen,G. Corrado,J。Dean.向量空间中词表示的有效估计。CoRR,abs/1301.3781,2013。1[24] T. 米科洛夫岛 Sutskever,K. Chen,G. S. 科拉多,还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS,第31111[25] M.诺鲁齐T.米科洛夫,S。本焦湾Singer,J. 史伦斯A.弗罗姆,G。Corrado,J。Dean.基于语义嵌入凸组合的零次学习。NIPS,第410-418页,2013年。二六七[26] M.帕拉图奇湾Pomerleau,G. E. Hinton和T. M.米切尔使用语义输出代码的零触发学习。NIPS,第1410-1418页。2009. 3[27] D. Parikh和K.格劳曼相对属性。在ICCV,第503-510页,2011中。1[28] G.帕特森角Xu,H. Su和J. Hays. SUN属性数据库:超越类别,实现更深入的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功