没有合适的资源?快使用搜索试试~ 我知道了~
11627从零次学习到常规监督分类:不可见的视觉数据合成杨龙1,刘莉2,邵凌2,沈福民3,丁贵光4,韩军功51英国谢菲尔德大学电子与电气工程系2英国东英吉利大学计算科学学院3电子科技大学未来媒体研究中心4清华大学软件学院5英国诺森比亚大学计算机科学与数字技术系1ylong2@sheffield.ac.uk,{li.liu,ling.shao}@ uea.ac.uk,fumin. gmail.com,dinggg@tsinghua.edu.cn,jungong. northumbria.ac.uk摘要鲁棒的目标识别系统通常依赖于从大量真实图像中提取强大的特征机制。然而,在许多实际应用中,为不断增长的新类收集足够的图像是无法实现的。在本文中,我们提出了一个新的零拍摄学习(Zero-shotlearning,简称ZRL)框架,它可以在不获取真实图像的情况下为看不见的类使用所提出的看不见的视觉数据合成(UVDS)算法,语义属性被有效地利用作为中间线索,在训练阶段合成看不见的视觉特征。在此基础上,将语音识别问题转化为传统的有监督问题,即语音识别问题。合成的视觉特征可以直接馈送到典型的分类器,例如SVM。在四个基准数据集上,我们展示了使用合成的看不见的数据的好处。大量的实验结果表明,我们提出的方法显着提高国家的最先进的结果。1. 介绍目标识别可以说是计算机视觉领域最基本的任务之一 。 大 多 数 传 统 的 框 架 , 例 如 。 深 度 神 经 网 络(DNN)[22]依赖于大量的训练样本来构建统计模型。然而,这样的前提在许多现实世界中是无法实现的。主要原因可归纳如下:1)获得注释良好的训练样本是昂贵的。尽管大量的数字图像和视频图1. 给定一个概念性的描述,人类可以通过组合先前看到的视觉元素来想象场景的轮廓。可以从互联网上检索,现有的搜索引擎严重依赖于用户定义的关键字,往往是模糊的,不适合学习任务。2)新定义的类的数量在不断增长。同时,细粒度的任务使已有的类别更深入,例如。来识别一款新推出的款式新颖的手袋。为它们中的每一个训练特定的模型是不可行的。3) 为稀有类收集实例是很困难的。例如,人们可能希望自动检测古老或稀有物种。甚至很难提供一个例子,因为现有的知识可能只是文字描述或一些独特的属性。作为一种可行的解决方案,零射击学习(Zero-shotLearning,简称ZRL)旨在利用一组封闭的语义模型,这些模型可以推广到看不见的类[25,23]。CPDL方法的常见范例首先训练一个预测模型,该模型可以将视觉数据映射到语义表示。此后,新的物体11628图2. 监督分类和零触发分类与现有的OWL框架的比较。(A)典型的监督分类:训练样本和标签成对;(B)零射击学习问题:在没有训练样本的情况下,不能预测类别C和D;(C)直接属性预测模型使用属性作为中间线索以将视觉特征与类别标签相关联;(D)标签嵌入:将属性连接为语义嵌入;(E)我们反向学习从语义空间到视觉空间的嵌入,并将CNOL问题转换为传统的监督分类。可以通过只知道它们的语义描述来识别。然而,现有的方法不能为新的看不见的类扩展训练数据。如示于图2,这样的框架阻碍了现有方法的扩展,因为固定的可见数据最终被限制为表示不断增长的语义概念。在本文中,我们研究了从语义属性中合成高质量的视觉特征,以便将视觉特征识别问题转换为传统的监督分类问题。如图所示,我们的想法是受到人类想象力的启发。1.一、给定一个语义描述,我们人类可以将熟悉的视觉元素联系起来,然后想象一个近似的场景。相应地,我们从语义属性中合成具有区分性的低层特征,以替代从真实图像中提取的特征。我们的贡献可归纳如下:1) 我们提供了一个可行的框架来合成不可见的视觉特征,从给定的语义属性,而无需获取真实的图像。在训练阶段获得的合成数据可以直接馈送到conven。的分类器,以便巧妙地转换到传统的监督问题,并导致国家的最先进的识别性能的四个基准数据集的APDL识别。2) 我们在语义视觉嵌入过程中引入方差衰减问题,并提出了一种新的扩散正则化,可以显式地使信息扩散到合成数据的每个维度。我们做到了-通过优化正交旋转问题的形成扩散。我们提供了一个有效的优化策略,以解决这个问题连同结构差异和训练偏差问题。2. 相关工作零发射识别方案:我们在图中总结了以前的WML方案。2,与传统的苏-Pervised classification(图)2(A))。由于收集新类别的标记良好的视觉数据是昂贵的,如图所示。2(B),提出了零射击学习技术[25,23,39,35,38,32]来识别新的类别,而无需获取视觉数据。大多数早期的工作都是基于直接属性预测(DAP)模型[23]。这样的模型利用语义属性作为中间线索。每个属性分类器交替对测试样本进行分类,并通过概率估计预测类标签。在承认民主行动党的优点的同时,也有人对它的不足之处表示担忧。[19]指出,属性可能相互关联,导致显著的信息冗余和性能低下属性注释中涉及的人工标注也可能是不可靠的[18,50]。为了避免学习独立属性,提出了基于嵌入的CPDL框架(图2(C))来学习一个投影,该投影可以将视觉特征一次映射到所有属性。然后使用各种测量在语义空间中推断类别标签[2,34,27,4,14,45]。由于属性注释是可扩展的,因此属性被转换的PNL设置中的视觉相似性和数据分布信息所 替 代 [40,51,13,12,28,21,54,55,56]。怎 么 -然而,这些方法涉及到不可见类的数据来学习模型,这在一定程度上违反了严格的CNOL设置。最近的工作[43,49,30]将嵌入-推断过程结合到一个统一的框架中,并在经验上证明了更好的性能。最接近的相关工作是[7,8,31],它进一步为看不见的类合成分类器或原型。该方法充分利用了语义嵌入的优点。然而,推理方向与现有的工作不同。我们的方法旨在逆合成视觉特征向量,以尽可能多的可用语义11629联系我们A × YPLFVV∈Vǁ ǁ ǁ ǁ∈VXA V∈FF实例,而不是将可视数据映射到标签空间。语义辅助信息:任务要求利用次要信息作为中间线索. 这样的框架-作品不仅拓宽了分类设置,而且使各种信息能够帮助视觉系统。由于文本来源相对容易从互联网获得,[42,33]建议从文本中估计小说类的语义相关性。[26,10,26]学习伪概念来使用维基百科文章关联新的类最近,本体工程中的词汇层次结构也被用来寻找类之间的关系[41,5,3]。尽管人们对各种边信息进行了研究,但基于属性的模糊聚类方法仍然是最受欢迎的.其中一个原因是学习属性通常会提供突出的分类性能[53,52,17,55,54]。另一方面,属性表示是一种紧凑的方式,可以通过人类可以理解的具体词语进一步描述图像[11,29,15,1]。提出了各种类型的属性来丰富适用的任务并提高性能,例如相对属性[36],类相似性属性[52]和增强属性[44]。本文的主要目的不仅是为了提高视觉特征合成算法的性能,同时也为高质量的视觉特征的合成寻找一种可靠的解决方案。3. 方法训练集包含集中的视觉特征,属性和以3元组形式出现的可见类标签:(x1,a1,y1),., (x N,a N,yN ) <$Xs× As× Ys , 其 中 N 是 训 练 样 本 的 数量;XS= [xnd]∈RN×D是D维特征空间;As=[nm]∈RN×M是M维属性空间;并且y n1,.,C由C离散类标签组成我们的框架可以处理类级别或图像级别的属性。对于类级别,同一个类中的实例共享属性.G iv enNn个具有来自Cn个不可见类的语义属性的实例对:(an1,yn1),.,(aN,yN)uu,在哪里N×M常规监督分类器,例如,SVM,用于预测未知类的标签:SVM:Xu→ Yu。3.1. 看不见的可视化数据合成为了合成视觉特征,最直观的框架是学习从语义空间到视觉特征空间的映射函数minL(AsP,Xs)+λ(P),(1)其中P是投影矩阵,是损失函数,并且λ是具有其超参数λ的正则化项。 它通常选择n(P)=P2,其中。F是矩阵的Frobenius范数,估计两个矩阵之间的欧几里得距离。在测试之前,我们可以通过给定的不可见实例的属性,从属性空间中合成不可见的视觉特征Xu= AuP。(二)尽管上述框架很简单,但我们面临以下两个主要问题。1)结构差异:在实践中,视觉空间和语义空间之间往往存在巨大的差距为了追求最小的重建误差,该模型倾向于学习两个空间之间的主成分因此,综合数据对《生物多样性公约》的目的来说不够有鉴别力2)训练偏差:合成的不可见数据可以偏向于“可见”数据,并获得与真实不可见数据不同的数据分布。这个问题是由于基于回归的框架没有发现语义空间的内在几何结构,并且不能捕获unseen-to-seen关系。因此,直接从语义空间映射到视觉空间会导致较差的性能。我们建议引入一个辅助的潜在嵌入空间来重构语义空间与视觉特征空间,其中=[v nd]RN×D。 这样,我们就可以代替n(P),可以让保留固有的数据结构信息视觉空间和语义空间:Yu<$Ys=n,Au=[an<$m]∈R,零-镜头学习是学习一个分类器,f:Xu→ Yu,其中J=<$Xs− VQ<$2+<$V − AsP<$2+λ<$1(V),(3)Xu中的样本在训练期间完全不可用-ing.我们用书法字体来表示空格。亚脚本s和u指的是'seen'和'unseen'。hat表示与“看不见的”样本相关的变量看不见的可视化数据合成:我们的目标是通过给定的语义属性来合成不可见类的视觉特征。具体来说,我们学习训练集f′上的嵌入函数:As→ Xs。在那之后,我们能够通过:Xu=f′(Au)推断Xu。零拍识别:利用合成的视觉特征,将人脸识别问题转化为典型的分类问题。这是直接雇用conven-其中潜在嵌入空间从其分解,然后从其分解。Q=[qd′ d]RD×D和P =[pmd] RM×D是两个投影矩阵。图1是接下来介绍的对偶图。我们采用局部不变性[6]假设,并通过谱对偶图方法解决问题。这是两个监督图的组合,旨在实现...多变量估计X和A的数据结构。视觉空间的图WX∈RN×N有N个顶点{g1,.,g N},其对应于N个数据点{x1,.,x N}在训练集中。 语义图WA∈RN×N具有11630DFFDVndnd=Nnd与属性的N个实例相同的顶点数{a1,.,a N}。对于图像级属性,我们构造k-nn其中V=AP。 我们首先证明了总方差在旋转后不会发生变化。在旋转之前,V是cen-视觉和语义空间的图形,即,把一个边缘tralised,即Nvn=0。 原始总方差在每个数据点xn(或an)与其k个最近的n=1例V的Γ为Γ =Nd=1 (1)D=(ΣNn=12)/N邻国对于图中的每对顶点gi和gj权重矩阵(在WX和WA中没有区别),权重可以定义为表示第d维的方差在旋转Q之后,我们得到每个维度的新方差σ′,并且每个维度的方差之和为Γ′。我们证明了Γ = Γ′wij= .1,如果gi和gj由一条边在以下方面:0,否则。(四)ΣD ΣNΓ =2=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000=Tr(VV)因此,我们可以分别计算两个权重ma-三个WX和WA。值得注意的是,对于类级别的属性,WA的计算方式略有不同。Ev-d=1n=1=Tr(VQQV)= VQ2同一类中的每个顶点由归一化边连接,即,w ij=k/nc,当且仅当a i和a j来自同一个类c,其中n c是类c的大小。ΣD ΣN=d=1n=1ΣD2σ′= Γ′。(六)d=1在嵌入空间中 ,我们期望,如果两个图中的g i和g j是连通的,则每对嵌入点v i和v j也彼此接近。然vvX11631DD2σD2V−A VPXDA a a AVǁǁ而,有时WX和WA并不总是一致的,因为我们希望总方差Γ倾向于均匀地扩散到所有学习的维度,以便恢复X的真实数据分布。 换句话说,扩散合成数据表中的标准数据表应视觉语义鸿沟 为了解决这些冲突,我们小(=1Dd=1(πd−π<$)2,其中πd=σ′和π′是计算视觉和属性图的平均值,即themeanofallstandard nestimatedd e viati onums). 根据上述内容,W= 1(WX+ WA)。由此产生的正规化是:当量 (6)我们有Dd=1 π2=D′d=1dDd=1 σ d= σ。(V)= 1ΣN2i,j=1vi−vj接下来,我们将展示如何在我们的学习框架中最大限度地减少错误求正交旋转:1天=Tr(V)DV)−Tr(VWV)=Tr(VΣL.A.),(五)Π =Dd=1ΣD(πd−π<$)2ΣD其中D是W的度矩阵,Dii=iw ij。 L是=1π2+π<$2−2ππ¯称为图拉普拉斯矩阵L =DW和Tr(. )计算矩阵的迹。在本文中,我们确定了另一个Ddd=1ǫ1 ΣDDdd=1根本问题:方差衰减当我们从属性中学习视觉特征时,特别是当项目-=D−(D2d=1π d)2。(七)ing到使用,尺寸差DM 将导致学习算法逐步选择具有低方差的方向。如图3、大部分信息(方差)包含在少数几个预测中。结果,合成数据的剩余维度遭受了显著的方差衰减,这表明学习的表示是严重冗余的。为了解决这个问题,我们可以期待集中的信息可以上述等式表明,最小化方差等于最大化扩散标准差之和。这样的推导是直观的,因为我们的目标是更高的标准差总和,以便合成数据可以获得更多的信息。此外,我们还发现了扩散标准偏差之和与正交旋转之间的一种新的关系‚有效地扩散到所有的学习维度通过一个DD.D.N调整旋转[20]。因此,我们修改了旋转Σ Σπd=σ′= ΣΣ、2nd矩阵Q在等式 (三)、在本文中,我们考虑一个正交-角旋转,即, QQ= I,因为很容易证明Tr(QPQ)=Tr(PP)(I是单位矩阵)。[16]这是一个经典的故事。d=1d=11=NXd=1n=1⊤1⊤⊤2,1=第2、1、(8)正交旋转可以保护在语义空间中捕获的属性。接下来,我们将展示旋转如何控制方差扩散。从等式(3)最佳综合数据为X=VQ,哪里 . 2,1是矩阵的n =2,1根据等式(7)和等式(8),我们可以简单地最大化Q2,1,以最大化信息扩散的目的。最后,我们可以将扩散正则化与方程结合起来。=⊤⊤/N11632⊤⊤⊤V2VS⊤VSVS⊤P,Q,VFFA A A VVFFVXǁ VǁVS(3)和方程(5)形成整体损失函数。等一个函数旨在最小化从属性到视觉特征的重建误差,同时保留数据结构并使信息能够扩散到所有维度:minJ=Xs− VQ2+V − AsP2+λTr(V<$LV)在[47]中,这是一个迭代方案,用于优化具有可行解的通用正交问题。具体而言,给定第t次迭代优化期间的正交旋转Qt,通过凯莱变换更新Qt+1的更好解:Qt+1=Ht Qt,(14)其中Ht是凯莱变换矩阵,并定义−βQV =2,1, S.T. QQ= I.(9)作为3.2. 优化策略Ht=(I+Φt)−1(I−τ2Φt),(15)其中,I是单位矩阵,Φt=tQ−Qt是在Eq中提出的问题(9)是一个非凸优化问题sation问题。据我们所知,没有直接的方法来找到它的最优解。类似于[?本文提出了一种利用交替优化方法求局部最优解的迭代方案具体地说,我们初始化Q=I和=s。P的初始化可以通过P=(s)−1π得到。拟议UVDS的整个替代程序如下所示1. -step:通过固定P和Q,我们可以简化Eq。(9)对以下子问题:min<$Xs− VQ<$2+<$V − AsP<$2+λTr(V<$LV)⊤⊤2反对称矩阵τ是一个近似极小值满足Armijo-Wolfe条件[48],并且是方程的偏导数(13)对于Q,t=V(十六)其中对角矩阵E被定义为与等式2中的相同。(十一)、通过这种方式,对于Q步,我们重复上述公式来更新Q,直到实现收敛。3. P-step:通过固定Q和V,我们可以简化Eq。(9)对以下子问题:最小αV − AsP 2。(十七)- QVPFγ2,1+其中,额外项γ12根据等式2将学习6. 最小值可以是通过设置方程的偏导数得到。(10)为零,我们有用标准最小二乘法问题的解析解如下:P=(AAs)−1A V。(十八)JV= 2(VQ− X)Q + 2(V − AP)+2λLV−βVQEQ<$1 +γ1<$1V= 0,(11)其中E=diag(e1,. . . ,ed,p. . . ,eD)∈RD×D和d-通过这种方式,我们顺序地将Q和P更新为opti。基于坐标下降的具有T次的UVDS。为每个变量,无论是全局的还是局部的最优值都被实现,因此总体目标是下界的,这保证了我们的方法的收敛性。在实践中,UVDS可以很好地收敛到T= 5<$10。1、A= 1(Nπd)。通过合并类似于条款,方程式(11)可以改写为3.3. 零炮识别V(2QQ + 2αI+βQEQ⊤)+(2λL+γ1λ L1)V一旦我们获得了嵌入矩阵P和Q,就可以很容易地合成看不见的类的视觉特征−(XQ+ 2AP)= 0,(12)从它们的语义属性来看:这是一个典型的Sylvester方程,因此可以通过MATLAB中的lyap()函数有效地求解在Wards之后,需要进一步集中学习VXu= AuPQ。(十九)值得注意的是,对于图像级属性,Xucon-τ2⊤11633vn←vn−(Nn=1 v n)/N,以满足等式六、包含与测试集一样多的实例零射击识别任务现在成为一个典型的分类问题。2. Q-step:通过固定P和V,我们可以简化Eq。(9)对以下子问题:min<$Xs−VQ<$2−β<$Q<$V<$2,1,s.t. QQ=I(13)因此,任何现有的监督分类器,例如,SVM,可以应用。对于类级别,只合成每个类的原型特征。要么是少数学习技巧或者最简单的最近邻(NN)算法可以是QF领养的 由于我们关注的是合成的质量,由于我们需要用等式中的正交约束求解Q。(13)、本文采用梯度流特征,我们简单地使用NN和SVM用于图像级任务,NN用于类级任务。11634SV X A A∈VVVQVP表1. 与最先进的方法进行比较。L:低级功能,A:使用AlexNet的深度功能,V:VGG-19,CA:类级属性。T:转导的。算法1:不可见的视觉数据合成(UVDS)输入:训练集{Xs,As,Ys},k-nn图的k输出:P、Q和V⊤我们通过平均每个类的图像级属性来计算类级属性。对于AwA数据集,只提供类级别的属性。1初始化Q = I,=A=(⊤s)−1其中IRD×D是单位矩阵。2 重复AsV,对于低级视觉功能,我们使用[23,11,37,46]。 深学习特征,我们采用[54]发布的CNN特征用于使用VGG-19模型的四个数据集。3-步骤:固定P、Q并使用等式更新(十二)、4Q-步骤:修复P,并按以下步骤更新5(t= 1):最大迭代次数6.使用等式(1)计算梯度Δt(16);7计算反对称矩阵Φt;8使用等式(1)计算凯莱矩阵Ht。(十五);9使用等式计算Qt+1(14);10如果收敛,则中断;11端部12P-步骤:修复,Q,并使用Eq.(十八)、13直到收敛14 返回fUVDS(x)=xPQ4. 实验我们在四个基准数据集上评估我们的方法,并严格遵循 已 发 布 的 可 见 / 不 可 见 分 割 。 对 于 AwA[23] 和aPY[11],我们像大多数现有方法一样遵循标准的40/10和20/12分割。对于CUB,我们遵循[2]使用150/50设置。对于SUN,我们使用简单的707/10设置,如[18,43,54]所述。不同设置下的方法[40,13,7,9],或使用其他变量,不与各种语义信息[36,52,1,3]进行比较。语义属性现有的属性分为图像级和类级。在CUB、aPY和SUN数据集上,提供了图像级属性。我们的方法可以合成所有看不见的实例的视觉特征实现参数训练集中每个类的一半数据用作验证集。我们使用10折交叉验证来获得最佳超参数λ和β。对于k-NN图,k被固定为104.1. 与最先进方法的表1总结了我们与最先进方法的已发表结果的比较。连字符表示所比较的方法未在原始论文中的相应数据集在第一部分中,所有的比较方法都使用传统的低层特征进行了测试在第二部分中,使用了深度学习功能。对于所有四个数据集,我们首先使用类级属性(CA)评估我们的方法。在这种情况下,每个看不见的类从类属性签名中获得一个合成的可视特征原型。利用这些原型进行神经网络分类,对未观测到的测试图像进行预测.当图像级别的属性是可用的,在CUB,APY和SUN,我们进一步进行实验,使用SVM分类器。每一个看不见的图像的视觉特征向量合成的建议UVDS,然后输入到训练SVM模型。在测试过程中,从看不见的图像中提取的视觉特征被馈送到训练好的SVM以获得预测。我们的方法可以稳定地优于国家的最先进的方法对传统的模拟场景。我们的结果也超过了基于转换设置的两个结果[56,54],这足以支持我们的合成视觉特征具有高度区分性。虽然深度学习功能可以提高方法特征动物属性加州理工-加州大学圣地亚哥分校鸟类aPascal aYahooSUN属性民主行动党[24]ALE[2][43]第43话:我的世界LLLL40.5043.5043.01±0.0749.30±0.21-18.00--18.12-26.02±0.0527.27±1.6252.50-56.18±0.27-我们的+CA我们的+SVMLL53.45±0.30-43.52±0.6940.88±1.3436.98±0.6244.21±0.2853.46±1.3266.03±0.74民主行动党[24]VAVV+TV+TV+T57.2361.975.32±2.2876.33±0.8380.46±0.5390.25 ±8.08-40.3-30.41±0.2042.11±0.5553.30±33.3938.16-24.22±2.8946.23±0.5350.35±2.9765.36±37.2972.00-82.10±0.3282.50±1.3283.83±0.2986.00±14.97阿卡德[3]罗梅罗-帕雷德斯和托尔[43]张和Saligrama[54]张和Saligrama[55]张和Saligrama[56]我们的+CA我们的+SVMVV82.12±0.12-44.90±0.8845.72±1.2342.25±0.5453.21±0.6280.50±0.7586.50±1.7511635表2. 与基线方法的比较。场景数据集幼崽孙APY测试域看到看不见看到看不见看到看不见基线CAMFCAMFCAMFCAMFCAMFCAMF线性回归66.8264.3427.2830.3188.8589.1263.0064.5052.4255.3517.9621.63基于原型仅GR(β= 0)65.7965.5338.8240.4289.6788.4175.5076.0059.3857.7525.7528.86仅DR(λ= 0)66.3267.9837.7540.6490.3189.8574.0077.5057.9658.3230.2832.46我们67.4768.4344.9044.9092.3289.8880.5078.5062.7564.8842.2541.97基线NNSVMNNSVMNNSVMNNSVMNNSVMNNSVM线性回归64.5767.4422.3626.5790.7992.2772.5077.0043.7544.4213.4815.96基于样本仅GR(β= 0)61.3866.8832.6538.5888.4291.9174.5080.0053.3457.0822.7425.59仅DR(λ= 0)62.4468.9436.9342.2488.3490.4778.0084.0055.0553.4123.6824.22我们63.7870.3239.8245.7289.8593.2378.5086.5054.3569.7538.4953.21CA:类级属性,MF:合成特征的平均值,GR:图正则化,DR:扩散正则化。最佳结果以粗体显示图3. 合成数据的归一化方差w.r.t.尺寸.每个维度的方差按降序排序。我们做了一个合成数据方差之间的比较“与”(绿色)和“没有”(红色)扩散正则化。真实数据的方差(蓝色)是根据真实的不可见数据作为参考计算的。性能,我们的方法也可以实现可接受的结果与低级别的功能。在大多数情况下,使用支持向量机可以进一步提高识别率,特别是当类级属性是噪声时,例如。在APY和SUN上。然而,如果类级别的属性更精确,例如。CUB,类级NN分类器可以优于SVM。4.2. 详细评估基线方法为了了解方程中每个项的影响。(9),我们将我们的方法与表2中的几种基线方法进行了比较。由于AwA仅提供类级别的属性,因此以下实验仅在CUB、SUN和aPY上进行。第一种方法是简单的线性回归,我们求解方程。(1)和合成原型的看不见的类使用方程。(二)、第二种和第三种方法表示为仅图正则化(GR)(β= 0)和仅扩散正则化(DR)(λ=0)。对于训练偏差问题,我们使用验证集来测试所看到的类上的方法。我们还调查下的类级和图像级属性的情况下的CNOL。第一个场景是基于原型的,即。每个不可见类只获得一个可视原型。我们比较了两种可能的方法来获得类级别的可视化原型:1)计算每个类中图像级属性的平均值,并使用平均的类级属性(CA)为每个类合成一个视觉原型; 2)我们首先从图像级属性中合成视觉特征,并使用特征的平均值(MF)作为类原型。在测试过程中,我们使用NN分类来预测测试图像的标签第二种方案是基于样本的,即。每个不可见的图像具有一个唯一的属性描述。在这个场景中,我们完全合成了所有未看到的类的视觉特征我们展示了如何一个先进的分类器,例如。SVM可以进一步提高性能。总之,我们的方法可以有效地防止训练偏差,而没有正则化的线性回归从可见到不可见平均遭受30%的性能下降。DR是GR的补充,可以进一步提高性能。有没有显着差异之间的CA和MF的情况。因此,我们提出的方法可以可靠地应用到图像级和类级属性。另一个优点是,合成的视觉数据可以被馈送到典型的监督分类器以实现更好的性能,这可以由使用SVM的结果支持。进一步讨论还有两个问题:(1)扩散规则化的结果是什么?(2)什么样的视觉特征是合成的?在图3中,我们显示了合成数据的每个维度的方差方差按降序排序。我们比较了真实的看不见的数据和没有扩散正则化(β= 0)的合成请注意,在没有DR(红色)的合成数据中,大多数方差是一致的。11636图4. 最近邻匹配的成功和失败案例。查询视觉特征是从其属性描述中合成的。我们从真实实例中找到查询特征的前5个最近邻居。如果最近的实例和测试图像具有相同的标签,则为匹配。集中在几个维度上(大约1000、1500和500在SUN、aPY和CUB上),而大多数剩余维度获得非常低的方差。相比之下,我们提出的合成数据(绿色)和真实数据的变化此外,由于DR,我们提出的数据中的方差比实际数据更平衡,即。每个维度获得等量的信息。这样的定量证据解释了我们提出的方法在语音识别中的可行性。最后,我们提供了一些定性的结果,我们的方法。我们使用合成的功能作为查询和检索真实的图像从看不见的数据集。在图4中,我们展示了一些成功的案例,大多数前5名的结果都具有相同的类标签。特别地,Bag的第三个结果是用于合成数据的属性的相同配对图像。这样的结果表明,合成的数据是接近的样本从同一类中的特征空间。相反,我们也提供了一些失败的情况下,前1检索结果是不具有相同的类标签。有些是由于语义的模糊性造成的,如:跳蚤市场与鞋店有许多相似之处。其他一些情况,例如:的CUB数据集,鸟类的真实数据与其他类没有区别。因此,基于NN的检索给出了真阳性和假阳性的混合物。由于视觉特征的模糊性而导致的这种故障并不常见。我们仍然可以在CUB数据集上实现45.72%的整体识别率。5. 结论在 本 文 中 , 我 们 提 出 了 一 种 新 的 算 法 , synn-thesises视觉数据的不可见的类使用语义属性。从实验中可以看出,直接使用基于回归的模型嵌入会导致识别率较低,这主要是由于三个主要问题,即结构差异、训练偏差和方差衰减。相应地,我们引入了一个潜在的结构保持空间的扩散正则化。我们的方法在所有四个基准数据集上的表现都超过了最先进的方法。对于未来的工作,一个有价值的尝试是用从文本驱动的自动词向量代替语义属性通过这种方式,可以进一步降低合成数据的成本。11637引用[1] Z. Akata,M.马林诺夫斯基,M。Fritz和B.席勒多线索零射击学习与强监督。在CVPR,2016年。[2] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的标签嵌入CVPR,2013。[3] Z. Akata、S.里德D.沃尔特,H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。CVPR,2015。[4] Z. Al-Halah,T. Gehrig和R. Stiefelhagen通过一个共同的潜在空间学习语义属性。在VISAPP,2014年。[5] Z. Al-Halah和R. Stiefelhagen如何换乘?通过语义属性的分层传递进行零拍目标识别。InWACV,2015.[6] D. Cai,X. He、J.Han和T. S.煌用于数据表示的图正则化 非 负 矩 阵 分 解 Pattern Analysis and MachineIntelligence,IEEE Transactions on,33(8):1548[7] S. Changpinyo,W.- L. Chao湾Gong和F.煞为零射击学习合成大小的分类器。在CVPR,2016年。[8] S. Changpinyo,W.- L. Chao和F.煞为零射击学习预测看不 见 的 类 的 视 觉 样 本 。 arXiv 预 印 本 arXiv :1605.08151,2016年。[9] W.- L. Chao,S.昌皮纽湾Gong和F.煞一个实验研究和分析的广义零杆学习的对象识别在野外。arXiv预印本arXiv:1605.04253,2016年。[10] M.埃尔霍塞尼湾Saleh和A.埃尔加马尔写一个classi-fier:使用纯文本描述的零镜头学习。CVPR,2013。[11] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象。CVPR,2009。[12] Y.傅氏T. M. Hospedales,T. Xiang,Z. Fu和S.龚用于零炮识别和注释的Transductive多视图嵌入。在ECCV。2014年[13] Y.傅氏T. M. Hospedales,T. Xiang和S.龚trans-ductive多视 图 零 射 击 学 习 。 Pattern Analysis and MachineIntelligence,IEEE Transactions on,37(11):2332[14] Z.傅氏T. Xiang、拟青霉E. Kodirov和S.龚基于语义流形距离的零拍目标识别。CVPR,2015。[15] C.甘,M。Lin,Y. Yang,G. de Melo和A. G.豪普特-曼。概念并不孤单:探索零拍摄视频活动识别的成对关系。在AAAI,2016。[16] Y. Gong和S. Lazebnik迭代量化:一种学习二进制代码的亲克鲁斯特方法。CVPR,2011。[17] S. Huang,M.Elhoseiny,A.Elgammal和D.杨学习超图正则化属性预测器。CVPR,2015。[18] D. Jayaraman和K.格劳曼具有不可靠属性的零炮识别。在NIPS,2014。[19] D. Jayaraman,F. Sha和K.格劳曼通过抵制分享的冲动来消除感官视觉属性的关联。CVPR,2014。[20] H. 我也是M. 杜兹角Schmid,和P. 佩雷斯。将局部描述符聚集成紧凑的图像表示。CVPR,2010。[21] E. Kodirov,T. Xiang,Z. Fu和S.龚无监督域自适应零射击学习。在ICCV,2015年。[22] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS,2012年。[23] C. H. Lampert,H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类。CVPR,2009。[24] C. H. Lampert,H. Nickisch和S.伤害。基于属性的零拍视 觉 对 象 分 类 。 Pattern Analysis and MachineIntelligence,IEEE Transactions on,36(3):453[25] H. Larochelle、D. Erhan和Y.本吉奥。零数据学习新任务。在AAAI,2008年。[26] J. Lei Ba,K. Swersky,S. Fidler等人使用文本描述预测深度零触发卷积神经网络。在ICCV,2015年。[27] X. Li 和Y. 小郭。多 类分类的最大间 隔零射击学习InAISTATS,2015.[28] X. Li,Y. Guo和D.舒尔曼带标签表示学习的半监督零触发分类。在ICCV,2015年。[29] K. Liang,H.张,S。Shan和X.尘属性学习的统一乘法框架。在ICCV,2015年。[30] Y.朗湖,澳-地Liu和L.邵用于零次学习的视觉语义歧义消除在BMVC,2016年。[31] Y.朗湖,澳-地Liu和L.邵迈向细粒度的开放式零射击学习:从贡品中推断出看不见的视觉特征。在WACV,2017年。[32] Y. Long和L.邵用实例描述看不见的类:使用分组学习集成的零射击学习。在WACV,2017年。[33] T. Mensink,E.Gavves和C.斯诺克Costa:零炮分类的共现CVPR,2014。[34] T. Mensink,J.Verbeek、F.Perronnin和G.楚卡用于大规模图像分类的度量学习:以近乎零的成本推广到新的类。在ECCV。2012年。[35] M.帕拉图奇湾Pomerleau,G. E. Hinton和T. M.米切尔使用语义输出代码的零触发学习。NIPS,2009年。[36] D. Parikh和K.格劳曼相对属性。见ICCV,2011年。[37] G.帕特森角Xu,H. Su和J. Hays.太阳属性数据库:超越类别,实现更深入的场景理解。International Journal ofComputer Vision,108(1-2):59[38] J. Qin,L. 柳湖,加-地 Shao,F. 申湾 Ni,J.Chen,和Y.王.具有纠错输出码的零射击动作识别。在CVPR,2017年。[39] J. Qin,Y.王湖,加-地Liu,J. Chen,and L.邵超越潜在属性:零触发识别的离散潜在属性学习IEEE信号处理快报(SPL),2016年。11638[40] M. Rohrbach,S. Ebert,和B.席勒在转换环境中迁移学习。在NIPS,2013年。[41] M. Rohrbach,M. Stark和B.席勒评估大规模环境中的知识转移和零触发学习。CVPR,2011。[42] M. 罗尔巴赫 M. 斯塔克 G. 沙瓦斯, I. 古列维奇,B.席勒什么在哪里有帮助,为什么?语义相关性的知识转移。CVPR,2010。[43] B. Romera-Paredes和P.乇一个令人尴尬的简单的零射击学习方法。ICML,2015。[44] V. Sharmanska,N. Quadri
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功