没有合适的资源?快使用搜索试试~ 我知道了~
零次学习中的属性注意以及语义消歧问题
6698零次学习中语义消歧的属性注意Yang Liu,Jishun Guo<$,Deng Cai Xiaofei He浙江大学计算机学院CAD CG国家重点实验室,杭州法布公司,中国杭州阿里巴巴-浙江大学前沿技术联合研究院中国广州广汽研发lyng95@zju.edu.cn,guojishun@gacrnd.com,dengcai@cad.zju.edu.cn,xiaofeihe@fabu.ai摘要零射击学习(Zero-shot learning,简称ZRL)旨在通过学习映射矩阵来准确识别看不见的对象,映射矩阵可以弥合视觉信息和语义属性之间的差距以前的作品在com中隐式地平等对待属性古典猪斑点猪但他们却忽略了,他们有着不同的个性。猪达尔马提亚歧视的重要性,这导致严重的语义歧义考虑到低层次的视觉信息和全局的类级别的功能,涉及到这种歧义,我们提出了一个实用的潜在特征引导属性注意(LFGAA)框架执行基于对象的属性注意语义消歧。通过分散导致歧义的维度中的语义激活,我们的方法在归纳和转换设置中的AwA2,CUB和SUN数据集上的性能优于现有的最先进的方法。源代码发布于https://github.com/ZJULearning/AttentionZSL。1. 介绍Zero-shot learning(Zero-shot learning,ZRL)是近年来的一个研究热点,其目标是为以前没有标记样本的类构造一个分类模型[1,18,46,33,27,39,24,43,4]。与直接将未标记的对象分配给训练可访问(可见)类别之一的监督分类不同,CNOL旨在识别在训练中不可见的对象。为了实现这一目标,为可见和不可见类提供辅助语义属性[46,44,30]。然后,CNOL学习在语义空间中预测看不见的对象,并通过搜索获得最相似语义属性的类来推断其标签。根据训练过程中是否有来自不可见类的图像,现有的CNOL方法可以分为归纳CNOL和转导无论是视觉信息还是看不见的类的边信息都是无用的。*通讯作者不含属性注意力的决策边界具有属性注意力的图1:一个语义歧义的示意图,在语义空间中,spottypig可能被误分类为dalmatian基于对象[2019 - 04 - 19]第49回:我的世界tive approximation [20,13,42,47,10,39]可以访问部分未标记的图像。在测试阶段,大多数近期研究都考虑了常规设置和广义用于对新图像进行分类的搜索空间被限制在常规设置中看不见的类。而在广义的CNOL设置中,我们假设测试图像来自可见和不可见的类。基于相容性分数的测量利用线性或非线性函数F(x,y;W)=θ(x)TWφ(y)来关联视觉表示θ(x)并提供辅助边信息φ(y),在过去几年中占据了主流[9,1,2,35,45]。兼容性得分不仅可以在用户定义的语义空间(φ(y)=ay)中采用,而且可以在最近几种最先进的语义空间方法中引入的潜在特征空间(φ(y)= σy)中采用[17,24,48,31]。虽然以前的工作主要集中在引入各种正则化目标[9,2,35,1]来学习更好的映射矩阵W,但语义属性本身在文献中较少中隐式地同等对待属性,语义空间潜在类别空间猪斑点猪达尔马提6699S兼容性得分几乎所有现有的作品,而在这项工作中,我们认为,这种平等的待遇导致严重的语义属性空间的歧义。我们使用语义歧义来描述那些带有其他类共同属性的非典型对象语义模糊对象的误分类可以描述如下:属性P在类A中是典型的,但在类B中很少发现;来自B的携带属性P的语义模糊实例将被分类到类A,因为P在类A中相对常见。例如,如图1所示,斑点猪更有可能被归类为斑点狗,因为斑点狗的特征斑点比猪的特征斑点更典型(斑点狗为100.0,猪为21.2由于具有大值的属性通常被认为是类内实例的公共属性,因此该属性维的决策边界更接近类拥有更大的属性值。这种性质使得分类在大多数情况下都能很好地工作,但同时也使得具有非典型属性的语义模糊对象容易被误分类。其他例子包括北极熊的海 洋 ( 35.0 ) 对 座 头 鲸 ( 89.4 ) 和 松 鼠 的 条 纹(12.50)对斑马(98.9)。为了缓解上述问题,我们提出了语义属性和潜在类别特征之外的第三种基于对象的属性注意力p具体地说,如果属性在其潜在类中不是一般的,则在维度j上的属性注意力pj通过分析与所提出的属性注意力相关的因素,我们同时考虑全局类级特征和低层视觉信息。这些贡献概括如下:(1) 本文指出了现有的语义消歧方法存在的语义歧义,并设计了一个端到端的属性注意力语义消歧框架。(2) 我们提出了一种离线原型学习策略,它依赖于视觉语义训练,在传统和广义的学习环境中都(3) 结合不同的原型学习策略,我们的方法实现了最先进的性能,在归纳和转导设置。2. 相关工作传统的Zero-Shot学习[22,3,15,29]遵循两阶段推理。首先将未标记对象的视觉表示投影到语义空间,然后通过搜索获得最相似属性的类来进行分类[11,10,34,48]。已经研究了各种语义空间,包括用户定义的属性注释[8]和无监督语义表示(word2vec [26],GloVe [32])。最近被tight CDL [16]共同在视觉和语义空间中对齐类结构。LAD [17]利用字典学习来获得有区别但保留语义的潜在特征空间。JSLA [31]通过最小化类内距离来学习潜在LDF[24]考虑潜在特征空间中的类内和类间距离。在这项工作中,我们进一步连接这两个空间(1)潜在的类别特征给予指导的语义属性注意;(2)语义特征为潜在原型的构建提供了线索。Prototype LearningPrototype [10]是分类中最具代表性的类级嵌入。现有的UML方法为了不同的目的学习原型。其中,DMaP [23]使用迭代方法在单个语义空间内重新生成语义一致的原型。LDF [24]和JSLA [31]在学习类相关性时利用岭回归来获得潜在特征空间中的未知原型。CDL [16]通过共享视觉和语义空间之间的结构来学习看不见的类原型。由于我们的方法还涉及在多个特征空间中学习,因此我们还需要分类中的潜在我们首先采用与[31,24]中相同的原型学习框架来证明我们在归纳学习环境中的有效性,然后提出另一种离线学习策略来减轻transductive学习环境中的域转移[10]。所提出的离线学习策略与[23]的不同之处在于:(1)我们将原型学习与视觉语义训练分开,并使LFGAA以端到端的方式进行训练(2)我们在特征空间中对齐原型,而不是在单个语义空间中进行优化。属性选择正如NAS [12]中提到的,属性拥有不同的属性(例如,类分布、方差和熵),并且在区分中具有不同的重要性。 NAS建议使用属性的细化子集来建立特定的模型。然而,它们的细化属性子集因模型和数据集而异,这是一种基于数据集和基于模型的属性选择。我们提出的属性注意也可以被视为一个软属性选择。与NAS不同的是,我们提出的属性注意力因对象而异,即使在同一个类中也是如此。据我们所知,这是第一个工作,考虑基于对象的属性注意力在CNOL。3. 预分析3.1. 问题表述和符号我们用以下公式来表示CPDL问题:一个可见的数据集S={(xs,ys)}N ,由Ns个图像组成,用作i i i=1虽然大多数作品都注重内在的学习训练集,其中xs是第i个图像,ys∈YS我我单个语义空间,其他特征空间也被研究-是其对应标签;类似的看不见的数据集U=67001{(xu,yu)}Nu用作测试集。 看不见的,看不见的。0.06i i i=1所看到的类是不相交的,即,YSYU=Y,YSYU=Y。0.04对于每个y∈ Y,存在一个属性向量ay∈Rkas-0.02与之相关。 我们将θ(x)=θ(x)TW和σ(x)记为分别代表语义预测和潜在特征预测。3.2. 基于对象的注意力0.000.020.04属性属性注意力选择性地集中在一组离散的属性上,而忽略不太重要的属性。在本节中,我们我们首先将最近类搜索视为不同类别组合之间的多个二进制分类,例如,通过以下方式来决定对象x是否更接近于类y1或y2D(x,y1,y2;W)=F(x,y1;W)−F(x,y2;W)(1)其中,D的符号表示二元分类结果,D= 0是其决策超平面。考虑兼容性语义预测和类级别属性之间的得分D(x,y,y)=(x)T(a,y,y)图2:猪与大麦町犬分类中的属性信息量。具有阳性信息量的属性对斑点狗有利。和白色),这进一步聚集了这种模糊性。基于这一观察,我们认为,不同维度之间的语义预测的差距应该缩小,使一个或几个突出的属性预测不会占主导地位的分类。然后,我们提出属性注意力分散非典型属性维度上的高激活。与所提出的基于对象的属性注意力的兼容性分数可以写为:F′(x,y;W)=θ(x)TWdiag(p(x))ay(4)IP1 21 2(二)(a,y1,y2)=ay1−ay2其中内积直接应用于它们。可以看出,Dip由语义预测和属性差异决定。我们使用l1-归一化以信息量表示区分度,二进制分类中每个属性维所携带的初始信息,即,属性i在类别y1和y2之间的分类中比属性j更具区分性,如果|大于|n(a,y 1,y 2)j|.|. 如图2所示,分类在很大程度上取决于这些属性携带更多的判别信息。另一种广泛使用的相似性度量[4,16,10,17、31]是余弦距离:其中p(x)是建议的注意力,W是视觉语义投射的参数。建议的兼容性评分与传统评分[22,3,15,29]的不同之处在于:(1)我们的注意力p(x)是基于对象的(x的函数),其中还利用了低级视觉信息,而传统的视觉语义映射矩阵直接从深度视觉嵌入θ(x)中学习。(2)仅在语义空间中学习使得投影矩阵与语义属性高度相关,而上述具有挑战性的情况在该空间中是模糊的;相反,我们提出的注意力是独立于语义空间学习的,不会增加这种模糊性。Dcos(x,y1,y2)=1ǁϕ(x)ǁǁay1ǁ T(x)T′(a,y1,y2)4. 潜在特征引导的属性注意在描述语义歧义问题的基础上′(a,y1,y2)=ay−ay1ay2(三)我们采用属性注意应该与全局类别特征和低层视觉信息高度相关的思想。建议的潜在特征引导在-与简单的内积相比,余弦距离在属性范数较大的类不利于判别的情况下,考虑了额外的l~ 2在一般情况下,内积和余弦距离都能很好地工作;但它不能处理语义模糊的情况。这些对象通常在其不太典型的属性维度上有很大的激活,这导致了歧义。更糟糕的是,还存在跨属性维度的相关性(例如,斑点与黑色高度相关图3显示了一个名为LFGAA的网络。在我们网络的核心,嵌入子网同时学习从视觉空间到语义空间和潜在特征空间的投影。嵌入子网是根据它们的接收场被分解成几个分支潜在引导注意力(LGA)模块被附加在每个分支中,以融合视觉信息和全局类别特征。来自不同视觉层次的属性注意力聚集在网络的末端。信息量黑白褐灰色斑点toughskin球根瘦肉蹄子长爪肉食动物臭快慢式主动不主动敏捷型肉食植物采集器领域聪明的独居家庭6701FCLGALGALGA⊕⊕(ℱ������下载softmax我,我我,我我,我嵌入子网图3:潜在特征引导属性注意(LFGAA)网络概述。对于给定的图像,我们首先使用嵌入子网来提取视觉信息。我们在上面构建了一个完全连接的层,将视觉嵌入投射到用户定义的语义空间和潜在特征空间中。在嵌入子网的中间层,多个潜在引导注意(LGA)模块被分支以执行基于对象的属性注意。对于每个图像输入,LFGAA同时产生语义预测σ(x)、潜在特征预测σ(x)和语义属性注意力p(x)。符号:FC全连接层,逐元素求和。4.1. 属性嵌入子网与现有的直接使用预训练的深度CNN特征作为其视觉表示的BNL方法[17,7,28]不同,我们在工作中联合优化了骨干CNN以及嵌入子网的其他部分。从主干CNN中提取的图像特征被馈送到几个完全ℳ���,���∈ ℝ���×��� ×������ ������ ∈ ℝ���×1×1���,∈ℝ���×���′���′��� ������ ∈ ℝ���将具有ReLU激活的连接层分别非线性地投影到语义和潜在特征空间。隐特征用于在LGA模块中给出全局类相关的指导和在隐空间中进行预测,而语义特征通过注意力与属性注释进行比较以进行语义预测。4.2. 潜在引导注意力模块图4:潜在引导注意力(LGA)的图示本文对不同分支层l∈lB上的所有LGA模使用相同的H′和W′。然后,我们将投影特征图M′和潜在特征σ(xi)组合起来,以获得属性注意力,如下所示:尽管在语义空间和潜在fea中学习Hi,l=Fsq(M′σ(xi))(六)真实空间实现了最一般的有前途的性能在文献[17,31,24]中的案例中,应该结合基于对象的属性注意来处理语义模糊的对象。Latent GuidedAttention模块(如图4所示)源于这样一种直觉:属性注意力与全局类级别的特性以及不同视觉层次的信息。给定嵌入子网的特定层l处的第i幅图像的视觉特征映射Mi,l∈RC×H×W及其对应的潜在特征嵌入σ(xi)∈Rk,从层l获得所建议的属性atentagepi,l∈Rk如下:视觉特征图Mi,l首先通过pl(xi)=softmax(WlHi,l+bl)其中V=Fsq(M)是将特征映射M∈RC×H×W转换为特征向量V∈RC×HW的挤压函数,并且是通道式加法。Wl和Bl是在特定分支层l处的单个全连接层的参数,收集区域视觉信息。从特定层l获得的属性注意对应于一定的视知觉深度。由于来自不同视觉层次的信息对语义的贡献不同,因此我们将来自不同视觉层次的多属性注意进行融合,以获得综合注意。标准卷积层F的集合,以获得M′∈Rk×H′×W′,与潜在特征共享相同的通道尺寸4.3. 优化我们认为视觉语义和视觉潜在的亲,′我,我=F(Mi,l)(5)在我们的工作中注入并同时优化它们ℳ′ ∈ ℝ���×��� ×���′′,ℱ⊕M6702Σyi,TyyΣyΣi,t我我i,t对于视觉潜在投影,我们遵循与LDF [24]相同的方式,使用三重损失[36]通过同时扩大类间距离和减少类内距离来学习区分性潜在类别特征:1ΣN自适应的思想是:(1)样本应位于对应的原型附近;(2)语义空间相近的样本在潜空间上趋于相近。在本节中,我们表示关注的语义预测'(xi)=(xi)Tdiag(p(xi)),LF=N[<$σ(xi)−σ(xj)<$2− <$σ(xi)−σ(xk)<$2+α]+我(七)s=Tay(十二)其中xi、xj和xk分别用作三元组内的锚、正和负样本。符号[]+等于max(,0)。α是用于控制锚定正对和锚定正对之间的期望裕度负对对于视觉语义投影,我们通过广泛使用的softmaxloss联合学习嵌入子网和LGA模块中的参数:ǁϕǁ·ǁayǁ我们首先介绍一个SA步骤,如下所示:伪标签yc首先基于它们的关注语义预测被分配给未标记的对象:yc= arg maxs(x′(xi),ayc)(13)yc∈Y不可见类u∈ U的潜在特征原型可以1ΣNexp(n(x)T diag(p(x))a)然后通过平均潜在特征预测来获得,L=−原木Iyi(八)伪标记类u中的实例:ANexp(n(x)T diag(p(x))a)II IYy∈YSσ(x)1(yu,yc)我们将这两个优化目标结合起来,σyu=我我我1(yu,yc)我我(十四)将因子β作为我们的最终优化目标,其可以写为:L=LF+βLA(9)4.4. 原型构建与原型预测在我们的工作中,我们研究了归纳和转换对于归纳设置,我们采用与JSLA [31]和LDF [24]相同的构建过程,其中平均潜在特征直接用作所见的原型11(x,y)如果x=y则返回1,否则返回0。在Eq.(14)通过直接在潜在特征空间中求平均值来缓解域转移问题,语义空间在这个过程中只提供了一个提示。然后,如下所述,自适应迭代地重新检查语义原型,并将潜在原型类型与初始化σ0u= σyu对齐。我们使用最新的伪标签作为我们的转换预测标签C在这项工作中。类σys =Nx∈xsσ(x),并且看不见的原型是以岭回归的混合Σ自适应: 同时建立潜在特征模型,totypes,修改语义原型并进行预测。βu= argmin ayu−βuay2 +λβu2初始化:yy∈YSy2y2σ0u←σyu,a0u←ayu,yc←ycσyu= Σ βuσy(十)yy对于t= 1到T,做i,0iYYC←argmaxs(′(x),at−1)+s(σ(x),σt−1)y∈YSi,t乌鲁伊友友伊友友然后,通过下式执行归纳混合预测:yc= arg maxs(x′,ayc)+s(σ(xi),σyc)(11)σtu←iσ(xi)1(yu,yc)i1(yu,yc)Σ我我yc∈Y′(xi)1(yu,yc)从Eq可以看出。(10)域转移[10]问题存在于混合原型中,其中βu是在语义空间中计算的,并且它不能准确地反映真实的类atu←1(yu,yc)i i,ti,t潜在空间的关系。直接采用这种在语义空间中学习到的类相关性而不对潜在空间进行任何调整会导致未知的转变。受NCM分类器[25]的启发,该分类器将图像分配给具有最接近均值的类,我们提出了一种离线自适应(SA)策略,以直接在转换的BML设置中的潜在特征空间基本我我67035. 实验5.1. 设置数据集实验在三个代表性的CAMEL数据集上进行:具有属性2的动物[46](AwA 2),Caltech-UCSD鸟类 200-2011 [44] ( CUB ) 和 动 物 属 性 数 据 库 [30](SUN)。AwA2是一个粗粒度的6704表1:常规CNOL设置中的比较(%)。对于每个数据集,归纳和转换方法的最佳性能都以粗体标记。对于LFGAAG,LFGAAV和LFGAAR,视觉嵌入功能分别使用GoogleNet[40],VGG19[37]和ResNet101[14]标准分割(SS)和建议分割(PS)均标记法:I归纳法,T转导法。方法SSAwA2PSSS幼崽PSSS孙PS民主行动党[22]58.746.137.540.038.939.9[49]第四十九话67.561.043.743.925.454.5CONSE[29]67.944.536.734.344.238.8[9]第十九话68.659.753.252.057.556.5西班牙语[35]75.655.143.753.957.354.5ALE[1]80.362.553.254.959.158.1我SJE[2]69.561.955.353.957.153.7同步[5]71.246.654.155.659.156.3[第17话]78.467.856.657.951.762.6CDL[16]79.567.954.554.561.363.6Y. Annadani等人[4]美国-63.8-56.0-61.4LFGAA+Hybrid(我们的)84.368.167.667.662.061.5TAAw[21]82.0-51.0-57.0-[42]第四十二话80.869.260.359.664.563.4不QFSL[39]84.879.769.772.161.758.3LFGAAV +SA(我们的)94.075.580.076.966.761.4LFGAAG +SA(我们的)95.176.678.181.163.164.8LFGAAR +SA(我们的)94.484.879.778.964.066.2关于图像数量的中等规模的数据集,即,来自50个动物类别的37,322张图像,具有85个用户自定义属性。CUB是一个细粒度数据集,包含来自200种不同鸟类的11,788张图像,具有312个用户定义的属性。SUN是另一个细粒度数据集,包括来自717个不同场景的14,340个图像,提供了102个用户定义的属性。AwA 2、CUB和SUN分别采用标准40/10、150/50、645/72零发射分裂,用于标准分裂和建议分裂[46]。评估我们在实验中使用平均每类前1名准确度(AccY)作为主要指标,并在常规和一般化设置中进行实验[46]。 常规中未标记的对象在 一 般 情 况 下 , 它 们 只 来 自 于 看 不 见 的 类(Y=YS),而在一般情况下,它们来自于看不见的类和看不见的类。λ都设置为1。0的所有实验。我们选择了四个不同大小的特征图,在不同的视觉水平学习属性注意。我们设置迭代SA步骤T= 10,但实际上它在前几次迭代中收敛。我们使用batch-hard策略执行在线三元组挖掘,并且在所有实验中,整个LFGAA都使用Adam优化器[19]以端到端的方式进行训练。5.2. 常规比较我们将传统的CCLL(CCLL)与几种最先进的转导CCLL方法[39,21,42]和竞争性诱导CCLL方法[22,29,5、17、9、35、2、4、16]。我们进行了诱导性LF-GAA+混合和转导性LFGAA+SA两者,除了在第4.4节中关于CCLIL的内容和结果见表1。看不见的类(Y=YSYU)。 我们报告AccYU,整体性能从表1可以看出常规设置和AccYS、AccYU、调和平均值2次访问YU次访问YS加速YU+加速YS在一般的设置。提出的属性注意力达到了最先进的水平在感应和传导设置上的性能。通过对不同背衬的实验结果进行了验证实现不同的骨干网络,包括GoogleNet [40],VGG19[37]和ResNet101 [14],用于初始化我们的嵌入子网,图像在输入LFGAA网络之前被随机裁剪为相应的大小三重边缘α与岭回归在骨网络中,我们的方法不仅对特定的CNN模型或特定的数据分裂有效我们还发现CUB中的属性(不同身体区域的形状、颜色)比SUN简单得多,涉及场景理解和归因注意,受益于低层次的视觉信息。H=6705方法Acc. (%)× 10−3无注意力62.1 2.48黑猩猩河马大熊猫座头鲸+鲸浣熊豹波斯+猫鼠海豹猪(a) LFGAA+Hybrid(b)LFGAA+SA(T= 1)(c)LFGAA+SA(T= 5)(d)地面实况图5:潜在特征预测和潜在类原型在AwA2不可见对象上的可视化。不同方法之间的比较如(a-c)所示,其中这些方法共享相同的特征网络(导致相同的点分布),但仅在原型构造方面有所不同。(a-c)中的颜色表示预测标签,而(d)中的颜色表示地面实况。我们使用黑色圆圈来标记每种方法中的潜在原型。表2:具有相同主干的所有三个数据集(拟定分割)的消融结果(%)w/乙状结肠73.51.75方法AwA2幼崽孙使用softmax81.10.86LFGAA+Hybrid+无注意力62.462.161.2LFGAA+Hybrid68.167.661.5LFGAA+SA+无关注70.967.462.8LFGAA+SA75.578.966.2图6:CUB数据集与拟议数据分割[46]和LFGAAG +SA的比较。σ2是312个语义维度的l2与最先进方法的比较作为 如表1所示,我们的基于注意力的方法在三个数据集上的表现优于现有技术。在感应设置中比较,我们的LFGAA+Hybrid在AwA2和CUB上均显示出优越性,并在SUN上实现了相当的性能。在转导设置,我们提出的LF- GAA+SA有一个令人印象深刻的增益超过国家的最先进的QFSL [39]以5. 百分之一点十。AwA2和具有挑战性的CUB数据集均为3% 我们的表现SUN上的改进略低于其他数据集,因为稀缺性(类中约有20个看不见的实例),其中我们的自适应原型对于72个看不见的类别不具有足够的代表性。我们的LFGAA网络的架构遵循LDF [24],在语义和潜在特征空间中学习。因此,我们引入了第三个注意力分支,以使预测对那些具有挑战性的对象更具区分力。我们的基线LF- GAA+混合(AwA 2上84.3%,CUB上67.6%)优于LDF [24]中报告的结果(AwA上81.4%[22],65.9%),达到了最先进水平。为了深入了解所提出的注意力的有效性,我们在CUB数据集上进行了另一个实验,通过比较LFGAAw/o注意力和LFGAA w/sigmoid方法,结果如图所示6. 可以观察到,在提出注意力机制的情况下,不同维度之间的预测方差减小,这表明了第3.2节中讨论的基本思想,即突出属性还可以发现,基于softmax的注意力的分散效果更好,因为它在训练中引起不同属性维度之间的竞争我们还可视化了这三种方法的每个不可见类的规范化语义预测,它们的近似密度函数与核密度估计,这也表明了这种分散效应。为了进一步探索属性注意的有效性,我们对CCLL设置进行了消融研究。表2中的结果清楚地表明,所提出的注意力在诱导和转导设置中都有好处。有效的自我适应域转移问题存在于在语义和潜在空间中学习的方法[17,31,24]通过直接在潜在空间中构建原型,我们的自适应方法明显优于混合方法。为了证明我们的业绩提升6706表3:广义CSCL设置中的比较(%)。对于每个数据集,最佳结果以粗体标记。方法访问YUAwA2加入YSH访问YU幼崽加入YSH访问YU孙加入YSH同步[5]10.090.518.011.570.919.87.943.313.4[9]第十九话17.174.727.823.853.032.814.730.519.8西班牙语[35]5.977.811.012.663.821.011.027.915.8CMT[38]0.590.01.07.249.812.68.121.811.8[第38话]8.789.015.94.760.18.78.728.013.3CDL[16]29.373.941.923.555.232.921.534.726.5Y. Annadani等人[4]美国20.773.832.324.654.333.920.837.226.7F-CLSWGAN[47]57.961.459.643.757.749.742.636.639.4[42]第四十二话58.368.162.841.553.346.740.930.534.9LFGAA+Hybrid(我们的)27.093.441.936.280.950.018.540.025.3LFGAA+SA(我们的)50.090.364.443.479.656.220.834.926.1主要来自潜在原型的校正,我们使用t-SNE [41]在图5(a-c)中可视化该校正过程。可以看出,大多数杂交原型类型(例如,波斯猫、大熊猫和大鼠)处于集群的边缘,而自我适应的原型逐渐向中心移动通过自适应策略,我们的最终标签预测也是可分离的。5.3. 广义比较我 们 还将 我 们 的方 法 应 用于 广 义 的 神经 网 络 L(GALML),以进一步证明其有效性。通过自适应与从YU扩展到Y U的伪标签联合获得可见类和不可见类的潜在特征原型。Y=YSYU,结果见表3。我们的性能提升主要来自于AccYS和AccYU的改进,但由于我们的LFGAA,仍然存在对可见类[6,46]模型无法访问未见过的图像。虽然我们在SUN上取得了很好的计算性能,但是我们的GSTML性能不如其他的转导方法因为它是一个极有偏见的数据集(可见类是不可见类的2.9倍方法如SE-METL[42]和f-CLSWGAN [47]使用合成的看不见的例子以Acc Y S为代价消除这种偏差 下降6. 消除歧义的质量在3.2节中引入的信息量(IA)反映了属性j在二元分类类y1和y2中的重要性。IA原本与图像无关,但在我们的方法中变得相关,因为我们提出根据图像I重新加权属性的重要性。图7:二元分类中的IA绿色条表示w/o atten- tion,棕色条表示w/ attention,表示不明确的例子,紫色条表示w/ attention,表示对应的例子。7. 结论在本文中,我们提出了平等对待不同的语义维度,特别是在处理语义歧义对象的缺点有理由认为,分类应该取决于多种因素,而不是一个或几个突出的语义预测。受此启发,我们提出了一个端到端的注意框架,以分散可能导致歧义的语义预测。本文提出的注意独立于语义空间学习,在区分中整合了低层在不同数据集上进行的各种实验结果表明,它在诱导和转导设置的效率n(I)j(ay1,j−ay2,j)IA(I,j,y1,y2)=我的y1,i-ay2,i p(I)i(十五)致谢我们在图7中显示了误导性属性IA的消歧,其中IA在模糊示例中大幅减少,但对其对应物的影响不大。本 工 作 得 到 了 国 家 自 然 科 学 基 金 ( 批 准 号 :61751307)和国家青年拔尖人才支持计划。IA(角、牛、羚羊)IA(游泳,北极熊,水獭)IA(斑点,猪,斑点狗)一6707引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid。基于属性分类的标签嵌入。2013年IEEE计算机视觉和模式识别会议,2013年6月。[2] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价。IEEE计算机视觉和模式识别会议论文集,第2927-2936页,2015年[3] ZiadAl-Halah , MakarandTapaswi , andRainerStiefelhagen.恢复丢失的链接:预测无监督零射击学习的类属性关联。在IEEE计算机视觉和模式识别会议论文集,第5975-5984页,2016年[4] Yashas Annadani和Soma Biswas。为零次学习保留语义关系。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。[5] Soravit Changpinyo,Wei-Lun Chao,Boqing Gong,andFei Sha.用于零镜头学习的合成分类器。在2016年IEEE计算机视觉和模式识别会议,第5327-5336页[6] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别欧洲计算机视觉会议,第52-68页施普林格,2016年。[7] 丁正明、明绍、云甫。用于零射击学习的低秩嵌入式集成语义词典2017年IEEE计算机视觉和模式识别会议(CVPR),第6005-6013页[8] Ali Farhadi,Ian Endres,Derek Hoiem,and David A.福赛斯按属性描述对象。2009年IEEE计算机视觉和模式识别会议,第1778-1785页[9] Andrea Frome,Gregory S. Corrado、Jonathon Shlens、Samy Bengio 、 Jeffrey Dean 、 Marc'Aurelio Ranzato 和Tomas Mikolov。Devise:一个深度视觉语义嵌入模型。神经信息处理系统进展26,第2121-2129页,2013年[10] 放大图片作者:Timothy M.作者简介:王晓刚,陶翔,龚绍刚. Transductive multi-view zero-shot learning. IEEETransactionsonPatternAnalysisandMachineInteligence,37(11):23322345,2015年11月。[11] 藤原康弘和入江高高效的标签传播。第31届国际机器学习会议论文集,第784-792页,2014年[12] 郭宇晨、丁贵光、韩俊功、唐胜。带属性选择的零触发学习在AAAI-18 AAAI人工智能会议上,2018年。[13] 郭宇晨,丁桂光,金晓明,王建民。通过共享模型空间学习的直推零射击识别。在AAAI,第3卷,第8页,2016年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议(CVPR),第770-778页,2016年。[15] Dinesh Jayaraman和Kristen Grauman具有不可靠属性的零炮神经信息处理系统的进展,第3464-3472页,2014年[16] Huajie Jiang,Ruiping Wang,Shiguang Shan,and XilinChen.学习类原型通过零射击识别结构对齐。欧洲计算机视觉会议,2018年9月。[17] Huajie Jiang , Ruiping Wang , Shiguang Shan , YiYang,and Xilin Chen.学习零射击分类的判别潜在属性。在IEEE国际计算机视觉会议集,第4223[18] Nour Karessli , Zeynep Akata , Bernt Schiele , andAndreas Bulling.用于零拍摄图像分类的凝视嵌入。2017年IEEE计算机视觉和模式识别会议,2017年7月。[19] 迪德里克山口金玛和吉米·雷巴。Adam:随机最佳化的方法2015年学习表征国际会议[20] Elyor Kodirov,Tao Xiang,Zhenyong Fu,and ShaogangGong。无监督域自适应零射击学习。2015年IEEE计算机视觉国际会议(ICCV),2015年12月。[21] Soheil Kolouri,Mohammad Rostami,Yuri Owechko,and Kyungnam Kim.零次学习的联合字典。2018年全国人工智能会议[22] Christoph H Lampert , Hannes Nickisch , and StefanHarmeling. 基于属性的零镜头 视觉对象分类。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(3):453[23] Yanan Li,Donghui Wang,Huanhang Hu,Yuetan Lin,and Yueting Zhuang.使用双重视觉-语义映射路径的零射击 识 别 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第3279-3287页[24] Yan Li,Junge Zhang,Jianguo Zhang,and Kaiqi Huang.零射击识别的潜在特征的识别学习。在IEEE计算机视觉和模式识别会议论文集,第7463-7471页[25] Thomas Mensink,Jakob Verbeek,Florent Perronnin,and Gabriela Csurka.基于距离的图像分类:以接近零的成本生成新的类。IEEE Transactions on Pattern Analysisand Machine Intelligence,35(11):2624[26] Tomas Mikolov,Ilya Sutskever,Kai Chen,Gregory S.科拉多和杰弗里·迪恩。单词和短语的分布式表示神经信息处理系统,第3111-3119页[27] 佩德罗·莫尔加多和努诺·瓦斯康塞洛斯零炮识别的语义一致正则化。2017年IEEE计算机视觉和模式识别会议(CVPR),2017年7月。[28] 佩德罗·莫尔加多和努诺·瓦斯康塞洛斯零炮识别的语义一致正则化。在CVPR,第9卷,第10页,2017年。6708[29] Mohammad Norouzi,Tomas Mikolov,Samy Bengio,Yoram Singer,Jonathe Shlens,Andrea Frome,Greg S.科拉多和杰弗里·迪恩。通过语义嵌入的凸组合的零射击学习。2014年学习表征国际会议[30] 吉纳维芙·帕特森和詹姆斯·海斯日光属性数据库:发现、注释和识别场景属性。2012年IEEE计算机视觉和模式识别会议,第2751-2758页[31] Peixi Peng , Yonghong Tian , Tao Xiang , YaoweiWang,Mas-similiano Pontil,and
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功