没有合适的资源?快使用搜索试试~ 我知道了~
基于密集属性注意:细粒度广义零拍识别的基于属性的注意机制及自校准损失研究
1基于密集属性注意东北大学huynh. husky.neu.eduEhsan Elhamifar东北大学eelhami@ccs.neu.edu摘要我们解决的问题,细粒度的广义零拍识别的视觉上相似的类没有训练图像的一些类。我们提出了一种密集的基于属性的注意机制,对于每个属性集中在最相关的图像区域,获得基于属性的特征。我们提出了一种属性嵌入技术,将每个基于属性的特征与其属性语义向量对齐,而不是将图像的全局特征向量与其关联的类语义向量对齐。因此,我们计算一个向量的属性得分,在图像中的每个属性的存在,其相似性与真正的类语义向量是最大化的。此外,我们使用属性上的注意力机制来调整每个属性得分,以更好地捕捉不同属性的区分力。为了解决在测试过程中对可见类的偏见的挑战,我们提出了一种新的自校准损失,它调整了不可见类的概率来考虑训练偏差。我们在CUB,SUN 和 AWA2 三 个 流 行 的 数 据 集 以 及 大 规 模DeepFashion数据集上进行了实验,表明我们的模型显着提高了最先进的水平。1. 介绍细粒度识别,即对视觉上非常相似的类别进行分类,是一项重要而艰巨的任务,具有广泛的应用范围,从时尚工业,例如,不同类型的鞋或衣服的识别[1,2,3],到面部识别[4,5,6]和环境相关性,例如,承认濒危鸟类或植物物种[7,8,9,10,11,12]。然而,训练细粒度分类系统是具有挑战性的,因为从每个类别收集训练样本需要由专家进行昂贵的注释 以 区 分 相 似 的 ‘Parakeet Auklet’ and ‘Least Auklet’bird species, see Fig- ure 因此,训练样本通常遵循长尾分布[13,14],其中许多类很少或没有训练样本。在这项工作中,我们的目标是推广细粒度识别到新的类没有训练样本图1:传统的零镜头分类(顶部)压缩视觉特征以执行具有类语义描述的全局嵌入,因此,不能有效地捕获细粒度的区分视觉信息。我们的方法(底部)通过密集的基于属性的注意力找到局部判别区域,并将每个基于属性的特征与属性语义描述单独嵌入,从而允许将知识转移到看不见的类,同时保留所有细粒度的细节。通过捕获和转移细粒度的知识,从看到的类到看不见的类,而不会过度拟合看到的类。虽然细粒度分类通过使用特征池实现了显著的性能[15,16,9]和区分区域定位[11,7,3,1,12,2]技术,它不能推广到看不见的类,因为它需要来自每个类的训练样本,并且不能杠杆化辅助信息,例如类语义向量,这是将知识转移到看不见的类的基础。由于需要昂贵的训练数据,传统的细粒度分类方法无法扩展到大量的类。然而,细粒度的类通常可以用类中通用的属性来描述。因此,有效地使用这些语义描述来在类之间传递知识可以显著减少用于训练的注释的量。另一方面,Zero-Shot分类利用类别语义描述形式的辅助信息来推广到看不见的类别[17,18,19,20]。一大批现有的工作学习嵌入函数44834484图2:我们提出的基于密集属性注意力的细粒度零触发学习的概述,带有属性嵌入和自校准。提取R区域的图像特征并将其输入到我们的密集注意力机制中,以计算所有属性的注意力特征。然后将注意力特征与属性语义向量对齐,以测量图像中属性的得分,这些得分被组合以形成最终的预测。将图像的视觉特征与其类别语义向量对齐,这允许从可见和不可见类别中对测试图像进行分类[18,19,20 , 21 , 12] 。 However, these works rely on holisticimage features that are insuffi- cient for distinguishingfine-grainedclasses,wherethedis-criminativeinformation is contained in a few regions corre- spondingto a few attributes.虽然特征合成技术[22,23,24,25]学习使用类别语义向量生成图像特征并将问题转换为标准分类,但它们仅合成高级图像特征,无法捕获可见/不可见类别细节的细粒度差异。很少有作品[26,27,28,29]探索了定位信息图像区域以进行细粒度零拍摄学习。[28]假设在训练和测试期间都可以访问地面实况判别部分,这是限制性的。另一方面,[26,27,29]只能扩展到十几个注意力模块,而不利用来自属性语义的视觉指导,[26]需要在训练期间访问昂贵的部分注释在强调图像的区分区域的同时,这些工作构建了一个全局图像特征向量,该向量与先前的工作类似,与类语义向量对齐,合并了所有属性,参见图1。与此方向正交,最近的工作[30,31]表明,调整不同属性的影响可以显着提高性能,但它们依赖于整体图像特征,无法捕获细粒度的区分区域。纸质捐款。在本文中,我们开发了一个新的细粒度零射击学习框架,解决了现有工作的局限性,如上所述。我们提出了一个密集的基于属性的注意力机制,每个属性集中在最相关的图像区域,获得基于属性的功能。我们的基于属性的注意力模型是由每个属性语义向量引导的,因此,建立了与属性数量相同数量的特征向量。它不是将所有基于属性的特征的组合与真正的类语义对齐,tic向量,我们提出了一种属性嵌入技术,将每个基于属性的特征与其属性语义向量对齐,参见图2。因此,我们计算属性得分的向量,对于图像中每个属性的存在,其与真实类语义向量的相似性被最大化。此外,我们使用属性上的注意力模型来调整每个属性得分,以更好地捕捉不同属性的区分力。因此,我们的模型处理只有少数属性不同的类。为了解决在测试过程中对可见类的偏见的挑战我们在三个流行的数据集CUB,SUN和AWA2上进行实验。此外,我们在更大的DeepFashion数据集上进行了细粒度广义零拍摄布料识别的实验。通过大量的实验,我们证明了我们的模型显著地改进了现有技术.2. 相关工作细粒度识别的目标是捕获跨不同类别的小但有区别的特征。[15,16,9,32]通过池化技术捕获了判别特征图之间的相互作用,而[33,34,35]提出了更好的方法来学习捕获细粒度细节的全局图像特征。另一方面,[12,36]通过基于部分的监督来定位图像的区分部分。为了避免区分部分的本地化注释,[37,10,7,38]将它们定位在弱监督设置中。尽管在完全监督的设置中取得了巨大的成功,但这些工作不能推广到零射击学习,其中仅为看不见的类提供高级属性描述。To deal with unseen classes without training samples,[18, 19, 20, 21, 12] propose to learn an embedding func-tion that aligns visual and semantic modalities where un-seen classes are recognized based on the distance betweenvisual features and unseen attribute descriptions.最近,生成方法[22,23,24,25]已经显示出很大的潜力。4485一a=1r=1注意力模块的任务是为输入图像找到它们在软注意机制中[52],我们在本文假设αr∈[0,1],Rr=1 αr=1to se-图3:CUB数据集中三个细粒度类及其属性描述的可视化。请注意,这些类仅在少数属性上有所不同。通过基于属性描述对未知类的特征进行综合,将问题转化为传统的具有完整训练样本的监督学习问题然而,它们只能产生高层次的图像特征,而忽略了图像中具有区分性的局部[26,27]引入零拍摄学习的注意力机制,以捕捉更精细的细节。注意力也可以以分层的方式递归学习[39,40]。然而,这些作品是为顺序输入而设计的,因此也不适合于图像识别。不可见的类偏差是训练和测试时间之间的主转换的直接结果[41],其中模型过度拟合在训练时看到的类。因此,[41,42]提出了转导零射击学习方法,其中模型在训练期间可以访问来自未看到的类的未标记样本以学习测试分布。然而,即使没有标签,收集看不见的样本也是昂贵的。已经探索了其他方法,例如基于所见之间的相似性的预测平滑。[43 ]第43话:不信的人,选择具有不同权重的不同区域。 注意权重通常使用softmax函数来归一化。4. 基于密集属性的细粒度广义零镜头学习在本节中,我们讨论了我们提出的基于属性的注意力,其中注意力集中在属性上,用于识别可见和不可见的细粒度类,以及我们的自校准损失,以防止对可见类的偏见。我们首先定义问题,然后提出我们的方法。4.1. 问题设置假设我们有两组类Cs和Cu,其中Cs表示有训练样本的可见类,Cu表示没有训练样本的不可见类,C,Cs<$Cu表示所有类的集合。 设(I1,y1),. -是的- 是的,(I N,y N)是N个训练样本,其中I i表示第i个训练图像,y i∈ Cs对应于其类别。广义零激发学习的目标是将可能属于可见或不可见类的测试图像分类。1鉴于没有用于未看到的类的训练图像,Cu,类似于(广义)零射击学习的现有工作[55,56,57,20],我们假设访问提供以下描述的类语义向量{zc}c∈C班 更具体地,zc=[z c,. . .,z c]m是se-1A[44]第45话:“你是我的朋友。这些作品要么权衡了不可见的类准确性的辨别能力,要么是不可微的,不允许有效的端到端训练。3.视觉注意力审查具有A个属性的类c的Mantic向量,其中zc表示具有类c中的第a个属性的得分[55,56,57,20,58,59]。我们将每个zc归一化为单位欧几里德范数。与[57]类似,我们假设在训练时可见和不可见的类语义向量都可用。此外,我们假设访问属性seman-视觉注意力产生的功能,从最可靠的-tic向量{va}A,其中va表示平均GloVe图像的外显区域,并已被证明是有效的,适用于图像分类、显著性检测和字幕等[48,49,50,51,52,53]。更具体地说,首先将图像I划分为由{Ir}r∈R表示的R个区域,其可以是任意的[54]或相等大小的网格单元[52]。为了简单和可重复性,我们使用后一种方法。设fr=f(I r)表示区域r的特征向量,使用在ImageNet上预训练的ResNet-101提取。给定区域特征{fr}R,注意力模块g(·)的目标是找到任务的最相关区域。 这是通过找到一个注意力特征f来完成的,其被定义为第a个属性中的单词的表示,例如, '黄喙'。我们允许属性语义向量在训练过程中进行细化(详见下文)。4.2. 拟议框架在本节中,我们将介绍我们的细粒度广义零炮分类方法。对于每个属性,我们的方法从输入图像的最相关区域中提取空间注意特征,随后将用于找到属性语义向量和基于属性的图像特征之间的兼容性得分。我们使用属性-图像兼容性得分,.f=gf1、. - 是的- 是的,f R=ΣRr=1αr(fr)fr,(1)类语义向量来定义图像属于每个类的分数。为了将每个属性的效用用于计算类得分,我们进一步扩展其中α r(fr)表示选择区域r的权重或偏好。这些权重未知,1这比传统的零拍摄学习更具挑战性,零拍摄学习假设测试图像只能属于一个看不见的类。4486我我我我我一我我我I aI伊伊阿ir=1属性-图像相容性分数通过对属性的注意来计算。为了学习空间和属性注意力网络以及注意力-图像相容性函数的参数,我们提出了一种损失函数,该损失函数用新的自校准损失来增加标准交叉熵损失,该自校准损失防止预测偏向于仅看到的类。4.2.1基于密集注意的学习属性的视觉模型的能力对于将知识从可见的类转移到不可见的类至关重要最近的工作要么将图像特征嵌入到类语义空间中[18,19,20,21,12],要么从类语义向量[22,23,24,25]。然而,没有本地化每个属性,他们忽略了细粒度类的判别视觉特征,获得包含来自非判别或不相关图像区域的信息的整体特征。作为我们方法的第一部分,我们提出了一个基于属性的空间注意力模型,对于每个属性,我们将最相关的图像区域定位到属性,以提取基于属性的注意力特征。度 量图 像 中 每个 属 性的 强 度( 召 回A是 属性 的 数量)。我们使用每个类语义向量融合这些分数,以找到类分数。更具体地,我们通过将属性注意力特征ha与属性语义向量va匹配,将属性得分ea定义为在图像i中具有第a个属性的置信度,ea,vTWeha,(4)其中We是将属性特征ha嵌入到第a个属性语义空间的嵌入矩阵事实上,当属性在视觉上存在于图像中时,相关联的图像特征将被投影到其属性语义向量附近。计算类别得分sc的一种方法是使用每个属性得分ea与具有类别c中的属性a的强度之间的乘积之和,即zc,如下:ΣAsc=ea× zc。(五)a=1结果,当类c具有属性a时,即,za>0,我们给定的图像。 回想一下,{va}A 是属性ac语义向量和{frRr=1a=1表示区域特征将最大化属性得分ei。然而,(5)的一个可能的限制是,所有在-图像I。对于第a个属性,我们定义它的注意力聚焦在图像i的不同区域上的权重为贡品对班级成绩有贡献。在细粒度识别中,不同的类往往有许多相似的at-α(fr,v),exp(vTWαfr)只有少数几个属性是不同的,我’,(2)′exp(vTWαfr)ra i其中W α表示用于度量每个属性语义向量与每个区域的视觉特征之间的兼容性的可学习矩阵。使用注意力权重集{α(fr,va)}R,我们计算基于属性的我们提出了一个注意力机制,贡献给模型选择属性的能力,这些属性对于分类和相似类之间的区分是最有用的。更具体地说,我们根据每个属性的注意力特征ha计算其效用,第a个属性的注意功能,ΣR我β(ha,v),exp(vTWβha)ha,r r一iaTai,(6)我r=1α(fi,va)fi.(三)exp(vaWβhi)+1其中Wβ是一个可学习矩阵。具有属性atten-因此,ha表示图像i的视觉特征,权值{β(ha,v)}A,我们建议计算我根据语义,向量,矢量请注意,当图像中缺少属性时,ha会捕获用于拒绝阿一阿a=1分类评分ΣA我是C,ea×zc×β(ha,v),(7)图像中的属性。 例如,模型可以集中在“背腹”上4.2.2基于属性注意给定基于属性的注意力特征的集合{ha}Ai i其中,模型通过设置属性注意力分数来调整每个属性对最终预测的影响。更具体地说,当属性由ha编码的a不能与语义向量对齐i a=1i对于每个训练图像i,我们的目标是计算类属于类别c的图像i的得分sc。在训练期间,类分数将被优化为对于}4487va和不应用于预测。请注意,与(2)中的空间注意力不同,我们使用softmax函数,因此,理想情况下专注于一个图像区域,地面实况类c=yi,其他类c较小伊岛在(7)中,我们对每个属性单独使用sigmoid函数为此,我们定义了A属性得分,其中每个得分都是一致的,这允许选择具有权重的多个属性4488我我一a=1我我我a=1C我我我我u接近1,并将其余属性的权重设置为接近0。值得注意的是,(4)中的ea和在对来自可见类的图像进行训练期间,βa(ha,va)在(6)中具有互补作用:ei捕获是不希望的。因此,为了允许非零预测概率,I a图像中是否存在该属性,而β a(ha,va)作为门控机制,它决定了e i对最终预测的影响程度。注1:注意,不是计算类com-在训练过程中,在看不见的班级中,看不见的类的分数低,我们建议增加看不见的分数和减少看到的分数使用余量(这里,设置为1),并使用L.cΣ类语义向量和Cal{si+1Cu(c)}。(十一)全局图像特征,我们首先计算A相容性每个基于属性的注意力特征和每个属性语义向量之间的得分,并自动选择这些得分的子集以形成类兼容性得分。这使我们的模型能够使用一组丰富的特征,基于图像中每个属性的本地化,并将最具鉴别力的特征用于分类。4.2.3具有自校准分量的损失函数其中1Cu(·)是一个指标函数,当c∈ Cu时取值为1,否则取值为−1。请注意,我们将校准过程视为优化问题。因此整个模型,包括注意力分量和属性嵌入,在不引入额外参数的情况下得到训练以避免对所见类的偏见。最终损失函数。结合交叉熵和自校准损失函数,我们提出最小化minL.c.cΣ为了找到模型的参数,我们需要-- 在训练图像上最大化模型预测和地面实况标签之间的交叉熵损失,即,Wα,We,Wβ,{va}Ace{si}+λLcal{si+1Cu(c)},(十二)Lce. 联系我们c∈C拉克西=−logp(si)。我(八)两个注意力模型的参数(归因于-基于空间注意和属性注意)、属性图像嵌入和属性语义向量。这里,p(sc)是图像i属于类别c注2注意,在我们的方法中,属性语义向量{va}A上的ic,这将导致并且通过将softmax应用于类得分{si}来计算,a=1每个属性的视觉基础的意义,以视觉fea-p(sc),经验(sc).(九)训练图像的真实性此外,通过共享{va}A之间′c′∈Ce×p(si)然而,优化仅由可见类组成的训练图像上的交叉熵损失易于偏向可见类,如[57,45]中所观察到的。换句话说,考虑到模型学习抑制不可见类的概率的事实,在对来自不可见类的图像进行测试期间,模型仍将预测可见类的高概率,从而阻碍该方法在不可见类上良好工作。为了克服这一挑战,我们首先考虑校准损失,允许在训练期间将一些预测概率从可见类转移到不可见类。更具体地说,我们定义所有类,我们有效地允许转移细粒度的从看不见的知识到看不见的知识在实验中,通过消融研究,我们表明,微调的属性语义向量的结果显着改善的性能。最后,在推理时,我们预测测试图像的类别为具有最大增强分数的类别,因此,我们基于增强的可见和不可见分数进行预测,我们已经明确校准为对看不见的类敏感。5. 实验L校准.Σ联系我们Σ,−log我. Σu∈CuΣp(su)、(10)我们在CUB [60],AWA2 [61]和SUN [62]的三个流行数据集上评估了我们提出的方法,称为此外,委员会认为,其中,为了符号的简洁,我们已经删除了{sc}c∈C中的子脚本,这可以从上下文中推断出来。因此,结合交叉熵损失的Lcal的最小化,促进了将非零概率置于在训练中看不见的课程。因此,在测试时,对于来自不可见类的图像,模型可以为真正的不可见类产生(大)非零概率然而,使用(10)的缺点是,它减少了我4489为了证明我们方法的不同组件的有效性,我们在DeepFashion [2]上进行了实验,DeepFashion [ 2 ]是一个用于细粒度衣服识别的数据集DeepFashion的样本数量几乎是CUB,AWA2和SUN中最大数据集的8倍,同时具有数千个属性,是研究我们的细粒度通用零射击学习方法有效性的合适数据集4490数据集#属性# seen (val) / unseen classes训练/测试样本幼崽312100(50)/507 057/4 731孙102第580(65)/72号决议10 320/4 020AWA28527(13)/1023 527/13 795DeepFashion1,00030(6)/10204 885/84 337表1:我们的实验中使用的数据集的统计。下面,我们讨论数据集,评估指标和基线方法。然后,我们展示并分析所有数据集的结果。我们首先在细粒度CUB数据集上报告了传统的零射击算法,然后在CUB、AWA2和SUN数据集上证明了我们的方法对广义零射击学习的有效性。最后,我们对DeepFashion数据集进行了消融研究。5.1. 实验装置H,在可见和不可见的准确性之间,H,2 × accs × accu。(十四)访问s+访问u基线。我们根据用于训练的特征类型[59]TCN [43]在没有局部化的情况下使用整体图像特征,并在推理时间期间通过属性描述将可见的类与不可见的类相关联。另一方面,f-CLSWGAN [25]、cycle-(U)WGAN [22]、f-VAEGAN-D2[23]和CADA-VAE [24]学习生成模型,以近似类图像的分布作为类语义描述的函数。因此,给定不可见类的语义描述,这些模型增强了数据集。在[57]之后,我们对CUB、SUN和AWA2这三个 流 行 的 数 据 集 进 行 了 实 验 , 并 对 更 大 规 模 的DeepFashion数据集进行了消融研究,这使我们能够研究我们方法的不同组成部分的效果表1显示了四个数据集的统计数据。CUB [60]包含来自细粒度鸟类的图像-有150种可见和50种不可见的类别。由于小的判别区域是区分细粒度类的关键,因此数据集还包含属性位置注释,以启用用于零件检测的学习模型。请注意,我们的方法在弱监督设置中有效,即,它使用每个训练图像的类标签,并且不需要属性位置的注释。SUN [62]是具有645个可见类和72个不可见类的视觉场景的数据集,并且在数据集中具有最大数量的类。然而,由于它的整体训练集很小,每个类只包含16个训练图像。AWA2 [61]已被提议用于动物分类,具有40个可见类和10个不可见类,并且总共具有37,322个样本的对于CUB,SUN,AWA2,我们遵循[57]中提出的训练,验证和测试划分。最后,DeepFashion [2]包含来自46个布料类别的289,222个样本。我们将类别划分为36个可见类和10个不可见类,以便具有足够数量的不可见类。我们使用数据集的原始训练/测试分割来进一步将所看到的类划分为训练集和测试集。评估指标。在[57]之后,我们在两个设置上测量了top-1精度:i)传统的零拍摄学习,其中测试图像仅来自看不见的类,因此所有预测都被约束为来自看不见的类; ii)一般化的零拍摄学习,其中测试图像来自可见和不可见的类。在后一种情况下,我们报告的准确性测试图像从看到的类,accs,从看不见的类,accu。此外,为了捕获可见和不可见性能之间的权衡,我们计算调和平均值,具有从看不见的类生成的要素的可见类并在完全监督2设置. 最后,我们报告了S GA [26]的结果,是专为细粒度分类,但是,需要注释的部分位置,以检测歧视性的部分。实施详情。根据[57]中的规范设置,我们使用预训练的ResNet-101,输入大小为224×224,用于所有方法的特征提取,无需微调。我们在最后一次卷积时提取特征图将其作为一组7×7区域的特征进行2我们使用在维基百科文章上训练的GloVe 模型[64]提取语义向量{va}a∈A我们在Py中实现所有方法-使用默认设置RMSprop进行Torch和优化[65]学习率为0。0001,批量为50。我们在NVIDIAV100 GPU 上训练所有模型,在CUB ,AWA 2,SUN上最多训练20个epoch,在DeepFash-ion上训练2个epoch在我们的方法中,我们固定λ=0。1,这也表明我们的自校准损失适用于不同的数据集,而不需要大量的超参数调整。我们考虑我们的方法的两个变体:Lce(可见类)仅优化可见类上的交叉熵,Lce+Lcal(所有类)优化可见类和不可见类上的交叉熵和自校准损失。5.2. 实验结果细粒度零射击学习。我们在CUB数据集上测量了细粒度的零射击性能,该数据集包含具有小视觉差异的不同鸟类物种,因此,需要能够专注于区分区域进行分类。在[12,26]之后,我们报告了给定不可见属性描述的传统零拍摄性能3.由于以往研究中实验设置的不同,我们对两种不同的实验进行了实验。2这与[27]的设置不同,它使用448×448图像。3这与[12,8]不同,在[12,8]中,对噪声文本特征执行零拍摄学习4491模型方法accs幼崽accuHaccs孙accuHaccsAWA2accuH埃塞尔比亚[59]63岁812个。621岁0二十七岁911个国家。012个。1七十七。8五、911个国家。0[第十八话]七十911个国家。519号。8四十三37 .第一次会议。9十三岁4九十510个。0十八岁0DeViSE [19]RNet [63]整体特征五十三061岁123岁8三十八岁。1三十二8四十七0二十七岁4–十六岁9–20块9–74岁7九十三4十七岁1三十0二十七岁8四十五3DCN [44]六十岁。728岁4三十八岁。7三十七0二十五5三十2–––TCN [43]52岁052岁652岁3三十七331岁2三十四0六十五861岁263岁4[25]第二十五话五十七7四十三7四十九7三十六6四十二639岁468岁9 52岁1五十九4[22]第二十二话整体特征五十九3四十七9五十三0三十三岁。8四十七239岁4–––[23]第二十三话一代六十岁。1四十八4五十三6三十八岁。0四十五141岁3七十6 五十七663岁5CADA-VAE[24]五十三551岁652岁4三十五7四十七2四十675. 055. 863岁9DAZLELce(seen classes)密集注意力六十五3四十二051岁131岁921岁7二十五882岁5 二十五739岁2DAZLELce+Lcal(所有级别)五十九6五十六7五十八1二十四岁352岁3三十三岁。275. 7六十岁。367岁1表2:CUB、SUN和AWA2上的广义零激发分类性能 我们报告每个看到的类的准确性accs和每个不可见类的准确度accu以及它们的调和平均值H。方法边界框注释精度SSPSRNet [63]62.055.6DCN [44]55.656.2TCN [43][25]第二十五话不需要--59.557.3[22]第二十二话-58.6[23]第二十三话-61.02S GA(单注意层)[26]需67.1-2S GA(双注意层)[26]68.9-DAZLELce(seen classes)不需要64.162.3DAZLELce+Lcal(所有级别)67.865.9表3:CUB数据集上的零次分类性能。标准分割(SS)和[57]中提出的分割(PS),以与最先进的方法进行比较。请注意,SS中的一些看不见的类出现在特征提取器的ImageNet训练集中,因此SS的性能通常高于PS。表3显示了不同方法对CUB的两个分割的准确度请注意,在SS上,我们比在整体图像特征上训练的方法至少提高了5.8%,而我们的性能与在训练期间使用区分部分的地面实况边界框注释的方法相当(差异在1%以内)(我们不使用此信息)。事实上,这显示了我们基于密集属性的注意力在捕捉细粒度细节方面的有效性,实现了类似的性能2到S GA,而不需要昂贵的注释,区分部件位置。另一方面,在PS上,我们以至少4.9%的改进优于其他方法,特别是相对于最先进的生成方法,其缺乏合成图像的局部区分区域的能力此外,请注意,具有自校准损失有助于将知识从可见的类转移到不可见的类,将PS的准确性提高了3.6%,而不是使用它。细粒度广义零次学习。表2显示了用于广义零射击学习的不同方法的性能,其中可见和不可见的类ap4492梨在测试时间正如结果所示,所有方法的不可见精度accu远低于可见精度accs。请注意,与SYNC [18]相比,它实现了最佳的可见准确度,我们的方法(Lce)更好地推广到具有高可见准确度的不可见类。这表明了我们的密集注意力机制的有效性,通过只关注可转移类,将其推广到不可见类属性特征,而不是通常包含不相关背景信息的整体视觉外观特征。然而,在没有自校准损失的情况下,我们的方法具有较低的看不见的准确性,特别是与特征生成技术相比,特征生成技术通过使用来自看不见的类的合成特征来增强训练样本来模拟推理发现。另一方面,使用校准损失Lce+Lcal,我们的方法在以下方面显著优于其他算法:特别是,在CUB、SUN和AWA 2上,与最先进的生成模型CADA-VAE [24]相比,看不见的准确度提高了5.1%、5.1%和4.5%。此外,我们的方法在CUB和AWA2上分别将调和平均值提高了5.7%和3.2%。然而,它没有达到最好的谐波平均太阳。我们认为这是由于所有可见类只有16个训练样本,这不允许有效地训练我们的密集注意力模型,并导致与SYNC相比甚至更低的可见性能[18]。请参阅补充材料,了解我们方法中不同组分的更详细分析。消融研究。我们通过对DeepFashion数据集上的1,000个属性进行细粒度的通用零次分类来评估我们方法的如表4中的结果所示,在没有自校准的情况下,虽然我们的方法的不同变体对于分类可见的类做得很好,但是它们不能推广到不可见的类。 使用我们密集的注意力而不是没有注意力 ,可以将看 到 的准确性提高1。4%(无自我-4493密集注意力自我校准关注的属性accsaccuH没有是是没有Lce(见类)没有否是四十五3四十六岁。7三十八岁。74.第一章8六、18. 28. 710个。8十三岁5表4:DeepFashion数据集上广义零触发学习的消融研究。校准)并将谐波平均值提高1。4%(自校准),这表明了关注细粒度属性的重要性。当使用自校准时,对属性的关注进一步将调和平均值提高1。百分之三。注意,在不细化属性语义向量的情况下,即,当VA固定时,谐波平均值下降1。9%(与精炼它们时相比),表明从GloVe学习的语义表示最初与视觉特征不兼容,并且学习属性语义是必要的。超参数的影响和属性选择. 考虑到我们的框架为每个属性产生一个注意力,我们通过从DeepFashion数据集上的不同属性子集进行学习,研究了使用的属性数量的影响,从而研究了注意力的数量。要做到这一点,我们通过对每个属性出现在所有类别中的概率的熵来如果一个属性出现在所有类中,那么它是无差别的,并且将具有高熵,如果一个属性只出现在一个类中,那么它将具有零熵,这表明它的区分能力。如图4(左)中的结果所示,通过学习前300个区分属性中的每个属性的注意力,我们的方法实现了高调和平均准确度,这表明了属性选择的重要性。 请注意,通过对属性的关注动态加权每个属性的重要性,我们的方法进一步提高了1.3%的性能结果表明,当我们只对属性使用注意力时(没有基于属性的特征,通过使用所有图像区域的特征的平均值),与使用密集注意力和对属性的注意力相比,性能下降了3%以上这表明了我们的密集注意力机制的重要性,它为属性注意力模块提供了输入。图4(右)显示了我们的方法在DeepFashion上作为λ的函数的性能注意,对于非常小的λ值,我们获得高的可见精度和几乎为零的不可见精度,并且随着λ的增加,可见精度降低,不可见精度增加,最终饱和。因此,调和平均值在可见和不可见准确度之间进行权衡,当可见和不可见准确度相似时达到最佳得分,当λ∈[0]时,1,0。3]。定性结果。图 5 可视化 密集的-图4:左:用于学习的属性数量的影响-密集注意和注意属性对谐波均值的影响。右:λ对可见、不可 见 和 调 和 平 均 准 确 度 的 影 响 。 这 两 个 实 验 都 在DeepFashion上进行图5:具有正属性分数(左)和负属性分数(右)的属性的注意力图的可视化。CUB数据集上的注意力地图请注意,我们的模型能够在弱超视的情况下定位细粒度信息只有图像标签。此外,我们的模型通过关注支持或拒绝每个属性存在的区域,正确地将正面分数分配给当前属性,并将负面分数分配给不存在的属性这证明了通过W α和W e的分层结构学习不同抽象/粒度级别的能力,其中(4)的输入取决于(3)的输出。我们观察到Wα很好地定位了一只鸟的不同部位,We可以确定是否存在(例如,6. 结论我们提出了一种密集的基于属性的注意力机制,其关注于每个属性的最相关图像区域,并在弱监督设置中将视觉属性描述接地到有区别的区域。为了将知识从可见类转移到不可见类,我们提出了一种自校准损失,该损失提前调整预测分布以在推理时更好地适应不可见类通过在三个研究充分的数据集和DeepFashion数据集上的大量实验,我们证明了我们所提出的方法的有效性。确认这 项 工 作 得 到 了 DARPA 青 年 教 师 奖 ( D18 AP00050 ) , NSF ( IIS-1657197 ) , ONR ( N000141812132)和ARO(W 911 NF 1810300)的部分支持。4494引用[1] W. Wang,Y. Xu,J. Shen,and S. C. Zhu,1[2] Z. Liu,P. Luo,S. Qiu,X. Wang和X.唐,“Deepfash-ion:通过丰富的注释为强大的衣服识别和检索提供支持,“IEEE计算机视觉和模式识别会议,2016年。一、五、六[3] K. E. Ak 、 细 叶 甲 A. A. Kassim , J.- H. Lim 和 J.Y.Tham,1[4] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A. Zisserman,1[5] Y. 温,K.Zhang,Z.Li和Y.Qiao,1[6] Z. Liu,P. Luo,X. Wang和X. Tang,1[7] Y.丁氏Y. Zhou,Y.朱,加-地Ye和J. Jiao,一、二[8] M. Elhoseiny,Y.Zhu,H.Zhang和A.M. Elgammal,“链接头的“喙”: 零 拍 摄 学 习 从 噪 声 文 本 描 述 在 部 分 精度,”IEEE会议上计算机视觉和模式识别,pp。6288-6297,2017年。1、6[9] T.- Y. Lin,L. RoyChowdhury和S. Maji,一、二[10] H. Zheng,J. Fu,T. Mei和J. Luo,一、二[11]X. Zhao,Y.Yang,F.Zhou,X.谭,Y。Yuan,Y.ba0和Y. Wu,2019年IEEE计算机视觉国际会议1[12] Z. Zhang 和 V. Saligrama , “Zero-shot learning via jointlatent similarity embedding” , IEEE Conference onComputer Vision and Pattern Recognition,2016。一、二、四、六[13] D. Huynh和E. Elhamifar,1[14] D. Wertheimer和B. Hariharan,1[15] S. Kong和C. C. Fowlkes,一、二[16] Y. Gao、黄花蒿O. Beijbom,N. Zhang和T. Darrell,一、二[17] D. Huynh和E.Elhamifar,1[18] S. Changpinyo,W.- L. Chao湾Gong和F. Sha,一二四六七[19] A. 弗 罗 姆 , G 。 S. Corrado , J.Shlens , S.Bengio ,J.Dean,M.A. Ranzato和T. Mikolov,“设计:深度视觉语义嵌入模型,“神经信息处理系统,2013年。一二四六七[20] M.诺鲁齐T.米科洛夫,S。本焦湾Singer,J. 史伦斯A. 弗 罗 姆 , G 。 S. Corrado , J 。 Dean , “Zero-shotlearningbyconvexcombinationofsemanticembeddings” , International Conference on LearningRepresentations,2014。一、二、三、四[21] Y.西安Z. Akata,G. Sharma,Q.阮,M。海因,还有B. Schiele,二、四[22] R. 费利克斯湾G. 诉库马尔岛D. Reid和G.Carneiro,二四六七[23] Y. Xian,S.夏尔马湾Schiele和Z. Akata,“f-vaegan- d2:Afeaturegeneratingframeworkforany-shotlearning , ”IEEE Conference on Computer Vision andPattern Appropriation,2019. 二四六七[24] E.Schoünfeld , S. Ebrahimi, S. Sinha, T. Darrell和 Z.Akata,二四六七[25] Y. Xian,T.洛伦茨湾Schiele和Z.Akata,5542-5551,2018。二四六七[26] Y. Yu,Z.吉,Y.Fu,J.Guo,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功