没有合适的资源?快使用搜索试试~ 我知道了~
零部件属性识别中的数据不足问题及共享网络解决方案
1识别数据不足的零件属性赵祥云西北大学易阳百度研究鲍颖泽周峰百度研究影无邪小谭百度公司袁雨辰百度公司百度研究西北大学摘要识别物体及其部件的属性在许多计算机视觉应用中具有重要意义。虽然在应用对象级识别方面取得了很大进展,但由于零件属性识别的训练数据通常很少,尤其是对于互联网规模的应用,零件属性识别仍然不太适用。此外,大多数现有的零件属性识别方法依赖于零件标注,这是更昂贵的获得。为了解决零件属性识别中数据不足的问题,摆脱对零件标注的依赖,提出了一种新的概念共享网络(CSN)来进行零件属性识别。CSN的一个很大的优势是它的案例-Wing发现了一些训练样本Wing White一些训练样本breast black一些训练样本少量训练样本的通过从通常将部件位置和外观图案混合在单个标签中的训练数据中分别在CUB-200-2011 [51]、CelebA [35]和新提出的人类属性数据集上的广泛实验证明了CSN的有效性及其优于其他方法的优势,特别是对于训练样本较少的属性。进一步的实验表明,CSN也可以进行 零 冲 零 件 属 性 识 别 。 该 代 码 将 在https://github.com/Zhaoxiangyun/Concept-Sharing- 网 络上提供。1. 介绍计算机视觉社区在识别对象的全局特征方面取得了巨大进展,例如执行类别检测[44,15,43,68]和分类[24](例如检测边界框并从图像中对鸟类的类别进行分类)。同时,识别对象部分的属性(例如,定位鸟的翅膀并对其生物特征进行分类)由于多个问题而仍然是非常具有挑战性的问题。首先,属性(例如,鸟的翅膀的颜色)通常附着在一个非常薄的。图1.在许多数据集和实际应用中,零件属性的标注通常非常有限。例如,如图所示,在CUB-200-2011 [51]数据集中,乳房斑点的标签很少,而翅膀斑点,翅膀白色和乳房黑色的标签数量较多,但仍然有限。我们建议根据不同标签的位置和模式来识别它们之间的关系,以便重用其他属性的标签,以便于识别缺少标签的属性(例如,图中的乳房)。此外,我们发现,所有这些属性的识别可以共同提高,如果个人的概念,不同的属性可以共享。目标的有限区域,与整个目标相比,通常更难以从图像中大多数现有的零件属性识别方法[64,30,62]训练具有大量额外注释的零件检测器以检测相关零件。然而,这样的部件注释获得起来非常昂贵因此,当零件注释不可用时,这些如何识别只有图像级注释的零件属性仍然是未开发的。另一个重要的问题是,训练数据的获取成本很高,而且在现有的数据集中通常是不够的。例如,在一个常用的鸟类器官特征识别数据集CUB-200-2011 [51]中,大多数属性的训练图像数量仅从350351V1零件定位模式识别特征提取在这项工作中,我们还贡献了一个大规模的人类在-腹红!腹白翅白向前不可见属性前向监督模块V1V1V$V$模块W1W$W$W1腹部红色地面真相腹部白色地面实况WingWhite地面实况看不见的属性翼红该数据集名为SurveilA,包含75,000张图像,具有10个仔细注释的属性,专注于视频监控的细粒度人类活动。在野外采集不同场景、尺度、姿态和视角变化下的人体图像。该数据集具有挑战性,如实验所示,简单地微调标准网络无法提供足够准确的估计,并且识别将需要模型专注于局部判别部分。总的来说,我们的工作有以下贡献:1)我们图2.培训概述。不同的训练图像-该方法首先通过神经网络将特征属性转发得到图像表示,然后通过同一定位模块转发具有相同特征的属性样本,通过同一模式识别模块转发具有相同外观模式的属性样本。没有训练数据的新属性可以被识别为学习的模块的组合。几十个到最多几百个。现有的属性识别方法大多对每个属性进行独立处理,忽略了不同属性间的空间相关性。因此,它们的性能仅仅受到每个孤立属性的训练数据量的限制。如何解决数据不足的问题很少被讨论。为了解决这些挑战,我们提出了一种新的概念共享网络(CSN)的部分属性识别。在CSN中,部件属性被定义为两个概念的组合:部件位置和外观图案,如图所示。1.一、我们的神经网络将两个概念建模为两个模块,而不是在不同的分支中单独建模每个属性。由于CSN中的两个模块可以在不同的属性之间共享,因此属性的标记(例如,颜色和形状)属于某些部分(例如,翼)可以用于促进相同部分的另一属性的训练,反之亦然。通过这种方式,我们最大限度地利用宝贵的训练数据,以提高属性识别性能的独立和聚合。请注意,CSN只需要图像级属性标签来训练,因此它比依赖于零件位置注释的现有零件属性识别方法[64,30,62]更通用。此外,CSN还可以用来发现新的属性,如:零冲零件属性识别给定一个具有特定属性的训练集,CSN中零件定位和模式识别的训练结果可以用来识别一个不属于训练集的新属性如示于图2.在学习了翅膀位置和颜色(红色)图案之后,即使不存在新属性翅膀红色的旨在解决数据不足的问题,部分归因于识别,这是很少在以前的工作中讨论。2)提出了一种不依赖于零件标注的3)我们的网络被证明是有效的零拍零件属性识别。4)我们将发布一个新的数据集的部分属性识别,其中包括75000图像的人在现实世界的情况下,10个属性注释。2. 相关工作属性识别在[12]中首次作为计算机视觉问题引入。从那时起,属性识别已经被广泛研究了许多数据集和方法[11,10,26,25,27,28,55,67]。零件属性识别是一个比较困难的问题,因为它只附着在一个对象的一个非常有限的区域。最先进的方法[5,64,30]通常依赖于零件位置注释来训练零件检测器,例如Pose-let [5],可变形零件模型[63]或R-CNN [16],以首先定位零件,然后提取视觉特征来识别属性[22]。但是零件注释的获取成本非常高。尽管最近提出了一些方法[57,21,69]来定位识别的重要区域,但它们并没有为零件属性识别仔细设计[14,32]使用属性识别结果来促进细粒度识别,但当训练数据不足时,这两种方法都会失败除了收集更多的数据外,few-shot learning [50]和zero-shot learning [39]在试图直接解决数据不足的问题-预测从训练集中很少或完全看不到的新概念这些问题是经典的,因为几乎所有的野外数据都遵循重尾分布[19],在训练后经常出现新的类别,并且没有有限的样本集可以覆盖真实世界的多样性。最近,少次学习被建模为Meta学习问题[42,13],通过实验性地构建训练损失来强制适应新类别,并且只有很少的例子。另一方面,由于完全缺乏训练数据,零杆模型在-352我我我尝试学习从其他外部来源转移知识[1,45,7,52,65,31,58]。与这些工作相比,我们利用视觉注意机制将零件位置与外观特征进行分解,并在属性之间共享分解后的表示,这使得我们能够对新属性进行零镜头或少镜头的概化。视觉注意力模型[38,4]已广泛用于对象识别[69,53]、细粒度识别[47,33]、图像字幕[60]和视觉问题回答[8]。这些模型还在表示过程中分解了位置和外观,但没有专注于解决数据不足的问题。CSN通过在多个属性标签之间共享注意力机制,提高了视觉注意力模型的数据效率。注意区域和特征共享依赖于属性标签,这类似于视觉问答(VQA)[3]。在VQA中,现有的方法[2,37]也试图根据给定的问题定位相关区域但是在VQA中,所有的Q/A对都使用相同的分类器(即,共享图像和语言特征提取、共享答案分类器)。相比之下,多属性识别通常被认为是一个多任务问题,需要训练不同的分类器。特别是在大规模的识别中,收集足够的数据以训练好每个分类器是非常昂贵的。这带来了数据不足的特殊挑战,这是我们方法的重点。属性数据集存在一些属性识别数据集,从一般的对象和场景[11,27,10,46,40,28,41,66]到特定的细粒度类,例如如 脸[20 ,26 ,25 , 35], 鸟[51], 汽车 [61], 衣服[34],甚至蝴蝶[54]。由于人类属性识别在现实世界应用和挑战中的重要性[17,5,48,70,9,64,49,29,30],我们提出了一个大规模的具有挑战性的数据集,用于人体部位属性识别。3. 概念分享网络零件属性识别的目的是预测零件属性的陈述是否为真,例如:无论是“鸟的翅膀是黑色的”还是“鸟的喙是红色的”。在这项工作中,我们介绍了一种新的概念共享通过相同的模式识别模块转发相同的定位模块和具有相同外观模式的属性样本这些模块通过通过它们转发的训练样本来学习。在推理过程中,如图所示。3.给定图像并识别与部位i和外观图案j相对应的属性Pi,j,通过相应的定位模块和图案模块转发图像以获得最终预测。3.1.1零件本地化模块我们的工作的一个新颖之处是在CSN神经网络中使用注意力机制来定位属性的部分。我们提出了一种受CAM启发的基于注意力的方法[69]。 请注意,许多其他替代方案[53,56]也可以与我们的框架相结合给定图像x,我们使用CNN堆栈来提取图像上不同位置的特征。的输出在特定层的CNN是Q(x; Θ)∈Rhw×d,其中h和w分别是空间高度和宽度,d是通道数,Θ是所采用的CNN的参数。对于一个特定的零件,我们维护一个可学习的向量Vi∈Rd×1,它被称为零件表示,用来对相关的零件进行编码.我们期望Vi与特征图Q(X; Θ)中的特征之间的内积值为在相关的区域中值高,而在其他地方值低。如图3、定位模块以图像表示Q和位置表示Vi为输入,输出内积映射Ai:Ai(x; Vi,Θ)= Ai(Q; Vi)= Q(x; Θ)ViT.(一)然后,我们通过soft-max运算在空间域上对Ai进行归一化,以导出注意力图,如下所示:A′= s(Ai).(二)其中s是空间Softmax函数。注意力图通过信道广播,然后将结果乘回到特征图,得到注意力加权特征图Q′:Q′=Q(x; Θ)T<$A′。(三)网络(CSN)的零件属性识别,如图所示,图3 .第三章。在CSN中,每个属性被定义为两个概念的组合:零件定位和模式识别。3.1. 网络在CSN中,属性识别基于两个模块:零件定位模块和外观模式识别模块。在我们的训练过程中,如图2所示,通过CNN转发不同属性的训练图像以获得图像表示,然后通过CNN转发具有相同部分的属性样本。其中,n是广播乘法的运算。注意,注意力加权特征图Q′对于不同的i是不同的,尽管输入特征图Q是同样,其呈现输出特征以聚焦于不同的空间位置。3.1.2模式识别模块传统的属性识别方法通常采用平均池、全连接层和353J我n ikniJd×2我part*本地化模块属性$i,j(iCNN内积Ai′图案+识别模块全球加权平均我池图3.推理概述。 在推理中,给定图像和识别属性Pi,j,通过相应的位置模块i和模式模块j转发图像以获得最终预测。soft-max层,用于生成属性的最终概率。相比之下,我们的方法为每个属性学习一个注意力图来加权特征图,以便下面的ap-更新人:<$N<$kj−1<$L(f(x; Θ,V,W(T),y)可以通过聚集不同部件位置的所有训练数据具体地,对于注释了二元分类器la的每个应用模式jW+=Wj−γK得双曲正弦值.n=0n k jWujn(六)在部分属性识别中,预测标签的概率被计算为,V+=Vi−γ<$N<$ik−1<$L(f(x;Θ,V,W T),y)<$Q′×我f(x;Θ,V,W T)=softmax(W TQ′).(四)kn=0Q′Viij j i其中Q′∈Rd×1是空间域上Qi的全局平均池化结果,W j∈R是二进制分类任务j的外观特定权重。3.2. 概念分享培训在这一部分中,我们描述了概念分享训练的过程。 我们用P i,j表示属性,其中部件位置索引用i表示,模式索引用j表示。 属性识别模型具有要优化的参数Θ、Vi和Wj。 我们将属性Pi,j的训练图像表示为X ij= x0 ,x1 ,., x Nij −1 ,其标签为Yij=y0,y1,., yNij−1其中Nij表示属性P i,j的训练样本总数。通过在识别模块的最终二进制输出处使用交叉熵损失的端到端方式来训练Θ、Vi、W j。总损失为:NΣ−1L=L(f(xi;θ,Vi,W T),yi)。(五)i=0时其中L是交叉项损失,N是训练样本的总数,满足:N=i,jN ij. 所有在Eq中的属性。5个共享相同的Θ,其用于提取CNN的特点。在我们的概念共享训练中,局部化模块从共享相同部分的所有训练样本中学习,模式识别模块从共享相同模式的所有训练样本中学习因此,共享模型Vi和Wj的权重为:(七)值得一提的是,如果属性被视为是独立的,如在传统的识别框架,训练V i和W j将只涉及训练样本(Xij,Y ij)。在 实际应用中,单个属性的训练样本数量通常很少,因此传统的识别框架的性能受到每个孤立属性训练样本数量不足的限制。相比之下,在我们的概念模型中,从工作中分享,即对于模式识别,以及用于部件定位的kNik。训练数据的扩展提高了有限数据下的学习充分性3.3. 新属性识别在大规模的应用中,属性的数量是大的,它几乎是不可行的,以获得合理数量的合格的训练数据的每个属性。在这一部分中,我们解释了CSN如何在不需要任何训练样本的情况下用于识别新属性。如上所述,定位和识别模块在不同的属性之间共享,定位和识别模块的一个特定组合确定对一个特定属性的识别,例如图1中的属性乳房点。请注意,我们没有任何关于乳房斑点的训练数据。但是,我们仍然可以从其他属性中训练乳房定位模块和斑点模式模块因此,通过将学习到的位置前额和图案斑点相结合,前额斑点可以被日本足球俱354可以理解的是,没有任何这样的训练数据。具体地,属性Pi,j识别模型由其参数Θ、W j和Vi确定。 由于W j可以从属性P α,j(α i= i)学习,并且V i可以从属性Pi,β(βi=j),属性Pi,j识别模型即使没有任何Pi,j数据也可以确定4. 实验我们在三个属性识别数据集上进行了实验,包括CUB-200-2011 [51],CelebA [35]和我们新的SurveilA数据集。因为积极和消极-比尔-布莱克74.9% 78.6% 76.0%在CUB-200-2011中,SurveilA,我们使用平均精度作为我们的主要评估指标。4.1. 数据集CUB-200-2011数据集包含200种鸟类的11,788张每幅图像标注有312个属性,其中278个是与部件相关的属性。这些部件相关属性都是二进制属性,指示在一个特定部件中是否存在特定的外观模式,例如属性wing-black告诉翅膀是否是黑色的。在实验过程中,我们观察到背部和尾部属性是嘈杂的标签。因此,我们排除这些标签,并对剩余的204个属性进行实验。这是我们实验比较和消融研究的主要数据集。CelebA [35]由202,599张人脸图像和40个二元人脸属性组成。选择16,000张图像用于训练,20,000张图像用于测试和验证。我们的新SurveilA数据集包含75,000张图像,具有10个二进制属性,其中70,000张用于训练,其余5,000张用于测试。该数据集关注人体部位属性(例如,是否携带物品、是否穿着短裤或裤子),在具有大的姿势和外观变化的真实监视场景下收集我们将发布数据集,以促进属性识别的研究。4.2. 实现细节我们首先将图像大小调整为512×512,然后随机裁剪446×446进行训练。我们使用ResNext50 [59]作为特征提取的视觉表示模块。第 来自ResNext50中的层“conv5”的输出I.E. Qin eq. 1.使用ADAM[23]训练网络100个epoch,其中初始学习率设置为0.0001,50个epoch后学习率衰减为0.1。表2.给定200张训练图像的平均精度4.3. CUB 200 2011数据集4.3.1研究训练样本的数量在这一部分中,我们实证研究了CSN的有效性随着训练样本数量的变化。 为了为了研究这一点,我们选择了可以共享相同部分并且具有相对较大的正样本的属性belly-solid、breast-white、bill-grey和bill-black所有实验都是在91个属性的联合训练上运行的(即,所有票据相关属性、所有灰色属性、所有黑色属性、所有腹部、所有胸部、所有白色)。我们评估了CSN w/o(无)份额、CSN w/part份额、CSN w/part + pattern份额在所选3个属性结果见表。2、Tab。1我们看到,当训练样本数量较少时,共享属性的好处在不同的位置提取的模式特征仍然是不同的,当它们具有相对大的数据时,强制它们是相同的模式将损害性能。但是当训练数据量减少时,它们自己的数据不足以学习模式模块。模式共享将提高模式模块的学习效率。我们还尝试将训练样本减少到零。CSN仍然获得了与 监 督 训 练 相 当 的 腹 实 型 ( 84.7%AP ) 、 白 胸 型( 79.9%AP ) 、 喙 灰 型 ( 46.3%AP ) 、 喙 黑 型(64.2%AP)的有希望的结果。我们将在下一节中进一步研究CSN在零射击识别中的有效性。4.3.2研究共享属性的数量在这一部分中,我们实证研究了共享属性的数量对整体绩效的影响。在选项卡中。5、比较了模式模块和定位模块中共享不同数量属性我们选择属性bill-curved、bill-brown、bill-orange和bill-red。我们对所有票据属性、所有棕色属性、所有橙色属性和所有红色属性的联合训练进行了实验我们来-属性无股份部分股份模式+部分共享腹部固体83.6%百分之八十五点九百分之八十五点五乳白色的81.3%百分之八十二点一百分之八十一点九比尔格雷百分之四十四点七46.0%47.0%比尔布莱克百分之七十八点二百分之七十九点四77.0%表1.500张训练图像的平均精度355输入图像CSNw/oshareCSN图4.由CSN w/o共享生成的热图与部分“账单”的完整CSN生成的热图的比较[69]第一届中国国际航空航天博览会[21]63.7% 64.9% 65.5%* 65.2%表3.平均精度(AP)比较。仅针对该数据集中包含超过1000个阳性样本的32个属性显示数字。如果我们用较小的训练集对属性进行这种比较,基线总是产生非常差的结果。CSN w/o share CSN CSN-soft CSN-soft-163.9% 65.2% 65.1% 63.8%表4.平均精度(AP)比较。仅针对该数据集中包含超过1000个阳性样本的32个属性显示数字。如果我们用较小的训练集对属性进行这种比较,基线总是产生非常差的结果。研究了不同共享部分属性和共享模式属性个数下四个属性的性能从表中的(a)-(c)。5、随着共享部分属性数量的增加,整体性能稳步提高。这说明当共享零件属性的数目变大时,它更有效。注意,当共享模式属性的数量增加到9时,观察到改进,这也指示共享模式是有效的。4.3.3与最新技术水平的比较我们首先与仅具有图像级注释CAM [69]、空间变换网络(Spatial Trans-form Network,简称CAM)[21]和我们的基线(具有不同分支的多任务学习框架)的最先进的识别方法进行比较。该计划旨在明确地将重要区域定位以供识别。我们使用公共实现,并将识别替换为部分属性识别。我们的CAM实现遵循[69](即定位和裁剪)进行识别。选项卡. 3显示了我们的方法与其他方法的性能。由于基线总是显示非常低的性能,弯喙棕喙橙喙红(a)N1= 0,N2= 019.1% 25.6% 38.6% 35.8%(b)N1= 4,N2= 020.1% 25.9% 39.4% 36.7%(c)N1= 24,N2= 021.4% 26.7% 42.7% 38.1%(d)N1= 24,N2= 9-26.9% 43.0% 38.3%表5.不同共享属性编号的平均精度(AP)比较。N1是共享部分属性的数量,N2是共享模式属性的数量。注意:curved属性只存在于bill-curved中,因此bill-curved的(d)不可用。对于具有少量训练图像的属性,我们选择具有多于1000个正图像的属性用于公平比较。这样的选择导致实验中的32个属性(例如,作为白色相关属性和黑色相 关 属 性 ) 与 竞 争 对 手 相 比 , CSN 生 产 的 AP 为65.2%:63.2%来自CAM,63.7%来自CSN基线,63.1%来自CSN基线。这说明了CSN在给定相当大的训练集的情况下优于替代方案我们调查了所有204个零件属性,以进一步了解不同方法的整体性能。图5显示了CSN和基线之间所有204个属性的AP差异。平均而言,观察到比基线有显著改善然后,我们与最先进的属性识别方法进行比较[64,62]。我们使用公共实现[64,6,62]来训练零件检测器(即,[6]和R-CNN [62]),然后识别属性。在没有部分注释的情况下,我们仍然可以使用PANDA [64]和基于R-CNN的方法[62]获得可比较的性能。由于它们都依赖于零件标注来训练零件检测器,因此当零件标注不可用时,它们会失败。此外,它们都不能用于零炮识别,而我们的可以。我们还可视化了本地化热图(即,注意力地图)获得的CSN w/o共享和CSN图。4. CSN得到的局部化热图明显优于CSN w/o share得到的局部化热图。这进一步验证了概念共享的有效性。4.3.4属性间的软共享在以上部分中,具有相同部件的属性被手动分组到相同部件定位模块,并且具有相同模式的属性被手动分组到相同模式模块。因此,具有不同概念(本地化/模式)的属性不能共享同一模块。在这一部分中,我们研究了部件之间的软共享我们添加一个可学习的软权重向量Ti=t1,t2,..,t m用于属性k,其中m是部件模块的数量。该权重向量用于组合来自不同部分的注意力图。即356Σ图5. CSN在204个属性的联合训练中相对于基线的性能增益。基线方法是指一个多任务学习框架,有204个分支。各属性id的具体名称见补充资料。腹喙腹部有斑点的腹部白色比尔锥比尔黑色腿翼腿黑色腿灰色翅膀黑色翅膀灰色图6. CSN在CUB-200-2011测试集上的定性结果。对于图中的每对图像,左侧显示输入图像。 右图显示了CSN预测的位置热图。底部文本显示预测属性。更多的可视化结果在补充材料中。m−1′Ki=0时ti Ai.(八)数据由于zero-shot和supervised之间的性能差距与训练数据的大小高度相关,因此我们还列出了统计中的正样本数量。如Tab.所示。8、零拍在控制上取得了可喜的成果我们首先将向量初始化为一个热向量(即,一值为1,其他值为0)。让共享同一部分的属性具有相同的初始化,并让它们在训练过程中可学习。这一比例为65.1%(即,选项卡中的CSN软件3)与CSN具有可比性。然后我们将向量初始化为1(即,Ti中的所有值被初始化为1)。这表明,我们没有先验知识的属性是相同的部分。我们获得63.8%(即,选项卡中的CSN-软-1(3)低于前的65.1%这表明这些先验知识提供了重要的信息。4.3.5零次属性识别在这一部分中,我们研究了CSN在零炮点属性识别上的能力。在所有204个属性上进行实验,其中我们随机选择20个属性作为未看到的属性,并留下其他184个属性用于训练网络。在选项卡中。8、零拍算法是指CSNw/共享模式和部分没有训练数据的20个属性,这是Tab中的零拍算法8,监督是指CSN w/o在所有可用的zero shot learning的缩写。请注意,具有非常小的数据的属性,例如对于大多数属性,零射击算法是令人惊讶的有效,因为它显示出与训练自己的数据相当的准确性4.4. CelebA实验我们的方法也可以应用于一般的属性(即。全局和部分属性),因此我们还在一般属性数据集CelebA上进行实验[35]。我们遵循[18]中的协议。在表7中,我们评估了通常报告的CelebA的平均准确度。我们的CSN获得了比我们的基线更好的性能,并击败了最先进的方法。这是因为所有其他方法都不能明确定位识别的重要区域。在CSN中,我们将零件属性分组以共享相同的定位模块,例如鼻子相关和嘴巴相关。我们通过共享本地化模块观察到进一步的改进这表明,概念共享仍然有效。一 =357属性ID12345678910培训IMGS5196812050498231831334542320276209147基线89.5%47.1%57.0%38.0%49.0%百分之七点一百分之五点九6.3%二点二百分之零点五CSN百分之九十六点三百分之六十五点八百分之七十五点六百分之六十七点三84.1%百分之二十三点四百分之三十二点二百分之三十八点三百分之七点九30.3%表6.我们新的人类属性测试集的平均精度(AP)属性1-10是安全性中最有用的一些属性监控应用:1袖子的长度(短/长),2裤子的长度(长/短),3是否使用手机,4是否携带物品,5是否拖行李,6是否吸烟,7是否戴手套,8是否抱婴儿,9是否戴口罩,10是否打伞。第二行显示训练样本的数量可以观察到,CSN在训练样本较少的情况下获得基线 多任务[18] 完全[36] CSN w/o share CSN91.1% 91.2% 91.3%91.7%表7.CelebA上属性分类精度的比较测试集用不用手机attribute #images zero-shot supervised腹实2455 86.1% 88.1%上半身黑色1561 74.5% 78.8%黑色730 67.3% 74.5%乳房多色626 30.8% 37.9%皇冠抛光剂413 38.1% 39.2%下部棕色360 41.2% 47.8%腹纹319 36.5% 41.5%腹棕313 36.7% 44.8%翅斑300 37.0% 51.6%比尔黄215 9.2% 50.3%喉红175 65.6% 70.0%肚子红140 68.3% 73.1%上半部橙81 18.7% 28.1%翼彩74 12.0% 13.0%腹橄榄67 13.9% 23.9%下部绿化38 25.2% 16.0%额紫22百分之十一点二百分之四点二表8.在20个属性上比较零次学习和监督学习的平均精度( AP ) 。 Zero shot 是 具 有 部 分 和 模 式 共 享 的 CSN ,Supervised是CSN w/o sharing。4.5. SurveilA数据集上的实验选项卡. 6显示在该数据集中,CSN实现了51.2%的mAP,而基线mAP为30.3%。由于这些人类属性中的大多数仅取决于图像的一小部分(例如,是否戴面具仅与面部区域有关),因此实现了如此巨大的个性化改进。因此,CSN的定位功能比CUB-200-2011数据集具有更高的重要性。在图7中,我们可视化了通过我们的方法获得的零件定位皇冠黑1434 75.7% 82.9%翼黄316 52.3% 63.9%橄榄翼127 33.2% 30.6%358带不带东西戴不戴手套裤子的长度图7.我们人类数据集的示例图像。放置在每个图像右侧的热图使CSN推断过程中预测的定位我们看到,大多数属性只与图像中非常小的区域相关联。人体实验进一步验证了该方法对不同类型物体的局部识别是有效和可靠的5. 结论本文提出了一种新的用于零件属性识别的神经网络结构(CSN)。通过从没有明确标记这两个概念的训练数据中识别零件位置和外观模式,CSN可以提高零件属性识别的准确性,特别是在标签数量很少的情况下。在数据有限的特殊情况下,没有数据可用,CSN仍然是有效的识别属性(即。零发射部件属性识别)。确认这项工作得到了国家科学基金会资助IIS-1619078、IIS-1815561和陆军研究办公室ARO W 911 NF-16-1-0138的部分支持359引用[1] Ziad Al-Halah和Rainer Stiefelhagen。如何换乘?通过语义属性的分层传递的零射击对象识别。在WACV,第837-843页。IEEE,2015年。3[2] Jacob Andreas,Marcus Rohrbach,Trevor Darrell,andDan Klein.神经模块网络。在CVPR,第39-48页,2016年。3[3] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在ICCV,第24253[4] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。具有 视 觉 注 意 的 多 目 标 识 别 。 arXiv 预 印 本 arXiv :1412.7755,2014。3[5] Lubomir Bourdev、Subhransu Maji和Jitendra Malik。描述人员:一种基于poselet的属性分类方法。见ICCV,第1543-1550页。IEEE,2011年。二、三[6] Lubomir Bourdev和Jitendra Malik Poselets:使用3d人体姿势注释训练的见ICCV,第1365-1372页IEEE,2009年。6[7] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别中的实证研究与分析。在ECCV中,第52-68页。施普林格,2016年。3[8] Kan Chen,Jiang Wang,Liang-Chieh Chen,HaoyuanGao,Wei Xu,and Ram Nevatia. Abc-cnn:一个基于注意力的卷积神经网络,用于视觉问答。arXiv预印本arXiv:1511.05960,2015。3[9] Yubin Deng,Ping Luo,Chen Change Loy,and XiaoouTang.远距离行人属性识别。第22届ACM国际多时间数据,第789-792页。ACM,2014年。3[10] 阿里·法哈迪伊恩·恩德雷斯和德里克·霍伊姆跨类别泛化的以属性为中心的识别。在CVPR中,第2352-2359页。IEEE,2010。二、三[11] Ali Farhadi , Ian Endres , Derek Hoiem , and DavidForsyth.按属性描述对象见CVPR,第1778IEEE,2009年。二、三[12] 维托里奥·法拉利和安德鲁·齐瑟曼。学习视觉能力。NIPS,第433-440页,2008年。2[13] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷,第1126-1135页。JMLR。org,2017. 2[14] Timnit Gebru,Judy Hoffman,and Li Fei-Fei.在野外的精细识别:一种多任务域自适应方法。在IEEE计算机视觉国际会议论文集,第1349-1358页,2017年。2[15] 罗斯·格希克。快速R-CNN。在ICCV,第14401[16] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。基于区域的卷积网络用于精确的对象检测和分割 。 IEEE transactions on pattern analysis and machineintelligence,38(1):142-158,2016。2[17] 道格拉斯·格雷,谢恩·布伦南,海涛。评估用于识别、重新获取和跟踪的应用模型。在Proc. IEEE跟踪和监视性 能评 估国 际 研讨 会 (PETS ) , 第3 卷 ,第 1-7页Citeseer,2007. 3[18] 艾米丽·M·汉德和拉玛·切拉帕。 用于改进属性的属性:一个多任务网络利用隐式和显式关系的面部属性分类。InAAAI,2017.七、八[19] 布鲁斯·希尔一个简单的一般方法推断的尾部分布。统计年鉴,1163- 1174页2[20] Gary B Huang,Marwan Mattar,Tamara Berg,and EricLearned-Miller.在野外贴上标签的脸:研究无约束环境中人脸识别的数据库。在“现实生活”图像中的面孔研讨会:检测、对准和识别,2008年。3[21] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。参见NIPS,第2017-2025页,2015年。二、六[22] Jungseock Joo,Shuo Wang,and Song-Chun Zhu.基于丰富外貌字典的人体属性识别在CVPR,第721-728页2[23] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[24] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS,第1097-1105页,2012中。1[25] Neeraj Kumar,Alexander Berg ,Peter N Belhumeur,and Shree Nayar.用于人脸验证和图像搜索的可描述视觉属 性 。 IEEE Transactions on Pattern Anal-ysis andMachine Intelligence,33(10):1962-1977,2011。二、三[26] Neeraj Kumar,Alexander C Berg,Peter N Belhumeur,and Shree K Nayar.用于人脸验证的属性和特征分类器见ICCV,第365-372页。IEEE,2009年。二、三[27] Christoph H Lampert , Hannes Nickisch , and StefanHarmeling.学习通过类间属性转移来检测不可见的对象类。见CVPR,第951-958页。IEEE,2009年。二、三[28] Christoph H Lampert , Hannes Nickisch , and StefanHarmeling. 基于属性的零镜头 视觉对象分类。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(3):453-465,2014。二、三[29] Dangwei Li , Zhang Zhang , Xiaotang Chen , HaibinLing,and Kaiqi Huang.一个用于行人属性识别的丰富注释数据集。arXiv预印本arXiv:1603.07054,2016。3[30] Yining Li,Chen Huang,Chen Change Loy,and XiaoouTang. 通过深层层次上下文的人类属性识别在ECCV中,第684-700页。施普林格,2016年。一、二、三[31] Yanan Li,Donghui Wang,Huanhang Hu,Yuetan Lin,and Yueting Zhuang.使用双重视觉-语义映射路径的零射击 识 别 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第5207-5215页,2017年。3360[32] 小刘,王江,温石磊,丁二瑞,林元庆。通过描述进行本地化:用于细粒度识别的属性引导的注意力局部化。2017年第31届AAAI人工智能会议。2[33] 小刘、天夏、王江、易阳、周峰、林元庆。用于细粒度识别的完全卷积注意力网络。arXiv预印本arXiv:1603.06765,2016。3[34] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:通过丰富的注释实现强大的服装识别在CVPR中,第1096-1104页,2016年。3[35] Ziwei Liu , Ping Luo , Xiaogang Wang ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功