文件标题：分层特征嵌入的属性识别方法

127 浏览量更新于2023-10-25 收藏 892KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13055用于属性识别的分层特征嵌入杨洁1，2，范家柔1，王一茹1，王一戈1，甘伟豪1，刘林2，吴伟11商汤科技集团有限公司，2清华大学takanashiyj@gmail.com，{fanjiarou，wangyiru，ganweihao，wuwei}@www.example.com，www.example.com@yige.wang tum.de，linliu@tsinghua.edu.cnsensetime.com摘要ID1由于视点变化、光照变化和感知差异等原因，属性识别是一项重要而又具有挑战性的任务。以往的工作大多只考虑属性级的特征嵌入，在复杂的异构环境下嵌入效果不佳。为了解决这个问题，我们提出了一个分层特征嵌入（HFE）框架，它通过结合属性和ID信息来学习细粒度的特征嵌入。携带背包HFE无背包ID2携带背包ID3无背包第在HFE中，我们同时保持类间和类内特征嵌入。不仅具有相同属性的样本，而且具有相同ID的样本被更紧密地聚集，这可以限制视觉硬样本关于属性的特征嵌入，并且提高对变化条件的鲁棒性我们建立了这个层次结构，利用HFE损失组成的属性级和ID级的约束。我们还引入了一个绝对边界正则化和一个动态损失权重作为补充组件，以帮助建立特征嵌入。实验结果表明，该方法在两个行人属性数据集和一个人脸属性数据集上取得了较好的效果。1. 介绍属性，如性别，头发长度，服装风格，是歧视性的语义描述符，可以用作视觉监控中的软生物特征识别。属性识别集中于在给定的图像中辨别目标人物的这些属性。它包括行人属性识别（PAR）、人脸属性识别（FAR）等。最近，由于在个人重新识别（Re-ID）[22，26，36]、人脸验证等[21，6，46，34，45]和人类识别[15]。作为一个分类问题的性质，它仍然面临着巨大的挑战，在现实世界的情况下，由于这些原因：（1）图像*通讯作者(a) CE（b）HFE图1.在“backpack”属性上嵌入分层特征具有相同ID的图像用相同的颜色边框表示（a）表示交叉熵特征空间，其中大多数样本可以正确分类，而具有粉红色虚线边界的硬样本（其背包完全被身体遮挡）是错误分类的。(b)在ID约束的帮助下，具有相同ID的特征形成细粒度的簇，可以将硬示例拉回。可能由于拍摄距离或行人的运动而（2）不同的场景、时间段、角度和姿态导致照明改变、视点改变和外观变化。(3)对象的某些部分可能被其他部分遮挡，导致不可见或模糊。近年来，一些方法被引入来解决这些问题，并取得了令人钦佩的性能。 A-AOG[35] 显式地表示身体部位的分解和关节连接，并说明姿势和属性之间的相关性LGNet [28]根据预提取的建议和属性位置之间的亲和力为局部特征分配特定于属性的权重。这些方法的目的是应用图像的关键部分或注意力模块在一定程度上减少无关因素的影响，但它们并不能直接处理属性的视觉外观变化以及遮挡。在这些方法中，仅关注属性级优化，然而，来自属性识别相关字段的信息，例如人Re-ID，可以帮助减轻变化。13056通过施加更强的约束来解决问题。从数据的角度来看，当前属性数据集都是在ID或跟踪粒度上进行标记的[25，32]，以减少工作量。因此，我们假设从同一身份捕获的图像应该具有相同的属性，但反之亦然。对于每个属性，由于昂贵的注释成本，标签通常是粗粒度的。不同的人可能会得到相同的属性标签，但在外观上有细微的差异。例如，不同颜色和质地的背包都被标记为“背包”。因此，属性需要细粒度的特征嵌入来表示类中的多样性。利用身份信息，我们可以建立两级特征嵌入，即，类间和类内（图）。1）。对于每个属性，具有相同属性的样本形成粗粒度类，而在每个属性类中，来自同一个人的样本（具有相同属性）构成细粒度ID聚类。我们引入这种分层特征嵌入模型的动机是：（1）ID聚类限制了具有相同ID但视点、光照和外观不同的图像更紧密地聚集在(2)属性的困难情况可以通过ID约束由相同ID的其他简单样本容易地处理和拉回，这仅在属性级别中难以学习（3）与属性标签一样，ID标签也通过保持上述假设而被用于属性语义，避免了像以前的工作[25]那样将不同的语义特征直接集成在同一特征空间中。基于上述观察，我们提出了一个基于属性的特征嵌入（HFE）框架，通过结合属性和ID信息来保持类间和类内的特征嵌入。针对细粒度特征嵌入引入了HFE损失，HFE损失由两个三重态损失和一个利用所选五重态的绝对边界在HFE损耗约束下，每个类别可以收集更多的复杂度，从而导致类别之间的更明显的边界。我们提出了额外的绝对约束的绝对边界正则化，因为三元组损失只考虑两个距离之间的差异，但忽略了绝对值，类内三元组损失可能间接地与类间边界相互作用。此外，五元组选择与当前特征空间相关。然而，在训练的早期，特征空间对于五元组的选择不够自信，因此我们设计了一个动态的损失权重，使得HFE的损失权重随着学习过程逐渐增加。总之，本文的贡献是：• 我们提出了HFE框架，以集成ID信息的属性语义细粒度的功能emem，寝具针对类间和类内级别的约束，引入了新的HFE损失• 我们构造了一个绝对边界正则化，通过加强与绝对约束的原始三重损失。• 我们引入了一个动态的损失重量，这迫使特征空间从原点过渡到改进的HFE限制空间的程度。• 在两个行人属性数据集和一个人脸属性数据集上对所提出的方法进行了评估。Exper-实验表明，我们的方法在所有三个数据集上都达到了最先进的结果。2. 相关工作2.1. 属性识别最近，基于深度学习的属性识别方法取得了令人印象深刻的性能。在PAR中，这些方法包括基于全局的[23，41，1，7]，基于局部的[28]，基于视觉注意力的[31]，基于顺序预测的[55]方法等。其中，DeepMar[23]是早期基于全球的PAR工作。考虑到数据分布的不均衡性，提出了代价敏感的交叉熵损失分类方法提出了一种处理不平衡数据的新损失和新的注意机制。LGNet [28]根据预提取的propos- als和属性位置之间的亲和力为局部特征分配特定于属性的权重Hydraplus-Net [31]提出了一种基于注意力的模型，并利用单个行人图像的多级特征融合的全局和局部ALM [47]旨在通过属性本地化学习属性感知表示。属性感知注意力模型[11]利用全局特征和属性特定特征之间的相关性，并利用它以相互的方式生成注意力掩模。通过描述进行定位[30]使用REINFORCE算法以弱监督方式使用设计的奖励函数明确学习与属性位置[39]设计了一种用于聚合多尺度特征的注意力机制以及类似于焦点损失的损失函数[24]，以解决不平衡数据问题。GRL [55]提出了一种基于RNN的分组循环学习方法，该方法利用了组内互斥和组间相关性。FAR也可以分为基于部分的方法和整体方法[38，12]。ReID的目标是在一组查询行人图像中匹配目标人物。大量基于深度学习的ReID作品提供了有前途的解决方案[48，8，4，2，9，37]。许多现有的方法依赖于利用区分特征，这与细粒度识别的精神是相同的。属性和ReID是高度相关的行人视觉外观表示，但不同13057CE损失1（b）三联选择(a) HFE框架（c）五重选择图2.（a）所提出的分层特征嵌入（HFE）框架的概述，它由骨干模型组成，由M个属性的M个分支连接我们计算的CE损失和HFE损失的基础上，在每个分支的五元组选择。(b)和（c）分别是三元组和五元组选择，其中橙色和蓝色表示不同的属性类。在语义和粒度上。尽管它们是不同的任务，但共同的特征可以对它们都有利，这就是利用区分特征。因此，将它们合并处理是合理的。一些作品利用这两种信息进行多任务学习[42]或辅助主要任务[25，27]。这些方法可归纳为两类：（1）共享的主干和任务独立的分支（2）任务独立的模型和以某种方式组合高级特征（例如，级联FC）。例如，APR [25]同时学习ReIDUF[42]为两个任务训练两个不同的模型，并将分支连接到ReID的一个身份向量。这些方法在一定程度上结合了这两种特征。然而，不加区别地将它们合并到系数特征表示中是不太有效的，因为属性识别和ReID本质上是不同的。具有相似属性的人也可以是不同的身份。因此，需要一种更合理的方式来结合这两种信息2.2. 度量学习度量学习[54，17]的目标是学习一个合适的度量特征空间，以便减少相似样本之间的距离，并扩大不相似样本之间的距离。虽然传统的度量学习算法[19]基于线性变换、非线性模型等，但由于深度学习的最新进展，卷积神经网络已经成为学习特定任务度量的强大工具，并在广泛的任务中取得了令人印象深刻的结果。在图像检索[50]，ReID [5]，人脸识别[40，44，29，53]等中已经提出了许多度量学习算法。代表性方法是对比损失和三重损失。对比损失[10]限制对输入，并导致相似对之间的距离尽可能接近，而不同对之间的距离大于margin。Triplet loss [40]应用三重态作为输入，并确保（锚点，负）特征和（锚点，正）特征的距离之间的差异除了三重态损失之外，还引入了四重态损失[5]和五重态损失[13]以提高性能。中心损失[52]是专为人脸识别而设计的，它致力于将样本推到各自的聚类中心。我们提出了HFE损失通过应用类间和类内的三重损失细粒度的约束。3. 该方法问题定义。给定N个图像{I1，I2，...，I N}并且每个图像Ij具有M个视觉属性标签yj={y j1，y j2，...，y j M}连同ReID标签1 j。来自同一个人的图像被标记有相同的属性，即， li=ljyi=yj.ReIDauxiliaryattrib uterecognition旨在训练一个包含属性和ID的模型，形成，以预测不可见图像Ik中的人的特征的属性yk。网络架构。如图图2（a）所示的层次特征嵌入（HFE）网络由一个主干模型构成，在该主干模型上附加了用于M个属性的M个分支。在共享主干中，模型学习所有属性的公共特征嵌入。对于每个属性，我们分别构造分支有两个原因：（1）不同的属性，如年龄和性别，应该有自己特定的特征嵌入。(2)我们为每个属性在各自的特征空间中构造度量损失，这不能应用于共享特征空间。例如，有来自不同ID的两个图像I1、I2我们应该拉他们接近头发长度的功能，而推他们远离背包伊萨1P11ConvP21P311简体中文1CIMM伊萨MP1MP2MP3MM简体MConv骨干布吕我伊我n塞吉P3我P2我简我塞吉p1 i伊HFE损失批次数据HFE损失CE损失FCFC…13058IJ我IJ我我我功能.每个属性分支包含Conv-BN-ReLU- Pooling-FC顺序层。我们计算每个分支上的交叉熵（CE）损失和度量损失。Loss Computation. 我们将CE损失应用于属性分类（等式2）。（1）像大多数作品一样。此外，HFE损失被用于具有权重w的辅助度量学习（等式2）。表1.五胞胎的总结 Xa是锚而不是2）。 HFE损失包括三重态间损失、三重态内损失和绝对边界正则化，这将在下一节介绍。在上面列出类内三重丢失。通过属性类间三元组丢失，我们可以将特征嵌入分离为-1ΣNLCE= −NΣMyijlog（pij）+（1−yij）log（1−pij）课间休息然而，每个类中的特征嵌入仍然是混合的。直观，样本i=1j =1（一）具有相似外观或相同ID的人应该比其他人更接近。然而，在没有额外的帧内约束的情况下，要得到如此完美的特征嵌入损失=LCE+wLHFE（2）3.1. 分层特征嵌入三重丢失。三重态丢失已被广泛用于度量学习。如图2（b），它在一系列的训练，三元组{xa，xp，xn}，其中xa和xp是图像特征等级。为了形成有序和细粒度的类内特征嵌入，我们利用ID信息来加强属于同一个人的特征更紧密地聚集。我们构造类内特征嵌入有两个原因：（1）类内三元组丢失限制了来自同一个人的特征更紧密地聚集在一起我我来自同一个标签，而xn来自不同的标签。a、p和n分别是锚、阳性和阴性样品的缩写配方如下：1ΣN使得嵌入对场景变化更鲁棒。（二）对于属性而不是ID的硬情况可以是容易的-在属性特征嵌入中由ID簇处理。在这里，我们引入了一种硬类内三重态损失，类似于硬类间三重态损失，而硬阴性样本被最接近的阳性样本取代，Ltrp=[d（xa，xp）−d（xa，xn）+α]+（3）p2你我我具有不同ID但具有相同属性的锚，xij=i=1argminxpd（x a，x p）for y p =y a，l p I=la，并且ijij ij ijij ij ij ij ij这里，d（. ）表示欧几里得距离，α是迫使d（xa，xn）和d（xa，xp）的间隙的边缘。硬阳性样本被转换为具有相同ID（具有确定的相同属性）的最远阳性样本xp1=argmaxpd（xa，xp），其中yp=ya，lp=la。的R大于α。 [z]+表示max（z，0）。当间隙为ij时xijij ijij ij ij ij ij大于α，三重态损失为零。类间三重丢失。我们可以将三重态丢失扩展到类内三重态损失示于Eq. 5，α2是内-阶级边际。属性分类方案。如等式1所示。 4，xa是第j个属性的锚样本Ii1ΣN ΣMap3n1L内部=[d（xa，xp1）−d（xa，xp2）+α2]+到xij，即xij，xij。在这里，我们定义了三重态-α1是类间边际。Ni=1j =1ijijijijyp1=ya，yp2=ya，lp1=la，lp2/=laijijij ijijijijijIJ（五）Linter= 1ΣN ΣM[d（xa，xp3）−d（xa，xn1）+α1]+保持班级内部和班级之间的结构Ni=1j =1ijijijij特征嵌入的同时，我们将内部，类和类内三重丢失。如图2（c）所示yp3=ya，yn1ya，lp3la，ln1/=laap1p2p3n1ijijij ijijijijijIJ（四）HFE损失取五组样本{xij，xij，xij，xij，xij}作为输入和管理，以保持多个相对重-我们使用批处理硬模式[40]进行三元组选择。在每个土地所有权，d（xa，xp1）

下载后可阅读完整内容，剩余1页未读，立即下载