行人属性识别中的空间和语义一致性正则化方法

23 浏览量更新于2023-10-15 收藏 14.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9620行人属性识别的空间和语义一致性正则化0贾健1,2，陈晓堂1,2，黄恺琪1,2,3* 1中国科学院大学人工智能学院2中国科学院自动化研究所CRISE 3中国科学院脑科学与智能技术卓越中心0jiajian2018@ia.ac.cn，{xtchen，kqhuang}@nlpr.ia.ac.cn0摘要0尽管最近关于行人属性识别的研究在利用复杂网络和注意机制方面取得了显著进展，但大多数方法忽略了图像间的关系和一个重要的先验：监控场景下属性的空间一致性和语义一致性。相同属性的空间位置应该在不同行人图像之间保持一致，例如，“帽子”属性和“靴子”属性总是位于图片的顶部和底部。此外，“帽子”属性的固有语义特征应该是一致的，无论是棒球帽、贝雷帽还是头盔。为了充分利用图像间的关系并在模型学习过程中聚合人类先验，我们构建了一个空间和语义一致性（SSC）框架，该框架由两个互补的正则化项组成，以实现每个属性的空间和语义一致性。具体而言，我们首先提出了一个空间一致性正则化项，以便关注可靠和稳定的属性相关区域。基于精确的属性位置，我们进一步提出了一个语义一致性正则化项，以提取内在和有区分度的语义特征。我们在包括PA100K、RAP和PETA在内的流行基准上进行了大量实验。结果显示，所提出的方法在不增加参数的情况下与最先进的方法相比表现出色。01. 引言0行人属性识别[26,20]旨在预测行人图像的多个人类属性，如年龄、性别和服装，作为语义描述。由于在监控场景[21]、场景理解[18]和人类感知[7]中的广泛应用，已经提出了许多方法[1, 10, 13,20, 12, 15, 17, 2, 19]。0*通讯作者0在过去的十年中，已经提出了许多方法并取得了显著进展。0现有方法[16, 15, 17,19]主要利用复杂网络（如特征金字塔网络FPN）从多层特征图中丰富属性表示，并结合注意机制精确定位属性相关区域。最近，VAC[2]利用人类先验，即同一图像的随机增强的注意区域是一致的，以提高模型的鲁棒性。上述方法[16, 15, 17,19]主要强调从单个图像中学习有区分度的属性特征，而不是利用相同属性的不同行人图像之间的关系。相比之下，我们的方法表明挖掘相同属性的不同图像之间的图像间关系可以显著帮助模型定位属性相关区域并提取固有的语义特征。我们从空间关系和语义关系的角度来利用图像间关系。0对于图像间的空间关系，我们假设不同行人图像中相同属性的空间位置基本上是一致的，这在本文中被称为空间一致性（SPAC）。例如，“帽子”属性和“靴子”属性大多出现在图片的顶部和底部，如图1（a）的第一行所示。然而，我们观察到基线方法相同属性的类激活图（CAMs）[25]在位置上存在显著变化。图1（a）的第二行展示了一些例子。不同行人之间相同属性的CAMs是不一致的，其中一些（带有红色边界的）严重偏离与属性相关的区域，无论是“短袖”、“靴子”还是“帽子”。这种现象与我们的空间一致性假设相矛盾，表明基线模型容易关注背景、无关的前景或属性相关区域的一小部分，这被称为9630短袖靴子帽子0棒球帽0贝雷帽0头盔0竹帽0桶帽0遮阳帽球球帽0（a）“短袖”、“靴子”和“帽子”属性的空间一致性。0语义嵌入空间0头盔0竹帽0遮阳帽0棒球帽0桶帽0球球帽0棒球帽0头盔0竹帽0桶帽0遮阳帽球球帽0兜帽0兜帽0帽子0（b）“帽子”属性不同样本的语义一致性。0图1：关于空间和语义一致性的主要假设的说明。在（a）中，PA100K基准方法的CAM在“短袖”、“靴子”和“帽子”属性上的可视化结果显示在第二行。每个属性的属性相关区域在第一行由红色虚线框绘制。第二个CAM（红色边界）的突出区域与第一个CAM（绿色边界）的对应区域严重偏离，与属性相关区域不一致。在（b）中，我们展示了“帽子”属性的几个样本。尽管这些样本在形状、大小和颜色上有很大差异，但模型提取的“帽子”属性的内在语义特征应保持不变。最佳观看效果为彩色。0本文解决了“空间注意力偏移问题”。对于图像间的语义关系，不同图像之间相同属性的内在语义特征应保持一致，本文称之为“语义一致性（SEMC）”。例如，如图1（b）所示，不论各个样本之间的形状、大小和颜色的差异如何，对于“帽子”属性的内在语义特征应基本保持不变。这一属性对于学习有区别的特征和获得稳健的模型也是不可或缺的。为了实现同一属性的行人图像之间的空间和语义一致性，我们提出了由SPAC和SEMC模块组成的新型框架。具体而言，SPAC模块为每个属性生成可靠的空间位置，并维持稳定的空间记忆以抑制由过拟合或标签噪声引起的位置偏移。基于精确的空间位置，SEMC模块提取内在的语义特征，并维持稳定的语义记忆以抑制与“帽子”属性的形状、颜色和大小等无关特征的影响。本文的贡献如下：0•我们为行人属性识别建立了一种有效的一致性框架，充分利用了同一属性图像之间的图像间空间和语义关系。0•我们设计了空间和语义一致性模块，为每个属性生成精确的空间注意力区域，并提取有区别的语义特征。0• 我们通过实验证实了所提出方法的有效性。0在PA100K、PETA和RAP等三个流行数据集上取得了最先进的性能。02. 相关工作0行人属性识别近年来取得了快速发展。Li等人[10]首次将行人属性识别定义为多标签分类任务，并提出了加权sigmoid交叉熵损失来缓解正负样本之间严重不平衡的问题。为了探索属性上下文和相关性，JRL网络[20]采用了Long-Shot-Term-Memory[4]将行人属性识别任务视为序列预测问题。注意力机制[16, 15, 11, 23,5]被广泛应用于行人属性识别中，用于定位与属性相关的区域并学习有区别的特征表示。引入了多方向注意力模块的HydraPlus-Net[16]用于提取像素级特征和语义级特征，有助于定位细粒度属性。基于CAM[25]和EdgeBox[27]，Liu等人[15]提出了一种基于定位引导的网络来提取与属性相关的局部特征。PGDM[11]框架利用预训练的人体姿态估计器和空间变换网络（STNs）[8]生成可靠的与属性相关的区域。考虑到多尺度特征图的区分能力和深度监督的有效性，提出了WPAL[24]、MsVAA[17]和ALM[19]网络。Yu等人[24]提出了WPAL网络，将弱监督目标检测技术引入行人属性识别中。Sarafianos等人[17]将注意力机制集成到多尺度特征图中，实现了在PA100K、PETA和RAP等三个流行数据集上的最先进性能。/01234565 ∈ 89×;×<6 ∈ 8=×/01234 ∈ 8=×>.* ∈ 8=×<'* ∈ 8=×9×;+Spatial MemorySemantic MemoryM?@A) ∈ 8+ SummationMatrix MultiplicationSEMC RegularizationSPAC Regularizationselector'*Spatial ConsistencyRegularization()*+……(),-.*Semantic ConsistencyRegularization'E,-.E,-1H-* IEJ>KL1H-* IEJ>KL0.990.030.120.990.920.679640ResNet500分类损失0一致性损失0分类器0一致性模块0(a) 提出框架的概述。0空间记忆0语义记忆0加权全局平均池化5E...0SPAC模块0SEMC模块0(b) “帽子”属性的空间和语义一致性示意图。0图2：提出框架和一致性正则化的示意图。在(a)中，我们描述了提出框架的两个分支结构，并展示了一致性模块的流程。在(b)中，我们直观地展示了如何从SPAC模块（绿色阴影）和SEMC模块（橙色阴影）构建“帽子”属性的空间和语义一致性正则化。对于SPAC模块，只有“帽子”属性的可靠CAM被聚合到空间记忆M_AAA作为空间注意区域的监督，但所有“帽子”属性的CAM都被用于计算SPAC正则化。对于SEMC模块，语义特征V_AA首先通过特征图A_A的加权全局平均池化提取，权重参数是相应的CAM。在获得语义特征V_AA后，构建SEMC记忆M_AAA和正则化的方式与SPAC模块相同。“帽子”属性的预测概率列在CAM上方。最佳观看效果请使用彩色显示。0并采用了一种变种的focalloss来解决属性正负样本不平衡的问题。ALM模块[19]由一个Squeeze-and-Excitation(SE)块[6]和一个STN[8]组成，应用于Feature PyramidNetwork(FPN)[14]的每一层，以增强属性定位。考虑到同一图像的多个增强版本之间的视觉注意区域是一致的，Guo等人[2]提出了一种注意一致性损失来获取稳健的属性位置。此外，还提出了一种分层特征嵌入(HFE)[22]框架，通过结合属性和ID信息来学习细粒度特征嵌入。与之前的方法不同，HFE框架中利用了人物ID信息，而这在行人属性识别任务中是没有提供的。0之前的方法[10, 11, 16, 20, 17, 19,2]主要集中在生成精确的属性相关区域，并学习从单个图像中独立分类属性。它们既没有考虑行人属性的先验空间结构知识，也没有利用同一属性的不同行人图像之间的图像间关系。然而，我们的方法考虑了这两个方面，并在第3.2节和第3.3节中进行了介绍。0从使用图像间信息的角度来看，最相关的方法是JRL网络[20]。基于全局特征相似性，JRL网络利用图像间信息进行预测。0通过聚合几个相似的行人特征来获取最终预测结果。与JRL不同，我们的方法利用每个属性的空间和语义局部特征，并利用图像间关系构建一致性正则化作为训练过程的监督信号。从一致性约束的角度来看，最相关的方法是VAC模型[2]，它旨在使同一图像的随机增强之间的全局注意区域保持一致。然而，我们的方法将不同行人图像之间的局部注意区域对齐。此外，我们还引入了语义一致性模块来提取有区分性的属性特征。03. 方法0在本节中，我们首先介绍基线方法。然后，我们提出了一致性框架，包括分类分支和一致性分支。分类分支与基线网络完全相同。一致性分支分为空间一致性模块和语义一致性模块，分别进行介绍。提出框架的概述如图2(a)所示，两个一致性模块的直观说明如图2(b)所示。与基线方法相比，提出的方法不引入额外的可学习参数。)(2)M 𝑠𝑝𝑎𝑚← (1 − 𝛼) × ¯M 𝑠𝑝𝑎𝑚+ 𝛼 × ¯A𝑞𝑚,(4)9650参数。03.1. 基线方法0给定数据集D = {(X�, y�) | � = 1, 2, ...,�}，行人属性识别旨在预测多个属性y� ∈ {0,1}�对第�个行人图像，其中�,�分别表示图像和属性的数量。属性向量y�中的零和一分别表示行人图像中对应属性的缺失和存在。我们将行人属性识别建模为多标签分类任务，采用多个具有sigmoid函数[10,12]的二进制分类器。二元交叉熵损失函数被用作优化目标：0�� = 0�0��0� = 10� = 1 ��,� log ��,�� + (1 − ��,�) log �1 −0其中，��,� = �(��,�)是分类器输出logits��,�的预测概率，�(�) = 1/(1 + �− �)是sigmoid函数。03.2. 空间一致性模块0在本节中，我们提出了SPAtial Consistency(SPAC)模块结合空间一致性正则化来解决空间注意力区域偏差问题。SPAC模块以特征图F� ∈ R� × � × �，分类器权重W ∈ R� × �和logitsz� ∈ R� ×1作为输入，其中F�是骨干网络（我们工作中使用的是ResNet-50[3]）对图像X�的输出，�, �,�分别表示特征图的高度、宽度和通道维度。受类激活图（CAM）[25]的启发，我们首先获得空间注意力图A�,� ∈ R� × �0对于图像X�的第�个属性的��的注意力图的预测概率计算如下：0A�,�(�, �) =0��0� = 1 W�,� F�,�(�, �), � ∈ {1, 2, ..., �},0其中，W�,�表示第�个分类器权重的第�个元素，F�,�(�,�)表示特征图F�中第�个通道的空间位置(�,�)。在随机批次��中获取每个图像的每个属性的空间注意力区域后，我们采用选择器——一个指示函数，将logits��,�和真实标签��,�作为输入——来聚合合格正样本的注意力图0通过以下方式获取第�个属性的合格正样本的注意力图：0A��(�, �) = 10��0��0� = 1 1 {�(��,�) > �, ��,� = 1} A�,�(�, �), (3)0其中，A� = {A�� | � ∈ 1, 2, ..., �} ∈ R� × � × �表示每个属性的合格正样本的注意力图聚合，�� = �� = 11{�(��,�) >�, ��,� =1}表示随机批次��中第�个属性的合格正样本数量。这些合格正样本的预测概率需要高于一个置信阈值�（默认为0.9）。通过实验验证了超参数�的鲁棒性，如图3所示。通过严格选择，A��可以被视为当前批次上第�个属性的可靠空间位置。为了在每个批次中保存可靠的空间位置，每个属性的空间注意力图A��被归一化并以动量更新的方式聚合到空间记忆M�� = {M�� | �∈ 1, 2, ..., �} ∈ R� × � × �中，以减少空间位置的变化。即，0其中，¯M�� = M�� / ∥M��∥2，¯A�� = A�� / ∥A��∥2，� ∈ (0, 1]是一个动量系数。动量系数�的影响在图4中展示。如图2(b)所示，由于过拟合和标签噪声，与“帽子”属性相关的空间注意力区域严重偏离属性相关区域。模型倾向于关注背景、无关的前景和一小部分属性相关区域。因此，空间记忆M��，它保留每个属性可靠且稳定的空间位置区域，可以作为属性相关区域的监督来纠正空间注意力偏差。因此，在SPAC模块的基础上，我们提出了一种空间一致性正则化��，通过计算空间记忆M��和空间注意力图A��之间的�1距离来实现。0� �� = 0�0� = 1 ∥ ¯ A � � − ¯ M �� ∥ 1 , (5)0A � � ( �, � ) 0� � 0� �0� = 1 1 { � �,� = 1 } A �,� ( �, � ) , (6)0在第 �个属性中，我们定义了一个语义一致性正则化项，该正则化项通过计算属性位置 ( �, � ) 的空间特征向量 � � ( �, � )来提供一致的监督。01我们使用“正样本”表示包含目标属性的图像，“负样本”表示不包含目标属性的图像。Although the SPAC module considers the inter-imagespatial relation that attention regions of different images ofthe same attribute are consistent, inter-image semantic rela-tion has not been utilized, i.e., intrinsic semantic features ofthe same attribute are consistent between different images.For example, whether the sample is a beret, helmet, buckethat, or baseball cap, intrinsic semantic features of the “hat”attribute should be consistent. Thus, based on the SPACmodule, we propose SEMantic Consistency (SEMC) mod-ule to extract intrinsic and discriminative semantic featuresfor each attribute.According to Equation 2, we first compute the spatialattention map A𝑖,𝑚 of 𝑚-th attribute for image X𝑖 to ob-tain attribute-related regions. Then semantic feature vectorV𝑖,𝑚 ∈ R𝐶×1 can be constructed by weighted global averagepooling as:3.4. Loss FunctionAs commonly adopted in most existing methods [17, 2,19], the weighted binary cross-entropy loss is also utilizedin the classification branch of the proposed method as clas-sification loss, which is formulated as :𝐿𝑐𝑙𝑠 = 1𝑁𝑁�𝑖=1𝑀�𝑗=1𝜔𝑖, 𝑗 (𝑦𝑖, 𝑗 log�𝑝𝑖, 𝑗� + (1 − 𝑦𝑖, 𝑗) log�1 − 𝑝𝑖, 𝑗�),(12)𝜔𝑖, 𝑗 = 𝑦𝑖, 𝑗𝑒1−𝑟𝑗 + (1 − 𝑦𝑖, 𝑗)𝑒𝑟𝑗,(13)𝐿 = 𝐿𝑐𝑙𝑠 + 1{𝑒>𝑖𝑒 }(𝜆1𝐿𝑠𝑝𝑎𝑐 + 𝜆2𝐿𝑠𝑒𝑚𝑐),(14)4. Experiments9660随机批次中的所有正样本。请注意 A � � 和 A � �的指示函数之间的区别。总体上，为了充分利用图像间的空间关系并解决空间注意力区域偏移问题，我们提出了SPAC模块来提取可靠的属性注意力区域 A � � ，并采用 � 1距离来对齐空间注意力区域 A � � 和空间记忆 M �� 。考虑到 A �� 和 M �� 中使用的软权重，我们将此方法命名为 �� 。03.3. 语义一致性模块0V �,� = 10� × �0�未0� = 0�0� = 1 � �,� ( �, � ) � � ( �, � ) , (70在第 �个属性中，我们定义了一个语义一致性正则化项，该正则化项通过计算属性位置 ( �, � ) 的空间特征向量 � � ( �, � )来提供一致的监督。为了对语义特征进行全面的利用，我们为每个属性维护了一个稳定且有区分性的语义记忆 M �� = {M �� | � ∈ 1 , 2 , . . . , � } ∈ R � × �。选择器的采用方式与SPAC模块相同，以动量更新的方式将可靠的语义特征 � ∈ R � × 1 聚合到 M �� 中：0V � � = 0� � 0�0� = 1 1 { � ( � �,� ) >�, � �,� = 1 } V �,� , (8)0M �� ← ( 1 − � ) × ¯ M �� + � × ¯ V � �0在第 �个属性中，我们定义了一个语义一致性正则化项，该正则化项通过计算语义记忆 M �� 与属性语义特征 V � � 之间的 � 距离来实现。0定义为：0� �� = 0�0� = 1 ∥ ¯ V � � − ¯ M �� ∥ 1 , (10)0V � � = 0� � 0� �0� = 1 1 { � �,� = 1 } V �,� , (11)0在第 �个属性中，我们定义了一个语义一致性正则化项，该正则化项对所有正样本的语义特征进行了约束。通过连接同一属性不同样本的语义特征，SEMC模块可以提取每个属性的内在和有区分性的语义特征，并消除与属性无关的特征的干扰（例如“帽子”属性中的形状、大小和颜色）。0其中 � � 是训练集中 � - ��属性的正样本比例。最终的损失函数 �是分类损失、SPAC正则化和SEMC正则化的加权求和:0其中 � 1 = 1 , � 2 = 0 . 1在所有实验中默认设置，除非特别指定。训练阶段的当前时期由 � ∈ { 0 , ∙ ∙ ∙ 30 } 表示，并使用初始时期 � �确保可靠的一致性记忆和有效的一致性正则化。04.1. 数据集和评估指标0Datasets. 我们在PETA [ 1 ]，RAP [ 13 ]和PA100K [ 16]上进行实验。PETA数据集[ 1]是从10个小规模人员数据集中收集的，包括19,000个人员图像，分为9500个图像用于训练集，1900个用于验证集，7600个用于测试集。每个图像都标有61个二进制属性和4个多类属性。MethodBackbonePETAPA100KRAPmAAccuPrecRecallF1mAAccuPrecRecallF1mAAccuPrecRecallF1DeepMAR [10]CaffeNet82.8975.0783.6883.1483.4172.7070.3982.2480.4281.3273.7962.0274.9276.2175.56HPNet[16]InceptionNet81.7776.1384.9283.2484.0774.2172.1982.9782.0982.5376.1265.3977.3378.7978.05JRL [20]AlexNet85.67–86.0385.3485.42–––––77.81–78.1178.9878.58LGNet [15]Inception-V2–––––76.9675.5586.9983.1785.0478.6868.0080.3679.8280.09PGDM [11]CaffeNet82.9778.0886.8684.6885.7674.9573.0884.3682.2483.2974.3164.5778.8675.9077.35MsVAA[17]ResNet10184.5978.5686.7986.1286.46––––––––––VAC [2]ResNet50–––––79.1679.4488.9786.2687.59–––––ALM [19]BN-Inception86.3079.5285.6588.0986.8580.6877.0884.2188.8486.4681.8768.1774.7186.4880.16MsVAA[17] *ResNet5084.3578.6987.2785.5186.0980.1076.9886.2685.6285.5079.7565.7477.6978.9977.93VAC [2] *ResNet5083.6378.9487.6385.4586.2379.0478.9588.4186.0786.8378.4768.5581.0579.7980.02ALM [19] *ResNet5085.5078.3783.7689.1386.0479.2678.6487.3386.7386.6481.1667.3574.9785.3679.39BaselineResNet5081.1577.9688.1983.7785.5678.5378.8788.9985.3886.3476.0968.6683.7477.4479.50𝑆𝑆𝐶𝑠𝑜 𝑓 𝑡ResNet5086.5278.9586.0287.1286.9981.8778.8985.9889.1086.8782.7768.3775.0587.4980.43𝑆𝑆𝐶ℎ𝑎𝑟𝑑ResNet5085.9278.5386.3186.2385.9681.0278.4286.3987.5586.5582.1468.1677.8782.8879.87𝑆𝑆𝐶 𝑓 𝑖𝑥ResNet5086.0779.2384.5889.2686.5481.7078.8585.8088.9286.8982.8368.1674.7487.5480.279670表1：在PETA、RAP和PA100K数据集上与最先进方法的性能比较。评估了五个指标，平均准确率（mA）、准确率（Accu）、精确率（Prec）、召回率（Recall）、F1。为了进行公平比较，我们还报告了MsVAA、VAC和ALM方法的重新实现性能。红色字体和蓝色字体分别表示第一和第二最高分。 �� , �� 和 �� 的区别在于 � �� 和 � � 的实现，我们在第4.4节中详细说明。0我们遵循常见的实验协议[12, 17,19]，只使用正例比例高于5%的35个属性进行评估。RichlyAnnotatedPedestrian（RAP）属性数据集[13]包含33,268张用于训练和8,317张用于测试的图像，总共从26个室内监控摄像头中提取了41,585张图像。每个图像都标有69个二进制属性和3个多类属性。按照官方协议[13]，采用51个二进制属性来评估识别性能。PA100K数据集[16]包含100,000张行人图像，按8:1:1的比例划分为训练集、验证集和测试集。每个图像都用26个常用属性描述。考虑到RAP和PETA的训练集和测试集之间的身份相同，PA100K数据集上的性能更具说服力。评估协议：采用两种类型的指标，即基于标签的指标和四种基于实例的指标，来评估属性识别性能[12]。对于基于标签的指标，我们计算正样本和负样本的分类准确率的平均值作为每个属性的指标，然后对所有属性取平均得到平均准确率。对于基于实例的指标，使用准确率、精确率、召回率和F1分数。04.2. 实现细节0所提出的方法使用PyTorch实现，并以端到端的方式进行训练。我们采用ResNet50[3]作为骨干网络，提取行人图像特征以进行公平比较。行人图像被调整为256×192的输入。采用随机水平翻转、填充和随机裁剪作为数据增强。采用Adam优化器进行训练，权重衰减为0.0005。初始学习率为0.0001，批大小设置为64。采用基于Plateau的学习率调度器，减少因子为0.1，损失耐心为4。训练阶段的总epoch数为30。动量系数�=0.9，默认置信度阈值�=0.9。为了获得稳定可靠的空间记忆M和语义记忆M，我们在第4个epoch后添加了一致性正则化项到分类损失中，即�=4（参见公式14）。0训练中使用了权重衰减为0.0005。初始学习率为0.0001，批大小设置为64。使用了基于Plateau的学习率调度器，减少因子为0.1，损失耐心为4。训练阶段的总epoch数为30。动量系数�=0.9，默认置信度阈值�=0.9。为了获得稳定可靠的空间记忆M和语义记忆M，我们在第4个epoch后添加了一致性正则化项到分类损失中，即�=4（参见公式14）。04.3. 与现有方法的比较0在表1中，我们将所提出方法与PETA、RAP和PA100K上的几种现有算法进行了性能比较。为了公平比较，除了论文[17, 2,19]中报告的性能外，我们还报告了基于相同设置的我们重新实现的性能，该设置在第4.2节中描述。与MsVAA [17]、VAC [2]和ALM[19]方法的论文报告的性能相比，AAA模型在PETA、PA100K和RAP上取得了更好的性能，而不增加可学习参数。与采用ResNet101作为骨干网络的MsVAA模型相比，我们在PETA数据集上的mA和F1分别提高了1.93%和0.53%。与ALM模型相比，该模型使用了FPN、STN和SE模块的复杂组合，引入了额外的17%参数，AAA方法在三个常用数据集上的mA分别提高了0.22%、1.19%和0.9%。此外，与我们重新实现的MsVAA、VAC和ALM方法的性能相比，AAA的性能更好。0* 为了公平比较，结果在相同设置下重新实现。---81.1577.9688.1983.7785.5678.5378.8788.9985.3886.7576.0968.6683.7477.4480.06✓--82.3478.5188.2984.3685.9478.6378.6888.6385.5286.6476.4568.5883.0877.8179.97-✓-84.0878.8587.6685.3286.1979.1578.6288.2485.7186.5778.5568.6082.0979.3479.99--✓84.1778.8187.3085.5886.1579.5978.8687.7086.6586.7779.4666.5578.3979.6278.58✓✓-84.9078.4986.4485.9085.9180.0979.1188.3786.3386.9580.2668.7780.6480.0780.29✓✓✓86.5278.9586.0287.1286.9981.8778.8685.9889.1086.8782.7768.3775.0587.4980.439680表2：我们方法在PETA、PA100K和RAP数据集上各组件的消融实验。空间一致性（SPAC）和语义一致性（SEMC）正则化的性能改进验证了我们方法的有效性。我们默认使用AAA模型。0方法 PETA PA100K RAP0SEMC SPAC 加权损失 mA 准确率精确率召回率 F1 mA 准确率精确率召回率 F1 mA 准确率精确率召回率 F10方法在PETA、PA100K和RAP上的mA性能从1.02%提高到4.30%，充分证明了我们方法的有效性。可以注意到，所提出的空间和语义一致性方法在很大程度上优于视觉注意力一致性（VAC）方法[2]。VAC方法假设同一图像的随机增强的全局注意力区域是一致的。然而，VAC方法关注的是单个图像的全局注意力区域，并且无法为每个细粒度属性生成精确的局部注意力区域。此外，对于同一图像的一对增强，如果一个增强的全局注意力区域是精确的，VAC方法可以通过将另一个增强的全局注意力区域与当前增强的区域对齐来提高性能。然而，如果两个增强的注意力区域都不准确，VAC方法无法解决注意力区域偏差问题，而我们提出的方法可以解决这个问题。04.4.消融研究和讨论0在本节中，我们首先通过对所有三个数据集进行分析实验，研究SPAC和SEMC模块的影响。然后，我们引入了我们方法的两个变体，以展示空间和语义一致性正则化的有效性。三个数据集上每个属性的定量性能改进结果在补充材料中呈现。如表2所示，与基线方法相比，我们有以下观察结果。首先，仅采用SEMC模块几乎无法提高性能。结果证明，没有正确的注意力区域，属性语义特征缺乏区分度，包含更多噪声，这与直观假设一致。其次，采用SPAC模块可以直接在PETA、PA100K和RAP上带来2.93%、0.62%、2.46%的mA性能改进。这种改进的性能表明，空间一致性正则化有助于定位与属性相关的区域。第三，当同时采用SPAC模块和SEMC模块时，我们的方法在mA上相对于基线模型提高了3.75%、1.56%、4.17%。0在PETA、PA100K和RAP上进一步验证了所提出的空间和语义一致性正则化的合理性，我们使用两个变体��和��实现了我们的方法。对于��方法，我们将SPAC模块中的方程3中的��和方程4中的��从软注意力图更改为基于阈值��=0的二进制（硬）注意力图。对于��方法，我们首先训练一个基线模型，并根据方程3获得每个属性的正样本的合格CAMs��。然后，我们将��固定为��而不是动量更新，以训练一个新模型��。两个变体的实验结果列在表1中。尽管��方法将权重分配给感兴趣区域的每个像素相同，不如��灵活，并且性能略有降低，但在PA100k和RAP上仍然具有竞争力的性能。由于��和��方法可以获得可靠和准确的空间注意力区域��，它们都达到了最先进的性能。然而，与��方法相比，具有动量更新的记忆的��可以避免两阶段的训练过程，更适合工业应用。04.5. SPAC和SEMC模块的效果0空间和语义一致性正则化是一个强大模型的两个互补且不可或缺的部分。SPAC模块可以增强骨干网络的定位能力，而不受过拟合和标签噪声的干扰。基于属性的精确空间注意力区域，骨干网络进一步从SEMC模块中受益，提取内在且具有区分性的语义特征。为了验证所提出的SPAC模块和SEMC模块的有效性，我们在图 3中可视化了空间注意力区域和空间、语义特征的相似度分布。相似度是在PA100K上计算的，表示相同属性的两个图像之间的一致性。相似度越高，具有相同属性的两个图像的注意力区域和语义特征越一致。与基线方法相比，如图 3 (b)和图 3 (c) 所示，我们观察到大量的相似度集中在1附近。0.000.250.500.751.00Similarity0.00.10.20.30.40.50.60.7ProbabilityHatbaselineours0.000.250.500.751.00Similarity0.00.030.060.090.120.15ShortSleevebaselineours0.000.250.500.751.00Similarity0.00.040.080.120.160.20.24LongCoatbaselineours0.000.250.500.751.00Similarity0.00.030.060.090.120.150.18Bootsbaselineours0.800.850.900.951.00Similarity0.00.0250.050.0750.10.1250.150.1750.2ProbabilityHatbaselineours0.800.850.900.951.00Similarity0.00.050.10.150.20.250.3ShortSleevebaselineours0.60.70.80.91.0Similarity0.00.050.10.150.20.250.30.35LongCoatbaselineours0.40.60.81.0Similarity0.00.050.10.150.20.250.30.350.4Bootsbaselineours9690帽子短袖长外套靴子0(a) 基线方法（红色边界）和提出方法（绿色边界）之间的空间注意力区域 A �,�的可视化。0(b) 基线方法和提出方法之间空间注意力区域 A �,� 的相似度分布对比。0(c) 基线方法和提出方法之间语义特征 V �,� 的相似度分布对比。0图 3:SPAC和SEMC模块的效果示意图。我们以“帽子”、“短袖”、“长外套”和“靴子”属性为例，展示了(a)空间注意力区域，(b)空间注意力区域的相似度分布，以及(c)相同属性不同图像之间语义特征的相似度分布。与基线方法相比，提出的方法的大部分相似度集中在1附近，证明了每个属性的空间注意力区域和语义特征的一致性。0相似度主要集中在1附近，使得概率曲线在1附近迅速上升。在PA100K、RAP和PETA的其他属性中也可以观察到相同的现象，如补充材料所示。04.6. 超参数评估0我们的方法主要有三个关键超参数，分别是置信度阈值 � ，初始时期 � � 和动量系数 �。如果没有特别指定，我们设置 � = 0.9 ， � � = 4 ， � = 0.9。为了充分展示超参数的效果，以下实验都在最大的行人属性数据集PA100K上进行。置信度阈值 � 在公式 3 和公式 8 中用于选择可靠的空间注意力特征图 A �0和语义特征向量 V � ，它们被聚合到空间记忆 M ��和语义记忆 M �� 中。如表 3 所示，随着置信度阈值的增加，0表 3: 置信度阈值 � 的实验结果。0置信度阈值 mA 累积准确率精确率召回率 F10� = 0 79.63 78.61 86.89 87.19 86.63 � = 0.3 80.08 78.2186.65 86

下载后可阅读完整内容，剩余1页未读，立即下载