UPAR：统一行人属性识别和人物检索数据集和基线模型

50 浏览量更新于2023-10-16 收藏 642KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1UPAR：统一的行人属性识别和人物检索AndreasSpeck er1，2，3MickaelCormier1，2，3 Jür genBe yerer2，1，31卡尔斯鲁厄理工学院2弗劳恩霍夫IOSB3弗劳恩霍夫机器学习{firstname.lastname} @ iosb.fraunhofer.de摘要识别软生物特征行人属性在视频监控和时尚检索中是必不可少的。最近的工作在单个数据集上显示出有希望的结果。尽管如此，由于当前数据集中的强偏差和变化的属性，这些方法在不同属性分布、视点、变化的照明和低分辨率下的泛化能力仍然很少被理解。为了缩小这一差距，并支持系统的调查，我们提出UPAR，统一的人属性识别数据集。它基于四个著名的人物致敬识别数据集： PA100K、PETA、RAPv2和Market1501。我们通过提供330万个额外的注释来统一这些数据集，以协调数据集中12个属性类别中的40个重要的二进制属性。因此，我们使研究推广行人属性识别以及基于属性的人检索的第一次。由于巨大的差异，图像分布、行人姿态、比例和遮挡，现有方法在准确性和效率方面都受到极大的挑战。此外，我们在对正则化方法进行深入分析的基础上，为PAR和基于属性的个人检索开发了一个强大的基线。我们的模型在 PA 100 k 、 PETA 、 RAPv 2 、 Market 1501-Attributes和UPAR的跨域和专业化设置中实现了最先进的性能。我们相信UPAR和我们强大的基线将为人工智能社区做出贡献，并促进对大规模，可推广的属性识别系统的研究。数据集可从以下位置获得：https://github.com/ speckean/upar_data1. 介绍由于对智能视频监控和在线零售的需求快速增长，行人分析成为一项重要任务。相关的子任务是个人属性识别（PAR），其目的是确定给定人图像的人的语义属性，以及基于属性的人检索，其搜索im，图1. PAR数据集每个数据集显示不同的特征和场景。然而，由于数据集的共同属性数量较少，因此不可能进行有意义的分布外评价。我们的UPAR数据集统一了40个属性，因此可以进行跨领域调查。显示具有指定查询特征的人员的年龄。行人属性的语义描述在在线零售中，属性使得能够精确地过滤服装的搜索参数，而不需要查询图像。近年来，基于深度学习的视觉模型在各种任务和PAR中显示出令人印象深刻的结果[2，37，15]。这些模型严重依赖于大规模和注释良好的数据集。PAR数据集[43]提供具有不同粒度的不同属性注释。然而，不同数据集之间只有少数属性是相同的，这导致PAR缺乏大规模的泛化分析。此外，数据集对捕获的场景有很大的偏见某些数据集仅包括室内或室外场景、相同的天气条件、有限数量的不同摄像机，并且只有一个981982种族因此，在这些数据集上训练的模型往往会过拟合，并且可能无法很好地推广到分布外的域。这些局限性清楚地表明，需要一个大规模和更全面的基准generalizable PAR。为此，我们构建了统一行人属性识别和人员检索（UPAR）数据集，该数据集由四个流行的数据集PA100K [25]，PETA [4]，RAPv2[20]和Market1501 [22]组成。我们通过提供广告注释来统一这些数据集，以协调超过12个类别的40个重要的二进制属性，从而带来大量的的图像覆盖了广泛的dilemarks w.r.t人类主体，数据形式，和捕捉环境，如图所示。1.总共有3，300万个新的二进制颜色注释贡献给这个数据集。除了用以前不可用的属性扩展单个数据集之外，我们还首次启用了详细的泛化评估。我们提出了两种不同的评估协议，代表不同的泛化sce- narios。第一种方法包括多个训练数据集，而更困难的方法只允许一个数据集进行训练，并且需要对多个目标域进行评估除了介绍UPAR数据集外，我们还评估了当前基于CNN的模型在统一数据集上的性能。然而，由于属性的数量和数据集的多样性，可概括的PAR和检索是具有挑战性的。因此，我们彻底检查了设计选择，以构建一个新的强大的基线，不仅在典型的PAR任务上取得了有竞争力的结果，而且还在UPAR数据集上实现了基于属性的人检索。捐款. UPAR为社区提供了一个标准化的数据集，以便在大规模真实PAR场景中对现实PAR进行调查。我们的贡献总结如下。• 我们提出了一个新的统一数据集，其中包含3，3M额外的注释，以协调四个数据集的40个重要属性。UPAR是第一个为PAR和基于属性的检索提供足够图像和注释的数据集。• 我们进行了全面的分析，generalizable PAR和基于属性的检索的设计选择，并提供详细的见解。• 我们报告了五个PAR数据集的最新结果，并优于更复杂的PAR和基于属性的检索的最新2. 相关工作行人属性识别。在过去几年中，对PAR的研究取得了重大进展早期基于深度学习的工作[17]提出将任务视为多标签分类任务。此外，通过引入加权交叉熵损失，增加了稀有属性的损失，解决了训练数据集中JRL [40]方法追求一种不同的方法，旨在通过长短期记忆模块利用属性相关性一个广泛研究的研究方向是使用注意力机制来关注相关区域并提高对细粒度属性的识别[25，24，19，45，13，30]。也是常见的杠杆-年龄特征在多个尺度[47，30，38，44，49]。大多数作品都建立在大型网络上，这降低了实用性。因此，[16，15]建立在简单的基线模型上，以实现最先进的PAR性能。虽然[16]引入了强基线，[15]通过利用相同属性在不同图像中的相似位置上定位并且来自具有不同子类的相同语义类的属性共享相似的视觉特征来应用空间和语义正则化。这些工作为单个数据集提供了令人印象深刻的结果[22，25，4，17，20]，高度关注一种类型场景，例如，室外[22，25]或室内[17，20]，相对中等规模的数据集[22，4，17]。然而，只有少数属性在不同的数据集上具有等效的定义，例如性别，上身衣服长度或背包，从而使实验w.r.t.对未知领域的概括。因此，研究人员只有很少的选择来证明他们提出的方法的泛化能力。在这项工作中，我们提供了第一个统一的数据集来执行泛化实验，在大规模的40个二进制属性和不同的场景。人员检索。研究人员以不同的方式处理基于属性的人物检索任务，无论是通过PAR还是通过学习跨模态特征空间。遵循第一种方法的方法训练PAR模型，并将预测的属性置信度得分与查询属性描述进行比较[39，31，18，32，35，33，34，8]。这种方法提供了语义，因此检索结果是可解释的。然而，识别细粒度，低分辨率的监控图像中的本地属性是具有挑战性的。进一步的方法在共享的跨模态特征空间中对齐属性描述和图像嵌入。文献中的方法通过使用高维层次嵌入和广告匹配网络解决了这个问题[5]。进一步的工作旨在在联合特征空间中匹配人的属性和图像[46，1]。应用对抗训练来对齐不同的模态。Jeong等人[14]认为，由于最小-最大优化过程，该过程通常不稳定且具有挑战性。因此，他们提出了一种方法，98364202468图2.PETAMarket-1501_培训Market-1501_测试PA 100 KRAP2UPAR域完全重叠，因此大大简化了PAR任务，因为模型只需要很好地概括属性分布的相对较小的变化。相反，现实世界的应用需要推广到分布外的域，即，在我们的案例中，其他具有不同特征的数据集。分配外评价提出了一项更为复杂和现实的任务。为了使研究这样的现实环境中，我们提出了UPAR数据集统一多个现有的PAR数据集有关的属性注释，并引入两个一般化的评估协议。使用ImageNet预训练的Inception模型提取。来自同一数据集的训练集和测试集嵌入完全重叠。相比之下，我们的UPAR数据集作为具有不连续数据分布的多个子数据集的组合，提出了一个更现实和更具挑战性的问题，并要求模型在不同的领域中很好地泛化采用对抗训练，但引入了模态对齐损失函数和语义正则化损失，以显式地利用不同属性组合之间的关系[14]。在以前的作品[14]的结果表明，学习属性和图像之间的共享嵌入空间对于基于属性的检索任务实现了更好的性能相比之下，我们的工作清楚地表明，通过简单地使用强属性分类器可以实现最先进的性能。此外，提供了语义和可解释性，并且从现实世界和应用的角度来看，这通常是需要的。3. UPAR数据集公开可用的PAR数据集是严重偏见，但也有限的捕获场景的多样性。除了PA100K [25]和RAPv2 [20]之外，大多数现有的公共PAR数据集在室外或室内环境中包括不到例如，Market1501只包含夏季在校园拍摄的户外图像。因此，属性偏向于穿短夏装的亚洲年轻人，因此不能很好地反映现实。因此，在这些数据集上的发现是有限的，并且很难转移到其他场景或应用于现实世界的应用中。在数据集中，属性分布和图像存在显著的分布变化。图像的显著分布偏移在图中可视化。2.它显示了使用ImageNet预训练的Inception模型提取的图像嵌入的分布。使用线性判别分析方法将最后一个特征层的输出转换为二维特征可以观察到，训练集和测试集嵌入源自相同的数据集。3.1. UPAR组成我们通过组合四个可用数据集PA100K [25]，PETA[4]，RAPv2 [20]和Market1501 [22，48]中包含的图像来构建UPAR数据集由于对于关于创建真实世界监视数据集的几个限制，特别是关于隐私的限制，我们认为已经存在的公共数据集具有很大的潜力可以利用。这些数据集提供了关于场景、种族和贡献的巨大差异，这使得UPAR不那么有偏见。 Market 1501- Attribute [22 ， 48] 数据集是Market 1501 数据集的扩展版本，增加了 27 个Market1501数据集是在一家超市前的户外收集的，使用了五个高分辨率相机和一个低分辨率相机。该数据集有32，668个绑定框，用于1，501个身份。PA100K[25]是目前最大的PAR数据集，包含来自各种户外监控摄像头的100，000幅行人图像，图像分辨率、照明条件和环境变化很大该数据集为26个属性提供注释。丰富注释的行人（RAP）[17，20]数据集是目前由室内场景组成的最大的行人属性数据集。该数据集有两个版本第一个版本RAPv1 [17]是在三个月内从购物中心的监控摄像头中收集的RAPv2 [20]是一种扩展，旨在作为室内真实世界监控场景中人员检索和PAR该数据集包含84，928张图像，涉及2，589个身份和25个不同场景。注释的属性与RAPv1中的相同。最后，PEdesTrian属性（PETA）[4]数据集将来自10个公开数据集的19，000个行人图像与室内和室外场景以及61个二进制和4个多类属性相结合。虽然被社区广泛用于PAR算法的基准测试，但这些数据集只有一些共同的属性注释，这严重损害了泛化和交叉评估。为了使泛化研究成为可能，我们在这些数据集之间统一了12个类别的40个9843.2. UPAR属性统计40个统一的属性是根据它们在视频监控系统中的重要性而选择的。我们的注释涵盖了各种不同的属性类型，以允许广泛的调查。全球范围的属性，如年龄或性别和小规模的属性，例如，眼镜，包括在数据集中。有属于十二个类别的属性：年龄、性别、头发长度、上身衣服长度、上身衣服颜色、下身衣服长度、下身衣服颜色、下身衣服类型、附件背包、附件包、附件眼镜和附件帽子。补充材料中提供了属性的完整列表结果，在从原始数据集中清除不能令人满意地注释的图像之后，UPAR数据集包含224，737幅具有12个类别上的40个二元属性的注释的图像该数据集遵循原始数据集的分割，总共有148，048张训练图像，30，830张验证图像和45，859张测试图像。我们为100，000幅图像提供了11种独特颜色（加上其他和混合）的注释，并为总共2，57M的二元颜色注释提供了两个属性。此外，我们为PETA和RAPv2数据集的下半身服装长度提供了注释。眼镜的注释被贡献给PA100K、PETA和Market1501，年龄属性被贡献给PETA，头发长度被贡献给PA100K和Market1501，导致另外0.8M新注释，总共3.3M手动标记和验证的新二进制注释。有了这些新的符号，我们可以对留一法进行多次分割，以评估可推广性（见表1）。①的人。此外，UPAR还可以作为一个整体用于评价特殊化方法。我们试图用我们的数据集来缓解有关PAR数据集的几个问题。第一，在某些属性上，这些是高度在UPAR中，甚至更少表示的属性显示至少446个示例。然而，较少和最佳代表属性之间的差距这是因为数据集捕获时的数据上下文和相机配置。环境（市场、商场、校园等）对服装的分布和人口统计有很大的影响。公开可用的数据集往往对种族和文化有偏见，例如，主要代表西方或东南亚文化。我们通过统一四个大型数据集来稍微缓解这一点。未来的作品应该明确地集中在用不同的服装来表现更大、更多样化的社区虽然没有专门解决这个问题，但我们数据集的多样性增加往往会减轻生物识别的非自愿其次，研究人员在收集真实世界的数据集时面临隐私问题和侵犯人权的问题。从研究的角度来看，PAR数据集应该由真实世界的监控摄像头捕获图3. 注释挑战在第四张照片中，上半身不见了。有时候，主要人物很难分辨，正如第二排的前两张图像所示。紧身裤能让下半身的衣服变长吗？(yes)长筒靴会让下半身的衣服变长吗？（否）时代，与主题不知道被拍摄和行为尽可能自然。然而，从道德的角度来看，行人在他们的图像被注释和公开分发之前应该同意。这个重要的困境也涉及到现有的数据集。例如，Duke- MTMC [29]和Celeb 1 M [10]数据集由于隐私侵犯问题而被撤回。在本文中，我们认为现有的数据集足以满足我们的目的，并且由于缺乏注释，这些数据集没有充分发挥其潜力。因此，我们认为，扩展现有的和广泛接受的数据集，而不是获取更多的个人数据，是PAR等场景的可行策略3.3. 数据注释处理PA100K数据集不提供颜色注释，这就是为什么我们要求16名付费注释者手动定义11种独特颜色的上身服装和下身服装的颜色以及其他类别，以指示颜色列表中不包括的多种颜色或颜色。对每个图像单独执行注释，即，当在不同图像中描述同一个人的因此，不同的属性值可以被分配给不同图像中的同一个人，这取决于外部因素，例如照明、物体或人投射的阴影、或帧中可见的衣服区域，如图11所示。3.一般来说，注释者面临着各种各样的挑战。例如，有些图像描绘多个人;因此，由于遮挡，通常难以定义图像中的主要人物。此外，颜色可能无法明确地分配给唯一的颜色类。在这种情况下，图像被分配到“其他”集合类，其中包括金属色或米色。如果主要人员的相应身体区域未被访问-985拆分ID留一法训练评价培训交叉验证评价0PA100K、PETA、RAPv2Market1501Market1501PA100K、PETA、RAPv21Market1501，PETA，RAPv2PA100KPA100KMarket1501，PETA，RAPv22Market1501、PA100K、RAPv2PETAPETA Market1501、PA100K、RAPv23Market1501，PA100K，PETARAPv2RAPv2Market1501，PA100K，PETA表1. UPAR拆分-两个UPAR生成评估方案的拆分定义。交叉验证（CV）协议更具挑战性，因为仅使用子数据集进行训练。在这两种情况下，评估都是在看不见的域上执行的。在画面中不明显，或者如果主要人物用假颜色描绘灰度，分配给未知的类，并从UPAR数据集中丢弃图像有关更多信息，请参阅补充材料。3.4. 基准和指标我们利用两种方案来评估UPAR的推广能力：交叉验证（CV）和留一法（LOO）。不同的训练和测试划分在Tab中给出。1.一、CV协议是更具挑战性的协议，因为它测量了来自单个分布的给定训练数据在多个域上的泛化性能。通过单独评估测试数据集，计算每个分割的这些测试数据集的平均值，并最终确定分割的平均值和标准偏差来计算Metrics该过程确保数据集对最终结果的贡献相等，而不是与其测试图像的数量成比例。第二种泛化评估方案使用LOO来模拟来自多个域的训练数据可用但来自目标分布的数据缺失的情况。也就是说，四个子数据集中的三个用于培训，其余一个用于评估。与第一个方案类似最终的评估分数是四个部分的平均值和标准差。最后但并非最不重要的是，该数据集可以用于总体上执行类似于原始数据集的评估。在这种情况下，来自所有子数据集的训练图像和测试图像被组合。通常，基于标签和基于实例的指标用于评估PAR方法[20]。基于标签的方法，如平均准确度，专注于单个属性的识别准确度。分别计算属性的阳性和阴性样本的分类准确度，并计算每个属性的平均值。然后，mA是所有属性的平均值相反，基于实例的度量，即，在我们的例子中，F1分数集中在分配给人的属性描述上。每个测试集样本的查准率和查全率值作为F1分数的基础进行计算，F1分数是这些值的调和平均值在这种情况下，计算测试集中所有实例的平均值。关于基于属性的人检索时，我们依赖于通常使用的平均精度（mAP）和秩1精度（R-1）指标。虽然mAP反映了整个检索排名的质量，但R-1得分是排名中第一位置的准确性注意，在分割的训练数据中没有阳性样本的属性被排除。此外，用于检索的属性查询通过计算所有在相应的测试集中出现的唯一属性集4. 拟议强基线这项工作的目的是开发一个强大的基线普遍适用于PAR和基于属性的人检索任务。与PAR相比，基于属性的人物检索没有一个简单而强大的因此，我们对不同的设计方面进行了详细的分析，以构建一种基线方法，该方法在UPAR以及两项任务的所有子数据集上实现了最先进的性能。我们应用当前的骨干模型和优化器，提高训练批量大小，并利用几种正则化方法，从而实现了对过度拟合和过度自信的鲁棒性。架构我们遵循典型的基线架构，它由一个具有完全连接的分类头的骨干模型组成。我们只使用一个分类层，它遵循主干的全局池化层。我们的实验表明，平均池效果最好，这就是为什么它适用于所有调查。骨干大多数方法仍然依赖ResNet50 [11]作为骨干模型，因为它多年来在各种任务上以合理的计算成本实现了有竞争力的性能。然而，最近已经提出了从ViT[6]开始，基于transformer的模型变得越来越重要，并且在各个研究领域都优于CNN此外，引入了改进的CNN模型，例如，ConvNeXt [27]架构类似于现代视觉变换器的结构，但具有卷积块。在我们的工作中，我们将ResNet 50 [11]模型与视觉转换器Swin-S [26]和PVTv 2 [42]以及ConvNeXt-B [27]进行了比较。指数移动平均线。对各种模型架构（如EfficientNet[36]）的研究表明，使用模型在训练期间维护额外的EMA在每次迭代中，首先更新原始模型随后，基于原始模型的当前EMA值和新参数值为每个参数计算EMA批量大小。我们的实验研究表明，训练批量大小影响最终的评估性能。原因是如果批量太大，986- -发生的属性对模型参数的批量更新只有很小的影响然而，如果批量大小较小，则模型倾向于在某些样本上过拟合，这可能导致不稳定的训练行为和较差的泛化性能。此外，正则化（如EMA）可能需要每批更少的图像来学习细粒度或稀有属性的有意义的特征，特别是在小数据集上。辍学生Dropout是一种研究得很好的正则化方法，可以避免过拟合。特别地，这提高了对来自未知域的数据的泛化能力，即，UPAR评估协议的结果然而，它也有利于同一领域内的专业化任务，因为属性数据集包括巨大的偏差，并且模型在几个时期后开始过拟合。标签平滑。基于深度学习的图像分类方法的两个常见问题是过度自信和过度拟合。应用标签平滑可以同时解决这两个问题。如果模型过于自信，则输出预测不反映准确性，即，频繁出现的属性的输出分数可能显著高于准确度。通常，当交叉熵损失用作多类分类的优化目标时，应用标签平滑。然而，我们采用相同的思想来处理多标签属性识别问题，如下所示：y ls=（1 − α）y + α（1 − y）。（1）在等式1中，y是原始的二进制属性标签，α表示用于控制标签平滑的影响的超参数，并且yls代表所得到的平滑训练标签。优化器许多作品使用自适应优化器（如Adam）来训练神经网络，因为它们需要更少的超参数微调，并且通常比随机梯度下降更快地训练。然而，用亚当训练的模型表现得更糟。Loschilov等人[28]指出其原因是自适应优化方法的L2权正则化效果不佳，并提出了AdamW优化器，解决了这一问题。然而，目前的PAR基线[16]仍然依赖于亚当的香草版本，因此普遍性较差相比之下，我们在我们的方法中应用其他算法，例如，RAdam [23]进行了研究，但结果比AdamW差。数据扩充。另一种常用的减少过拟合的方法是数据增强。我们使用各种增强方法进行了实验，最终发现随机擦除（RE）[50]和AugMix（AM）[12]增强算法改善了结果。此外，随机翻转和裁剪建立了它们-自我作为标准的增强方法，因此总是应用在我们的实验中。5. 实验在本节中，我们介绍并讨论实验结果。首先，给出了关于训练和评估的一般信息，然后是关于UPAR数据集的一般化的深入研究。其次，我们将我们的基线模型与单个数据集上的最先进方法进行比较。5.1. 训练设置在我们的工作中，我们利用了Jia等人的工作。[16]作为我们的基准。我们使用1e4的学习率，5e4的权重衰减和Adam优化器（如果另有说明）来训练所有模型。关于学习率调度，我们应用平台调度器，如果验证结果在四个时期内没有改善，则将学习率降低0.1倍。默认情况下使用大小为64的批次，并在基于加权交叉熵损失函数计算梯度后应用梯度裁剪[17]。骨干网络使用ImageNet数据集[3]中预先训练的权重进行初始化。更多详情请参见补充材料。我们在这项工作中优化了所有模型，重点是检索性能，因为它是大多数应用程序的相关措施因此，获得的PAR结果不是最佳的，特别是关于mA。然而，我们仍然能够超越最先进的方法。我们使用PyTorch 1.11和CUDA训练我们的模型11.3.为了加快训练速度，我们利用模型可训练参数的自适应实验在配备NVIDIA GeForce RTX 3090 GPU的服务器上完成。5.2. UPAR推广CV结果。在一个子数据集上训练和在其他子数据集上评估的结果见表1。2.关于文献中的方法，可以观察到强基线[16]（也作为我们的基线）实现了最佳结果。特别是，更复杂的方法，例如，应用GAN [1]在分布外的域上进行推广的结果很差。此外，使用ResNet50作为主干模型的性能明显低于使用最近的基于CNN或Transformer的模型。ConvNeXt-B架构获得了最佳结果。这适用于PAR任务和检索任务。因此，我们的方法依赖于这个主干模型。所有提出的正则化技术提高了分数。将Dropout添加到主干的最后一个功能层并使用AdamW而不是vanilla Adam对性能的影响最大。研究结果表明，EMA评价仅有益于987方法骨干马F1地图R-1VAC[9]<$ ALM[38]<$ SAL[1]<$ResNet50BN-InceptionResNet50六十四3±1。8七十二0±2。3–七十一4±6。178岁0±2。7–六、2 ±3。311个国家。4 ±4。27 .第一次会议。9 ±3。47 .第一次会议。4± 4。1十三岁9±9。010个。5±7。2ResNet50七十一5±1。9七十二9±1。9七十二5±1。7七十三。2±1。8七十二4±1。9七十三。4±2。474岁4 ±2。275. 3 ±2。075. 4 ± 1。9七十二6 ±2。478岁7 ±2。9八十4 ±2。6八十7 ±2。881. 8 ±2。783岁1 ±2。183岁5 ±2。283岁5 ±2。184. 1 ±2。084. 2 ± 2。081. 4 ±2。3十三岁4±5。0十四岁6±4。4十五岁0±4。4十七岁2 ±3。719号。3±5。320块2 ±5。220块2 ±5。120块9 ±5。321岁4 ± 5。4十六岁0±5。4十六岁0±10。5十七岁1±9。3十七岁0±8。720块1±9。421岁3±9。9二十二岁1±9。1二十二岁2±8。9二十二岁9±9。523岁4 ±9。1十八岁5±10。3基线[16]Swin-SPVTv2ConvNeXt-B+ EMAConvNeXt-B+辍学ConvNeXt-B+ 标签平滑ConvNeXt-B+ AdamWConvNeXt-B+ AugMix（我们的）ConvNeXt-B我们ResNet50表2.UPAR CV所提出的基线方法的优化提高了关于所有指标的性能。†结果是使用官方实施产生的当有足够的训练数据可用时。拆分0和2，即，利用小型Market1501或PETA数据集进行训练，无需EMA计算权重即可获得更好的结果。相比之下，EMA正则化在此泛化设置中需要较低的批量大小32（拆分1 - 3）。否则，很难学习高度局部化属性的小尺度特征。对于标签平滑超参数α，观察到具有更多和更少训练数据的分裂之间的类似差异。两个较小的分裂需要更多的正则化，即，α=0。1，而α=0。05对于其他分裂来说足够了。同样值得注意的是，在添加正则化之前应用AdamW并不能改善结果。AdamW的优点不能补偿模型的过拟合倾向关于数据增强，只有AM改善了结果。原因在于，RE可能导致训练数据上的过拟合，因为如果相关图像区域被擦除，则某些属性可能是不可确定的，这增加了基于不相关的背景特征来识别该图像的属性的风险。实验结果表明，这些改进具有普遍性，但在对未知领域进行泛化时，参数化高度依赖于可用训练数据如果只有很少的训练图像（在我们的例子中是15,000张图像），则需要更多的正则化，EMA并不有利。相比之下，使用更多数据（在我们的情况下，超过50，000张图像）进行训练可以从EMA中受益，但是应该减少批量大小以保持显示罕见属性的图像的影响。我们的最终结果大大优于国家的最先进的，并表明，目前的算法与一个简单的基线架构非常适合泛化任务。最后，我们将具有相同超参数的相同技巧然而，结果表明，也有一个显着的改善，和国家的最先进的是优于。方法骨干马F1地图R-1VAC[9]<$ ALM[38]<$ SAL[1]<$ResNet50BN-InceptionResNet50六十四3±1。866岁。3±2。0–七十一4±6。1七十一0±5。4–六、2 ±3。3五、5 ±3。03 .第三章。7 ±1。57 .第一次会议。4±4。17 .第一次会议。3±4。04.第一章8 ±2。0ResNet50六十五5±2。268岁4 ±2。268岁1 ±2。1七十2 ±1。269岁。3±1。069岁。4±1。169岁。8±1。4七十0 ±1。5七十8 ±1。7七十5 ±1。967岁0 ±2。5七十一2±5。674岁5 ±5。275. 0 ±4。2七十六。8±4。278岁0 ±3。578岁3 ±3。079岁。1±3。179岁。2±3。079岁。5±3。1八十1 ± 2。774岁2 ±4。5六、6 ±3。48. 6 ±3。58. 6 ±3。411个国家。1±3。911个国家。8 ±4。312个。0±4。312个。6±4。212个。7±4。0十三岁4±4。3十三岁7 ±4。28. 3 ±4。18. 7 ±4。59 .第九条。9±4。510个。4±4。512个。9±5。1十三岁1±5。1十三岁4±5。3十四岁3±4。9十四岁5±4。7十五岁4±5。4十五岁7 ±5。010个。2±5。0基线[16]†Swin-SPVTv2ConvNeXt-B+ EMAConvNeXt-B+ 最优BSConvNeXt-B+辍学ConvNeXt-B988†表3. UPAR LOO所提出的基线方法的优化提高了关于所有指标的性能。使用官方实现产生了结果。LOO结果。LOO泛化评价方案的结果见表1。3.第三章。观察结果与上一节中的观察结果相似由于每次拆分都有更多的训练数据可用，EMA总是会带来改进，并且不需要调整批量大小。同样，我们的方法显着优于文献中的方法，无论使用的骨干模型。比较两种泛化协议表明，基于属性的人检索主要受益于广告和更多样化的训练数据。不过，仍有很大的改进空间。考虑到现实世界的应用，15.7%的R-1分数可能是不够的。即使有来自多个领域的训练数据，也需要进一步的研究。虽然在几乎每四个情况中在第一排名位置处的正匹配在某些情况下似乎是足够的，但mAP指示许多匹配发生在排名较后的位置。因此，相关人员可能会被遗漏。这一发现表明，当前的属性分类器可以转移到其他领域，并用于检索，但它们只适用于简单的情况。此外，PAR模型似乎比旨在使用对抗训练来学习跨模态特征空间的方法更适合泛化任务。5.3. 专业化认证结果消融术我们还评估了专门化情况下的正则化方法，即，训练和测试数据来自相同的分布，在表1中。4.我们观察到，与泛化实验相反，最优超参数和优化的改进在很大程度上取决于数据集。这一发现表明，数据集是有偏差的，使用相同的数据源进行训练和测试优化的模型可能会导致实际应用中的性能低下。此外，RE导致专业化情况的改善，这损害了泛化能力，如在UPAR实验中观察到989††表4.专业化结果†结果是使用官方实施产生的表5.最先进的PAR-我们的模型实现了最先进的在每一个基准上都有最先进的结果。仅在PA 100K和RAPv2上，文献中仅有少数方法报告了较高的mA评分。原因是我们的模型针对基于属性的检索进行了优化。红色和蓝色分别突出显示最佳和次佳结果。结果是使用官方实现产生的。这些发现清楚地强调了一个通用基准的必要性，如UPAR组成的数据来自不同的领域与不同的图像和属性分布。否则，开发出具有普遍性和适用性的算法是不可能的。与最新技术水平的比较。表5和表6提供了与PAR和基于属性的人检索的当前最新技术的比较。关于这两项任务，我们的方法设置了一个新的国家的最先进的骨干架构的选择无关6. 潜在社会影响PAR和基于属性的检索领域，其中包括时尚属性以及与视觉监控相关的属性，在现实世界中有几个潜在的用途预期场景可能包括执法机构使用追溯PAR和检索系统，以根据回忆的证词识别嫌疑人。另一应用可以是在公共交通中的大型事件期间的群组检测和监视。然而，恶意使用将意味着基于其种族、肤色、宗教和/或文化配饰或相关服装来识别个人和群体。缓解战略表6. 最先进的基于属性的检索-我们的模型在每个基准上都达到了最先进的结果。基于PAR的方法和基于特征分解的方法在性能上明显优于独立于主干模型的方法。红色和蓝色分别突出显示最佳和次佳结果。使用官方实现产生结果。全球地理信息系统应防止将文化和宗教属性纳入公共数据集。此外，目前还不清楚PAR模型如何区分低分辨率监视图像中的衣服和皮肤颜色，即，该模特是否会将深肤色的人与短的下半身衣服和长的黑色下半身衣服混淆（例如，lefestival）。我们认为，我们的UPAR数据集提供了更多的多样性，并降低了数据集中的偏见的影响。进一步的工作应该研究公共数据集和UPAR中的潜在偏见。7. 结论在这项工作中，我们提出了一个名为UPAR的统一数据集，允许在四个PAR数据集上进行40个属性的泛化实验，以及标准评估方案，其中包括148，048个训练，30，830个验证和45，859个测试图像，以衡量PAR和基于属性的个人检索方法的泛化能力。此外，我们开发了一个强大的基线，在PAR和检索的泛化和专业化问题基于UPAR，我们相信研究界将为属性识别和基于属性的个人检索开发新的大规模可推广算法。方法骨干PA100KRAPv2Market-1501UPAR马F1 mAPR-1马F1地图R-1马F1地图R-1马F1地图R-1马F1地图R-1ResNet5084.086.320.721.381.688.123.831.177.478.517.012.176.583.623.839.583.287.321.223.5基线[16]†Swin-SPVTv286.684.187.786.324.120.524.120.383.282.188.588.725.725.832.933.580.078.080.378.821.017.215.012.078.277.584.783.826.325.539.539.581.483.786.988.619.926.121.428.5ConvNeXt-B86.188.124.424.482.288.526.234.579.380.020.514.480.785.731.647.783.989.226.928.7+ EMAConvNeXt-B85.688.425.424.783.789.729.336.378.580.922.215.977.586.229.945.383.989.227.329.3+ 最优BSConvNeXt-B87.088.526.726.583.789.729.336.378.580.922.215.979.686.735.751.083.989.227.329.3+辍学ConvNeXt-B87.188.426.526.884.089.730.037.679.981.022.316.379.386.636.549.884.389.427.729.6+ 标签平滑ConvNeXt-B87.488.827.727.784.890.030.038.579.581.121.715.879.086.837.450.284.989.427.930.1+ AdamWConvNeXt-B88.189.730.429.384.890.230.539.579.881.120.414.981.487.740.352.585.790.230.732.7+ 随机擦除ConvNeXt-B88.489.930.229.784.690.430.738.879.781.122.516.481.587.640.655.485.990.231.633.9方法骨干PETAPA100KRAPv2Market1501马F1马F1马F1马F1MsVAA[30]ResNet10184.686.5––––––VAC [9]ResNet5083.686.279.086.8––––[第38话]BN-inception86.386.980.786.5––––JLAC [37]ResNet50187.087.582.387.6––––VFA [2]ResNet5086.587.381.387.0––––[49]第四十九话ResNet50––82.186.880.279.1––SB [16]ResNet5084.086.480.287.478.578.7––SB [16]†ResNet5084.086.381.688.177.478.576.583.6[15]第十五话ResNet5086.587.081.986.9––––我们ResNet5087.187.782.288.578.880.079.585.4ConvNeXt-B88.489.984.890.279.981.081.587.6方法PETAPA100KRAPv2Market1501地图R-1地图R-1地图R-1地图R-1DeepMAR [18]––––––8.913.2[41]第四十一话––15.621.2--9.78.12WayNet [7]––10.619.5--7.811.3CMCE [21]––13.125.8––22.835.0AAIPR [46]––––––20.740.3[5]第五章––––––24.343.3SAL [1]†––15.022.7––29.444.4CWDD [33]––––21.114.527.542.1SB [16]†20.721.323.831.117.012.123.839.5ASMR [14]––20.631.9––31.049.6我们的（ResNet50）23.022.925.632.519.513.832.345.0我们的（ConvNeXt-30.229.730.539.521.715.840.655.4990引用[1] Yu-Tong Cao，Ji

下载后可阅读完整内容，剩余1页未读，立即下载