仅使用RGB图像进行换装人员再识别的方法及其优越性

124 浏览量更新于2023-10-26 收藏 12.74MB PDF 举报

RGB图像

时空信息

身份认证购VIP最低享 7 折!

30元优惠券

10600仅使用RGB模态的换装人员再识别0顾新倩1,2，常宏1,2，马炳鹏2，白书涛1,2，单世光1,2，陈锡林1,201 中国科学院计算技术研究所，2 中国科学院大学0{xinqian.gu,shutao.bai}@vipl.ict.ac.cn，{changhong,sgshan,xlchen}@ict.ac.cn，bpma@ucas.ac.cn0摘要0解决换装人员再识别（re-id）的关键是提取与衣服无关的特征，例如面部、发型、体形和步态。目前大多数工作主要集中在从多模态信息（例如轮廓和素描）中建模体形，但未充分利用原始RGB图像中的与衣服无关的信息。在本文中，我们提出了一种基于衣服的对抗损失（CAL），通过惩罚re-id模型对衣服的预测能力来挖掘原始RGB图像中的与衣服无关的特征。大量实验证明，仅使用RGB图像，CAL在广泛使用的换装人员re-id基准上优于所有最先进的方法。此外，与图像相比，视频包含更丰富的外观和额外的时间信息，可以用于建模适当的时空模式以辅助换装re-id。由于目前没有公开可用的换装视频re-id数据集，我们贡献了一个名为CCVID的新数据集，并展示了在建模时空信息方面有很大的改进空间。代码和新数据集可在以下网址获取：https://github.com/guxinqian/Simple-CCReID。01. 引言0人员再识别（re-id）[12, 23,54]旨在在不同的位置和时间的监控视频中搜索目标人员。大多数现有工作[11, 19,40]假设行人在短时间内不会更换衣服。然而，如果我们想在长时间内重新识别一个行人，就无法避免换装问题。此外，换装问题在一些短时间的现实场景中也存在，例如，犯罪嫌疑人通常更换衣服以避免被识别和追踪。由于在智能监控系统中的关键作用，换装人员re-id [7,49]近年来引起了越来越多的关注。人类可以区分他们的熟人，即使0（a）（b）（c）0图1.（a）两个原始图像的可视化，（b）仅使用识别损失学到的特征图，（c）使用识别损失和提出的CAL学到的特征图。请注意，（b）和（c）的所有训练设置都是一致的，除了损失函数。（b）只突出显示面部作为与衣服无关的特征，而（c）突出显示更多与衣服无关的特征，例如面部、发型和体形。（由于训练集中同一人的不同样本大多穿着相同的鞋子，鞋子也被突出显示。）0这些熟人穿着他们从未见过的衣服。原因是人脑可以解耦和利用与衣服无关的特征，例如面部、发型、体形和步态。为了避免衣服的干扰，一些换装re-id方法[6,18]和步态识别方法[4,52]从多模态输入（例如骨架[35]、轮廓[4]、无线电信号[7]、轮廓素描[49]和3D形状[6]）或通过解耦表示学习[52]对体形和步态进行建模。然而，基于多模态的方法需要额外的模型或设备来捕捉多模态信息，并且学习解耦表示通常耗时。实际上，原始的RGB模态包含丰富的与衣服无关的信息，但目前的方法在很大程度上未充分利用。至于一些换装re-id方法[6, 35]，尽管它们使用了强大的主干网络（即ResNet[15]）从原始图像中提取特征，但如果没有适当设计的损失函数，学到的特征图只关注一些简单的与衣服无关的信息，例如面部（见图1（b）），而忽略了其他关键的与衣服无关的信息。至于大多数步态识别方法[4,13]，它们通常丢弃原始输入视频并转而使用其他模态的输入，例如轮廓。为了更好地挖掘RGB中与衣服无关的信息10610在本文中，我们提出了基于衣服的对抗性损失（CAL）。具体而言，我们在再识别模型的主干网络之后添加了一个衣服分类器，并将CAL定义为多正类别分类损失，其中同一身份的所有衣服类别都是互相正类。据我们所知，这是第一个使用多正类别分类来制定多类对抗性学习的工作。在训练过程中，通过最小化CAL，可以通过惩罚再识别模型对同一身份的不同衣服的预测能力，迫使再识别模型的主干网络学习与衣服无关的特征。通过反向传播，学习到的特征图可以突出更多与衣服无关的特征，例如发型和身体形状，与仅使用识别损失训练的特征图相比（见图1（c））。在广泛使用的衣服变换再识别基准测试上进行的大量实验表明，仅使用RGB图像，CAL优于所有最先进的方法。大多数当前的衣服变换人物再识别工作[35，0[49，50]主要关注基于图像的设置，其中查询和库样本都是图像。然而，在许多实际的再识别场景中，查询和库集通常包含大量的视频。与图像相比，视频包含更丰富的外观信息和额外的时间信息。从视频中学习适当的时空模式，例如步态，可能对衣服变换再识别有帮助。由于没有公开可用的数据集，我们从步态识别数据集（即FVG[52]）的原始数据重建了一个新的衣服变换视频人物再识别（CCVID）数据集，并提供了细粒度的衣服标签。对最先进的方法进行广泛评估表明，利用更丰富的外观信息和额外的时间信息可以显著提升衣服变换人物再识别的性能。我们希望CCVID能够在未来激发更多的衣服变换视频人物再识别研究。02. 相关工作0衣服变换的人物再识别。解决衣服变换再识别的核心问题是提取与衣服无关的特征。为此，[52，55]尝试使用解耦表示学习从RGB图像中分离外观和结构信息，并将结构信息视为与衣服无关的特征。相反，其他研究人员尝试使用多模态信息（例如骨架[35]、轮廓[18，28]、无线电信号[7]、轮廓草图[49]或3D形状[6]）来建模身体形状并提取与衣服无关的特征。然而，解耦表示学习的训练耗时较长，基于多模态的方法需要额外的模型或设备来提取多模态信息。此外，这些方法没有充分挖掘和利用衣服的...0在原始图像中解耦与衣服无关的特征。在本文中，我们提出了一种简单的对抗性损失来从RGB模态中分离与衣服无关的特征。大多数当前的工作[6，18，24，26，35，49]主要关注基于图像的设置，只有少数工作[7，10，51]关注基于视频的设置。此外，还有一些公开可用的衣服变换人物再识别数据集，例如PRCC [49]，LTCC [35]和Celeb-reID[24，26]，但它们都是基于图像的数据集。在本文中，我们贡献了一个大规模的衣服变换视频人物再识别数据集，并展示了在衣服变换人物再识别中存在很大的提升空间。0视频人物再识别。大多数现有的视频人物再识别方法[11，19，21，22，45]都专注于衣服一致的设置。一些研究[5]表明，在这种设置中，外观特征比运动特征更重要。尽管在衣服一致的设置中，通过衣服外观来区分一个人是很直观的，但是这些深度人物再识别模型通常过度拟合与衣服相关的特征，并且应用场景有限。相反，本文专注于衣服变换的设置，并提出了通过学习与衣服无关的特征来解决这个问题。0步态识别。步态识别方法[4,52]试图从人的视频样本中学习步态特征。为了避免服装的干扰，它们通常丢弃原始的RGB帧，并在骨架[1,8]、轮廓[4,13]或解耦表示[52]上建模步态。对于换装人员重识别，除了步态之外，所有与服装无关的特征都是有用的。因此，在本文中，我们尝试从原始的RGB模态中挖掘更多与服装无关的特征。0对抗学习。对抗学习最早在GAN[9]中提出，用于迫使生成模型生成逼真的图像。近年来，它已经被应用于各种任务，例如域自适应[32,42]，知识蒸馏[36]和表示学习[44]。具体而言，在[44]中，Wang等人提出了PAR，通过惩罚局部特征的预测能力，迫使模型专注于区分性的全局信息。受到PAR的启发，本文提出了基于服装的对抗损失，以解耦与服装无关的特征。尽管PAR和所提出的方法都属于多类别对抗学习，但动机和公式不同。我们将在第3.3节中详细讨论它们的差异。03. 方法03.1. 框架和符号0我们方法的框架如图2所示。在该框架中，g θ ( ∙ )表示具有参数 θ 的主干网络，C ID φ ( ∙ ) 表示具有参数 φ的身份分类器Classifier 𝐶𝜙𝐼𝐷Classifier 𝐶𝜑𝐶Loss ℒ𝐼𝐷Loss ℒ𝐶AdversarialLoss ℒ𝐶𝐴Backbone 𝑔𝜃…………………minϕ LC(CCϕ (gθ(xi)), yCi ).(1)LC = −N�i=1log e(fi·ϕyCi /τ)NCj=1e(fi·ϕj/τ),(2)LCA = −N�i=1NC�c=1q(c) loge(fi·ϕc/τ)e(fi·ϕc/τ) + �j∈S−ie(fi·ϕj/τ) ,(3)q(c) =�� 1K, c ∈ S+i0, c ∈ S−i,(4)̸10620身份0服装0识别0服装0分类0基于服装的0预测身份0预测服装0图2. 所提方法的框架。在每次迭代中，我们首先通过最小化 L C来优化服装分类器。然后，我们固定服装分类器的参数，并通过最小化 L ID 和 L CA 来强制主干网络学习与服装无关的特征。0φ 。给定样本 x i ，其身份标签表示为 y ID i，其服装标签表示为 y C i。注意，我们将服装类定义为细粒度的身份类。同一身份的所有样本根据其服装被划分为属于该身份的不同服装类。服装类的数量是不同人的套装数量之和。这种服装标签的注释很容易，因为它们只需要在同一人的所有样本中进行标记，即使他们穿着相同的服装，不同的人也不会共享相同的服装标签。给定带有身份标签 y ID i 的样本 x i，现有的重识别方法[20, 40]使用预测身份 C ID φ ( g θ ( xi )) 和身份标签 y ID i 之间的交叉熵定义识别损失 L ID，并通过最小化 L ID来训练重识别模型。如图2所示，除了身份分类器和广泛使用的识别损失之外，我们还使用服装分类损失 L C来训练额外的服装分类器。所提出的基于服装的对抗损失(CAL) L CA用于迫使主干网络解耦与服装无关的特征。我们将在下一小节详细介绍CAL。03.2. 基于服装的对抗损失0现有的换装人员重识别[35, 49]和步态识别方法[4,8]没有充分利用RGB模态中与服装无关的信息。在本文中，我们提出CAL，通过惩罚重识别模型相对于服装的预测能力，迫使重识别模型的主干网络挖掘与服装无关的信息。为此，我们在主干网络之后添加了一个新的服装分类器 C C ϕ ( ∙) ，其参数为 ϕ 。训练阶段的每次迭代包含以下两步优化。0训练服装分类器。在第一步中，我们通过最小化服装分类损失 LC （预测服装 C C ϕ ( g θ ( x i )) 与服装标签 y C i之间的交叉熵损失）来优化服装分类器。这个过程可以表示为：0C C ϕ ( g θ ( x i )) 和服装标签 y C i之间的交叉熵损失）。这个过程可以表示为：0当我们将经过 l 2 归一化后的 g θ ( x i ) 表示为 f i，将经过 l 2 归一化后的第 j 个服装分类器的权重表示为 ϕj ，L C 可以表示为：0其中，N 是批次大小，N C 是训练集中的服装类别数，τ ∈R + 是一个温度参数。0学习与服装无关的特征。在第二步中，我们固定服装分类器的参数，并强制主干网络学习与服装无关的特征。为此，我们应该惩罚re-id模型相对于服装的预测能力。一个朴素的想法是根据[44]定义与L C 相反的 L CA，使得训练后的服装分类器无法区分训练集中的所有服装种类。通过这种方式，我们可以得到一个广泛使用的极小极大优化问题。然而，由于服装类被定义为细粒度身份类，惩罚re-id模型相对于所有服装种类的预测能力也会降低其相对于身份的预测能力，这对re-id是有害的（我们将在第5.4节中证明这一点）。我们想要做的是使训练后的服装分类器无法区分具有相同身份但不同服装的样本。因此，L CA应该是一个多正类分类损失，其中所有属于同一身份的服装类都是互为正类。例如，给定样本 x i ，其身份类 y ID i所属的所有服装类被定义为其正类服装类。因此，L CA可以表示为：0其中，S + i ( S − i ) 是与 f i 具有相同身份（不同身份）的服装类别集合，K 是 S + i中的类别数，q ( c ) 是 c -th 服装类别的交叉熵损失的权重。具有相同服装（ c = y C i）的正类和具有不同服装（ c � = y C i 且 c ∈ S + i ）的正类具有相等的权重，即 1 /K。在长期人员re-id系统中，服装一致的re-id和服装更换的re-id同样重要。当我们最大化 fi 与 q ( c ) 的点积时：q(c) =��1 − ϵ + ϵK, c = yCiϵK, c ̸= yCi and c ∈ S+i0, c ∈ S−i,(5)minθ,φ LID(CIDφ (gθ(xi)), yIDi) + LCA(CCϕ (gθ(xi)), yCi ).(6)PRID20040040,033iLIDS-VID30060042,460MARS1,26119,6081,191,003LS-VID3,77214,9432,982,685Real2828-4,324VC-Clothes512-19,060LTCC152-17,119PRCC221-33,698Celeb-reID1,052-34,186DeepChange1,082-171,352LaST10,860-224,721CCVID2262,856347,833MARSLS-VIDCCVID10630当具有不同服装的正类代理时，可以提高更换服装的re-id的准确性，但可能会降低服装一致的re-id的准确性。为了在不严重降低服装一致的re-id准确性的情况下提高模型的更换服装的re-id能力，可以将公式（4）替换为：0其中，0 < ϵ ≤ 1 是一个超参数。当 ϵ = 1时，公式（5）等价于公式（4）。否则，具有相同服装的正类的权重大于具有不同服装的正类的权重。在优化CAL的同时，身份分类器也被优化。因此，第二步的优化过程是：0请注意，L ID 和L CA在学习与衣服无关的特征方面具有一定的相似性。当我们只使用L ID进行训练时，模型倾向于在优化的早期阶段学习容易的样本（具有相同的衣服），然后逐渐学习区分困难的样本（具有相同的身份和不同的衣服）。这与课程学习[2]一致。L CA的目标是将具有相同身份的特征拉近，这与L ID类似。尽管如此，在公式（6）中我们并没有舍弃LID。原因是仅仅最小化L CA并在优化的早期阶段强制模型区分困难样本可能会导致局部最优。相反，在我们的实验中，在第一次降低学习率后添加L CA 进行训练。03.3. 讨论0CAL和PAR之间的关系。CAL的思想受到了PAR[44]的启发。CAL和PAR都属于多类对抗学习方法，但这两种方法的动机和公式不同。PAR将多类对抗损失定义为负交叉熵损失，并通过惩罚局部特征相对于所有类别的预测能力来强调模型对于区分性全局信息的关注。然而，在本文中，由于我们将衣服类别定义为细粒度身份类别，如果我们使用与PAR相同的公式，即负交叉熵损失，来惩罚再识别模型相对于所有种类的衣服的预测能力，再识别模型相对于身份的预测能力也会降低，这与我们的目标相反。因此，我们将CAL定义为一种多正类分类损失，其中属于同一身份的所有衣服类别都是相互正类。换句话说，0表1. 我们的CCVID数据集和其他视频行人再识别和换衣服行人再识别数据集的统计数据。0数据集身份数序列数边界框数换衣服？0图3.MARS、LS-VID和CCVID数据集上同一身份的两个不同视频样本。只有CCVID涉及换衣服。0我们只是希望训练的衣服分类器不能区分具有相同身份但不同衣服的样本。据我们所知，这是第一个使用多正类分类来制定多类对抗学习的工作。这是我们的主要技术贡献。0CAL和标签平滑正则化之间的差异。为了在换衣服再识别和衣服一致再识别准确性之间取得平衡，我们在公式（5）中为不同的正类设置不同的权重，但负类的权重仍为0。相比之下，标签平滑正则化[41]将负类的权重设置为小的非零值，以避免过拟合。04. CCVID数据集0如表1和图3所示，所有现有的公开视频行人再识别数据集（即PRID [17]，iLIDS-VID [45]，MARS [53]和LS-VID[30]）都不涉及换衣服。此外，现有的公开换衣服行人再识别数据集（即Real28&VC-Clothes [43]，LTCC[35]，PRCC [49]，Celeb-reID [26]，DeepChange[48]和LaST[37]）只包含静态图像，不涉及序列数据。然而，正如所分析的那样10640如引言所述，换衣服的视频re-id更接近于真实世界的re-id场景，视频样本中丰富的外观信息和额外的时间信息对于换衣服的re-id是有帮助的。为了提供一个公开可用的基准，我们从步态识别数据集FVG[52]的原始数据中构建了一个换衣服的视频人物re-ID（CCVID）数据集。FVG数据集包含来自226个身份的2,856个序列，每个身份有2到5套衣服。在原始的FVG数据集中，2017年收集了来自135个身份的1,620个序列，2018年收集了来自其他79个身份的948个序列。还有12个人的序列既在2017年收集，也在2018年收集。由于步态识别方法通常使用带有遮罩的图像，而re-id方法使用检测后的图像，所以我们通过对原始数据进行检测[14]来重构这个数据集。由于FVG的大多数帧只包含一个人，我们只对每帧中得分最高的人进行检测，无需跟踪算法。重构的CCVID数据集包含347,833个边界框。每个序列的长度从27到410帧不等，平均长度为122帧。此外，我们还提供了细粒度的衣服标签，包括上衣、裤子、鞋子、携带状态和配饰。为了方便评估，我们重新划分了训练集和测试集，以适应换衣服的re-id。具体而言，我们保留了75个身份用于训练，其余151个身份用于测试。在测试集中，有834个序列用作查询集，其他1074个序列组成画廊集。在第5.5节中，我们将在CCVID上对基于图像的设置和基于视频的设置进行公平比较。此外，我们还将在CCVID上复现一些最先进的视频人物re-id和步态识别方法，并比较它们的性能。05. 实验05.1. 数据集和评估协议0我们主要在CCVID和两个广泛使用的换衣服图像人物re-id数据集（即PRCC [49]和LTCC[35]）上评估所提出的方法。VC-Clothes [43]、LaST[37]和DeepChange[48]的结果在补充材料中展示。我们使用Top-1准确性和mAP作为评估指标，并定义了三种测试设置：（i）一般设置（同时使用换衣服和衣服一致的真实样本来计算准确性），（ii）换衣服设置（简称CC，在这个设置中，只使用换衣服的真实样本来计算准确性）。01原始数据可从https://github.com/ziyuanzhangtony/GaitNet-CVPR2019下载。数据收集得到了被收集者的批准。使用该数据集应接受并同意受CCBY-NC-SA 4.0许可协议的条款和条件约束。0（i）相同衣服设置（简称SC，也称为衣服一致设置）。在这个设置中，只使用衣服一致的真实样本来计算准确性。对于CCVID和LTCC，我们报告了一般re-id和换衣服re-id的准确性。对于PRCC，按照[49]的方法，报告了相同衣服设置和换衣服设置下的re-id准确性。05.2. 实现细节0我们使用ResNet-50[15]作为re-id模型的骨干。为了丰富细粒度，我们去除了ResNet-50的最后一个下采样。对于基于图像的数据集（即LTCC和PRCC），我们按照[25]的方法，使用全局平均池化和全局最大池化来整合骨干的输出特征图，然后将它们连接起来，并使用Batch-Norm[27]对图像特征进行归一化。按照[35]的方法，输入图像被调整为384×192。我们使用随机水平翻转、随机裁剪和随机擦除[56]进行数据增强。批量大小设置为64。每个批次包含8个人和每个人的8张图像。模型使用Adam[29]进行60个epoch的训练，第25个epoch后使用LCA进行训练。学习率初始化为3.5e-4，并在每20个epoch后除以10。方程（3）中的τ设置为1/16，方程（5）中的ϵ设置为0.1，通过在LTCC上进行网格搜索获得。其他数据集直接使用最优参数值进行训练，无需调整。对于基于视频的数据集，即CCVID，按照[11]的方法，我们使用空间最大池化和时间平均池化来整合骨干的输出特征图，然后使用BatchNorm[27]对视频特征进行归一化。不同视频样本的帧长度不同。在训练过程中，输入的帧长度应该相等，最好每帧以相等的概率进行采样。因此，对于每个原始视频，我们随机采样8帧，步长为4，形成一个视频剪辑。每个输入帧被调整为256×128，只使用水平翻转进行数据增强，按照[11]的方法。由于GPU内存的限制，批量大小设置为32，每个批次包含8个人和每个人的4个视频剪辑。模型使用Adam[29]进行150个epoch的训练，第50个epoch后使用LCA进行训练。学习率初始化为3.5e-4，并在每40个epoch后除以10。在测试阶段，每个视频样本被划分为一系列8帧的剪辑，步长为4。这些剪辑的平均特征被用作原始视频的表示进行测试。05.3. 与最先进方法的比较0我们将提出的CAL与三种传统的re-id方法（即HACNN[31]、PCB [40]和IANet[20]）以及六种换装re-id方法（即SPT+ASE [49]、GI-ReID[28]、CESD [35]、RCSANet [25]、3DSL [6]和FSAM[18]）在LTCC和PRCC上进行了比较，结果见表2。注意，这些10650表2. 在LTCC和PRCC上与最先进方法的比较。'sketch'、'sil.'、'pose'和'3D'分别表示轮廓素描、轮廓、人体姿势和3D形状信息。0方法模态服装标签0额外的训练数据0LTCC PRCC0一般 CC SC CC0top-1 mAP top-1 mAP top-1 mAP top-1 mAP0HACNN [31] RGB 60.2 26.7 21.6 9.3 82.5 - 21.8 - PCB [40] RGB 65.1 30.6 23.5 10.0 99.8 97.0 41.8 38.7 IANet [20] RGB 63.7 31.025.0 12.6 99.4 98.3 46.3 45.90SPT+ASE [49] sketch - - - - 64.2 - 34.4 - GI-ReID [28] RGB+sil. 63.2 29.4 23.7 10.4 80.0 - 33.3 - CESD [35] RGB+pose � 71.4 34.326.2 12.4 - - - - RCSANet [25] RGB � - - - - 100 97.2 50.2 48.6 3DSL [6] RGB+pose+sil.+3D � - - 31.2 14.8 - - 51.3 - FSAM [18]RGB+pose+sil. 73.2 35.4 38.5 16.2 98.8 - 54.5 -0CAL RGB � 74.2 40.8 40.1 18.0 100 99.8 55.2 55.80表3. CAL在CCVID、LTCC和PRCC上的消融研究。0方法0CCVID LTCC PRCC0一般 CC 一般 CC SC CC0top-1 mAP top-1 mAP top-1 mAP top-1 mAP top-1 mAP top-1 mAP0基准 78.3 75.4 77.3 73.9 65.5 29.4 28.1 11.0 99.8 97.9 45.6 43.3 带服装分类器 58.8 55.8 46.2 45.6 62.3 31.0 21.9 10.9 99.5 99.533.1 37.4 CAL 82.6 81.3 81.7 79.6 74.2 40.8 40.1 18.0 100 99.8 55.2 55.80CAL(-LC) 52.8 53.0 50.0 49.2 21.5 3.1 9.2 2.3 89.6 67.7 19.3 13.1 Triplet Loss [16] 81.5 78.1 81.1 77.0 71.8 37.5 34.7 16.6 10099.8 48.6 49.70换装re-id方法使用来自不同模态的信息来避免服装的干扰。特别是，3DSL、FSAM整合了至少三种模态，而这两种方法的计算成本至少是CAL的四倍。此外，RCSANet使用额外的服装一致的re-id数据来增强在相同服装设置下的性能。然而，仅使用RGB图像且没有额外数据的提出的CAL在这两个数据集上始终优于所有这些方法。这个比较可以证明CAL的有效性。0局限性。尽管CAL在没有额外模态和数据的情况下实现了最先进的性能，但它需要服装标签进行对抗学习。幸运的是，这些服装标签的注释仅在同一人的样本中进行，因此比身份的注释更容易。当实践中无法获得服装标签时，可以使用采集日期作为伪服装标签来训练CAL，因为同一人在不同日期捕获的样本有很高的可能性穿着不同的衣服。我们在DeepChange数据集上尝试了这种策略，并证明了其有效性。结果在补充材料中显示。此外，我们还将尝试使用聚类算法来获取伪服装标签。05.4. 消融研究0CAL的有效性。为了验证所提出的CAL的有效性，我们复现了一种仅使用识别损失LID进行训练的基准方法，并且所有的0其他设置与CAL一致。如表3所示，当我们在基线的主干网络后添加一个服装分类器，并通过最小化服装分类损失LC和识别损失LID重新训练主干网络时，同一服装设置下的re-id准确性优于基线，但在换装设置下的性能低于基线。这些结果是合理的，因为最小化LC会强制主干网络学习与服装相关的特征。当LC仅用于训练服装分类器，然后使用LCA来训练主干网络时，CAL在一般和换装设置下都大大超过基线。一个可能的解释是，在CAL的帮助下，主干网络被迫学习与服装无关的特征，从而更加抵抗服装变化。0不同公式的比较。如第3.2节所述，如果我们遵循PAR[44]并定义LCA =-LC，最小化LCA将惩罚re-id模型对训练集中所有种类的服装的预测能力。由于服装标签被定义为细粒度身份标签，它还会降低re-id模型对身份的预测能力，这对re-id是有害的。为了验证这一点，我们将CAL与CAL（-LC）在表3中进行了比较。可以看出，CAL（-LC）的准确率远低于CAL，甚至低于所有通用、换衣服和同衣服设置中的基准方法。0与Triplet loss的比较。我们还将CAL与广泛使用的度量学习损失Tripletloss [16]进行了比较。P304050607080900 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1top-1CCSC30405060708081012141618202224top-1mAP+CAL+1.5+3.0+2.3+3.3+CAL+2.9+3.4+3.7+4.0+CAL+1.3+3.0+1.4+3.7+CAL+3.2+2.0+3.5+2.3positive class with the same clothes as fi in Eq. (3) de-creases gradually, so the top-1 accuracy in the same-clothessetting rate is generally decreasing. As for the accuracy inclothes-changing setting, it increases rapidly and then startsto oscillate, eventually tending to overﬁt. To get a trade-offbetween clothes-changing re-id accuracy and the traditionalre-id accuracy in the same-clothes setting, we set ϵ to 0.1for all other experiments.10660表4. 在没有换衣服的标准数据集上的比较。0方法 Market-1501 MSMT170PCB [40] 93.8 81.6 68.2 40.4 IANet [20] 94.4 83.1 75.546.8 OSNet [57] 94.8 84.9 78.7 52.9 JDGL [55] 94.8 86.077.2 52.3 CircleLoss [39] 94.2 84.9 76.3 50.20基准 92.2 78.7 67.8 43.5 CAL 94.5 87.3 79.7 57.0基准（带三元组） 94.5 86.6 78.9 57.0 CAL（带三元组）94.7 87.5 79.7 57.30CC 通用0图4.CAL在不同ϵ和τ下的top-1准确率。注意第二个子图的横坐标是1/τ。0如表3所示，Tripletloss优于基准，但CAL在特别是换衣服设置中表现出色。很可能Tripletloss只能在一个小批次中挖掘困难样本，而CAL使用一个服装分类器保存训练集中所有服装类别的代理，并可以在全局范围内挖掘与服装无关的特征。0标准行人重识别基准结果。当测试基准不涉及换衣服且一个身份只有一件衣服时，我们方法中的服装分类器将变成一个身份分类器，提出的CAL将退化为基于余弦相似度的交叉熵损失。我们在两个标准re-id数据集Market-1501[54]和MSMT17[47]上进行CAL，并将结果与只使用原始交叉熵损失作为监督的基准方法和一些最先进的方法进行比较，如表4所示。可以看出，CAL优于只使用原始交叉熵损失的基准方法。当我们将这两种方法与三元组损失[16]结合时，CAL仍然优于基准方法。此外，CAL在这两个基准上与最先进的方法取得了可比较的性能。0CAL中ϵ的影响。通过在公式（5）中变化ϵ，图4显示了CAL在LTCC的同衣服设置和换衣服设置中的top-1准确率。当ϵ设为0时，CAL将退化为一个服装分类损失，并约束主干网络学习与服装相关的特征。因此，在换衣服设置中，它达到了最低的top-1准确率。随着ϵ的增加，服装无关特征的权重也会增加。0表5.在CCVID上与最先进方法的比较。'F'表示只使用第一帧进行测试。0方法通用 CC0基准(F) 65.0 59.4 63.1 56.3 基准 78.3 75.4 77.3 73.90I3D [3] 79.7 76.9 78.5 75.30Non-Local [46] 80.7 78.0 79.3 76.20TCLNet [19] 81.4 77.9 80.7 75.90AP3D [11] 80.9 79.2 80.1 77.70GaitNet [52] 62.6 56.5 57.7 49.0 GaitSet [4] 81.9 73.271.0 62.10温度参数τ的影响。一般来说，最佳的温度参数τ与训练集中的类别数有关。我们在LTCC上展示了τ变化时的实验结果，如图4所示。当τ=1/16时，获得了最佳性能。05.5. CCVID的进一步分析0基于图像的设置与基于视频的设置。为了公平比较换装图像重新识别和换装视频重新识别，我们在CCVID上复现了使用所有帧进行训练但只使用第一帧进行测试的基线方法（baseline(F)在表5中）。同时，我们还在CCVID上复现了两种经典的时间信息建模方法，即I3D [3]和Non-Local[46]，以及两种专门为视频重新识别设计的时间信息建模方法，即TCLNet [19]和AP3D[11]。注意，TCLNet是根据原始论文提供的源代码进行复现的。I3D、Non-Local和AP3D的实现基于[11]的源代码。如表5所示，与baseline(F)相比，使用所有帧进行测试的基线方法实现了显著的性能提升（超过13%）。与基线方法相比，这些时间信息建模方法可以进一步提高性能。这些比较显示了基于视频的设置的优越性，并表明在时空建模方面还有很大的改进空间。0步态识别与换装视频人物重新识别10670PRCC LTCC CCVID0图5.在LTCC、PRCC和CCVID上的特征图可视化。在每个三元组中，第一列呈现原始图像/视频帧。第二列和第三列分别呈现基线方法和CAL的特征图。0我们还将这些时间信息建模方法与两种最先进的步态识别方法（即GaitNet [52]和GaitSet[4]）在CCVID上进行了比较。注意，GaitNet和GaitSet分别从轮廓和解耦表示中建模步态。所有这些方法都是通过它们论文中提供的源代码进行复现的。如表5所示，除了GaitSet在一般设置下的top-1准确率外，四种时间信息建模方法在两种步态识别方法上都显示出了巨大的优势。一个可能的解释是，与轮廓和解耦表示相比，原始的RGB模态提供了更多与服装无关的信息，这对于换装重新识别是有帮助的。此外，提出的CAL方法胜过了所有这些方法。当我们将这些时间信息建模方法与CAL相结合时，可以进一步提高性能。这种比较可以证明所提出的方法的有效性和普适性。05.6. 可视化0我们在图5中可视化了基线方法和CAL的更多特征图。在两个基于图像的数据集（即PRCC和LTCC）上，基线方法的特征图主要集中在脸部、鞋子和肩膀上。也就是说，这些特征图关注的是与服装相关和与服装无关的特征，这些特征对于重新识别都是有益的：（1）由于训练集中同一个人的不同样本大多穿着相同的鞋子，鞋子被突出显示为关键的与服装相关的特征；（2）脸部和肩膀的轮廓被突出显示，这是一部分容易学习的与服装无关的特征。在CAL的帮助下，特征图突出显示了更多与服装无关的信息，例如发型和身体形状。至于基于视频的数据集，即CCVID，基线方法的特征图主要集中在身体区域。在CAL的约束下，学到的特征可以更清晰地突出头部区域，并描述姿势和身体形状。因此，CAL可以实现更高的换装重新识别准确性。0讨论。一个有争议的问题是CAL对身体区域的高响应主要是由于服装的纹理和颜色还是由于身体形状。为了验证这一点，我们移除测试图像的顶部2/7（头部区域）和底部1/7（脚部区域），仅保留身体区域进行定量实验。基线方法和CAL在PRCC上的测试结果如下所示：0表6. 仅使用身体区域作为输入在PRCC上的结果。0方法 SC CC0top-1 mAP top-1 mAP0基线方法 96.7 92.6 18.7 20.4 CAL 95.9 92.4 24.5 25.40如表6所示。可以看出，在相同服装设置下，CAL略逊于基线方法，但在仅保留身体区域时仍明显优于基线方法。因此，我们认为CAL对身体区域的高响应主要是由于与服装无关的特征（身体形状），而不是与服装相关的特征（颜色和纹理）。06. 结论0在本文中，我们提出了基于服装的对抗性损失（CAL）用于服装变换的人员重新识别。在训练过程中，CAL通过惩罚re-id模型的骨干网络在服装方面的预测能力，迫使其学习与服装无关的特征。因此，学习到的骨干网络可以更好地从原始的RGB模态中挖掘与服装无关的信息，并且对于服装变化更加鲁棒。对新构建的CCVID和其他相关数据集进行的大量实验证明，CAL相对于基线方法始终有较大的改进。仅使用RGB图像，在这些数据集上优于所有最先进的方法。我们希望CAL能成为未来服装变换的人员重新识别方法中常用的损失函数。0更广泛的影响。该方法可以应用于现有的人员重新识别方法，并提高服装变换重新识别的性能，而无需额外的数据和多模态输入。它使得长期人员重新识别技术在智能监控系统中更加实用，并可能在未来激发更有价值和创新的研究。潜在的负面影响在于监控数据和人员重新识别数据集可能导致隐私泄露。因此，这些数据的收集过程应该告知被收集的人员，并对这些数据的利用进行规范。0致谢。本工作得到中国国家重点研发计划（编号2017YFA0700800）和国家自然科学基金（NSFC）的支持：61876171和61976203。10680参考文献0[1] Gunawan Ariyanto and Mark S. Nixon.用于3D步态生物识别的木偶质量弹簧模型。在ICB，2012

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

仅使用RGB图像进行换装人员再识别的方法及其优越性

RGB图像处理+颜色识别

将RGB图像转换为灰度图像的库及其使用方法

如何对RGB图像进行双线性插值

bmp图像怎么变成rgb图像

小波变换可以对rgb图像进行分割吗

matlabRGB图像进行JPG压缩例子

点云数据与RGB图像对齐

RGB图像怎么和深度图有效融合

matlab读入rgb图像

tensor转换rgb图像

matlab对rgb图像膨胀

对RGB图像进行二值化

matlab对rgb图像进行锐化

RGB图像如何转2值图像

使用Opencv进行Yuv420图像转化为RGB图像并保存本地

拉普拉斯锐化rgb图像

matlab提取rgb图像中的点云

Matlab RGB图像显示HSV图像

如何在进行Dataset时将灰度图像转换为RGB图像

最新资源