基于硬批次三元组损失的层次聚类用于人员再识别

38 浏览量更新于2023-10-23 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

136570基于硬批次三元组损失的层次聚类用于人员再识别0曾凯伟1，宁牧南2，王耀华3�，郭阳4�0中国国防科技大学，长沙01 zengkaiwei1997@gmail.com，2 munanning@gmail.com，3 nudtyh@gmail.com，4 guoyang@nudt.edu.cn0摘要0对于以聚类为导向的完全无监督人员再识别（re-ID）方法，聚类生成的伪标签质量直接决定了模型的性能。为了提高现有方法中伪标签的质量，我们提出了HCT方法，它将层次聚类与硬批次三元组损失相结合。HCT的关键思想是通过层次聚类充分利用目标数据集中样本之间的相似性，通过硬批次三元组损失减少困难样本的影响，从而生成高质量的伪标签并提高模型性能。具体来说，（1）我们使用层次聚类生成伪标签，（2）我们在每次迭代中使用PK采样生成新的训练数据集，（3）我们使用硬批次三元组损失进行训练，并在每次迭代中评估模型性能。我们在Market-1501和DukeMTMC-reID上评估了我们的模型。结果显示，HCT在Market-1501上达到了56.4％的mAP，在DukeMTMC-reID上达到了50.7％的mAP，这在完全无监督的re-ID中超过了大部分UDA方法，甚至优于使用标记的源数据集的大多数无监督领域适应（UDA）方法。代码将很快在https://github.com/zengkaiwei/HCT上发布。01. 引言0人员再识别（re-ID）主要用于匹配出现在不同摄像头中的同一人的照片，通常作为人脸识别的辅助方法来识别行人信息。目前，re-ID已广泛应用于安全领域，并成为学术研究的焦点。随着卷积神经网络（CNN）的发展，监督式re-ID[9, 11, 21, 25, 30, 2, 31, 23]已经取得了出色的性能。然而，由于不同摄像头中的数据偏差问题，监督式re-ID在实际应用中存在一定的困难。因此，人们更倾向于关注无监督re-ID。0� 通讯作者0摘要0摘要0摘要0摘要0图1.层次聚类。每个圆圈代表一个样本，步骤表示当前合并阶段。我们使用自下而上的方法根据当前步骤中簇之间的距离逐步合并簇。0在数据集上，当模型在源领域上训练后，直接转移到目标领域时，其性能会显著下降。此外，监督学习需要大量手动注释的数据，在现实生活中成本高昂。因此，监督式re-ID难以满足实际应用的要求，人们更倾向于关注无监督re-ID。最近，人们更加关注无监督re-ID并取得了良好的进展。一些工作关注无监督领域适应（UDA）。UDA通常需要手动注释的源数据和无标签的目标数据。136580在UDA中，一些人使用GAN将源领域中的图像风格转换为目标领域的风格[4, 27, 38,15]。他们保持标签不变，然后在生成的标记图像上进行训练。其他人则关注不同摄像头和数据集之间的图像变化。他们通过学习源领域和目标领域之间的差异来识别图像[36]。尽管扩展数据集会生成许多可靠的数据，但它高度依赖于生成图像的质量。此外，它还会生成一些糟糕的图像，这会误导训练并影响模型性能。更重要的是，这些UDA方法只试图减少目标领域和源领域之间的差异。然而，它们忽视了目标领域内图像的相似性。此外，UDA方法仍然需要一个带标签的源数据集，这仍然需要很大的成本。0最近的研究中，提出了一种完全无监督的方法BUC[14]，它不使用任何手动标记的数据集。BUC仅比较目标数据集中图像的相似性，并直接使用自下而上的分层聚类来合并样本。BUC合并了固定数量的聚类，更新伪标签，并逐步微调模型直到收敛。最终，它取得了良好的性能，甚至超过了一些UDA方法[4, 6,26]。然而，BUC在后续合并步骤中的性能显著下降。因为BUC仅依赖于合并中样本之间的相似性，使得BUC难以区分困难样本，特别是在模型性能较差的早期合并步骤中。困难样本指的是那些相似但具有不同身份的样本。它们在高维空间中彼此接近，因此通过聚类难以区分它们，这将导致错误的合并。在后续中，这些错误的合并将产生大量错误的伪标签，误导训练并导致性能下降。0为了解决这些问题并充分利用目标数据集中图像的相似性，我们提出了HCT，这也是一种完全无监督的方法，只使用目标数据集而不使用任何手动注释的标签。分层聚类的过程如图1所示。一开始，我们将每个样本视为具有不同身份的聚类，然后根据聚类之间的距离，在每个步骤中选择固定数量的聚类进行合并。最后，所有聚类将逐渐合并，我们根据聚类结果设置伪标签。在聚类之后，我们使用硬批次三元组损失[9]来优化模型。硬批次三元组损失可以减小相似样本之间的距离，增加不同样本之间的距离。它可以有效减少困难样本的影响。具体来说，（1）我们使用分层聚类来合并样本，并根据聚类结果生成伪标签，（2）我们从P个身份中随机选择K个实例（PK采样）来生成新的数据集0为了满足硬批次三元组损失的需求，我们使用数据集进行微调模型并评估模型性能。我们重复聚类、PK采样、微调训练、评估的过程，直到模型收敛。总结起来，我们的贡献是：0•我们提出了一种完全无监督的re-ID方法HCT。基于在ImageNet上预训练的ResNet-50[8]，我们直接使用分层聚类生成的伪标签作为监督，在目标数据集上进行模型训练，而不使用任何手动注释的标签。•我们使用PK采样在每次迭代的分层聚类之后生成新的训练数据集。与使用整个数据集相比，PK采样满足了硬批次三元组损失[9]的需求，可以减少困难样本的影响，提高模型性能。•为了纠正错误的伪标签，我们在每次迭代的开始时初始化所有伪标签，直到伪标签的质量稳定并且模型性能不再提高。•我们在Market-1501和DukeMTMC-reID上评估了我们的方法。大量实验证明我们的方法在完全无监督的re-ID中取得了很大的突破，甚至比大多数UDA方法更好。02. 相关工作02.1. 无监督领域适应Re-ID0过去，人们倾向于使用传统的手动特征[1,13]进行无监督领域适应，但在大型数据集上的性能通常较差。随着CNN的普及，人们开始将深度学习应用于无监督领域适应。邓等人提出了SPGAN[4]。他们认为直接转移性能差的主要原因是不同数据集的不同相机风格。他们使用CycleGAN[38]将图像风格从源域转换到目标域，同时保持图像标签不变。最后，他们对生成的图像进行监督学习。钟等人提出了ECN [37]，ECN关注示例不变性[28,29]，相机不变性[36]和邻域不变性[3]。基于这些，ECN分别设置三元组损失，增加不同样本之间的距离，减小相似样本之间的距离。ECN将样本存储在示例记忆模型[18,24]中，并根据其设置伪标签。136590未翻译0未翻译0未翻译0未翻译0未翻译0未翻译0图2. 我们HCT的结构。不同颜色代表不同的伪标签。我们使用在ImageNet上预训练的ResNet-50[8]作为我们的主干网络。HCT的输入是未标记的目标图像。0最后，ECN也根据伪标签进行训练，并获得良好的性能。除了将伪标签设置为监督，人们还尝试使用模型学习一些辅助信息以提高泛化能力。Zhong等人提出了HHL[36]。HHL通过摄像头不变性和域连通性来提高模型性能。Xiao等人提出了EANet[10]。EANet提出了部分对齐池化（PAP）和部分分割约束（PSC）。PAP根据身体姿势的关键点对图像进行切割和对齐。PSC使模型能够预测特征图上不同部分的标签，并准确定位每个部分的相应位置。EANet将PAP与PSC相结合，充分利用行人姿态分割信息来提高性能。尽管这些方法已经取得了一些改进，但大多数方法只关注源域和目标域之间的差异。然而，它们没有充分探索目标域中图像的相似性。02.2. 基于聚类引导的re-ID0基于聚类引导的re-ID通常是通过聚类生成的伪标签进行训练的，可以分为基于聚类引导的域自适应和基于聚类引导的完全无监督的re-ID。对于基于聚类引导的域自适应，Hehe等人提出了PUL[6]。PUL通过在标记的源数据集上进行训练来获得预训练模型，然后使用CNN对模型进行微调，并使用K-means对样本进行聚类。在训练的开始阶段，PUL仅选择与聚类中心接近的可靠样本的一部分进行训练，以避免陷入局部最优。随着模型变得更好，将选择更多的样本。这种策略有效地促进了模型的收敛和性能的提高。然而，K-means对k值非常敏感。此外，作为一种基于分区的聚类方法，聚类中心很容易受到异常值的影响，这将生成大量错误的伪标签，严重影响模型的优化，并最终限制模型的性能。0在训练的开始阶段，PUL仅选择与聚类中心接近的可靠样本的一部分进行训练，以避免陷入局部最优。随着模型变得更好，将选择更多的样本。这种策略有效地促进了模型的收敛和性能的提高。然而，K-means对k值非常敏感。此外，作为一种基于分区的聚类方法，聚类中心很容易受到异常值的影响，这将生成大量错误的伪标签，严重影响模型的优化，并最终限制模型的性能。0对于基于聚类引导的完全无监督的re-ID，Lin等人提出了BUC[14]。BUC不使用任何标记的源数据，只使用未标记的目标数据和在ImageNet上预训练的模型，而不是其他re-ID数据集。BUC使用CNN提取图像特征，然后根据每一步中聚类之间的距离合并固定数量的聚类。在合并之后，BUC使用生成的伪标签对模型进行微调，重复合并和微调的过程，直到模型性能不再提高。然而，BUC在后续合并步骤中的性能显著下降。这是由于开始时预训练模型较差以及目标数据集中的一些困难样本。BUC无法解决伪标签错误的问题，这将影响模型的优化。这些错误的伪标签在后续合并步骤中具有叠加效应，并导致最终性能显著下降。在本文中，我们旨在进一步提高伪标签的质量，并获得比这些方法更好的性能。where Cai,Cbj are two samples in the cluster Ca,Cb respec-tively. na,nb represent the number of samples in Ca,Cb,D(·) means the euclidean distance. UPGMA takes into ac-count all the pairwise distance between two clusters andeach pairwise distance has the same weight. It effectivelyreduces the inﬂuence of outliers in sample space, promotemore rational merging and ﬁnally get better results com-pared to other distance measurement according to discus-sion in [5].1366003. 我们的方法03.1. 使用硬批次三元组损失的分层聚类0我们的网络结构如图2所示。模型主要分为三个阶段：分层聚类、PK采样和微调训练。我们提取图像特征形成样本空间，并根据图1中的自下而上的分层聚类逐步聚类样本。在分层聚类之后，我们使用相同的伪标签对同一聚类中的样本进行标记。最后，我们根据聚类结果使用PK采样生成一个新的训练数据集。我们的目标是通过分层聚类探索目标数据集中的图像相似性，通过硬批次三元组损失区分困难样本，并生成伪标签来指导模型训练。与其他方法相比，我们的HCT可以进一步提高伪标签的质量，并最终获得更好的模型性能。对于数据集 X = { x 1 , x 2 , ∙ ∙ ∙ , x N}，我们在监督学习中将具有手动注释的标签 Y = { y 1 , y 2, ∙ ∙ ∙ , y n}，因此我们可以直接使用交叉熵损失来优化模型。然而，在完全无监督的re-ID中，我们没有任何手动注释的标签，因此我们需要生成伪标签作为监督，而不是使用手动注释的标签。尽管分层聚类可以充分探索样本的相似性，通过自下而上的聚类构建底层结构并生成一些良好的伪标签。但由于分层聚类的不足，这种策略无法有效区分困难样本，并且会在合并过程中生成大量错误的伪标签。这些错误的伪标签将误导模型的优化，并限制模型的性能。为了解决这个问题，HCT使用带有PK采样的硬批次三元组损失来减小相似样本之间的距离，增加不同样本之间的距离，从而更好地区分困难样本。此外，我们将在每次迭代的开始时初始化所有伪标签，以便纠正在上一次迭代中生成的所有错误的伪标签。从理论上讲，随着分层聚类的伪标签逐步接近手动注释的标签，模型性能逐渐接近基线。基线代表了硬批次三元组损失的监督学习方法。03.2. 距离测量0对于所有基于聚类的re-ID[14, 6,20]，聚类生成的伪标签的质量直接决定了模型的性能。对于分层聚类，合并阶段中使用的距离测量方法决定了我们如何选择要合并的聚类，最终影响了聚类结果和伪标签。BUC[14]使用最小距离作为距离0在合并阶段的测量。最小距离只计算两个聚类中最近的一对样本的距离。这不是一个好的方法，因为它忽略了聚类中的其他样本。特别是当一个聚类中有很多样本时，最小距离很容易受到异常值的影响，最终导致错误的合并和错误的伪标签。为了改进距离测量并最终获得更好的结果，我们应该考虑两个聚类中所有样本的成对距离。在HCT中，我们使用欧氏距离来测量每个样本之间的距离。然后，根据无权平均链接聚类（unweighted pair-group method witharithmetic means,UPGMA）[19]，我们定义两个聚类之间的距离为：0D_ab = 10n_a n_b0i ∈ C_a，j ∈ C_b D(C_a^i,C_b^j) (1)03.3. 损失函数0硬批次三元组损失[9]被提出来挖掘锚点与正样本、负样本之间的关系，可以减小相似样本之间的距离，增加不同样本之间的距离。为了在HCT中使用硬批次三元组损失，我们使用PK采样生成一个新的训练数据集。具体来说，我们从P个身份中随机选择K个实例作为每个小批量的样本（批量大小为P×K）。因此，我们的损失定义为：0L_triplet =0P0i = 10K0a = 10m +0最难的正样本maxp = 1...K D(x_i^a,x_j^p)0- min j=1...P n=1...ND(x_i^a, x_j^n)0最难的负样本0(2)0其中，x_i^a是锚点，x_j^p是与x_i^a具有相同身份的正样本，x_j^n是与x_i^a身份不同的负样本。D(∙)表示欧氏距离，m是硬批次三元组损失中的超参数margin。硬批次三元组损失确保给定一个锚点x_i^a，x_j^p比x_j^n更接近x_i^a。因此，具有相同身份的样本将更接近136610相比其他具有不同身份的样本，这些样本之间的距离更近。换句话说，这些样本将逐渐在高维空间中形成一个聚类。因此，我们可以使用硬批次三元组损失来区分困难样本，促进更好的聚类，并提高模型性能。03.4. 模型更新0如算法所示，我们使用在ImageNet上预训练的ResNet-50[8]进行训练。对于每次迭代，在分层聚类的开始时，我们将N个样本视为N个不同的身份，并初始化所有伪标签。我们设置超参数mp来控制合并的速度，超参数s表示分层聚类的总合并步骤，m = n ×mp表示每步合并的聚类数。我们计算目标数据集中所有样本之间的成对距离，并生成一个n ×n的距离矩阵dist。根据dist和Eq.(1)中的UPGMA距离测量，我们生成一个c ×c的距离矩阵D，D表示每一步中聚类之间的距离，c表示当前的聚类数。我们将在每一步中合并m对最近的聚类，并根据聚类结果生成伪标签。具体来说，我们认为同一聚类中的样本具有相同的伪标签。然后，我们使用PK采样生成一个新的数据集作为CNN的输入，我们进行微调训练，并在最后评估模型性能。我们将分层聚类、PK采样、微调训练和评估视为一次迭代。我们迭代模型直到性能不再提高。04. 实验04.1. 数据集0Market-1501 Market1501[33]包含了6个摄像头拍摄的1501个行人的32668张图像。每个行人至少被两个摄像头拍摄到。Market1501可以分为一个包含751人的训练集，其中包含12936张图像，和一个包含750人的测试集，其中包含19732张图像。DukeMTMC-reID DukeMTMC-reID[34]是行人再识别数据集DukeMTMC[17]的一个子集。DukeMTMC包含一段85分钟的高分辨率视频，该视频由八个不同的摄像头拍摄。DukeMTMC-reID包含36411张标记图像，属于1404个身份，其中包含16522张用于训练，2228张用于查询，17661张用于画廊。04.2. 实现细节0HCT训练设置我们直接使用在ImageNet上预训练的ResNet[8]作为我们的骨干网络。在聚类后，我们随机选择了P = 16个身份和K = 4个图像。0算法1 HCT算法输入X = {x1, x2, ∙ ∙ ∙, xN}; 合并百分比mp ∈ (0, 1);合并步骤s; 迭代次数t。确保:最佳模型f(w, xi)。01: 初始化: 样本数n = N，聚类数c =n，合并数m = n × mp，迭代次数iter= 0，合并步骤step = 0。02: 当iter < t时执行3: 初始化伪标签: Y = {yi = i}Ni=1; 4:提取特征，计算每个样本之间的成对距离，并生成一个n ×n的距离矩阵dist;05: 当step < s时执行6:根据公式(1)计算每个聚类之间的距离，生成一个c ×c的距离矩阵D; 7:根据D选择要合并的聚类，并开始合并聚类: c = c - m;08: 使用新的伪标签更新Y: Y = {yi = j, �xi ∈ Cj}Ni=1; step =step + 1; 9: 结束循环10:根据Y进行PK采样生成一个新的数据集;011: 根据困难批次三元组损失对新数据集进行微调; 12:评估模型性能; 13: 如果mAP_i > mAP_best，则14:mAP_best = mAP_i;015: 最佳模型f(w, xi); 16:结束循环17: iter = iter + 1;18: 结束循环0为了生成一个新的训练数据集，所以批次大小 = P × K =64。在训练过程中，我们将输入图像的大小调整为256×128，还使用随机裁剪、翻转和随机擦除进行数据增强[35]。我们使用SGD来优化模型，并设置动量[22]为0.9，没有阻尼。学习率为6×10^(-5)，权重衰减为0.0005，迭代次数为20，困难批次三元组损失中的margin为0.5。在Market-1501中，合并百分比mp为0.07，合并步骤s为13，迭代次数为60。需要注意的是，模型容易过拟合，并且在后期迭代中会有明显的性能下降，我们采用了早停策略来获得最佳性能。Table 1. Comparison with baseline and direct transfer on Market-1501 and DukeMTMC-reID . ”Baseline” means supervised learningmethod about hard-batch triplet loss. ”Direct transfer” means directly use pre-trained ResNet-50 on ImageNet to evaluate without anyﬁne-tuning. The label column lists the type of supervision used by the method. ”Supervised” means supervised learning, ”None” denotesno any manually annotated labels are used, which is fully unsupervised learning.UMDL[16]Transfer34.552.659.612.418.531.437.47.3OIM[29]*None38.058.066.414.024.538.846.011.3PUL[6]Transfer45.560.766.720.530.043.448.516.4TJ-AIDL[26]Transfer58.274.881.126.544.359.665.023.0BUC[14]None66.279.684.538.347.462.668.427.5MAR[32]Transfer67.781.9-40.067.179.8-48.0EANet[10]Transfer78.0--51.667.7--48.0HCTNone80.091.695.256.469.683.487.450.74.3. Ablation Study136620方法标签 Market-1501 DukeMTMC-reID0排名-1 排名-5 排名-10 平均精度排名-1 排名-5 排名-10 平均精度0基线[20] 监督学习 91.6 - - 78.2 80.8 - - 65.40直接迁移无 11.1 22.1 28.6 3.5 8.6 16.4 21.0 3.00HCT 无 80.0 91.6 95.2 56.4 69.6 83.4 87.4 50.70方法标签 Market-1501 DukeMTMC-reID0排名-1 排名-5 排名-10 平均精度排名-1 排名-5 排名-10 平均精度0OIM[29]* None 38.0 58.0 66.4 14.0 24.5 38.8 46.0 11.30SPGAN[4] Transfer 51.5 70.0 76.8 22.8 41.1 56.6 63.0 22.30HHL[36] Transfer 62.2 78.8 84.0 31.4 46.9 61.0 66.7 27.20ARN[12] Transfer 70.3 80.4 86.3 39.4 60.2 73.9 79.5 33.40ECN[37] Transfer 75.1 87.6 91.6 43.0 63.3 75.8 80.4 40.40Theory[20] Transfer 75.8 85.9 93.2 53.7 68.4 80.1 83.5 49.00性能评估设置。我们在所有实验中使用单次拍摄设置[21]。在评估中，对于查询图像，我们计算与所有图库图像的余弦距离，然后将其排序为结果。我们使用平均平均精度（mAP）[33]和排名-k准确性来评估模型的性能。排名-k强调准确性，它表示查询图片在前k个列表中有匹配项。此外，mAP是根据累积匹配特性（CMC）[7]计算的。CMC曲线显示了查询在不同大小的列表中具有匹配项的概率。给定一个单一查询，根据其精确度-召回率曲线计算平均精度（AP），mAP是AP的平均值。0与基准和直接迁移的比较。为了反映我们的HCT的效果，我们将HCT与基于硬批次三元组损失的监督学习方法和从预训练的ImageNet直接迁移进行比较。我们的结果在表1中报告。直接迁移和基准的结果分别代表了下限和上限。0消融研究。0我们可以看到，直接迁移的性能非常差，在Market-1501上只获得3.5%的mAP，在DukeMTMC-reID上获得3.0%的mAP。这是因为该模型是在ImageNet上进行分类任务的预训练，与re-ID任务完全不同。HCT在Market-1501上的mAP超过直接迁移方法52.9%，在DukeMTMC-reID上超过47.7%。这仅比监督方法基准分别少21.8%和14.7%的mAP，这表明HCT生成的伪标签质量非常高，因此我们的模型性能很好。0HCT的有效性。如表2所示，我们将我们的HCT与其他无监督方法进行比较。在Market-1501上，我们获得rank-1=80.9%，mAP=56.4%。在DukeMTMC-reID上，我们获得rank-1=69.6%，mAP=50.7%。HCT不仅大大超过其他完全无监督的方法，而且优于许多UDA方法。请注意，我们没有使用任何手动标记的数据进行训练，我们只使用了无标签的目标数据。结果表明了模型性能的限制。从理论上讲，当我们的伪标签的质量接近手动注释的标签时，HCT将逐渐接近基准。IDsepochrank-1mAPs = 1220691572.246.2s = 1311716080.056.4s = 14258300××Table 3. Performance comparison with different merging steps onMarket-1501. ”IDs” means identities number, it also represent thenumber of clusters after hierarchical clustering. ”Epoch” meansthe training epoch in each iteration. ”×” means the model is difﬁ-cult to converge.rank-1rank-5rank-10mAPmp = 0.0479.690.994.655.3mp = 0.0578.791.194.655.0mp = 0.0678.191.194.254.3mp = 0.0780.091.695.256.4mp = 0.0877.090.494.153.0mp = 0.0977.990.894.254.6mp = 0.177.490.994.653.7136630合并步骤 Market-15010合并百分比 Market-15010表4. 在Market-1501上使用不同合并百分比的性能比较。0充分探索目标域样本的相似性的重要性。此外，它还证明了硬批次三元组损失可以有效减少困难样本的影响，进一步提高伪标签的质量，并获得更好的性能。与不同合并步骤的比较在分层聚类中，合并步骤s控制合并的终止，确定簇数，最终影响伪标签的质量。为了获得最佳性能，我们将mp设置为0.07，并评估不同s对Market-1501的影响。我们的结果在表3中报告。当我们将s设置为14时，即使将训练时期设置得很高，我们发现模型很难收敛。Market-1501在训练集中有751个ID，但现在HCT只有258个ID。我们认为在最后的合并步骤中，分层聚类将生成许多糟糕的簇和错误的伪标签，无法进行优化。因此，我们应该在分层聚类中采用提前停止策略。然而，s太小意味着伪标签的ID数量太多，这也会引起问题。当我们将s设置为12时，性能显著下降。因此，过早停止会降低模型的性能。此外，当s太小时，我们必须将训练时期减少到15，因为我们发现大的时期很容易导致过拟合。最后，当我们将s设置为13时，获得了最佳性能。与不同合并百分比的比较在分层聚类中，合并百分比mp控制速度0合并的重要性。它决定了每一步合并的簇数，最终影响生成的伪标签。为了获得最佳性能并评估 mp的影响，我们在Market-1501上评估了不同的 mp值。根据上面的讨论，我们在所有实验中采用了提前停止策略来设置 s。从表4中可以看出，当我们将 mp设置为0.07时，获得了最佳性能。我们认为每一步合并过多或过少都会导致聚类质量下降。此外，与改变合并步骤s相比，仅改变合并百分比mp只会导致性能的轻微变化。0T-SNE可视化的定性分析如图3所示，我们可以看到BUC无法有效区分困难样本，因此聚类中有很多误报样本。这些误报样本在高维空间中彼此接近，容易导致分层聚类中的错误合并。此外，聚类结果的分布是分散的，会产生许多误漏样本。与困难样本不同，这些误漏样本属于同一身份。但它们在高维空间中彼此之间并不非常接近，因此我们无法有效地使用分层聚类将它们合并到一个簇中。我们的方法HCT解决了这些问题并获得了更好的性能。我们可以看到HCT可以促进更紧凑的聚类，因此误漏样本的数量大大减少。此外，HCT可以有效区分困难样本，因此误报样本的数量也大大减少。这些结果说明了硬批次三元组损失的有效性以及HCT生成的高质量伪标签。总的来说，由于聚类结果的显著改善，HCT比其他无监督方法要好得多。05. 结论0在本文中，我们提出了一种完全无监督的再识别方法HCT。HCT直接使用未标记的数据集进行训练，而不使用任何手动注释的标签。我们通过分层聚类充分利用目标数据集中图像之间的相似性。我们还通过PK采样和硬批次三元组损失有效地减少了训练中困难样本的影响。此外，我们通过初始化伪标签并交替训练进一步提高了生成的伪标签的质量。最后，随着伪标签质量逐渐提高，我们的模型性能也逐步提高。广泛的实验证明，HCT在完全无监督方法中大幅超过了现有技术，甚至优于大多数UDA方法。136640未提供数据0未提供数据0未提供数据0图3.在Market-1501的子集上对BUC（100个身份和1747张图像）和HCT（100个身份和1656张图像）的特征表示进行T-SNE可视化。相同颜色的样本表示它们具有相同的真实标签。True Positive表示模型生成的正确伪标签。FalsePositive表示模型在实际上属于不同身份的图像上生成相同的伪标签。FalseNegative表示模型在实际上属于同一身份的图像上生成不同的伪标签。False Positive和False Negative都会生成错误的伪标签，从而降低模型性能。06. 致谢0我们感谢审稿人的反馈。我们感谢我们的团队成员对反馈和提供的激发智力环境。本研究得到湖南省科技计划项目（No.2019RS2027）和中国国家重点研发计划（No.2018YFB0204301）的支持。0参考文献0[1] Loris Bazzani，Marco Cristani和VittorioMurino。基于对称性的本地特征积累用于人物表征和再识别。计算机视觉和图像理解，2013年。[2] Xiaobin Chang，TimothyM Hospedales和TaoXiang。用于人物再识别的多级分解网络。在CVPR 2018年。[3]Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim和JaegulChoo。Stargan：用于多领域图像到图像转换的统一生成对抗网络。在CVPR 2018年。[4] Weijian Deng，LiangZheng，Qixiang Ye，Guoliang Kang，Yi Yang和JianbinJiao。图像到图像领域自适应与0保持自相似性和领域非相似性用于人物再识别。在CVPR2018年。[5] Guodong Ding，Salman Khan，ZhenminTang，Jian Zhang和FatihPorikli。为了更好的有效性：基于离散的无监督人物再识别聚类。arXiv预印本arXiv：1906.01308，2019年。[6] Hehe Fan，LiangZheng，Chenggang Yan和YiYang。无监督人物再识别：聚类和微调。TOMM，2018年。[7]Douglas Gray，Shane Brennan和HaiTao。评估用于识别，重新获取和跟踪的外观模型。在IEEE国际性能评估研讨会（PETS）的会议记录中。Citeseer，2007年。[8]Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议的论文集中，页码770-778，2016年。[9] AlexanderHermans，Lucas Beyer和BastianLeibe。为了人物再识别的三元组损失辩护。arXiv预印本arXiv：1703.07737，2017年。[10] Houjing Huang，WenjieYang，Xiaotang Chen，Xin Zhao，Kaiqi Huang，JinbinLin，Guan Huang和DalongDu。Eanet：增强跨领域人物再识别的对齐。arXiv预印本arXiv：1812.11369，2018年。136650[11] Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang.深度滤波器配对神经网络用于人物再识别. 在CVPR, 2014. [12]Yu-Jhe Li, Fu-En Yang, Yen-Cheng Liu, Yu-Ying Yeh, XiaofeiDu, and Yu-Chiang Frank Wang. 适应和再识别网络:一种无监督的深度迁移学习方法用于人物再识别. 在CVPR, 2018.[13] Shengcai Liao, Yang Hu, Xiangyu Zhu, and Stan Z Li.通过局部最大出现表示和度量学习进行人物再识别. 在CVPR, 2015.[14] Yutian Lin, Xuanyi Dong, Liang Zheng, Yan Yan, and YiYang. 一种自下而上的聚类方法用于无监督的人物再识别.在AAAI人工智能会议论文集上, 2019. [15] Jianming Lv, WeihangChen, Qing Li, and Can Yang.通过时空模式的传递学习进行无监督跨数据集人物再识别. 在CVPR,2018. [16] Peixi Peng, Tao Xiang, Yaowei Wang, MassimilianoPontil, Shaogang Gong, Tiejun Huang, and Yonghong Tian.用于人物再识别的无监督跨数据集迁移学习. 在CVPR, 2016. [17]Ergys Ristani, Francesco Solera, Roger Zou, Rita Cucchiara,and Carlo Tomasi. 多目标、多摄像头跟踪的性能度量和数据集.在ECCV, Springer, 2016. [18] Adam Santoro, Sergey Bartunov,Matthew Botvinick, Daan Wierstra, and Timothy Lillicrap.带有记忆增强神经网络的元学习. 在ICML, 2016. [19] R.R. Sokal,C.D. Michener, and University of Kansas.一种用于评估系统关系的统计方法. University of Kansas科学公报.University of Kansas, 1958. [20] Liangchen Song, ChengWang, Lefei Zhang, Bo Du, Qian Zhang, Chang Huang, andXinggang Wang. 无监督领域自适应再识别: 理论与实践.arXiv预印本arXiv:1807.11334, 2018. [21] Yifan Sun, LiangZheng, Yi Yang, Qi Tian, and Shengjin Wang. 超越部分模型:通过精细的部分池化进行人物检索(以及强卷积基线). 在ECCV,2018. [22] Ilya Sutskever, James Martens, George Dahl, andGeoffrey Hinton. 深度学习中初始化和动量的重要性. 在ICML,2013. [23] Hui Tian, Xiang Zhang, Long Lan, and Zhigang Luo.通过自适应验证损失进行人物再识别. Neurocomputing,359:93–101, 2019. [24] Oriol Vinyals, Charles Blundell,Timothy Lillicrap, Daan Wierstra, et al.用于一次性学习的匹配网络. 在NIPS, 2016. [25] Guanshuo Wang,Yufeng Yuan, Xiong Chen, Jiwei Li, and

下载后可阅读完整内容，剩余1页未读，立即下载