基于长尾数据的深度表示学习:嵌入增强视角

61 浏览量更新于2023-10-25 收藏 12.18MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

29700基于长尾数据的深度表示学习:可学习的嵌入增强视角0刘佳伦 1 � , 孙一凡 2 � , 韩楚楚 3 , 窦兆鹏 4 , 李文辉 1 †01 吉林大学 2 Megvii公司 3 华中科技大学 4 清华大学0jialun18@mails.jlu.edu.cn peter@megvii.com liwh@jlu.edu.cn0摘要0本文考虑从长尾数据中学习深度特征。我们观察到在深度特征空间中，头部类别和尾部类别呈现不同的分布模式。头部类别具有相对较大的空间跨度，而尾部类别由于缺乏类内多样性而具有显著较小的空间跨度。头部和尾部类别之间的这种不均匀分布扭曲了整体特征空间，降低了学习特征的判别能力。为了应对这个问题，我们在训练过程中寻求扩展尾部类别的分布，以减轻特征空间的扭曲。为此，我们提出在深度特征空间中为尾部类别的每个实例增加一定的扰动。通过增强，指定的特征向量变成了散布在其周围的一组可能特征，类似于被电子云包围的原子核。直观地说，我们将其称为“特征云”。特征云的类内分布是从头部类别中学习的，从而为尾部类别提供了更高的类内变异性。因此，它减轻了学习特征空间的扭曲，改善了基于长尾数据的深度表示学习。对行人重识别和人脸识别任务进行了大量实验评估，验证了我们方法的有效性。01. 引言0大规模数据集在深度表示学习以及许多其他基于深度学习的视觉任务中起着关键作用。在现实世界中，大规模数据集通常呈现极端的长尾分布[ 8 , 10]。具体而言，一些身份有足够的样本，而其他大量身份只有很少的样本可用。它们分别被定义为头部类别和尾部类别。长尾分布对深度表示学习提出了巨大挑战。0� 相等贡献。†通讯作者。0我们研究了长尾分布对深度表示学习的影响，重点关注深度学习的特征空间。在特定的深度表示任务中，即人员重识别（re-ID），我们在图1中可视化了几个相邻的头部类别，并发现样本数量是类内多样性的重要因素。首先，我们观察图1（a）中头部类别的原始分布。头部类别可以通过明显的边界很好地区分开来。由于丰富的类内多样性，每个头部类别在特征空间中占据了广泛的跨度。此外，我们减少了一些头部类别的样本，使它们变成了尾部类别。如图1（b）所示，我们发现尾部类别的样本在学习的特征空间中分布狭窄，由于缺乏类内多样性。这种不均匀分布扭曲了整体特征空间，从而降低了学习特征的判别能力。为了更具体地研究长尾分布的类内多样性，我们定量地计算了特定类别在深度特征空间中的特征与其对应类别中心之间的几何角度。我们通过将一个re-ID数据集（即DukeMTMC-reID）设置为长尾数据集，其中一些类别仅有4个样本，来将其转化为长尾数据集。在深度表示学习的流行基准下，头部类别的变化在95%置信区间（CI）内分布在0.463±0.030之内。相比之下，尾部类别的变化显著较小，95%CI为0.288±0.023。这样的观察进一步证实了1）尾部类别具有较小的方差，2）每个类别的样本数量是方差的主要因素。基于这一洞察，我们提出在特征空间中将头部类别的类内分布转移到尾部类别。我们的目标是在训练中鼓励尾部类别实现与头部类别相似的类内角度变化。具体而言，我们首先计算头部类别特征与其对应类别中心之间角度的分布。通过平均所有头部类别的角度方差，我们得到头部类别的整体方差。接下来，我们考虑将方差转移到尾部类别。29710图1. 我们从DukeMTMC-reID数据集[44, 24]中选择了几个类别，然后使用t-SNE[32]可视化嵌入层中的特征。(a)来自头部类别的特征可视化（点）。在特征空间中有广泛的区域，每个类别都能够很好地区分开。(b)我们减少了一些头部类别的样本，使它们成为尾部类别（三角形）。由于这些尾部类别，特征空间被缩小，导致原始特征空间的扭曲。因此，尾部类别很难与其他类别分离。(c) 在训练中，尾部类别的空间被扩展，使其远离其他类别。0为了实现这一目标，我们提出在深度特征空间中为每个尾部类别实例增加一定的扰动。通过增强，指定的特征向量变成了一组散布在其周围的可能特征，称为“特征云”。每个具有相应特征云的实例将具有相对较大的分布范围，使尾部类别具有与头部类别相似的角度分布。我们的方法对尾部类别进行了更严格的监督，从而导致更高的类内紧凑性。如图1(c)所示，在训练过程中通过补偿类内多样性，尾部类别与其他类别之间有明显的间隔。在前面提到的re-ID设置下，尾部类别的类内角度方差甚至低于基线中的尾部类别，其均值为0.201。此外，为了提高方法的灵活性，我们放弃了头部类别和尾部类别的明确定义。与一些将这两个类别划分的方法相比，我们的方法完全与数据集的分布相关，没有人为干预。我们总结了我们的工作的贡献如下：0•我们提出了一种可学习的嵌入增强视角，以缓解长尾数据上的判别特征学习问题，将从头部类别学习到的类内角度分布转移到尾部类别。0•在re-ID和人脸识别上进行了大量消融实验，证明了所提方法的有效性。02. 相关工作0不平衡数据集上的特征学习。最近在不平衡数据上进行特征学习的工作有0主要分为三种方式：重新采样[1]、重新加权[21]和数据增强[3]。重新采样技术包括两种类型：过采样尾部类别和欠采样头部类别。过采样方式重复采样尾部数据，使分类器能够更好地学习尾部类别。但这可能导致尾部类别的过拟合。为了减少过拟合的风险，提出了SMOTE[2]来生成尾部类别的合成数据。它在每个尾部类别数据点和其最近邻之间随机放置新创建的实例。欠采样方式[6]减少头部类别的数据量，同时保留尾部类别。但当数据不平衡极端时，可能会丢失头部类别的有价值信息。重新加权方法为不同的类别或不同的样本分配不同的权重。传统方法将类别的重新加权与其样本频率的倒数成比例。Cui等人通过样本的逆有效样本数改进了重新加权方法。Li等人提出了一种方法，通过降低具有非常小梯度或大梯度的示例的权重，因为具有小梯度的示例被很好地分类，而具有大梯度的示例往往是异常值。最近，基于生成对抗网络（GAN）的数据增强方法[3]很受欢迎。[41]和[9]将从头部类别学习的语义知识转移到尾部类别，以弥补尾部类别，从而使尾部类别具有与头部类别相似的数据分布。所有这些方法都将类别分为头部或尾部类别，而我们的方法放弃了这种约束。损失函数。损失函数在深度特征学习中起着重要作用，最流行的是Softmax损失[28]。然而，它主要考虑样本是否能够被正确分类，缺乏类间距离和类内距离的约束。为了提高特征的区分度，许多损失函数进行了改进。𝜃ℎ~𝑁 𝜇ℎ, 𝜎ℎ2PoolingBNL1 = − 1NN�n=1loges(cos(θyn)−mc)es(cos(θyn)−mc) + �Cj̸=yn es cos(θj) ,29720头类别的中心0尾类别的中心0� � ~�(��, ��2)0� � ~�(��, ��2)0� � ~�(��, ��2)0� Δ ~�(0, �h2−��2)0� � + � Δ ~�(��, ��2)0� �0� � + � Δ0损失0卷积0卷积0卷积0头类别0尾类别0图2.我们提出的框架概述。将头数据和尾数据输入深度网络以获取特征。我们分别计算特征与类别中心之间的角度分布，用于头类别和尾类别。随后，我们将头类别的角度方差（红色曲线）转移到尾类别（绿色曲线）。换句话说，基于尾类别的原始分布，我们添加了一个额外的分布（黄色曲线）。然后我们得到了尾类别的新分布（蓝色曲线）。最后，我们使用头数据和新的尾数据来计算损失。0为了增强不同类别之间的余弦和角度间隔，提出了一些方法。Wen等人[39]设计了一个中心损失来减小样本与相应类别中心之间的距离。L2-Softmax[23]和NormFace[34]添加了归一化以产生更具代表性的特征，并取得了更好的性能。除了归一化外，添加边距可以通过在不同类别的样本之间插入距离来增强特征的区分度。A-SoftmaxLoss[20]对权重进行归一化，并添加了乘法角度边距以学习更具可分性的角度特征。CosFace[35]在紧凑空间中添加了一个加性余弦边距，从而压缩了相同类别的特征，同时扩大了不同类别特征之间的差距。ArcFace[5]将一个加性边距放入角度空间，使得损失同时依赖正弦和余弦，以学习更多的角度特征。我们选择了CosFace[35]和ArcFace[5]作为基线。尽管我们模拟了类内角度，与它们类似，但我们的目标是解决长尾数据上的判别特征学习问题。03. 提出的方法0本节中，我们对我们的方法进行了简要描述，第3.1节给出了概述。我们在第3.2节中回顾了基线方法。我们在第3.3节中描述了类别中心的更新过程和角度分布的计算。特征云的构建在第3.4节中详细说明。03.1. 框架概述0我们方法的框架如图2所示。首先，将头数据和尾数据输入深度模型以提取特征。我们考虑通过特征与其对应的类别中心之间的角度分布来建模类内特征的分布。然后，将头类别的角度方差（红色曲线）转移到尾类别（绿色曲线）。换句话说，基于尾类别的原始分布，我们添加了一个额外的分布（黄色曲线）。然后我们得到了尾类别的新分布（蓝色曲线）。最后，我们使用头数据和新的尾数据来计算损失。0对于每个类别，我们计算了每个类别的中心，详细说明在第3.3节中。我们为每个类别构建了一个角度存储器，用于存储特征与其类别中心之间的角度。假设角度服从高斯分布，头类别和尾类别的角度分布分别可以表示为θh�N(µh,σ2h)和θt�N(µt,σ2t)。接下来，我们将从头类别学习到的角度方差传递给每个尾类别。因此，尾类别的类内角度多样性与头类别相似。具体而言，我们围绕每个尾实例构建一个特征云。从特征云中采样的实例与尾实例具有相同的身份。它们之间的角度为θ∆，且θ∆�N(0, σ2h−σ2t)。我们假设两个分布：θt�N(µt,σ2t)和θ∆�N(0,σ2h−σ2t)彼此独立。通过转换，尾类别的新的类内角度分布在训练过程中建立为θt+θ∆�N(µt,σ2h)。最后，我们使用头类别的原始特征和尾类别的重构特征来计算损失。03.2. 基线方法0传统的softmax损失函数优化了两个类别之间的决策边界，但缺乏类间距离和类内距离的约束。CosFace[35]通过引入余弦边界来最小化类内距离并最大化类间距离，从而在角度空间中最大化决策边界。损失函数可以表示为：0(1) 其中 N 和 C 分别是小批量大小和总类别数。 y n 是第 n张图像的标签。L2 = − 1NN�n=1loges(cos(θyn+ma))es(cos(θyn+ma)) + �Cj̸=yn es cos(θj) ,βi,k = arccos(f ki ci||f ki ||||ci||),(3)cli = (1 − γ)cli + γcl−1i,(4)29730我们定义第 n 张图像的特征向量和类别 y n的权重向量分别为 f n 和 W y 。 f n 和 W y 经过 l 2归一化，并且特征向量的范数重新缩放为 s 。 θ y n 是权重W y 和特征 f n 之间的角度。 m c是控制余弦边界大小的超参数。与CosFace[35]不同，ArcFace [5]采用了加性角度边界损失，表示为：0(2) 其中 m a 是特征向量 f n 与其对应的 W y之间的加性角度边界惩罚。它旨在同时增强类内紧密度和类间距离。在本文中，我们选择CosFace [35]和ArcFace[5]作为基线方法。原因如下：0•他们在人脸识别任务中取得了最先进的性能，可以看作是深度特征学习领域的强基线。0•他们通过实现更低的类内角度变异性来优化类内相似性。由于我们的方法使用类内角度来建模类内特征分布，这两个损失函数可以与我们的方法自然地结合。03.3. 学习类内角度分布0类内角度多样性可以直观地显示类内特征的多样性。在本节中，我们研究特征与其对应类别中心之间的角度分布。 c i表示特征的第 i 个类别中心。 f k i 是第 i 个类别的第 k个实例特征。 c i 的维度与 f k i 相同。因此，我们可以计算f k i 和 c i 之间的角度如下所示：0其中 c i在训练过程中需要进行更新。理想情况下，我们需要考虑所有训练样本，并在每个时期对每个类别的特征进行平均。显然，这种方法是不切实际和低效的。受[39]的启发，我们也基于小批量进行更新。在每个小批量中，通过对应类别的特征向量的平均来计算类别中心。为了避免一些错误标记样本的误导，我们设置一个中心学习率 γ 来更新类别中心。 c i的更新方法如下所示：0其中 c l i 是第 l 个小批量中第 i个类别的中心。每个类别的中心通过当前和之前小批量的中心进行更新。0迁移0图3. 我们将从头类别学习到的类内角度分布传递给尾类别。0对于第 i 个类别，我们维护一个角度记忆 β i来存储特征与其对应类别中心 c i之间的角度。角度记忆的大小表示为：S i = K i × P. (5)0Ki是第i个类别的样本数。P是确定每个类别的角度记忆的超参数。然后我们计算βi的均值μi和方差σ2i。类别i的角度分布被表示为N(μi，σ2i)。03.4.为尾数据构建特征云0在本节中，我们详细说明了为尾实例构建特征云的过程。首先，像之前的工作[41，46]一样，我们分配一个标签来标记头类和尾类，得到基本版本。另一方面，我们引入了一个完整版本，放弃了头类和尾类的明确划分。这种方式更加灵活，因为它只与数据集的分布有关。基本版本。我们通过阈值T严格划分头类和尾类。如果属于类别i的样本数大于T，则第i个类别被定义为头类。否则，它被定义为尾类。在第3.3节中，我们计算了每个类别的角度分布，假设它们服从高斯分布。通过对所有头类的方差求平均，我们得到头类的整体方差。均值的计算方式类似。因此，头类的整体角度分布如下：0μh =0z = 1 μz0Ch，σ2h =0z = 1σ20Ch，(6)0其中Ch是头类的数量。μz和σ2z分别是第z个头类的角度均值和方差。μh和σ2h描述了头类的整体角度分布。我们还可以为每个尾类获得类中心。第x个尾类的角度分布表示为N(μxt，σxt2)。对于头类，它们包含足够的样本，显示了类内角度多样性。通常情况下，σh大于σt，因此我们的目标是将σ2h转移到每个尾类。如图3所示，我们围绕每个尾类的特征构建一个特征云。通过这种方式，训练中的尾实例所跨越的空间被放大，并且真实的尾实例被推离其他类别。属于第x个尾类的特征与从其对应的特征云中采样的特征之间的角度为αx，其中αx � N(0，σ2h - σxt2)且αx ∈R1×C。在训练中，从特征云中采样的特征与真实的尾特征具有相同的身份。我们在第3.1节中假设了两个分布：N(μxt，σxt2)和N(0，σ2h -σxt2)彼此独立。因此，第x个尾类的原始角度分布从N(μxt，σxt2)转移到N(μxt，σh2)。基于CosFace [35]和ArcFace [5]的新损失函数定义如下：̸̸σ2 =C�29740在训练中，尾实例所跨越的空间被放大，并且真实的尾实例被推离其他类别。属于第x个尾类的特征与从其对应的特征云中采样的特征之间的角度为αx，其中αx � N(0，σ2h -σxt2)且αx ∈R1×C。在训练中，从特征云中采样的特征与真实的尾特征具有相同的身份。我们在第3.1节中假设了两个分布：N(μxt，σxt2)和N(0，σ2h -σxt2)彼此独立。因此，第x个尾类的原始角度分布从N(μxt，σxt2)转移到N(μxt，σh2)。基于CosFace [35]和ArcFace[5]的新损失函数定义如下：0L3 = -10N0n = 1 log e s (cos(θyn + αy) − mc)0e s (cos(θyn + αy) − mc) + ΣCj ≠ yn e scos(θj + αy),0L4 = -10N0n = 1 log e s (cos(θyn + αy + ma))0e s (cos(θyn + αy + ma)) + ΣCj ≠ yn e s0(8)在公式7和8中，θ + α和θ + α +ma都被剪裁在[0，π]范围内。N和C分别是小批量大小和类别数。θyn是特征fn和权重Wy之间的角度。s是尺度，mc和ma分别是CosFace [35]和ArcFace[5]中的余弦边界和角度边界。如果yn是头类，则αy =0。随着训练的进行，尾类具有与头类相同的丰富角度多样性。实际上，我们近似了从特征云中采样的特征与权重之间的角度（θ'）。如果α > 0，我们通过其上界来近似θ'，当α≤ 0时则通过其下界。证明如下。0命题。我们将尾部类别中的特征表示为 f ，W是完全连接层中对应的权重向量。f ' 是从 f周围的特征云中随机采样的特征。0� f, W � = θ, � f, f ' � = α + , � W, f ' � = θ ' ,0∥ f ∥ = ∥ w ∥ = ∥ f ' ∥ = 1 , 0 ≤ θ + α + ≤ π,0其中 � a, b � 表示向量 a 和 b 之间的夹角，∥ a ∥ 表示向量 a的范数。我们想要证明：| θ - α + | ≤ θ ' ≤ θ + α + 。0证明。简单地，我们假设 f = [1 , 0 , ∙ ∙ ∙ , 0] ，那么 W =[cos θ, w 2 , ∙ ∙ ∙ , w n ] 。我们使用 Householder 变换 [13 ] 将 W 转换为 V ，其中 V = [cos θ, sin θ, 0 , ∙ ∙ ∙ , 0]。令 P = I - 2 U ∙ U T ，其中 U = W - V / ∥ W - V ∥，然后 f = Pf, V = PW, ˆ f ' = Pf ' 。P是一个保持内积和范数的正交变换。因此，我们有0� f, V � = θ, � f, ˆ f ' � = α + , � V, ˆ f ' � = θ ' .0记 ˆ f ' = [ ˆ f ' 1 , ˆ f ' 2 , ∙ ∙ ∙ , ˆ f ' n ] ，那么0cos α + = f ∙ ˆ f ' = ˆ f ' 1 , ˆ f ' 2 2 + ∙ ∙ ∙ + ˆ f ' n 2 = sin2 α + .0我们有 ˆ f ' 2 sin θ ∈ [ - sinα + sinθ, sinα + sinθ ]，其中 θ ∈ [0 , π ] 。进一步，我们有0cos θ ' = ˆ f ' ∙ V = cos α + cos θ + ˆ f ' 2 sin θ,0cos θ ' ∈ [ cos ( θ + α + ) , cos ( θ - α + )] 。0我们得出结论：| θ - α + | ≤ θ ' ≤ θ + α + 。虽然 α � N (0, σ 2 ) ，但我们只需要关注 α ∈ [ - π, π ] ，因为 θ + α被剪裁在范围 [0 , π ] 内。0• 当 0 ≤ α ≤ π 时，将 α 替换 α + ，我们有 | θ - α | ≤ θ' ≤ θ + α ，其中 θ + α 是上界。0• 当 − π ≤ α ≤ 0 时，将 − α 替换 α + ，我们有 | θ - ( -α ) | ≤ θ ' ≤ θ + α ，这等价于 θ + α ≤ θ ' ≤ θ - α，所以 θ + α 是下界。0完整版本。通过在尾部实例周围构建特征云来修复扭曲的特征空间。而在基本版本中的过程是不灵活的。我们设置一个阈值 T 来人为地划分头部和尾部类别。公式 6中的整体角度分布仅依赖于头部类别。在完整版本中，显式定义被舍弃。我们观察到，类内多样性通常与样本数量呈正相关。因此，我们通过对每个类别的角度方差加权计算整体方差。权重是每个类别的样本数量。最终方差的公式为：0i = 10( K i - 1) σ 2 i � (K i - 1) , (9)0其中 C 是类别数，K i 是属于类别 i 的样本数。σ 2 i 是第 i类的角度方差。较小的 K i 意味着第 i类的方差几乎没有对最终方差的贡献，因此最终方差主要取决于具有足够样本的类别。对于第 i 类，如果 σ 2 i < σ 2，则意味着第 i 类具有较差的类内多样性。因此在公式 7 和8 中 α y 是可用的，并且我们为从第 i类采样的每个实例构建特征云。完整版本的优点在于特征云的计算完全依赖于数据集的分布。在这个过程中没有人为干预。04. 实验0在本节中，我们进行了大量实验证实了我们方法的有效性。首先我们描述了实验设置。然后我们展示了在不同长尾设置下的人物重识别和人脸识别性能。HA-CNN [19]75.791.263.880.5--PCB [30]77.492.366.181.840.468.2Mancs [33]82.393.171.884.9--CosFace79.592.473.085.649.275.3ArcFace81.192.573.285.850.575.5GFSVDNet [29]62.182.356.876.7BraidNet [36]69.583.769.576.4CamStyle [47]71.689.557.678.3Advesarial [15]70.486.462.179.1Dual [7]76.691.464.681.8Mancs [33]82.393.184.971.8IANet [12]83.194.473.487.1PFLEAP-CF50.876.786.990.0LEAP-AF51.376.386.589.8297504.1. 设置0人物再识别。我们在三个数据集上进行评估：Market-1501[ 42 ]，DukeMTMC-reID [ 24 , 44 ]和MSMT17 [ 37]。为了研究头类别和尾类别之间的比例对训练re-ID系统的影响，我们基于原始数据集构建了几个长尾数据集。我们按样本数量对类别进行排名。前150个、100个、50个和20个身份分别标记为头类别。其余的被视为尾类别，每个类别的样本数量减少到5个。这样，我们形成了训练集 � H 150 , S 5� ，� H 100 , S 5 � ，� H 50 , S 5 � 和 � H 20 , S 5 �。对于训练，我们选择广泛使用的ResNet-50 [ 11]作为骨干网络。网络的最后一层后面跟着一个批量归一化层（BN）。优化器采用Adam。CosFace [ 35 ]的尺度s和m c分别设置为24和0.2。ArcFace [ 35 ]的尺度s和m a分别设置为16和0.2。类别中心γ的学习率设置为0.1。对于测试，使用BN后的2048维全局特征进行评估。特征之间的余弦距离被计算为相似度分数。我们使用两个评估指标：累积匹配特征（CMC）和平均精度(mAP)来评估我们的方法。人脸识别。我们采用广泛使用的MS-Celeb-1M数据集进行训练。原始的MS-Celeb-1M数据被认为非常嘈杂，因此我们清理了脏脸图像，并排除了79K个身份和1M个图像。我们通过它们的样本数量对类别进行排名。选择前5K个和3K个作为头类别。在其余的类别中，我们选择前10K个和20K个作为尾类别，并随机选择每个类别的5张图像。这样，我们形成了训练集 � H 5 K, T 20 K � ，� H 5 K, T 10 K � ，� H 3K, T 20 K � 和 � H 3 K, T 10 K �。人脸图像被调整为112×112。对于训练，我们选择ResNet-18 [ 11 ]作为骨干网络。我们采用三角形学习率策略[ 26]训练模型30个周期，并在第三个周期开始时构建特征云。CosFace [ 35 ]的尺度s和m c分别设置为64和0.35。ArcFace [ 35 ]的尺度s和m a分别设置为64和0.5。我们提取512维特征进行模型推断。对于测试，我们在LFW [ 14 ]，MegaFace挑战1（MF1）[ 17]和IJB-C [ 22]上评估我们的方法。我们报告了LFW和MF1的Rank-1准确率，以及IJB-C TPR@FPR的不同值。04.2. 人物再识别实验0基准性能。表1报告了基准性能的结果。我们将基准与先进的方法进行了比较。我们的基准性能非常有竞争力，可靠。与最先进的方法进行比较。我们将我们的完整版本与Market-1501和DukeMTMC-reID上的最先进方法进行了比较。比较结果0方法 Market-1501 DukeMTMC MSMT170mAP 排名1 mAP 排名1 mAP 排名10表1.在Market-1501、DukeMTMC-reID和MSMT17数据集上与先进方法的比较0方法 Market-1501 DukeMTMC0mAP 排名1 mAP 排名10DG-Net [43] 86.0 94.8 74.8 86.60AACN [40] 66.9 85.9 59.2 76.80PSE [25] 69.0 87.7 62.0 79.80PCB [30] 77.4 92.3 66.1 81.80SPReID [16] 81.3 92.5 70.9 84.40我们的 LEAP-CF 84.2 94.4 74.2 87.80表2.在Market-1501和DukeMTMC-reID上与最先进的方法进行比较。三组：全局特征(GF)，局部特征(PF)和我们的方法。LEAP-CF和LEAP-AF分别是我们与CosFace和ArcFace相结合的完整版本。0在表2中报告了结果。表明我们的基线模型超过了许多先进的方法。我们的方法进一步提高了性能。具体而言，LEPA-CF在Market-1501的rank-1上达到了94.4%，在DukeMTMC-reID的rank-1上达到了87.8%。我们还在最近发布的MSMT17数据集上评估了我们的方法。结果如表3所示。与DG-Net[43]相比，我们的性能非常接近。然而，我们的方法是一种简单但高效的方法，不使用GAN生成许多图像级样本。0方法 mAP Rank-1 Rank-5 Rank-100GoogleNet [31] 23.0 47.6 65.0 71.8 Pose-driven [27]29.7 58.0 73.6 79.4 Verif-Identif [45] 31.6 60.5 76.2 81.6GLAD [38] 34.0 61.4 76.8 81.6 PCB [30] 40.4 68.2 81.285.5 IANet [12] 46.8 75.5 85.5 88.7 DG-Net [43] 52.377.2 87.4 90.50表3. 在MSMT17上与先进方法进行比较。0使用香草版本进行评估。我们评估Total IDs of head class150100503020Rank-1 accuracy(%)82848688LEAP-CVLEAP-CFLEAP-AVLEAP-AFTotal IDs of head class150100503020mAP(%)6365676971LEAP-CVLEAP-CFLEAP-AVLEAP-AFTotal IDs of head class150100503020Rank-1 accuracy(%)707274767880LEAP-CVLEAP-CFLEAP-AVLEAP-AFTotal IDs of head class150100503020mAP(%)50525456586062LEAP-CVLEAP-CFLEAP-AVLEAP-AF(b) DukeMTMC(a) Market-1501CosFace67.386.357.375.6LEAP-CV70.686.959.477.1ArcFace70.687.360.277.6LEAP-AV71.387.960.678.7CosFace62.883.352.670.3LEAP-CV68.786.555.674.8ArcFace68.086.656.774.8LEAP-AV69.887.357.976.5CosFace60.580.748.067.7LEAP-CV67.384.953.173.0ArcFace64.283.851.171.1LEAP-AV67.184.654.473.5CosFace55.678.647.066.0LEAP-CV64.183.252.472.7ArcFace60.181.150.569.3LEAP-AV64.382.254.273.7CosFace55.678.647.066.0LEAP-CF65.283.452.772.8ArcFace60.181.150.569.3LEAP-AF63.983.254.273.6CosFace43.167.736.053.7LEAP-CF54.776.842.663.0ArcFace49.473.839.758.8LEAP-AF56.577.944.264.4CosFace31.955.525.640.8LEAP-CF43.567.233.251.1ArcFace36.260.128.946.7LEAP-AF44.166.134.353.329760图4.在Market-1501和DukeMTMC-reID上比较香草版本和完整版本。LEAP-CV和LEAP-AV分别是我们与CosFace和ArcFace相结合的香草版本。LEAP-CF和LEAP-AF分别是我们与CosFace和ArcFace相结合的完整版本。0数据集 → Market-1501 DukeMTMC0训练 ↓ 方法 ↓ mAP Rank-1 mAP Rank-10�H150，S5�0�H100，S5�0�H50，S5�0�H20，S5�0表4.通过改变头部和尾部数据之间的比例进行的对照实验。H是头部类别的数量。S表示每个尾部类别的样本数。CosFace和ArcFace是基线方法。LEAP-CV和LEAP-AV分别是与CosFace和ArcFace相结合的香草版本。0香草版本的有效性。为了比较，我们在长尾重识别数据集上使用CosFace [35]和ArcFace[5]的监督训练基线模型。我们将我们的方法与基线方法进行比较。结果如表4所示。我们有以下观察结果。首先，与CosFace相比，ArcFace在相同的长尾设置下具有更高的Rank-1和mAP准确性。例如，在Market-1501上，使用�H20，S5�，ArcFace的Rank-1准确性为81.1%，而CosFace的Rank-1准确性为78.6%。这表明ArcFace对于长尾重识别具有更强的鲁棒性。其次，在不同的长尾设置下，LEAP方法与CosFace和ArcFace相结合，相对于基线方法始终取得更好的结果，差距显著。这表明LEAP是一种适用于长尾数据分布的鲁棒方法。第三，在长尾分布下，我们的方法在Market-1501和DukeMTMC-reID上取得了显著的性能提升。0当尾部类别的比例增加时，我们的方法的改进变得更加明显。例如，在DukeMTMC-reID的�H20，S5�设置中，LEAP-CV的改进达到+6.7%（从66.0%到72.7%）的Rank-1准确率。香草版和完整版的比较。我们在图4中展示了香草版和完整版在不同长尾设置下的结果比较。我们观察到完整版的结果非常接近香草版，甚至在某些设置中取得更好的结果。通过这个实验，我们证明与那些需要标签来区分头部类别和尾部类别的方法相比，完整版更加灵活。0数据集 → Market-1501 DukeMTMC0训练 ↓ 方法 ↓ mAP Rank-1 mAP Rank-10�H20，S5�0�H20，S4�0�H20，S3�0表5. 不同尾部数据对特征学习的影响分析。0尾部数据的影响。当逐渐减少头部类别并增加尾部数据时，结果如表5所示，我们观察到尾部数据对性能的影响。我们逐渐减少每个尾部类别的样本数量，导致训练数据不足，模型的性能急剧下降。然而，我们的方法仍然相对基线有很大的改进。例如，在Market-1501的�H20，S3�设置中，即使每个尾部类别的样本数量只有3个，LEAP-CF的改进达到+11.7%（从CosFace98.7381.4183.3573.3263.42LEAP-CV98.8881.7883.8373.9664.64ArcFace98.6081.0882.3072.4562.46LEAP-AV98.6781.6983.1672.9763.22CosFace98.8782.7284.7776.7168.19LEAP-CV98.9883.1684.8277.2168.88ArcFace98.7382.7684.4576.2266.93LEAP-AV99.1083.3685.7077.7768.05CosFace97.6572.2779.0868.0656.52LEAP-CV97.9773.1979.6069.1858.89ArcFace97.8272.4578.2466.9955.31LEAP-AV98.0773.4378.8467.8255.75CosFace98.0274.0681.2171.6861.03LEAP-CV98.2375.1881.8772.1662.62ArcFace98.2875.2481.0971.3661.60LEAP-AV98.7376.2882.6173.2162.72Epoch010 20 30 40 50 60 70 80 90 100110Rank-1 accuracy(%)404550556065707580Market-1501DukeMTMCEpoch010 20 30 40 50 60 70 80 90 100110mAP(%)202530354045505560(a)Market-1501DukeMTMCEpoch010 20 30 40 50 60 70 80 90 100110Rank-1 accuracy(%)404550556065707580Market-1501DukeMTMCEpoch010 20 30 40 50 60 70 80 90 100110mAP(%)202530354045505560(b)Market-1501DukeMTMC29770测试 → LFW MegaFace IJB-C(TPR@FPR)0训练 ↓ 方法 ↓ Rank-1 Rank-1 1e-3 1e-4 1e-50�H5K，T10K�0�H5K，T20K�0�H3K，T10K�0�H3K，T20K�0表6. 根据训练集中头部和尾部类别之间的比例变化报告的LFW、MF1和IJB-C的人脸识别结果。H和T分别是头部类别和尾部类别的数量。0图5. 构建尾部数据特征云的不同时间。(a)将我们的方法与CosFace[35]相结合。(b)将我们的方法与ArcFace [5]相结合。0在Rank-1准确率中从55.5%提升到67.2%。0构建尾部数据特征云的时间。我们在Market-1501和DukeMTMC-reID数据集上研究了构建尾部数据特征云的时间对结果的影响。我们以长尾版本�H20，S4�为例。结果的变化曲线如图5所示。(a)与CosFace[35]相结合。当epoch在10到30之间时，我们的结果只受到轻微影响，并且取得了最佳结果。(b)与ArcFace[5]相结合。我们的结果只受到轻微影响，并且在第20到30个epoch取得了最佳结果。04.3. 人脸识别实验0为了进一步验证在再识别任务中的观察结果，我们在人脸识别任务上进行了一系列类似的实验。与再识别不同，人脸识别的数据集规模相对较大。为了提高训练效率，我们每5次迭代更新一次类中心。结果如表6所示。在LFW上，我们的性能略有提高，因为LFW已经得到了很好的解决。MF1和IJB-C是人脸识别最具挑战性的测试基准。我们报告了MF1的排名1准确率和IJB-C的TPR@FPR。与基线相比，我们的方法获得了一致的改进。例如，在�H 3 K，T 10K�设置下，我们在IJB-C上评估我们的方法，LEAP-CV将TPR@FPR（1e-5）从56.52％提高到58.89％。在�H 3 K，T 20K�设置下，我们在MF1上

下载后可阅读完整内容，剩余1页未读，立即下载