通过自适应可学习评估的深度度量学习方法

147 浏览量更新于2023-10-25 收藏 15.19MB PDF 举报

深度度量学习

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Wenzhao Zheng1,2,3, Jiwen Lu1,2,3,∗, Jie Zhou1,2,3,4cation [23] and image retrieval [20, 27, 36].Losses in metric learning are usually deﬁned over two ormore examples with a certain class structure called a “tu-ple”. The number of m-tuples that can be formed from Nexamples has O(N m) complexity, rendering it inefﬁcientto utilize all of them equally even for datasets of modest29600通过自适应可学习评估进行深度度量学习01 自动化系，清华大学，中国 2 智能技术与系统国家重点实验室，中国 3北京国家信息科学技术研究中心，中国 4 清华大学深圳国际研究生院，中国0zhengwz18@mails.tsinghua.edu.cn; lujiwen@tsinghua.edu.cn; jzhou@tsinghua.edu.cn0摘要0本文提出了一种通过自适应可学习评估（DML-ALA）方法进行图像检索和聚类的深度度量学习方法，旨在学习一种样本评估策略，以最大化训练度量的泛化能力。与现有的深度度量学习方法通常使用固定的采样策略（如困难负样本挖掘）不同，我们提出了一种序列感知的可学习评估器，它重新加权每个训练样本，以训练度量向良好泛化方向发展。我们将这个评估器的学习形式化为元学习问题，采用基于episode的训练方案，并在每次迭代中更新评估器以适应当前模型状态。我们通过对两个不相交标签子集进行采样来构建每个episode，以模拟训练和测试的过程，并使用一次梯度更新后的度量在验证子集上的性能作为评估器的元目标。在广泛使用的CUB-200-2011、Cars196和Stanford OnlineProducts数据集上的实验结果表明了所提方法的有效性。01. 引言0开发一种有效的度量方法来衡量示例之间的相似性是许多计算机视觉任务的核心。一般来说，两个点之间的距离可以表示为嵌入空间中的欧氏距离，深度度量学习利用深度神经网络[15,19, 32,39]学习图像的判别性嵌入，使得来自同一类别的样本具有相似的表示，而来自不同类别的样本具有不相似的表示。最近，文献中提出了各种深度度量学习方法，并在各种任务中展示了强大的能力，例如人物再识别[3, 31, 45, 57]，人脸识别[16, 22,30]，图像集分类[23]和图像检索[20, 27,36]。度量学习中的损失通常在两个或多个示例上定义，具有一定的类别结构，称为“元组”。从N个示例中可以形成的m元组的数量具有O(N^m)的复杂度，即使对于中等规模的数据集，平等地利用所有元组也是低效的。0� 通讯作者0评估器度量0传统DML0DML-ALA0训练子集0评估器度量加权损失0验证子集0更新度量元损失0自适应评估器度量0自适应加权损失0加权损失0更新0更新0更新0元更新0批次0图1.我们的DML-ALA流程图及与传统深度度量学习（DML）方法的比较。提出的DML-ALA采用同时训练的评估器来执行采样，而不是手工制定的采样策略。在每次迭代中，我们的模型训练包括三个阶段：1）使用训练子集上的加权损失更新度量一次，2）训练评估器以最大化更新度量在验证子集上的性能，3）使用经过训练的评估器加权的示例训练原始度量。请注意，我们仅在评估器的训练中使用更新后的度量，并在每次迭代后丢弃它。3. Proposed Approach29610尺寸。已经有许多研究探索了一种高效的采样策略。大多数现有方法利用手工设计的采样策略，这些策略是基于一些先验知识进行预定义的。然而，在训练过程中，模型不断更新，因此固定的采样策略可能在所有阶段都不起作用。例如，广泛使用的困难样本挖掘策略挖掘对训练影响最大的困难元组，但它也忽略了一系列可能在开始时有帮助的简单样本。这引发了一个自然的问题：如何在不同的训练阶段选择适当的采样策略？在这项工作中，我们提供了一个积极的解决方案来回答这个问题。我们提出了一种自适应可学习的评估（ALA）方法，它能够自适应地进行采样，以最大化训练度量的泛化能力，流程图如图1所示。传统的困难样本挖掘策略根据其困难程度的标准将每个元组的权重设置为0或1。我们通过采用生成介于0和1之间的权重的软加权方案来扩展它。考虑到度量训练的输入是一系列元组，我们提出了一个序列感知的评估器，能够整合从先前输入和当前模型状态中提炼的知识。此外，我们认为现有深度度量学习方法的成功受到了过拟合的阻碍，如[43]所证实。受此启发，我们将所提出的评估器的学习形式化为一个元学习问题，其元目标是最大化泛化能力。为了实现这一目标，我们采用了基于情节的训练方案，并使用两个不相交标签的子集构建每个情节，以模拟训练集和测试集的划分。以这种方式训练的度量方法与评估器一起寻找良好泛化的方向。在CUB-200-2011、Cars196和Stanford OnlineProducts数据集上的实验结果表明，所提出的ALA方法在图像检索和聚类任务中改善了现有方法的性能。02. 相关工作0深度度量学习：代表性深度度量学习方法的训练包括两个基本组成部分：采样和更新。关于损失函数和采样策略，近期的进展有两个趋势。第一个趋势的工作设计了不同的损失函数，考虑了埋藏在训练样本下的各种信息。例如，三元组损失将负样本对的距离推开，使其大于正样本对的距离。Sohn将三元组损失扩展为N对损失，一次性将N-1个负样本全部推开。Ustinova等提出了直方图损失，惩罚了正负样本相似度分布的重叠。第二个趋势的工作旨在探索一种有效的采样策略。现有的大多数方法利用手工设计的采样策略，基于一些先验知识进行预定义。然而，在训练过程中，模型不断更新，因此固定的采样策略可能在所有阶段都不起作用。例如，广泛使用的困难样本挖掘策略挖掘对训练影响最大的困难元组，但它也忽略了一系列可能在开始时有帮助的简单样本。这引发了一个自然的问题：如何在不同的训练阶段选择适当的采样策略？在这项工作中，我们提供了一个积极的解决方案来回答这个问题。我们提出了一种自适应可学习的评估（ALA）方法，它能够自适应地进行采样，以最大化训练度量的泛化能力，流程图如图1所示。传统的困难样本挖掘策略根据其困难程度的标准将每个元组的权重设置为0或1。我们通过采用生成介于0和1之间的权重的软加权方案来扩展它。考虑到度量训练的输入是一系列元组，我们提出了一个序列感知的评估器，能够整合从先前输入和当前模型状态中提炼的知识。此外，我们认为现有深度度量学习方法的成功受到了过拟合的阻碍，如[43]所证实。受此启发，我们将所提出的评估器的学习形式化为一个元学习问题，其元目标是最大化泛化能力。为了实现这一目标，我们采用了基于情节的训练方案，并使用两个不相交标签的子集构建每个情节，以模拟训练集和测试集的划分。以这种方式训练的度量方法与评估器一起寻找良好泛化的方向。在CUB-200-2011、Cars196和Stanford OnlineProducts数据集上的实验结果表明，所提出的ALA方法在图像检索和聚类任务中改善了现有方法的性能。0有效的采样策略对于训练度量具有至关重要的影响。度量学习过程中使用的样本质量不仅影响训练的收敛速度，更重要的是影响方法的性能。广泛使用的方法是困难负样本挖掘策略，它在训练集中对提供最多信息的假阳性样本进行欠采样。困难挖掘可能会导致分布偏移，因为欠采样[52]，这激发了一些工作考虑其他采样框架，以避免仅采样困难样本。例如，Wu等人提出根据距离均匀选择样本。Movshovitz等人提出使用代理来高效地表示一组样本，大大减少采样复杂性。Duan等人和Zhao等人通过对抗方式训练生成器合成困难样本。Zheng等人利用线性插值生成具有困难感知性的合成样本。然而，所有这些方法都使用了固定的预定义采样策略，这些策略假设了一些先验知识，因此无法灵活地适应当前的模型状态。元学习：最近的深度学习[15、19、32、39]展示了巨大的能力，并使机器在各种任务中超越了人类。进一步发展的主要问题是需要大量的训练数据和大规模的计算资源。为了解决这个问题，元学习[1、4、9、26、29、33、38、42]旨在学习一个更高级的模型（元学习器），以指导原始模型（学习器）的学习过程，使其能够快速适应新任务。例如，Vinyals等人提出了一种基于情节的训练策略，模拟了一次性学习的过程，用于训练匹配网络，直接将少量标记样本和一个未标记样本映射到其标签。Finn等人提出了一种模型无关的元学习算法，学习一组初始参数，使模型能够快速适应新任务。受到元学习中最新工作的启发，我们设计了一个可学习的评估器作为元学习器，并利用它来自适应地训练度量，以最大化泛化能力。为了实现这一目标，我们采用了基于情节的训练方案，其中我们构建每个情节来模拟训练和测试的过程。与大多数现有的元学习方法不同，我们训练一个元学习器来执行采样，如[50]所示，在深度度量学习中具有显著的影响。0在本节中，我们首先介绍深度度量学习的基本思想，并回顾传统的硬挖掘采样策略。然后，我们提出了考虑训练样本的顺序信息的自适应可学习评估器。最后，我们提出了一种有效的方法，通过最大化泛化能力来同时学习评估器。LossLoss++Loss++TupleTupleTupleWeightWeight+EpisodeMetricXw · LossAAACAXicbZDLSsNAFIYnXmu9Rd0IbgaL4KokIuhKCm5cuKhgL9CEMplM2qGTTJg5UUuoG1/FjQtF3PoW7nwbp20W2vrDwMd/zuHM+YNUcA2O820tLC4tr6yW1srrG5tb2/bOblPLTFHWoFJI1Q6IZoInrAEcBGunipE4EKwVDC7H9dYdU5rL5BaGKfNj0kt4xCkBY3XtfU9nMb7HHg0lYA/YA+TXUutR1644VWciPA9uARVUqN61v7xQ0ixmCVBBtO64Tgp+ThRwKtio7GWapYQOSI91DCYkZtrPJxeM8JFxQhxJZV4CeOL+nshJrPUwDkxnTKCvZ2tj879aJ4Po3M95kmbAEjpdFGUCg8TjOHDIFaMghgYIVdz8FdM+UYSCCa1sQnBnT56H5knVNXxzWqldFHGU0AE6RMfIRWeohq5QHTUQRY/oGb2iN+vJerHerY9p64JVzOyhP7I+fwByQZbfAAACAXicbZDLSsNAFIYnXmu9Rd0IbgaL4KokIuhKCm5cuKhgL9CEMplM2qGTTJg5UUuoG1/FjQtF3PoW7nwbp20W2vrDwMd/zuHM+YNUcA2O820tLC4tr6yW1srrG5tb2/bOblPLTFHWoFJI1Q6IZoInrAEcBGunipE4EKwVDC7H9dYdU5rL5BaGKfNj0kt4xCkBY3XtfU9nMb7HHg0lYA/YA+TXUutR1644VWciPA9uARVUqN61v7xQ0ixmCVBBtO64Tgp+ThRwKtio7GWapYQOSI91DCYkZtrPJxeM8JFxQhxJZV4CeOL+nshJrPUwDkxnTKCvZ2tj879aJ4Po3M95kmbAEjpdFGUCg8TjOHDIFaMghgYIVdz8FdM+UYSCCa1sQnBnT56H5knVNXxzWqldFHGU0AE6RMfIRWeohq5QHTUQRY/oGb2iN+vJerHerY9p64JVzOyhP7I+fwByQZbfAAACAXicbZDLSsNAFIYnXmu9Rd0IbgaL4KokIuhKCm5cuKhgL9CEMplM2qGTTJg5UUuoG1/FjQtF3PoW7nwbp20W2vrDwMd/zuHM+YNUcA2O820tLC4tr6yW1srrG5tb2/bOblPLTFHWoFJI1Q6IZoInrAEcBGunipE4EKwVDC7H9dYdU5rL5BaGKfNj0kt4xCkBY3XtfU9nMb7HHg0lYA/YA+TXUutR1644VWciPA9uARVUqN61v7xQ0ixmCVBBtO64Tgp+ThRwKtio7GWapYQOSI91DCYkZtrPJxeM8JFxQhxJZV4CeOL+nshJrPUwDkxnTKCvZ2tj879aJ4Po3M95kmbAEjpdFGUCg8TjOHDIFaMghgYIVdz8FdM+UYSCCa1sQnBnT56H5knVNXxzWqldFHGU0AE6RMfIRWeohq5QHTUQRY/oGb2iN+vJerHerY9p64JVzOyhP7I+fwByQZbfAAACAXicbZDLSsNAFIYnXmu9Rd0IbgaL4KokIuhKCm5cuKhgL9CEMplM2qGTTJg5UUuoG1/FjQtF3PoW7nwbp20W2vrDwMd/zuHM+YNUcA2O820tLC4tr6yW1srrG5tb2/bOblPLTFHWoFJI1Q6IZoInrAEcBGunipE4EKwVDC7H9dYdU5rL5BaGKfNj0kt4xCkBY3XtfU9nMb7HHg0lYA/YA+TXUutR1644VWciPA9uARVUqN61v7xQ0ixmCVBBtO64Tgp+ThRwKtio7GWapYQOSI91DCYkZtrPJxeM8JFxQhxJZV4CeOL+nshJrPUwDkxnTKCvZ2tj879aJ4Po3M95kmbAEjpdFGUCg8TjOHDIFaMghgYIVdz8FdM+UYSCCa1sQnBnT56H5knVNXxzWqldFHGU0AE6RMfIRWeohq5QHTUQRY/oGb2iN+vJerHerY9p64JVzOyhP7I+fwByQZbftion ability of the trained metric.Suppose we have a set of samples X = [x1, x2, · · · , xN]and their corresponding class labels L = [l1, l2, · · · , lN].The objective of deep metric learning is to learn an embed-ding function f(x; θ) which maps a sample from the origi-nal space to an n-dimensional embedding (metric) space sothat in this space samples from the same class form a clusterfar away from the other samples. More concretely, we mea-sure the distance between two examples by computing theEuclidean distance between them in the embedding space:D(xi, xj) = d(yi, yj; θ) = ||yi − yj||2,(1)where y = f(x; θ) is the learned embedding of x. Theobjective of deep metric learning can be formulated as:minθ� d(yi, yj; θ), if li = lj−d(yi, yj; θ), if li ∕= lj.(2)θ∗ = arg minθ�T∈TTTL(T; fθ),(3)L(T(y, y+, y−)) = [d(y, y+)2 − d(y, y−)2 + m]+,(4)y−h = arg miny−hd(yh, y−h ).(5)=arg minθ29620评估器0评估器0评估器0状态状态0权重0状态0训练0图2.提出的序列感知可学习评估的示意图。对于每个元组上的损失，评估器生成一个自适应权重，结合了该元组的结构信息以及先前输入和当前模型状态的知识。为了实现这一点，一个潜在状态在整个训练过程中通过评估器传递，其中包含从先前经验中学到的信息。03.1. 问题建模0深度度量学习方法通常使用深度网络作为嵌入函数 f ( x ; θ) ，其中 θ表示网络的参数。网络通过最小化一个精心设计的损失函数来实现（2）：0其中 T = { y i } ∈ TTT是由几个具有特定类别结构的示例组成的元组。例如，传统的三元组损失作用于一个由三个样本（也称为三元组）组成的元组。一个三元组 T = { y , y + , y − } 由一个锚点 y，一个与锚点属于同一类的正样本 y +以及一个来自不同类别的负样本 y −组成。三元组损失的目标是通过固定的间隔 m，增加锚点与负样本之间的距离大于锚点与正样本之间的距离：0其中 [ ∙ ] + = max ( ∙ , 0) 是铰链函数。给定 N个训练样本，三元组集合 TTT 的复杂度大小为 O ( N 3 )，因此平均利用所有三元组是低效的。广泛使用的技术是硬挖掘策略，它在一个批次中挖掘出困难的三元组，并忽略简单的三元组，因为它们对网络提供的信息很少。一种简单的方法是在一个批次中找到与锚点 y h 之间距离最小的负样本 y − h ，从而获得一个困难的三元组 T hard = { y h , y +h , y − h } ：0从（4）和（5）中我们可以看出，困难三元组导致了大量的损失，因此为训练提供了丰富的信息。配备硬挖掘策略的网络的训练可以表示为：0θ� = arg min θ0T ∈ TTT hard Lθ)0T ∈TTT0TTT hard (T) L (T; fθ), (6)0TTT hard (T) 是一个指示函数，当 T ∈ TTT hard 时等于1，否则为 0。03.2. 基于序列的可学习评估0假设我们从训练集中按顺序随机抽取 N个元组。我们将这个抽样序列 T N ∈ TTT N分成批次，并使用它们通过小批量梯度下降来训练网络。硬挖掘策略可以被看作是为序列中的每个样本分配一个权重，对于困难的元组，权重为 1，否则为0。我们超越了硬挖掘策略，并定义了一个样本评估策略 S∈ SSS，它将一个元组序列 T N ∈ TTT N映射到一个权重序列 (w1, w2, ..., wN) ∈ RRRN，其中每个wi ∈ (0, 1)。我们定义使用评估策略 S 进行训练为：CNNLSTM+�A(Ti; φ)L(Ti; fθ).(9)29630损失0元组连接0损失0全连接层0图3.提出的DML-ALA的网络架构。我们在CNN网络之后添加了一个全连接层作为度量。评估器由一个LSTM模块和一个全连接层组成。一个元组的嵌入被连接起来，然后作为评估器的输入。0定义使用评估策略 S 进行训练为：0θ� = arg min θ0i=1 Si (T N ) L (T i ; fθ), (7)0其中 S i 表示样本评估策略 S 的第 i 个输出，T i 表示序列 TN 中的第 i 个示例。我们认为 SSS包括各种采样策略。例如，我们可以将硬挖掘策略表示为 S0TTT hard (T i ) } ∈SSS。大多数现有方法利用手工设计的采样策略，通常假设一些先验知识，并且不能适应模型在不同阶段的情况。例如，硬挖掘策略在开始时可能有效，但随着训练的进行，困难样本的数量减少，很少能提供进一步的监督。此外，硬挖掘策略的欠采样可能导致分布偏移，损害泛化能力。为了解决这个问题，我们提出了一种基于序列的可学习样本评估策略，它根据当前模型状态的知识自适应地为每个元组生成一个权重，以最大限度地有利于度量的训练，如图2所示。实际上，元组序列 T N通常是逐步生成的，因此我们直到最后一步才看到整个序列。我们改为考虑 SSS的一个子集，并定义一个可学习的评估器 A，它以元组 T和状态变量 h 作为输入，并输出一个实数 w ∈ (0, 1)，即A(T, h; φ) = w，其中 φ 是参数。我们还假设评估器 A确定一个状态转换函数 H A ：h → H(h, T; φ)。评估器 A自然地引出一个样本评估策略：0S A ( T N ) = { A ( T i , h i − 1 ; φ i ) } ∈ SSS, (8)0其中 T i 是序列 T N 中的第 i 个元组，h i − 1 = H(h i − 2,T i − 1; φ i − 1) 是第 i − 1 步的状态变量，φ i 是第 i步评估器 A 的参数。0状态变量 h编码了来自先前状态的信息，使得生成的权重能够意识到 TN的顺序。它通过训练将先前的输入元组和模型状态的知识传递给评估器，使评估器能够与度量交互。评估器和转换函数也会在训练过程中进行更新，能够适应不同的训练阶段和模型状态。我们利用长短期记忆（LSTM）[11]网络来集成评估器和状态转换函数。在获得一组嵌入后，我们首先将它们连接成一个向量，并将其用作LSTM的输入。在每个步骤中，LSTM网络接收这个连接向量，并根据同时被细化以包含从这个步骤中学到的知识的潜在状态单元输出一个向量。我们在LSTM网络之后添加了一个具有sigmoid激活函数的全连接层，将输出向量映射到一个实数 w ∈ (0, 1)作为评估的权重。状态变量隐藏在LSTM模块内部，因此在序列 T N的上下文中，为了简洁起见，我们可以在评估器输入中省略它（即 w = A(T; φ)）。使用评估器 A进行训练可以表示为：0θ� = arg min θ0N个0所提出的序列感知可学习评估器可以保留先前训练过程中的信息，并利用它来确定当前的策略。此外，评估器与度量模型进行交互，并更新自身以产生最适合后续训练过程的自适应权重。图3显示了所提出的DML-ALA的网络架构。03.3. 评估器的自适应元训练0通过可学习的评估器，我们可以自适应地定制度量模型的训练。然而，这样一个评估器的学习并不是简单的。直接最小化(9)关于φ的值会导致一个平凡解A(T; φ�) =0，对于所有T∈TTT。我们提出了一种基于元学习的高效方法，在训练过程中同时学习评估器，以最大化训练度量的泛化能力，如图1所示。评估器在训练过程中起着重要的作用。它更像是度量的优化器，引导训练的方向。此外，评估器本身也是可学习的。评估器的学习是一个更高层次的学习问题，我们将其形式化为元学习问题。现有的深度度量学习方法的成功受到了过拟合的阻碍。真实图像在背景、光照、姿态等方面通常有很大的变化。然而，度量学习的一般目标(2)通常会抑制类内变化，导致度量的泛化能力较差。trA(T; φ)L(T; fθ)trA(T; φ)∇θL(T; fθ),(10)T′vaL(T′; fθ′)(11)=minφ29640算法1：DML-ALA输入：训练图像集、标签、学习率α和β、episode大小m、迭代次数T，以及每个episode中评估器的迭代次数K。输出：度量θ的参数和评估器φ的参数。 1: 对于iter = 1, 2,..., T，执行以下步骤： 2:构建一个包含m个样本的episode，并形成两组元组{ T }tr和{ T } va。03: 使用(10)对θ进行一次梯度更新，得到θ'。 4: 对于iter =1, 2, ..., K，执行以下步骤： 5:使用(12)对评估器参数φ进行更新。 6: 结束循环。07:使用(13)根据更新后的评估器参数φ�对度量参数θ进行更新。 8: 结束循环。 9: 返回θ和φ。0通过设计损失函数来解决这个问题是困难的，因为这可能与(2)相矛盾。相反，我们提出训练一个评估器来最大化学习度量的泛化能力。我们通过利用基于episode的训练思想[42]来实现这一目标。在每次训练迭代中，我们通过从M和N两个具有不同标签的子集中随机采样来构建一个episode。我们将它们分别称为训练子集和验证子集。然后我们从各自的子集中形成两组元组{ T } tr和{ T }va。我们设计一个episode来模拟训练和测试的过程。我们的目标是寻找一种样本评估策略，以在验证子集上最大化度量性能，在利用它来更新训练子集上的度量之后。在每次迭代中，我们首先使用(9)对θ进行一次梯度更新，得到更新后的参数θ'：0θ' = θ - α�θ0= θ - α0其中α是度量的学习率。然后我们在验证子集上评估更新后的模型，并使用验证损失来训练评估器。更具体地说，评估器的元训练目标可以表示为：0最小化 φ0空格0T′ ∈{ T } va L ( T′ ; fθ − α�θL ( T ; fθ ) )。0请注意，此损失是在具有更新参数θ′的度量上计算的，该度量对φ可微分。0理想情况下，我们希望训练评估器A来最小化（11），但为了提高效率，我们只更新它固定次数K。对于每次更新：0φ ← φ − β�φ′0T′ ∈{ T } va L ( T′ ; fθ′ )，(12)0其中β是评估器A的元学习率。最后，我们使用更新后的评估器Aφ�来更新原始度量（即fθ，而不是fθ′）：0θ ← θ − α0T ∈{ T } tr A ( T ; φ� ) �θL ( T ; fθ )，(13)0并将其用作此迭代的学习度量参数。我们仅使用更新的模型fθ′来评估当前优化器（带有评估器Aφ）的泛化能力，并在每次迭代后丢弃它。度量使用更新后的评估器Aφ�使用（13）进行优化，确保度量始终朝着良好的泛化方向进行训练。我们随机从训练集中抽取每个episode，因此可以使用随机梯度下降（SGD）来执行度量和评估器的优化。度量和评估器在每次迭代中交替更新，但可以看作是在整个过程中同时进行训练的。度量和评估器相互耦合，共同寻求具有良好区分能力和泛化能力的表示。算法1详细介绍了提出的DML-ALA。03.4. 实现细节0我们在实验中使用Tensorflow包实现了我们的方法。为了与大多数深度度量学习方法进行公平比较，我们使用了在ImageNet ILSVRC数据集[28]上预训练的GoogLeNet[39]模型，然后是一个随机初始化的全连接层。我们将我们的方法的输出嵌入大小设置为512。我们使用两层LSTM[11]模型和一个全连接层来实现评估器，每层都有64个隐藏单元。我们将所有图像归一化为256×256作为输入。对于训练，我们进行标准的随机裁剪（227×227）和水平随机镜像进行数据增强。我们将CNN的基本学习率设置为10^-4，最后一个全连接层的学习率设置为10^-3，评估器的学习率设置为4×10^-4。在每次迭代中，我们构建一个包含100个样本的训练子集和一个包含20个样本的验证子集，并更新评估器3次。我们通过在训练集上进行交叉验证来调整所有超参数。04. 实验0在本节中，我们在图像检索和聚类任务中评估了提出的框架。我们进行了29650在三个广泛使用的基准数据集上进行了实验，包括CUB-200-2011 [44]、Cars196 [18]和Stanford Online Products[36]数据集。04.1. 数据集0我们按照[36]的方法，在训练集与测试集不重叠的设置下评估了我们的方法。我们将每个数据集分为训练集和测试集，具体如下所述：0•CUB-200-2011数据集[44]包含11,788张包含200种鸟类的图像。我们将图像分为训练集（包含前100个物种，共5,864张图像）和测试集（包含其余100个物种，共5,924张图像）。0•Cars196数据集[18]由16,185张包含196种汽车品牌和型号的图像组成。我们将图像分为训练集（包含前98个型号，共8,054张图像）和测试集（包含其余100个型号，共8,131张图像）。0• Stanford OnlineProducts数据集[36]包含来自eBay.com的22,634个在线产品的120,053张图像。我们将图像分为训练集（包含前11,318个产品，共59,551张图像）和测试集（包含其余11,316个产品，共60,502张图像）。04.2. 评估指标0根据最近的深度度量学习研究[8, 35,36]，我们在图像检索和聚类任务中进行了实验。我们使用Recall@Ks来评估我们的检索任务，它计算从K个最近邻中至少有一个正确检索示例的图像的百分比。我们使用NMI和F1来评估我们的聚类任务。归一化互信息（NMI）定义为互信息与聚类和真实类别熵的算术平均值的比率，即NMI（Ω，C）= 2I（Ω; C）0H（Ω）+ H（C），其中Ω = {ω1, ∙ ∙ ∙ , ωK}是一组聚类，C = {c1, ∙ ∙ ∙ ,cK}是一组真实类别。ωi表示分配给第i个聚类的样本集，cj表示属于第j个类别的样本集。F1定义为精确率和召回率的调和平均值，即F1 = 2PR0P + R。04.3. 结果和分析0剧集构建的影响：我们构建训练和验证子集以模拟训练和测试的过程，以评估度量的泛化能力。为了研究使用不相交标签的效果，我们进行了一个消融研究，其中原始的三元组损失和我们的方法都使用随机元组。0表1. 在CUB-200-2011上使用不同的元组设置的结果。0方法 NMI F1 R@1 R@2 R@40三元组（随机） 48.3 14.5 34.7 47.0 58.3 ALA（随机） 56.625.5 44.4 58.4 70.90三元组（不相交） 49.8 15.0 35.9 47.7 59.1 ALA（不相交）58.7 26.3 46.3 60.1 72.40表2. 在CUB-200-2011的训练集和测试集上的结果。0方法 NMI F1 R@1 R@2 R@40三元组（训练） 76.5 53.0 65.2 72.5 79.9 ALA（训练） 79.356.1 66.5 74.3 81.00三元组（测试） 49.8 15.0 35.9 47.7 59.1 ALA（测试） 58.726.3 46.3 60.1 72.40（a）方差（b）均值0（c）难度（d）比率0图4. 在CUB-200-2011数据集上对ALA（三元组损失）的权重分析。0表1显示，使用随机验证子集的ALA仍然提升了原始方法的性能，但与使用不相交元组相比，提升幅度较小。原因是由于联合标签的限制较少，评估者的限制较少，每个剧集无法精确模拟训练和测试集的划分。这说明自适应评估和使用不相交子集都有助于性能改进。减轻过拟合：表2显示了在CUB-200-2011数据集上使用三元组损失与/不使用ALA的训练和测试性能。我们可以看到，在可比较的训练性能下，我们提出的ALA在测试集上取得了更好的结果。这验证了所提出的ALA在一定程度上可以减轻过拟合。评估元组权重的分析：我们在CUB-200-2011数据集上进行了三元组损失的实验，以分析评估的元组权重。图4（a）和4（b）显示了每次迭代中的权重方差和均值。我们观察到，在开始时，我们的ALA几乎平等地对待所有样本，但随着训练的进行，学会分配不同的权重。这表明采样策略主要影响训练的后半部分，当进一步训练模型需要更具挑战性的元组时。ALA58.726.346.360.172.482.6ALA61.729.667.278.486.692.0ALA89.735.468.683.191.9Lifted56.422.646.959.871.281.5Clustering59.2-48.261.471.881.9N-pair60.228.251.964.374.983.2Angular61.030.253.665.075.383.7Triplet49.815.035.947.759.170.0Triplet + ALA58.726.346.360.172.482.6Lifted57.825.159.970.479.687.0Clustering59.0-58.170.680.387.8N-pair62.731.868.978.985.890.9Angular62.431.871.380.787.091.8Triplet52.917.945.157.469.779.2Triplet + ALA61.729.667.278.486.692.029660表3. 在CUB-200-2011数据集上与现有采样方法的比较。0方法 NMI F1 R@1 R@2 R@4 R@80随机不相交 49.8 15.0 35.9 47.7 59.1 70.0 半硬 53.4 17.9 40.652.3 64.2 75.0 智能挖掘 58.1 - 45.9 57.7 69.6 79.8 分布加权 56.325.4 44.1 57.5 70.1 80.5 DAML 51.3 17.6 37.6 49.3 61.3 74.4DVML 55.5 25.0 43.7 56.0 67.8 76.9 HDML 55.1 21.9 43.6 55.867.7 78.3 DE-DSP 53.7 19.8 41.0 53.2 64.8 -0表4. 在Cars196数据集上与现有采样方法的比较。0方法 NMI F 1 R@1 R@2 R@4 R@80随机不相交 52.9 17.9 45.1 57.4 69.7 79.2 半硬 55.7 22.4 53.265.4 74.3 83.6 智能挖掘 58.2 - 56.1 68.3 78.0 85.9 距离加权 58.325.4 59.4 72.3 81.6 87.2 DAML 56.5 22.9 60.6 72.5 82.5 89.9DVML 61.1 28.2 64.3 73.7 79.2 85.1 HDML 59.4 27.2 61.0 72.680.7 88.5 DE-DSP 55.0 22.3 59.3 71.3 81.3 -0表5. 在Stanford OnlineProducts数据集上与现有采样方法的比较。0方法 NMI F 1 R@1 R@10 R@1000随机不相交 86.3 20.2 53.9 72.1 85.7 半硬 86.7 22.1 57.875.3 88.1 距离加权 87.9 23.4 58.9 77.2 89.6 DAML 87.122.3 58.1 75.0 88.0 DVML 89.0 31.1 66.5 82.3 91.8 HDML87.2 22.5 58.5 75.5 88.3 DE-DSP 87.4 22.7 58.2 75.8 88.40为了展示ALA分配更大权重的三元组的一方面，我们定义了加权难度的平均值0d ( y i , y − i ) 是每个三元组中正样本和负样本之间距离的比率，w i是评估的权重。AWH反映了加权元组的平均难度水平。图4(c)显示了每次迭代中ALA和原始方法的AWH，图4(d)显示了两者的比率。我们可以看到AWH趋于减小，但是ALA在训练过程中为更难的元组分配更大的权重，以保持AWH在较高水平。这是合理的，因为使用难度逐渐增加的样本来训练模型是有益的[14,56]

下载后可阅读完整内容，剩余1页未读，立即下载