深度度量学习中的大到小图像分辨率不对称

108 浏览量更新于2023-10-15 收藏 12.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

01530354045R50:MR50:0.5MR18:MR18:0.5MR50:M→0.5MR50:M→0.7MR50:M→0.35MR50:M→0.5MR50:M→0.7MR50:M→0.35MR50→R18:M14510深度度量学习中的大到小图像分辨率不对称0Pavel Suma Giorgos Tolias 视觉识别组，捷克理工大学电气工程学院0sumapave,toliageo@fel.cvut.cz0摘要0视觉深度度量学习通过优化表示网络，将（非）匹配的图像对映射到（非）相似的表示。在测试阶段，通常对应于图像检索，数据库和查询示例都由同一个网络处理，以获得用于相似性估计和排序的表示。在这项工作中，我们通过以小图像分辨率对查询进行轻量级处理，探索了一种非对称设置，以实现快速表示提取。目标是获得一个用于数据库示例的网络，该网络经过训练可以处理大分辨率图像并受益于细粒度的图像细节，以及一个用于查询示例的网络，该网络处理小分辨率图像但保持与数据库网络对齐的表示空间。我们通过一种蒸馏方法实现了这一目标，该方法通过每个图像的耦合增强来将知识从固定的教师网络传递给学生网络，而不使用任何标签。与以往从不同网络架构的角度探索这种非对称性的工作不同，本文使用相同的架构但修改图像分辨率。我们得出结论，分辨率不对称是优化性能/效率权衡的更好方法，而不是架构不对称。评估在三个标准的深度度量学习基准上进行，分别是CUB200、Cars196和SOP。代码：https://github.com/pavelsuma/raml01. 引言0深度学习模型的性能通常随其规模和计算复杂性的增加而提高。大部分工作都集中在提高识别性能上，因此依赖于训练和部署昂贵的模型。标准的深度网络架构[21,18]有不同的变体，涵盖了性能和效率之间的一系列权衡。优化这种权衡是吸引了很多关注的研究领域，因为高效和轻量级的深度模型允许0查询提取成本（GFLOPs）0性能（mAP）0教师对称（1）教师非对称（res.）（3）0教师-学生非对称（网络）�（2）0教师-学生非对称（res.）�（4）0图1.CUB200数据集的检索性能（mAP）与查询表示（GFLOPs）的提取成本之间的关系。使用的符号格式是“数据库设置”→“查询设置”，其中R50和R18是ResNet架构的两个变体。M等于448，表示图像的宽度和高度。与标准对称检索（圆形）相反，非对称设置中的查询由较轻的网络（三角形）或较小的分辨率（菱形、五边形）处理。�：使用所提出的蒸馏方法训练的网络，以实现分辨率不对称（本文的重点），并进行网络不对称的比较。0在移动和资源有限设备上部署或实现实时执行。因此，强大而高效的模型是可取的。其中一种标准做法是首先训练一个大模型，然后使用它来获得一个较小的模型，其中权重剪枝[17]和网络蒸馏[20]是实现这一目标的两种主要方法。网络蒸馏使用大模型作为教师，指导较小的学生模型的训练。蒸馏的大部分工作与分类任务相关，其中教师的逻辑回归作为监督[20]。然而，一些工作侧重于度量学习和图像检索，其中底层的向量表示[33]或成对的标量相似度值[30]作为蒸馏的监督。在分类中，一旦获得了小模型，就不再使用大模型。然而，由于检索任务的成对性质，可能出现一种可能的不对称性；查询和数据库示例由两个不同的网络处理，其中查询示例的网络与数据库的网络不同。14520前者在查询时间内减少提取成本。对于小到中等大小的数据库或使用快速最近邻搜索方法[24, 2,25]，表示提取成本可能成为测试时间的瓶颈。在非对称设置中，与两个网络对应的两个表示空间需要对齐和兼容。这是Budnik和Avrithis[6]引入的非对称度量学习（AML）的目标。AML在非对称网络架构的视角下进行研究；学生模型是教师的修剪变体，是一种可能通过神经架构搜索发现的不同但较轻的架构。所有这些方面都减少了查询时间。输入图像的分辨率是一个被忽视的重要方面。使用完全卷积架构允许任何输入分辨率，而表示提取成本在这方面大致是二次的。已知那些专注于实例级别识别的度量学习任务受益于使用较大的图像分辨率[31,4]。同样，细粒度识别也需要对象细节[35]，正如本文所示。因此，输入分辨率是性能/效率权衡的关键参数。本文侧重于AML，其中不对称性体现在数据库网络和查询网络之间的输入分辨率上。这两个架构是相同的，但查询网络以低分辨率训练，以匹配高分辨率的数据库网络的表示，这是通过将知识从教师（数据库网络）传递给学生（查询网络）的蒸馏过程来完成的。本文的贡献总结如下：0•首次在深度度量学习中探索了输入图像分辨率的不对称性。0•提出了一种蒸馏方法，用于对齐学生和教师之间的表示（绝对蒸馏）和成对相似性（关系蒸馏），这些相似性是在相同图像的任务定制增强中获得的。0•我们得出结论，与网络不对称性相比，分辨率不对称性是优化性能与效率权衡的更好方式。0•作为副作用，通过蒸馏，学生在传统/对称检索中明显优于深度度量学习基线。0图1显示了性能与效率的比较。与基线相比，其中一个网络以相同分辨率（圆圈）和不同分辨率（菱形）提取数据库和查询示例时，蒸馏效果更好。分辨率优势也很明显。关于这些实验的更多细节将在第4节中讨论。02. 相关工作0不对称嵌入的兼容性。在图像检索中，当数据库示例由不同于查询示例的网络处理时，必须确保嵌入的兼容性。为此，AML[6]以不对称的方式重新定义了标准度量学习损失，即锚点示例由查询网络处理，而数据库网络处理相应的正负示例。然而，对于表示空间对齐的目标，这些损失被简单的无监督回归损失在嵌入之间进行知识蒸馏的形式所超越。另一种最近的方法遵循无监督蒸馏的范例，强制学生模仿教师嵌入空间中图像邻居的上下文相似性[50]。除了优化学生网络的权重外，还包括使用神经架构搜索来进一步优化网络架构[11]，这是一种侧重于分类训练而不是度量学习的方法。基于分类的训练是与我们相关任务中的主要方法，称为向后兼容学习（BCT）[36]。然而，底层任务假设是不同的。其目标是在不回填当前数据库的情况下添加使用更强大的骨干版本处理的新数据。通过对同一输入图像的旧和新嵌入进行旧分类器的交叉熵损失来建立兼容性。这可以扩展到多个嵌入版本的兼容性[23]，或者通过连续学习方法来解决开放集向后兼容性[42]。类原型对齐[3, 52]和两个空间的转换[43,22]也是解决不一致表示空间的其他方法，而不仅仅是单个空间。当从使用不同模型的不同设备收集嵌入时，也会出现不对称性，例如在面部领域中，识别应与所有模型兼容[8]，或在多个代理的定位和映射任务中[12]。蒸馏和小图像分辨率。即使在当前时代，GPU的平均视觉内存允许在训练和测试期间处理更大的分辨率，图像下采样仍然是主要的预处理步骤。观察到，使用更大的图像可靠地转化为更高的性能，无论目标或数据集如何[35]。然而，仍然有许多有效的用例需要使用有限的资源进行推理。在这种情况下，蒸馏用于对齐高分辨率和低分辨率的嵌入。14530以特征回归[15]或KL散度[26]的形式提供低分辨率图像。有些网络专门训练以便在速度和准确性之间实现动态输入分辨率变化的最佳平衡。例如，使用相互学习进行蒸馏[51]或使用即时学习的教师进行集成[47]。蒸馏在从小到大的方向上也很流行，例如在单幅图像超分辨率领域[54, 14, 19, 28]。03. 方法0设X为所有图像的空间，s: X × X → [−1,1]为一个估计图像x, q ∈ X之间的标量相似性s(x,q)的相似性函数，也称为示例。在测试阶段，即图像检索中，估计查询示例q与数据库中每个示例之间的相似性。然后通过按降序排列相似性来执行检索。为了高效执行检索，使用表示函数f: X →Rd将输入示例从X映射到d维表示向量。这些实值向量称为嵌入，与Rd中的标准相似度度量结合使用以获得s(∙)。在本工作中，假设函数f(∙)由一个完全卷积网络（FCN）实现，也表示为fθ(∙)，表示深度网络由参数集θ参数化。由于使用FCN，输入图像可以具有任何分辨率。03.1. 对称检索0在传统的对称检索任务中，通过简单的点积（由于ℓ2归一化的嵌入而等效于余弦相似性）计算相似性s(x,q)，公式如下：0s(x, q) := ss(x, q, fθ) = fθ(x)Tfθ(q), (1)0其中表示函数fθ(∙)用于以相同对称的方式处理查询和数据库示例，即使用相同的网络架构和参数。在训练阶段，通过对成对的语义标签进行优化，使匹配（不匹配）示例在表示空间中映射到附近（远离）的嵌入。这种训练称为深度度量学习。常见的损失函数示例包括对比损失[16]、三元组损失[45]和多重相似性损失[46]，这些损失涉及对ss(∙)进行优化以训练成对的示例。以这种对称方式训练的网络构成本文中的教师。01标准损失中有些使用欧氏距离，但也可以使用相似性进行替代。在本工作中，我们使用相似性而不是距离。0尽管如此，教师网络也可以使用其他不直接涉及训练示例对比的深度度量损失进行训练[40,13]。教师的测试和训练都使用对称相似性ss(∙)。03.2. 不对称检索 - 网络层面0本小节介绍我们依赖的先前工作的背景。不对称相似性定义为0s(x, q) := san(x, q, fθ, gϕ) = fθ(x)Tgϕ(q), (2)0其中，gϕ: X →Rd表示一个带有参数集ϕ的第二个FCN，仅用于处理查询。不对称性是针对处理查询和数据库示例的网络架构而言的。查询网络g(∙)的架构应比数据库网络f(∙)更轻，以实现查询加速的不对称性。根据之前的工作[6]，我们假设数据库嵌入是固定的，并且使用fθ(∙)进行提取，该网络通过优化对称相似性进行训练；无法修改数据库网络或数据库嵌入。Budnik和Avrithis[6]通过回归过程（也称为绝对蒸馏）执行蒸馏过程，将固定的教师（数据库）网络的知识转移到学生（查询）网络。这是通过优化学生嵌入以使其与特定训练图像x的教师嵌入匹配来实现的，例如通过最小化损失函数(1−san(x,x,fθ,gϕ))2。他们的研究得出结论，这种简单的蒸馏过程在不对称检索中表现最佳，因为它直接反映了任务的目标，即将两个表示空间对齐。与使用语义标签的损失组合相比，使用标签的组合对于不对称检索的性能较差，因为它会损害对齐过程。03.3. 不对称检索 - 分辨率方面0在本小节中，我们首先强调了图像分辨率对于对称相似性的影响，然后引入了分辨率不对称性。尽管输入分辨率可以是任意的，但在训练过程中所看到的细节水平会影响表示中捕捉信息的能力。实际上，我们得出以下两个观察结果：(i)训练中使用的分辨率对测试时使用的分辨率施加了限制[41]；我们假设网络会调整到特定的细节水平和对象或其部分的尺度。(ii)细粒度识别，这是本工作的主要焦点，受益于比通常用于图像分类任务的分辨率更大的分辨率。表1中的结果支持这些观察结果；性能下降63444831722415811263443.942.237.330.322.715.344842.042.739.232.825.017.531735.940.739.634.126.318.322421.631.636.334.327.920.715811.419.127.531.728.321.911210.916.822.928.026.821.963444831722415811263440.435.526.716.79.35.044842.341.634.523.013.06.331731.936.233.825.215.47.622422.831.333.329.320.710.915812.721.027.329.125.215.41126.010.416.722.122.116.663444831722415811263460.758.152.945.137.430.044861.061.657.550.842.433.931759.159.460.451.843.734.122455.960.060.057.450.841.015851.355.255.955.253.241.511245.849.651.851.948.747.214540CUB200测试分辨率0训练分辨率0Cars196测试分辨率0训练分辨率0SOP测试分辨率0训练分辨率0表1.在网络在不同图像分辨率上进行训练和测试时使用对称相似性的检索性能。此实验不包括数据库和查询之间的任何不对称性。使用ResNet-50作为骨干网络，并使用标签和三元组损失进行训练（相当于我们方法中的教师网络）。报告平均精度。0当存在测试-训练分辨率差异时，训练分辨率较小的情况下稍大的测试分辨率的不对称性表现更好；较大的训练图像分辨率的好处超过了不对称性的坏处。正如Berman等人的工作[4]所示，通过重新参数化非线性池化操作可以减轻上述差异，但这不适用于本工作的不对称任务。第3.2节中的不对称性是由于使用两种不同的网络架构来处理查询和数据库示例。本工作在每个模型的输入图像的分辨率上引入了不对称性。在这种情况下，不对称相似性首先以简单的方式定义为s(x, q) := s ar(x, q, fθ) = fθ(x) Tfθ(r(q))，(3)0其中r: X →X是图像下采样函数。在网络不对称的情况下，不能使用两个不同的网络而不进行任何训练来对齐表示空间。相反，在分辨率不对称的情况下，可以使用相同的网络和参数，如(3)，在不同的分辨率下使用。因此，两个不同分辨率的嵌入被匹配到每个0尽管平均对象尺度存在差异，但与对称情况相比，我们进一步推进了(3)的步骤，并重新参数化查询网络，并通过以下方式定义不对称相似性：0s(x, q) := s ar(x, q, fθ, fϕ) = fθ(x) Tfϕ(r(q))，(4)0在数据库和查询网络的架构相同但参数不同的情况下，我们讨论如何针对分辨率不对称的相似性进行优化。0训练。教师模型fθ已给出，并在大分辨率的训练示例上进行了预训练。教师参数在整个训练过程中都被冻结。我们使用教师的参数θ来初始化学生fϕ；这是一种良好的初始化，使表示空间与分辨率差异保持一致。请注意，对于网络不对称性，没有这样的良好初始化。我们使用两种类型的损失，一种用于执行绝对蒸馏，一种用于执行关系蒸馏[34,30]。图2给出了所提方法的视觉概述。我们也简称教师和学生网络为T(∙)和S(∙)，后者已经包括下采样过程。执行绝对蒸馏，如原始AML工作[6]中所示，通过教师和学生输出之间的回归来完成，给出的损失为0ℓ abs(x, θ; ϕ) = � 1 − sar(x, x, fθ, fϕ) � 2. (5)0注意，ℓ abs介于0和4之间。此损失不涉及任何标签，并适用于训练集中的任何示例，允许在大量训练嵌入中对表示空间进行对齐。耦合增强。引入精心设计的噪声的常见技巧是通过手工制作的领域特定函数随机改变每个网络输入，即随机图像增强。在监督训练期间，模型学会对这种噪声具有不变性，因为单个图像的修改对应于相同的标签。我们提出的方法完全无监督，但利用随机增强来虚拟增加训练集和用于对齐的训练嵌入的数量。我们经验性地观察到，在对称相似度中，随机扰动输入的方式对教师和学生都是相同的至关重要。这些就是我们在这项工作中所称的耦合增强。知识蒸馏已被证明与数据增强高度兼容并且受益匪浅[44]；在我们的案例中也观察到了这一点，但只有在耦合增强的情况下。耦合和非耦合增强的实验和讨论包含在第4节中。111̸θθθϕ=T(y)⊤T(z) − T(y)⊤S(z)2.(8)ℓrel−ss(y, z, θ; ϕ) =ss(y, z, fθ) − ss(r(y), r(z), fϕ)2=�fθ(y)⊤fθ(z)−fϕ(r(y))⊤fϕ(r(z))�2=T(y)⊤T(z) − S(y)⊤S(z)2. (9)L = Labs + λtLrel−ts + λsLrel−ss,(10)14550交叉匹配非对称0非对角线0对角线0非对角线0非对角线0下采样0教师0T0学生0S0使用T耦合增强初始化S0交叉匹配对称03xD0T嵌入03xD0S嵌入0T-T相似度矩阵0S-S相似度矩阵0S-T相似度矩阵0交叉匹配对称0MSE损失0MSE损失0MSE损失0关系术语0绝对术语0关系术语0图2.所提方法的概述。在测试期间处理数据库图像的教师网络经过预训练以在大图像分辨率上运行，并且现在被固定并用于向在小图像分辨率上处理查询的学生网络传授知识。使用同一网络和跨网络计算相同图像的不同增强的所有嵌入之间的相似度。在训练期间使用三个蒸馏损失来使用相似度矩阵。MSE：均方误差。0更正式地，我们将a(x)定义为通过对x应用不同的图像增强获得的示例集。然后，平均绝对蒸馏损失2由0L abs(x, a, θ; ϕ) = 10| a(x) |0z ∈ a(x) ℓ abs(z, θ; ϕ).(6)0关系蒸馏通过使用标量相似性而不是嵌入来指导学生。保留的是两个示例之间的相对比较，因此称为关系[30]。涉及的两个示例是相同原始示例的不同增强，导致每个原始示例分别应用损失。我们提出了两种替代方案，其中教师之间的关系被蒸馏为教师与学生之间的关系或学生与学生之间的关系。前者由0L rel-ts(x, a, θ; ϕ) = 10n0�0y，z ∈a(x)，z ≠ y0ℓ rel-ts(y, z, θ; ϕ), (7)0其中 n = | a(x) | 2 − | a(x) |0ℓ rel-ts(y, z, θ; ϕ) = � ss(y, z, fθ) − sar(y, z, fθ, fϕ) � 202 在数学公式中，我们首先进行扩充，然后进行下采样，这与图2中的顺序不同，但在实践中是相同的。0与（7）中的 L rel − ts 等价，我们通过定义 L rel − ss 来使用 L rel− ss0在之前的工作中，关系蒸馏以（9）的形式在不对称检索中被证明失败，因为它不满足对齐目标，而以（8）的形式被证明是有效的[50]。在我们的情况下，这些蒸馏损失项在特定条件下甚至可以单独起作用，这在第4节中得到了证明和讨论。请注意，我们的三个关系项之一，即（8），与吴等人的工作[50]中的关系项相似。然而，我们不需要昂贵的最近邻过程，只需使用随机扩充。这三个损失中的每一个都是在一个批次中的所有示例上进行平均，分别得到 L abs ，L rel − ts 和 L res − ss 。总损失由以下公式给出：0其中 λ t 和 λ s 是在交叉验证期间调整的超参数。04. 实验0在本节中，我们提供实现细节并呈现实验结果。145604.1. 数据集0我们使用三个标准的深度度量学习数据集进行细粒度识别，分别是Caltech-UCSDBirds（CUB200）数据集[48]，StanfordCars数据集（Cars196）[27]和Stanford OnlineProducts（SOP）[38]。它们分别包含11,788张来自200个类别的鸟类图像，16,185张来自196个类别的汽车图像和120,053张来自22,634个类别的产品图像。按照常见的做法，对于CUB200和Cars196，我们使用前一半的类别进行训练，另一半进行测试，而对于SOP，我们使用提供的训练/测试集。04.2. 实验设置0作为第一步，我们使用标记的训练集来训练教师模型。所有训练图像都被重新采样，使其最大尺寸等于我们所称的数据库分辨率或大分辨率。然后，使用教师模型的权重来初始化学生模型，同时冻结教师模型的权重，并在整个训练集上使用提出的蒸馏损失对学生模型进行优化。在此过程中，学生模型以我们所称的查询分辨率或小分辨率接收输入图像。我们使用不同但固定的种子对学生模型进行三次训练。在评估阶段，性能通过平均精度（mAP）和召回率1（R@1）进行评估，如果最高检索到的图像来自正确的类别，则R@1等于1。我们报告种子之间的平均性能。学生模型以两种方式进行评估。首先，对于不对称检索，数据库（查询）示例在大（小）分辨率上由教师（学生）模型处理。其次，我们放弃了数据库嵌入固定的假设，并以对称方式评估学生模型，即它在小分辨率上同时处理数据库和查询示例。教师模型除了参与蒸馏过程和前述的不对称检索之外，还以以下两种方式进行评估，以提供一个基准。首先，它以对称方式评估，通过在其训练时的分辨率上同时处理数据库和查询示例。其次，它以不对称方式评估，通过在大（小）分辨率上处理数据库（查询）示例（一个网络在两个不同的分辨率上处理图像）。总之，我们的评估设置是教师-学生不对称（两个网络，两个分辨率，相同的架构）通过（4），学生对称通过（1），教师对称通过（1），教师不对称（一个网络，两个分辨率）通过（3）。04.3. 实现细节0（GeM）[31]和一个完全连接的层将最终嵌入维度减小到512，这些都添加在FCN的顶部。优化使用AdamW[29]和一个一周期学习率调度器[37]，使用PyTorch默认值。教师网络使用三元组损失和距离加权负采样[49]进行训练。按照标准协议[35, 5,7]，我们进行随机裁剪[39]，调整为固定分辨率，并以0.5的概率水平翻转。将训练周期数设置为200。CUB200和Cars196的批量大小为200，SOP为4000。在使用蒸馏进行学生训练时，使用相同的增强策略，同时增加强度为0.5的颜色扭曲[9]和图像混合[53]，其中α =0.2。对于混合，每个图像与批次中的下一个图像混合。我们进行200个周期的训练，批量大小为200，每个周期限制示例数为8000，并对每个图像使用8种不同的增强，除非另有说明。为了进行适当的超参数调整，我们使用Optuna库[1]和训练集的一半作为验证集[40]。我们调整学习率、λt和λs；指示性值分别为1.1e-4、0.7和0.7。所有实验的评估策略相同。输入图像根据设置和使用的网络重新采样到大或小的分辨率，同时保持纵横比。按照常见做法，进行中心正方形区域裁剪。04.4. 结果0在多个查询分辨率下的性能比较。在表2中，我们展示了我们的蒸馏方法的性能，并将其与三个较小图像分辨率上的基线进行了比较。与对称检索的相应（相同查询分辨率）基线相比（第一块），蒸馏后的学生（第三块）在所有数据集上的非对称检索性能方面更高。对于查询分辨率的降低（增加查询提取节约），非对称性和使用大分辨率数据库图像的好处变得更大。我们还大大改进了天真的非对称方法（第二块与第三块），其中教师网络在没有适当训练的情况下处理小分辨率查询。如果放弃固定数据库嵌入的假设，那么在小分辨率下观察学生对称检索性能是有意义的；数据库提取成本也降低了。首先，我们观察到通过蒸馏，对称检索性能（第四块）远高于使用标准深度度量学习方式进行训练（第一块）。请注意，早期关于非对称度量学习的工作也实现了相同的效果，但只使用了标签[6]，而我们在学生训练中不使用标签。其次，我们观察到，如果查询分辨率CUB200Cars196SOPQR DR QN DN mAP R@1mAP R@1mAP R@1448 448 TT42.773.741.687.962.682.1317 317 TT39.671.633.881.460.481.2224 224 TT34.364.629.675.257.479.2158 158 TT28.355.925.264.153.276.0317 448 TT39.969.536.581.358.480.1224 448 TT34.361.025.761.051.374.3158 448 TT26.647.614.832.338.260.1317 448 ST42.372.941.087.161.381.9224 448 ST40.870.538.183.459.780.8158 448 ST36.963.731.871.356.478.1317 317 SS43.674.941.888.161.682.0224 224 SS40.971.838.185.059.580.8158 158 SS36.066.830.676.355.377.9Labs37.766.134.865.1Labs✓31.355.630.760.3Labs✓20.940.129.860.0Labs✓✓40.169.840.671.5Labs✓✓39.568.538.868.9Labs✓✓✓40.369.840.571.2Lrel−ts✓✓✓39.768.939.169.2Lrel−ss✓✓✓37.965.140.071.4✓✓✓40.870.540.971.814570教师对称：教师在DR上进行训练和测试，每行使用不同的网络0教师非对称：教师在448上进行训练，所有行使用相同的网络0教师-学生非对称：教师在448上进行训练，学生使用蒸馏在QR上进行训练，所有行使用相同的教师，每行使用不同的学生0学生对称：使用QR进行蒸馏训练的学生，每行使用不同的学生0表2.不同查询分辨率下的分辨率非对称和对称检索的性能结果。QR，DR：查询和数据库分辨率。QN，DN：查询和数据库网络。S，T：学生和教师。0当查询分辨率较小时，这种情况并不成立，因为非对称性仍然更有意义。专注于召回率为1时，学生在对称设置中的性能大多高于非对称设置，这表明对于排名靠前的示例，学生的行为不同；非对称设置在考虑所有相关示例时效果更好，但在考虑最相似的示例时效果较差。消融研究。我们的工作严重依赖于增强的使用。我们在表3中对其贡献进行了分析。它们分为三组：耦合将相同的图像变换应用于教师和学生（参见图2），几何增强对应于随机调整大小的裁剪、颜色抖动和水平翻转，MX是图像mixup。仅在教师输入和学生输入中分别执行增强的设置明显更差，甚至会损害对齐。这种非耦合的增强可能会增加非对称相似性的不变性；其失败表明表示空间对齐是重要的目标，而不是不变性，后者已经从教师那里继承。Mixup本身不如更标准的增强好，但仍然改善了最终的方法。如果以耦合方式应用，非标准的增强似乎是有效的。我们还展示了来自（10）中每个损失项的性能以及它们的组合。我们确认绝对蒸馏本身已经是一个强大的性能表现者，适用于我们的非对称分辨率设置。它优于其他两个相对损失项。然而，它们的组合是最好的方法。请注意，相对损失项在训练中几乎没有额外的成本，因为所有嵌入已经为绝对蒸馏损失项的需要而获得。令我们惊讶的是，L rel − ss本身改善了非对称性能，尽管该个别损失项仅作为常规的关系知识蒸馏，先前已经显示在非对称检索中失败。我们在下一个实验中对此进行了调查。学生初始化的影响。如果我们使用教师的权重来初始化学生网络，就提供了两个嵌入空间的初始对齐，这在表4中可以看出起到了关键作用。请注意，在网络层面的非对称性情况下不存在这样的初始化。在我们的情况下是可能的，因为它对应于使用相同网络在不同分辨率下匹配对象，这是一个良好的起点，然后通过蒸馏进行改进。我们将这种初始化与使用为小分辨率训练的教师权重和使用ImageNet权重的初始化进行比较。两种替代方案都比建议的方法差，并且彼此相当。即使仅使用每个损失项分别进行训练也会有更好的表现，前提是有一个良好的初始化。我们怀疑的原因是这两种情况下的嵌入空间最初完全不对齐。值得注意的是，关系蒸馏使用 L rel − ss，它不涉及任何非对称项，在没有这种初始化的情况下完全失败，但在有这种初始化的情况下表现良好。我们推测，只有在我们已经接近一个好的解决方案时，这种关系蒸馏才能起作用。否则，满足其目标根本无法满足表示空间对齐目标。增强数量的影响。相对蒸馏损失中的项数随着每个图像的增强数量呈二次增长，而训练0损失耦合 G MX 非对称对称 mAP R@1 mAP R@10表3.在教师-学生非对称和学生对称蒸馏后，损失函数和不同增强策略对CUB200数据集性能的影响。结果报告在448（教师）和224（学生）分辨率下的几何增强和输入级别的mixup。0对于我们的非对称分辨率设置，它是一个强大的表现者。它优于其他两个相对损失项。然而，它们的组合是最好的方法。请注意，相对损失项在训练中几乎没有额外的成本，因为所有嵌入已经为绝对蒸馏损失项的需要而获得。令我们惊讶的是，L rel − ss本身改善了非对称性能，尽管该个别损失项仅作为常规的关系知识蒸馏，先前已经显示在非对称检索中失败。我们在下一个实验中对此进行了调查。学生初始化的影响。如果我们使用教师的权重来初始化学生网络，就提供了两个嵌入空间的初始对齐，这在表4中可以看出起到了关键作用。请注意，在网络层面的非对称性情况下不存在这样的初始化。在我们的情况下是可能的，因为它对应于使用相同网络在不同分辨率下匹配对象，这是一个良好的起点，然后通过蒸馏进行改进。我们将这种初始化与使用为小分辨率训练的教师权重和使用ImageNet权重的初始化进行比较。两种替代方案都比建议的方法差，并且彼此相当。即使仅使用每个损失项分别进行训练也会有更好的表现，前提是有一个良好的初始化。我们怀疑的原因是这两种情况下的嵌入空间最初完全不对齐。值得注意的是，关系蒸馏使用 L rel − ss，它不涉及任何非对称项，在没有这种初始化的情况下完全失败，但在有这种初始化的情况下表现良好。我们推测，只有在我们已经接近一个好的解决方案时，这种关系蒸馏才能起作用。否则，满足其目标根本无法满足表示空间对齐目标。增强数量的影响。相对蒸馏损失中的项数随着每个图像的增强数量呈二次增长，而训练teacher@448L40.870.540.971.8teacher@224L36.362.937.066.8ImageNetL36.362.436.967.3teacher@224Labs35.761.635.965.5teacher@224Lrel−ts36.360.838.968.5teacher@224Lrel−ss1.31.139.669.8teacher@448Labs40.369.840.571.2teacher@448Lrel−ts39.768.939.169.2teacher@448relss37.965.140.071.41248163738394041015203040R50:MR50:0.5MR18:MR18:0.5MR50:M→0.5MR50:M→0.7MR50:M→0.35MR50→R18:M[6]R50:M→0.5MR50:M→0.7MR50:M→0.35MR50→R18:M015404550556065R50:MR50:0.5MR18:MR18:0.5MR50:M→0.5MR50:M→0.7MR50:M→0.35MR50→R18:M[6]R50:M→0.5MR50:M→0.7MR50:M→0.35MR50→R18:M14580初始化损失非对称对称 mAP R@1 mAP R@10表4.在我们的蒸馏过程中，使用不同的损失函数进行学生初始化的影响。性能在CUB200上进行评估，用于教师-学生非对称检索和学生对称检索。初始化是由在大或小分辨率下训练的教师，或使用ImageNet预训练权重进行的。教师（学生）在448（224）分辨率下操作。0每个图像的增强数量0mAP0图3.在我们对CUB200进行蒸馏后，教师-学生非对称检索的增强数量对性能的影响。0时间基本上呈线性增长。图3显示，当使用同一图像的多个增强时，性能有明显提高。增益在8个增强之后饱和，这也是我们在其他实验中使用的增强数量。0性能 vs .效率。我们使用FLOPs来衡量查询提取成本，用于网络和特定查询分辨率的组合。Cars196和SOP的性能和效率之间的权衡在图4中总结（在CUB200的图1中）。对于教师对称测试的情况，教师在被测试的分辨率下进行训练。在所有其他情况下，教师在分辨率等于448的情况下进行训练。我们的蒸馏方法也适用于实现网络非对称。我们还使用仅使用（5）（无增强）的方法进行网络非对称的蒸馏，以尽可能接近AML[6]作为参考。我们观察到分辨率非对称在相同成本下优于网络非对称，并且蒸馏明显优于使用（3）的朴素基线。0查询提取成本（GFLOPs）0性能（mAP）0查询提取成本（GFLOPs）0性能（mAP）0教师对称（1）教师非对称（结果）（3）0教师-学生非对称（网络） � （2）0教师-学生非对称（结果） � （4）0图4. 检索性能（mAP） vs .查询表示的提取成本（GFLOPs）对于Cars196（顶部）和SOP（底部）。使用的符号格式是“数据库设置”→“查询设置”，其中R50和R18是ResNet架构的两个变体。M等于448，表示图像的宽度和高度。与标准对称检索（圆圈）相反，非对称设置中的查询由较轻的网络（三角形）处理或以较小的分辨率（菱形，五边形）处理。�：使用提出的蒸馏方法进行训练以实现分辨率非对称（本文的重点），并用于比较的网络非对称。05. 结论0在这项工作中3，我们探索了深度度量学习中的分辨率非对称，并得出结论，它形成了优化性能 vs .效率权衡的更好方式，而不是先前工作中研究的网络非对称。所提出的蒸馏方法在不使用任何标签的情况下表现良好，并允许我们对任务定制的增强、适当的学生初始化以及其不同损失项（即绝对和相对）的重要性进行有用的洞察。网络和分辨率非对称的组合在理论上是可行的，甚至可能是直接的方式，但仍然是未来的工作。同样，放弃固定数据库嵌入假设并联合优化数据库和查询网络的情况也是如此。03 本工作得到了Junior Star GACR资助，编号为GM21-28830M，以及捷克理工大学的GrantAgency资助，编号为SGS20/171/OHK3/3T/13。14590参考文献0[1] Takuya Akiba, Shotaro Sano, Toshihiko Yanase, TakeruOhta, and Masanori Koyama. Optuna:一种新一代的超参数优化框架. 在ACM SIGKDD中，2019年。0[2] Artem Babenko and Victor Lempitsky.亿级深度描述符数据集的高效索引. 在CVPR中，2016年。0[3] Yan Bai, Jile Jiao, Shengsen Wu, Yihang Lou, Jun Liu,Xuetao Feng, and Ling-Yu Duan. 双调谐:兼容特征学习的联合原型转移和结构正则化.在arXiv中，2021年。0[4] Maxim Berman, Herv´e J´egou, Vedaldi Andrea, IasonasKokkinos, and Matthijs Douze. MultiGrain:一种统一的类和实例图像嵌入. 在arXiv中，2019年。0[5] Andrew Brown, Weidi Xie, Vicky Kalogeiton, and AndrewZisserman. Smooth-ap: 平滑通向大规模图像检索的路径.在ECCV中，2020年。0[6] Mateusz Budnik and Yannis Avrithis.用于知识迁移的非对称度量学习. 在CVPR中，2021年。0[7] Fatih Cakir, Kun He, Xide Xia, Brian Kulis, and StanSclaroff. 深度度量学习进行排序. 在CVPR中，2019年。0[8] Ken Chen, Yichao Wu, Haoyu Qin, Ding Liang, Xuebo Liu,and Junjie Yan. R3对抗网络用于跨模型人脸识别.在CVPR中，2019年。0[9] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey Hinton. 对视觉表示进行对比学习的简单框架.在ICML中，2020年。0[10] Wei Dong, Richard Socher, Li Li-Jia, Kai Li, and Li Fei-Fei.ImageNet: 一个大规模的分层图像数据库. 在CVPR中，2009年。0[11] Rahul Duggal, Hao Zhou, Sh

下载后可阅读完整内容，剩余1页未读，立即下载