超球面视觉Transformer：度量学习的改进

98 浏览量更新于2023-10-25 收藏 14.27MB PDF 举报

模型评估

图像检索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

74090超球面视觉Transformer：结合度量学习的改进0AleksandrErmolov意大利特伦托大学0aleksandr.ermolov@unitn.it0Leyla MirvakhabovaSkoltech * ，俄罗斯0leyla.mirvakhabova@skoltech.ru0Valentin KhrulkovYandex＆Skoltech * ，俄罗斯0khrulkov.v@gmail.com0NicuSebe意大利特伦托大学0niculae.sebe@unitn.it0Ivan Oseledets Skoltech*＆AIRI，俄罗斯0I.Oseledets@skoltech.ru0摘要0度量学习旨在学习一种高度区分性的模型，鼓励相似类别的嵌入在选择的度量中靠近，并将不相似类别的嵌入推开。通常的方法是使用编码器提取嵌入和基于距离的损失函数来匹配表示 -通常使用欧氏距离。对于学习超球面数据嵌入的兴趣日益增长，表明超球面几何对于自然数据可能是有益的。在这一工作的基础上，我们提出了一种新的基于超球面的度量学习模型。我们的方法的核心是一个将输出嵌入映射到超球面的视觉Transformer。这些嵌入直接使用修改后的成对交叉熵损失进行优化。我们在四个数据集上评估了提出的模型的六种不同的配方，实现了新的最先进性能。源代码可在https://github.com/htdt/hyp_metric上找到。01. 引言0度量学习任务的制定是一般和直观的：所得到的数据嵌入之间的距离必须表示语义相似性。在给定一些相似和不相似对的示例的情况下，将相似性推广到新对象是一种典型的认知任务。度量学习算法广泛应用于各种计算机视觉任务：基于内容的图像检索[32, 46,47]，近似重复检测[65]，人脸识别[27, 44]，人员再识别[5,63]，作为零样本[47]或少样本学习[38, 45,50]的一部分。现代图像检索方法可以大致分解为两个组成部分：将图像映射到其紧凑表示的编码器和控制损失函数。0* Skolkovo科学技术学院0在训练过程中，基于Transformer架构的编码器最近被提出作为先前使用的卷积神经网络（CNN）的竞争性替代方案。Transformer缺乏CNN的一些归纳偏差，例如平移等价性，需要更多的训练数据才能实现公平的泛化。另一方面，它允许Transformer产生更通用的特征，这可能对图像检索[3,8]更有益，因为这个任务需要对未见过的图像类别进行泛化。为了缓解上述问题，已经提出了几种训练方案：使用大型数据集[7]，大量增强训练数据集并使用蒸馏[53]，使用自监督学习场景[3]。0嵌入空间的选择直接影响用于比较表示的度量。通常，嵌入被排列在超球面上，即编码器的输出经过L2归一化，从而使用余弦相似度作为距离。在这项工作中，我们提出考虑超球面空间。它们的独特特性是与半径相关的指数级体积增长，与多项式增长的欧几里得空间不同。这个特性使得超球面空间特别适合于嵌入树状数据，因为它增加了表示能力。论文[42]表明，树可以以任意低的失真嵌入到Poincaré圆盘中。大多数自然数据本质上是分层的，超球面空间非常适合其表示。超球面空间的另一个可取之处是能够使用低维流形进行嵌入，而不会牺牲模型的准确性和表示能力[34]。0损失函数的目标很明确：我们希望在嵌入空间中将相似对象的表示分组，同时将不相似对象的表示拉开。大多数损失函数可以分为两类：基于代理和基于成对的[23]。除了网络参数之外，第一类损失还训练代理，代表数据集的子集[32]。这个过程可以从一个简单的分类任务的角度来看：我们训练匹配的嵌入，可以对每个子集进行分类[33]。同时，基于成对的损失直接作用于嵌入。成对损失的优点是可以考虑到各个样本之间的细粒度交互。这些损失不需要数据标签：只需要成对的关系即可。这一特性对于自监督学习场景中广泛使用的成对交叉熵损失非常重要[4, 17,55]。监督来自于一个预训练任务，该任务定义了正样本和负样本。受到这些工作的启发，我们采用了成对交叉熵损失进行实验。我们论文的主要贡献如下：Formally, the n-dimensional hyperbolic space Hn is aRiemannian manifold of constant negative curvature. Thereexist several isometric models of hyperbolic space, in ourwork we stick to the Poincar´e ball model (Dnc , gD) withthe curvature parameter c (the actual curvature value is then−c2). This model is realized as a pair of an n-dimensinalball Dn = {x ∈ Rn : c∥x∥2 < 1, c ≥ 0} equipped with2E274100ViT0指数映射0成对交叉熵0Poincaré disk0384d 128d0FC0图1.所提方法的概述。表示同一类别（正样本）的两个图像使用视觉变换器进行编码，通过全连接（FC）层投影到较低维度的空间，然后映射到双曲空间。蓝色星星表示得到的嵌入。为了说明流形的曲率，Poincaré disk在背景上显示了均匀的三角形平铺。灰色圆圈表示批次中的其他样本（负样本）。最后，盘中的箭头表示成对交叉熵损失中使用的距离。正样本被推向彼此靠近，负样本被拉远。0从一个简单的分类任务的角度来看，我们的过程可以看作是训练匹配的嵌入，这些嵌入可以对每个子集进行分类[33]。同时，基于成对的损失直接作用于嵌入。成对损失的优点是可以考虑到各个样本之间的细粒度交互。这些损失不需要数据标签：只需要成对的关系即可。这一特性对于自监督学习场景中广泛使用的成对交叉熵损失非常重要[4, 17,55]。监督来自于一个预训练任务，该任务定义了正样本和负样本。受到这些工作的启发，我们采用了成对交叉熵损失进行实验。我们论文的主要贡献如下：0• 我们建议将嵌入投影到 Poincaréball，并使用具有双曲距离的成对交叉熵损失。通过大量实验证明，双曲对应物优于欧几里德设置。0•我们展示了视觉变换器、双曲嵌入和成对交叉熵损失的联合使用为图像检索任务提供了最佳性能。02. 方法0我们提出了一种新的度量学习损失，结合了双曲空间的代表性表达能力和交叉熵损失的简单性和普适性。建议的损失在双曲空间中操作，鼓励同一类别（正样本）的代表性更加接近，同时将来自其他类别（负样本）的样本推开。0所提方法的示意概述如图1所示。本节的其余部分组织如下。我们首先在第2.1节中提供关于双曲空间的必要准备知识，然后在第2.2节中讨论损失函数，最后在第2.5节中简要描述架构并讨论预训练方案。02.1. 双曲嵌入01 − c ∥ x ∥ 2 是共形因子，g E = I n是欧几里德度量张量。这意味着，局部距离通过接近球的边界的因子 λ c缩放到无穷大。这导致了双曲空间的“空间扩展”特性。在欧几里德空间中，直径为 r 的对象的体积与 r的多项式比例尺度，而在双曲空间中，这样的体积与 r的指数比例尺度。直观地说，这是树的连续模拟：对于一个分支因子为 k 的树，我们在级别 d 上获得 O(k^d)个节点，这在这种情况下作为半径的离散模拟。这个特性使我们能够在低维度中高效地嵌入分层数据，这通过树和复杂网络的嵌入定理得到了精确的描述[42]。双曲空间不是向量空间；为了能够执行加法等操作，我们需要引入一个̸74110所谓的陀螺矢量形式[54]。对于一对D_nc中的点x,y，它们的加法定义为0x ⊕c y = (1 + 2c01 + 2c�x, y� + c²∥x∥�²∥y∥�². (1)0D_nc上的点x, y之间的双曲距离定义如下：0D_hyp(x, y) = 2√c arctanh(√c∥-x⊕c y∥). (2)0注意，当c→0时，距离函数(2)简化为欧几里得距离：limc→0 D_hyp(x, y) = 2∥x -y∥。我们还需要定义从欧几里得空间到Poincaré模型的双射。这个映射被称为指数映射，其从双曲空间到欧几里得空间的逆映射被称为对数映射。对于某个固定的基点x∈D_nc，指数映射是一个函数exp_cx: R^n → D_nc，定义如下：0exp_cx(v) = x⊕c v0tanh(√cλcx∥v∥)0v√c∥v∥0Σ. (3)0基点x通常设置为0，这样公式会更简洁，并且在实际中对结果影响很小。为了训练我们的模型，我们取一个样本xi，通过编码器传递，并将输出投影到双曲空间；在双曲空间中，得到的表示被表示为zi。由于我们的两两交叉熵损失基于双曲距离，我们不将zi投影回欧几里得空间，只使用指数映射。02.2. 两两交叉熵损失0每次迭代，我们随机选择N个不同类别的图像，并从每个类别中选择两个样本。在这种情况下，样本的总数（批量大小）为K =2N，其中包含N对正样本。除了双曲距离，我们还定义了余弦相似度的距离，用归一化向量之间的平方欧几里得距离实现：0D cos(z i, z j) = �z i, z j� / (∥zi∥�∥z j∥�)0∥zi∥� - zj02 = 2 - 2 �z i, z j�0∥zi∥� ∙ ∥zj∥� (4) 对于正样本(i, j)，损失函数定义为0l i,j = -log exp(-D(z i, z j)/τ) / Σ K k=1, k≠iexp(-D(z i, z k)/τ), (5)0其中D是距离（D_hyp或D_cos），τ是温度超参数。总损失是对批量中所有正样本（包括(i, j)和(j, i)）计算的。0CUB-200 Cars-196 SOP In-Shop0ViT-S 0.280 0.339 0.271 0.313 DeiT-S 0.2940.343 0.270 0.323 DINO 0.315 0.327 0.3010.3180表1.从不同的编码器获得的嵌入计算的δ-超曲率值。我们可以看到，不同特征提取器的δ值相对一致。较低的δ值表示数据的超曲率程度更高。0如果类别总数较小，较大的批量大小更适合优化的角度，可以选择每个类别采样多于两个样本。在这种情况下，我们每个类别采样d个图像，d≥2。我们将批量K =dN划分为d个子集，每个子集由不同类别的N个样本组成。然后，我们为每对子集计算损失值，如方程（5）所定义，将它们相加得到最终值。02.3. δ-超曲率0尽管嵌入的底层流形的曲率值通常被忽略，但更高效的方法是针对每个数据集具体估计它。根据[22]中的分析，我们估计数据超曲率的“度量”。这个评估是通过计算所谓的Gromov δ来完成的。它的计算需要首先计算点x, y, z ∈X的Gromov乘积：0(y, z) x = 02(d(x, y) + d(x, z) − d(y, z)), (6)0其中(X,d)是任意度量空间。对于一组点，我们计算成对Gromov积(6)的矩阵M。然后，δ值被定义为矩阵(M�M)−M中的最大条目。这里，�表示min-max矩阵乘积，定义为(A�B)ij=maxkmin{Aik,Bkj}[10]。相对于0和1之间的重新缩放，δ-超边性反映了隐藏结构与双曲的接近程度：趋近于0的值显示了内在数据双曲性的更高程度。δ值与Poincar´e球的最佳半径通过以下表达式相关联：c(X)=(0.1440δ)2。我们采用[22]中描述的过程，并评估使用三个编码器提取的图像嵌入的δ：ViT-S、DeiT-S和DINO（在第2.5节中描述）。表1突出显示了CUB-200、Cars-196、SOP和In-Shop数据集的相对δ值。02.4. 特征剪切0论文[15]经验证明，双曲神经网络往往具有消失的梯度，因为它推动∥· xE,(7)74120将嵌入接近于Poincar´e球的边界，使得欧几里德参数的梯度消失。为了避免在处理双曲神经网络时出现数值误差，常见的方法是对Poincar`e球中的点进行范数剪切；标准的范数值为1√c(1−10−5)。然而，论文[15]提出了一种名为特征剪切的附加技术，以增强这个过程：0xE C = min�1, r0其中xE位于欧几里德空间中，xE C是其剪切对应物，r是Poincar´e球的新有效半径。直观上，这使我们能够将嵌入推离边界并避免消失的梯度问题；在[15]的实验中，它相对于基线实现了一致的改进。02.5. 视觉Transformer0在我们的实验中，我们使用了[7]介绍的ViT架构。输入图像被切割成大小为16×16像素的块。每个块被展平，然后线性投影到一个嵌入中。结果向量与位置嵌入连接在一起。此外，这组向量包括一个额外的“分类”标记。请注意，在我们的情况下，此标记用于获取图像嵌入，但我们不像[7]那样训练一个标准分类器。为了与以前的文献保持一致，我们将此标记命名为[class]。结果向量集被馈送到标准的Transformer编码器[56]中。它由多头自注意力（MSA）和MLP块组成，在每个块之前都有一个LayerNorm和一个残差连接。Transformer编码器对于[class]标记的输出被用作最终的图像表示。更多细节请参考[7]。ViT-S[48]是ViT的一个较小版本，其中MSA使用6个头（基础版本使用12个头）。这个架构在参数数量（ViT-S为22M，ResNet-50为23M）和计算要求（ViT-S为8.4 FLOPS，ResNet-50为8.3FLOPS）方面与ResNet-50[18]类似。这种相似性使得可以与基于ResNet-50编码器的先前工作进行公平比较，因此我们在我们的实验中采用这个配置。更详细的描述请参考[48]。与CNN相比，视觉Transformer需要更多的训练信号。一种解决方案，如[7]所提出的，是使用一个大型数据集。ImageNet-21k[6]包含大约14M张图像，分为21K个类别。在ImageNet-21k上预训练的ViT-S[48]是公开可用的；我们在我们的实验中包含了它。另一种解决方案DeiT-S[53]基于相同的（ViT-S）架构，并在较小的ImageNet-1k数据集[41]上进行训练（ImageNet-21k的一个子集，包含约1.3M个训练图像）。0年龄和1K个类别）。卷积神经网络（CNN）教师[53]提供了额外的训练信号。0我们实验中使用的第三种解决方案是基于自监督训练的DINO[3]。在这种情况下，模型ViT-S在没有标签的ImageNet-1k数据集[41]上进行训练。编码器必须为图像的不同部分产生一致的输出，这些部分是通过数据增强（随机裁剪、颜色抖动等）获得的。这种训练方案与图像检索任务一致；在这两种情况下，编码器都明确地被训练为对语义上相似的输入产生类似的输出。然而，这些任务的目标是不同的：自监督学习提供了预训练的特征，然后这些特征被用于其他下游任务，而图像检索的结果特征直接用于评估。03. 实验0我们遵循广泛采用的训练和评估协议[23]，并与四个基准数据集上的当前最先进方法进行比较。我们包括数据集、实现和训练细节的技术细节，并最后呈现实证结果。实验分为两类，首先与最先进方法进行比较，然后研究超参数（编码器块大小、流形曲率、嵌入大小和批大小）的影响。03.1. 数据集0CUB-200-2011（CUB）[61]包括11,788张图像，涵盖了200个鸟类品种。训练集包含前100个类别的5,864张图像，测试集包含后100个类别的5,924张图像。这些图像非常相似；有些品种只能通过细微的细节来区分，使得该数据集对图像检索任务具有挑战性和信息性。Cars-196（Cars）[25]包含16,185张代表196个汽车型号的图像。前98个类别（8,054张图像）用于训练，另外98个类别（8,131张图像）用于测试。Stanford OnlineProduct（SOP）[47]包含来自eBay.com的22,634个产品的120,053张图像。我们使用标准划分：11,318个类别（59,551张图像）用于训练，剩余的11,316个类别（60,502张图像）用于测试。In-shop ClothesRetrieval（In-Shop）[28]包含7,986个服装类别。前3,997个类别（25,882张图像）用于训练，剩余的3,985个类别分为查询集（14,218张图像）和画廊集（12,612张图像）。In this section, we investigate the impact of the values ofthe hyperparameters on the model performance.Encoder patch size. ViT architecture does not processeach pixel independently; for computational feasibility, theinput image is sliced into patches projected into the initialembeddings. The default size of the patch is 16 × 16, al-though considering other values is also possible. The exper-iments in [3] have demonstrated a significant performancegain from smaller 8 × 8 patches for self-supervised learn-ing. In this case, the number of parameters of the encoderdoes not change; however, it requires processing 4× moreembeddings, which allows the encoder to learn more com-plex dependencies between patches. We add an experimentwith this setup in Tab. 4 demonstrating a substantial perfor-mance improvement (+4.4%) compared to the default con-figuration. In this case, we use the same training procedure,741303.2. 实现细节0我们使用ViT-S[48]作为编码器，有三种预训练方式（ViT-S、DeiT-S和DINO），详细信息请参见第2.5节。作为第一个基本操作，用于补丁嵌入的线性投影可能对应于低级特征提取，因此我们在微调过程中将其冻结。编码器输出的表示维度为384，进一步通过一个头部线性投影将特征投影到128维空间。我们使用常数0初始化头部的偏置，并使用（半）正交矩阵[43]初始化权重。我们包括两个版本的头部：投影到双曲空间（“Hyp-”）和投影到单位超球面（“Sph-”）。在第一种情况下，我们使用曲率参数c =0.1（在第3.4节中研究了它对方法性能的影响），温度τ =0.2和剪辑半径（在第2.4节中定义）r =2.3。对于球面嵌入，我们使用温度τ =0.1。为了评估模型性能，对于编码器，我们计算输出的Recall@K指标，距离度量为Dcos（公式（4））；对于头部，我们使用Dcos作为“Sph-”版本的距离度量，使用双曲距离Dhyp（公式（2））作为“Hyp-”版本的距离度量。我们将测试图像调整为较小边的224（对于CUB为256）并进行中心裁剪为224×224。请注意，一些方法在训练和评估中使用更高分辨率的图像，例如ProxyNCA++[52]使用256×256的裁剪，说明较小的227×227的裁剪会使CUB的性能下降4.3%。然而，224×224是我们工作中考虑的编码器的默认大小；此外，一些最近的方法，如IRT R[8]，也使用这个大小进行实验。我们使用AdamW优化器[29]，学习率值为1×10-5（对于DINO）和3×10-5（对于ViT-S和DeiT-S）。权重衰减值为0.01，批大小为900。优化器步数的数量取决于数据集：CUB为200，Cars为600，SOP为25000，In-Shop为2200。为了更好的稳定性，梯度被剪辑为3的范数。我们应用常用的数据增强方法：随机裁剪将图像调整为224×224，使用双三次插值，并结合随机水平翻转。我们以O2模式下的自动混合精度进行训练。所有实验在一块NVIDIA A100 GPU上进行。03.3. 结果01 https://github.com/NVIDIA/apex0在本节中，我们研究了超参数值对模型性能的影响。编码器补丁大小。ViT架构不会独立处理每个像素；为了计算的可行性，输入图像被切成补丁并投影到初始嵌入中。补丁的默认大小为16×16，但也可以考虑其他值。[3]中的实验已经证明，对于自监督学习，使用更小的8×8补丁可以显著提高性能。在这种情况下，编码器的参数数量不变；然而，它需要处理4倍的嵌入，这使得编码器能够学习更复杂的补丁之间的依赖关系。我们在表4中添加了这种设置的实验，证明了与默认配置相比的显著性能提升（+4.4%）。在这种情况下，我们使用相同的训练过程，03.4. 超参数的影响303074140方法CUB-200-2011（K）Cars-196（K）SOP（K）In-Shop（K）0Margin [62] 63.9 75.3 84.4 90.6 79.6 86.5 91.9 95.1 72.7 86.2 93.8 98.0 - - - - FastAP [2] - - - - - - - - 73.8 88.0 94.998.3 - - - - NSoftmax [64] 56.5 69.6 79.9 87.6 81.6 88.7 93.4 96.3 75.2 88.7 95.2 - 86.6 96.8 97.8 98.3 MIC [40] 66.176.8 85.6 - 82.6 89.1 93.2 - 77.2 89.4 94.6 - 88.2 97.0 - 98.0 XBM [59] - - - - - - - - 80.6 91.6 96.2 98.7 91.3 97.8 98.498.7 IRT R [8] 72.6 81.9 88.7 92.8 - - - - 83.4 93.0 97.0 99.0 91.1 98.1 98.6 99.00Sph-DeiT 73.3 82.4 88.7 93.0 77.3 85.4 91.1 94.4 82.5 93.1 97.3 99.2 89.3 97.0 97.9 98.4 Sph-DINO 76.0 84.7 90.394.1 81.9 88.7 92.8 95.8 82.0 92.3 96.9 99.1 90.4 97.3 98.1 98.5 Sph-ViT § 83.2 89.7 93.6 95.8 78.5 86.0 90.9 94.382.5 92.9 97.4 99.3 90.8 97.8 98.5 98.8 Hyp-DeiT 74.7 84.5 90.1 94.1 82.1 89.1 93.4 96.3 83.0 93.4 97.5 99.2 90.997.9 98.6 98.9 Hyp-DINO 78.3 86.0 91.2 94.7 86.0 91.9 95.2 97.2 84.6 94.1 97.7 99.3 92.6 98.4 99.0 99.2 Hyp-ViT §84.0 90.2 94.2 96.4 82.7 89.7 93.9 96.2 85.5 94.9 98.1 99.4 92.7 98.4 98.9 99.10表2. 四个数据集的128维嵌入的Recall@K指标。我们方法的6个版本列在底部部分，对头部嵌入进行评估。“Sph-”表示使用Dcos（公式（4））优化的超球嵌入版本，“Hyp-”表示使用Dhyp（公式（2））优化的双曲嵌入版本。“DeiT”，“DINO”和“ViT”表示视觉变换器编码器的预训练类型。Margin，FastAP，MIC，XBM，NSoftmax基于ResNet-50 [18]编码器，IRT R基于DeiT [53]。§在更大的ImageNet-21k [6]上预训练。0方法 Dim CUB-200-2011 (K) Cars-196 (K) SOP (K) In-Shop (K)0A-BIER [36] 512 57.5 68.7 78.3 86.2 82.0 89.0 93.2 96.1 74.2 86.9 94.0 97.8 83.1 95.1 96.9 97.5 ABE [24] 512 60.6 71.579.8 87.4 85.2 90.5 94.0 96.1 76.3 88.4 94.8 98.2 87.3 96.7 97.9 98.2 SM [49] 512 56.0 68.3 78.2 86.3 83.4 89.9 93.996.5 75.3 87.5 93.7 97.4 90.7 97.8 98.5 98.8 XBM [59] 512 65.8 75.9 84.0 89.9 82.0 88.7 93.1 96.1 79.5 90.8 96.1 98.789.9 97.6 98.4 98.6 HTL [13] 512 57.1 68.8 78.7 86.5 81.4 88.0 92.7 95.7 74.8 88.3 94.8 98.4 80.9 94.3 95.8 97.2 MS[58] 512 65.7 77.0 86.3 91.2 84.1 90.4 94.0 96.5 78.2 90.5 96.0 98.7 89.7 97.9 98.5 98.8 SoftTriple [37] 512 65.4 76.484.5 90.4 84.5 90.7 94.5 96.9 78.6 86.6 91.8 95.4 - - - - HORDE [20] 512 66.8 77.4 85.1 91.0 86.2 91.9 95.1 97.2 80.191.3 96.2 98.7 90.4 97.8 98.4 98.7 Proxy-Anchor [23] 512 68.4 79.2 86.8 91.6 86.1 91.7 95.0 97.3 79.1 90.8 96.2 98.791.5 98.1 98.8 99.1 NSoftmax [64] 512 61.3 73.9 83.5 90.0 84.2 90.4 94.4 96.9 78.2 90.6 96.2 - 86.6 97.5 98.4 98.8ProxyNCA++ [52] 512 69.0 79.8 87.3 92.7 86.5 92.5 95.7 97.7 80.7 92.0 96.7 98.9 90.4 98.1 98.8 99.0 IRT R [8] 38476.6 85.0 91.1 94.3 - - - - 84.2 93.7 97.3 99.1 91.9 98.1 98.7 98.90ResNet-50 [18] † 2048 41.2 53.8 66.3 77.5 41.4 53.6 66.1 76.6 50.6 66.7 80.7 93.0 25.8 49.1 56.4 60.5 DeiT-S [53] †384 70.6 81.3 88.7 93.5 52.8 65.1 76.2 85.3 58.3 73.9 85.9 95.4 37.9 64.7 72.1 75.9 DINO [3] † 384 70.8 81.1 88.8 93.542.9 53.9 64.2 74.4 63.4 78.1 88.3 96.0 46.1 71.1 77.5 81.1 ViT-S [48] † § 384 83.1 90.4 94.4 96.5 47.8 60.2 72.2 82.662.1 77.7 89.0 96.8 43.2 70.2 76.7 80.50Sph-DeiT 384 76.2 84.5 90.2 94.3 81.7 88.6 93.4 96.2 82.5 92.9 97.2 99.1 89.6 97.2 98.0 98.4 Sph-DINO 384 78.7 86.791.4 94.9 86.6 91.8 95.2 97.4 82.2 92.1 96.8 98.9 90.1 97.1 98.0 98.4 Sph-ViT § 384 85.1 90.7 94.3 96.4 81.7 89.0 93.095.8 82.1 92.5 97.1 99.1 90.4 97.4 98.2 98.6 Hyp-DeiT 384 77.8 86.6 91.9 95.1 86.4 92.2 95.5 97.5 83.3 93.5 97.4 99.190.5 97.8 98.5 98.9 Hyp-DINO 384 80.9 87.6 92.4 95.6 89.2 94.1 96.7 98.1 85.1 94.4 97.8 99.3 92.4 98.4 98.9 99.1Hyp-ViT § 384 85.6 91.4 94.8 96.7 86.5 92.1 95.3 97.3 85.9 94.9 98.1 99.5 92.5 98.3 98.8 99.10表3.四个数据集的Recall@K指标，“Dim”列显示嵌入的维度。我们方法的6个版本列在底部部分，对编码器嵌入进行评估，标题在表2中描述。方法的编码器：A-BIER，ABE，SM：GoogleNet [51]；XBM，HTL，MS，SoftTriple，HORDE，Proxy-Anchor：Inception with batch normalization[19]；NSoftmax，ProxyNCA++：ResNet-50 [18]；IRT R：DeiT [53]。†预训练编码器未在目标数据集上进行训练。§在更大的ImageNet-21k [6]上预训练。874150测试训练0图2.Cars-196数据集上的Hyp-DINO嵌入（训练集和评估集）在Poincaré圆盘上。圆盘内的每个点对应一个样本，不同的颜色表示不同的类别。汽车的图像按照样本的邻域关系绘制。0方法维度召回率@K0NSoftmax [64] 2048 89.3 94.1 96.4 98.0ProxyNCA++ [52] 2048 90.1 94.5 97.0 98.40Hyp-DINO 16×16 128 86.0 91.9 95.2 97.2Hyp-DINO 8×8 128 90.4 94.7 97.0 98.2 Hyp-DINO16×16 384 89.2 94.1 96.7 98.1 Hyp-DINO 8×8 38492.8 96.2 97.8 98.80表4.使用ResNet-50编码器的Cars-196数据集的当前最佳整体结果的前两行。我们的方法（Hyp-DINO）使用8×8和16×16的块大小。0如第3.2节所述，批量大小为120。流形曲率。表5显示了模型性能与曲率值c的关系。我们观察到，在范围（0.01，0.3）内，该方法是稳健的，而较大的值会导致性能下降。值得注意的是，头部的准确性下降更快，因为超几何距离也用于评估，而该参数的不准确性会立即影响输出。球的半径与c值成反比。直观上，如果c值趋近于0，半径趋近于无穷大，使球变得“扁平”如欧几里得空间。相反，较大的c值对应于更陡峭的配置。根据δ值（表1），估计的c值接近0.2，具体取决于数据集和编码器。然而，较小的值往往提供更好的稳定性；我们认为这是由于超几何空间中可以改进的优化过程。因此，我们将默认值调整为较小的0.1（第3.2节）。嵌入维度和批量大小。如预期的那样，较低的输出维度会导致较低的召回率。然而，考虑到高数据变异性（测试集中有3,985个类别），实验结果表明，即使在较低维度的情况下，该方法仍具有合理的表示能力。批量大小直接影响训练阶段的负样本数量；因此，直观上，较大的值对模型性能更有利。然而，正如实验结果所示（表5），该方法对于批量大小≥400非常稳健，在批量大小等于200时略有准确性下降。因此，对于考虑的数据集，该方法不需要使用大量GPU进行分布式训练[4]或具有动量网络的特定解决方案[17]。0参数编码器（384）头部0默认值 92.4 92.60c = 0.01 92.3 92.6 c = 0.05 92.4 92.6 c =0.3 92.3 92.0 c = 0.5 91.8 91.0 c = 1.090.0 89.20头部维度 16 88.6 83.3 头部维度 32 90.289.6 头部维度 64 91.6 91.70批量大小 200 92.0 91.9 批量大小 400 92.592.5 批量大小 1600 92.4 92.60表5.Hyp-ViT配置在In-Shop数据集上的各种超参数的Recall@1指标。默认配置为c = 0.1，头部维度为128，批量大小为900。0与欧几里得空间相比，较大的c值对应于更陡峭的配置。根据δ值（表1），估计的c值接近0.2，具体取决于数据集和编码器。然而，较小的值往往提供更好的稳定性；我们认为这是由于超几何空间中可以改进的优化过程。因此，我们将默认值调整为较小的0.1（第3.2节）。嵌入维度和批量大小。如预期的那样，较低的输出维度会导致较低的召回率。然而，考虑到高数据变异性（测试集中有3,985个类别），实验结果表明，即使在较低维度的情况下，该方法仍具有合理的表示能力。批量大小直接影响训练阶段的负样本数量；因此，直观上，较大的值对模型性能更有利。然而，正如实验结果所示（表5），该方法对于批量大小≥400非常稳健，在批量大小等于200时略有准确性下降。因此，对于考虑的数据集，该方法不需要使用大量GPU进行分布式训练[4]或具有动量网络的特定解决方案[17]。04. 相关工作0在超几何嵌入中，学习在超几何空间中的嵌入是自然语言处理任务中提出的方法[34,35]。不久之后，超几何神经网络被提出作为标准欧几里得操作的推广，允许直接在超几何空间中学习数据表示[11]。作者将标准线性层推广为超几何对应物，定义了多项式逻辑回归和循环神经网络。多项研究表明了其优势。74160在应用于少样本学习[9,12,22]和零样本学习[9,26]时，双曲嵌入的视觉数据表现出了优异的性能。在[22]中，作者提出了一个混合架构，主要层在欧氏空间中运算，只有最后一层在双曲空间中运算。在[9]中，作者则专注于广泛应用于欧氏空间的核化方法，并将其推广到双曲表示中。论文[26]提出了一种直接将层次关系纳入双曲嵌入的方法，应用于零样本学习。度量学习中的视觉变换器。最近的论文[8]展示了视觉变换器在类别级和对象检索任务中的有益特性。所提出的IRTR采用了DeiT[53]的架构和预训练方案。该方法使用交叉批内存[59]和动量编码器[17]的对比损失进行训练，在几个实验中需要复杂的熵正则化来在超球面上均匀分布嵌入。在[57]中进行的研究表明，我们工作中考虑的双向交叉熵损失已经具备了这个特性。从渐近的角度来看，这个损失可以分解为两个部分：一个优化正样本对齐，另一个保持整体均匀性。此外，双曲空间中体积的指数扩张可以促进特征的均匀对齐。自监督学习在精神上与度量学习类似：在这两种情况下，编码器被训练为为语义上相似的图像生成相似的表示。因此，在这些领域有各种相关的方法。DINO[3]是一种最近提出的方法，其中视觉变换器在自监督学习的设置下进行训练。该方法在获得的表示中显示出较高的k-NN分类准确性，同时在图像

下载后可阅读完整内容，剩余1页未读，立即下载