基于非各向同性概率的深度度量学习：概率嵌入和不确定性意识

185 浏览量更新于2023-11-30 收藏 2.38MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文基于代理的深度度量学习的非各向同性概率Michael Kirchhof1，10，Karsten Roth1，11，Zeynep Akata1和Enkelejda Kasneci11图宾根大学，德国（德国）抽象的。基于代理的深度度量学习（DML）通过将图像嵌入到接近其类代表（代理）的位置来学习深度代表，通常是关于它们之间的角度。然而，这忽略了嵌入范数，嵌入范数可以携带额外的有利上下文，例如类或图像固有的不确定性。此外，基于代理的DML很难学习类的内部结构。为了同时解决这两个问题，我们引入了基于非各向同性概率代理的我们将图像建模为超球面上的方向von Mises-Fisher（vMF）分布，该分布可以反映图像的内在不确定性。此外，我们推导出类代理的非各向同性von Mises-Fisher（nivMF）分布，以更好地表示复杂的类特定变量。为了测量这些模型之间的代理到图像的距离，我们开发并研究了多个分布到点和分布到分布的度量。每个框架选择的动机是一组消融研究，展示了我们基于代理的DML的概率方法的有益特性，例如不确定性意识，训练过程中表现更好的梯度，以及整体改进的泛化性能。后者特别反映在标准DML基准的竞争性能上，我们的方法与之相比是有利的，这表明现有的基于代理的DML可以从更概率的处理中显著受益。代码可在github.com/ExplainableML/Probabilistic_Deep_Metric_Learning上获得。关键词：深度度量学习，Von Mises-Fisher，非各向同性，概率嵌入，不确定性1介绍理解和编码视觉相似性是驱动从图像（视频）检索[75，65，70，28，3]到聚类[1]和面部重新识别[20，61，35，9]的应用的关键概念。最常见的是，方法利用深度度量学习（DML）[61，65，42，75，57]将视觉相似性学习重新定义为代理，对比表示学习问题：在这里，深度网络的任务是嵌入图像，使得嵌入对上的简单预定义距离度量表示它们的实际语义关系。类似的对比学习用于表征学习任务s.a.监督图像arXiv：2207.03784v1 [cs.LG] 2022年7+v：mala2255获取更多论文2M. Kirchhof等图1：类代理分布（蓝色）和图像分布（红色）嵌入在3D单位球体上。中央代理具有非各向同性的方差，因此它可以表示雄性（左）和雌性（右）红雀之间的体色的高方差模糊图像（例如，左中）比清楚显示类别区分特征的图像（左上，右中）具有更高的方差。最好用彩色看。分类[25]或自我监督学习[18，5]。常见的DML方法被制定为对相似和不相似样本的数据元组（例如，对[15]，三元组[61]或四元组[6]）进行任务排名。不幸的是，这样的元组采样的增长指数与元组的大小[75]。这促使DML的最新进展集中在基于代理的方法上，其中类似的样本被总结为可学习的代理表示[42，51]，与样本嵌入进行对比。虽然这允许快速收敛和可靠的泛化，但在代理和样本的处理中可能出现缺点：首先，样本表示的确定性处理不提供任何自由度来解决模糊性和不确定性（例如，被树枝覆盖的鸟的图像）。其次，代理样本对之间的各向同性距离分数（例如，余弦相似性）仅为网络提供有限的工具来导出类内样本的相似性，因为单独到每个代理的距离不足以解决代理周围的相对样本放置这阻碍了类特定的方差和子结构被成功地解释，这已被证明显着有利于下游泛化性能[57，39]。为了解决这些问题，我们提出了一个基于代理的DML的概率解释。由于现代DML始终在超球面上操作（即，归一化）表示[75，57]，我们推导出每个样本的超球面von-Mises Fisher（vMF）分布。样本嵌入的方向控制超球面上的位置，因此其语义内容及其范数参数化了分布的确定性。结合，我们也对待类代理的概率，但通过非各向同性vMF分布。这强制每个类代理的分布先验解释不同的非各向同性分布，捕获更复杂的+v：mala2255获取更多论文基于非各向同性概率代理的DML 3类特定样本分布（c.f.图1）。由于这将DML训练从基于点的比较移动到分布比较，因此我们通过基于概率乘积内核激励分布到分布的匹配度量来将这两个组件合并到一个合理的设置中。我们的完整框架通过一组广泛的推导和实验消融来支持，这些推导和实验消融展示并支持扩展到基于概率代理的DML如何提供显著的改进，即使与更复杂的训练方法相比，在标准DML基准-总的来说，我们的贡献可以概括为：（1）我们提出并推导了一种新的基于代理的DML的概率解释，以解释样本和类的歧义，通过重新制定标准的基于代理的度量学习方法的分布在超球。（2）我们将vMF模型扩展到每个类代理的非各向同性模型，以更好地合并和处理类内子结构，从而更好地泛化。（3）介绍了面向DML的各种分布到分布度量，并将其与传统的点到点度量进行了对比。（4）我们通过各种推导和实验消融来支持我们提出的框架，展示了分布式处理如何（5）最后，我们对标准的DML方法进行了基准测试，并为我们基于代理的DML的概率方法提供了进一步的2相关工作深度度量学习包括几种概念上不同的方法。首先，可以在数据元组上定义排名任务，例如对[15，75]，三元组[61]，四元组[6]或高阶变体[44，65，72]。然后，底层网络通过学习一个表示空间来学习解决每个元组，在该表示空间中，嵌入之间的距离正确地反映了它们各自的语义/标签。然而，随着所呈现的元组的大小增加，每个排名任务都是从元组空间中采样的，导致显着的冗余和受影响的收敛行为[61，75，57]。因此，第二个分支发展成为专注于排序的方法，其目标是满足一组预定义[61，75，72，76]或学习[16，55]标准的排序元组。类似地，DML研究也试图通过用表示为代理的学习概念表示替换元组组件来解决采样复杂性问题，其中一些方法在分类风格设置[78，9]或排名方式中利用代理，其中每个样本与相应的代理进行对比[42，68，27，51]。最后，通过各种不同的方法，如使用对抗训练[10]，合成样本[34，80]，高阶或曲线度量学习[21，4]，用于排名的特征挖掘[54，40，39]或基于代理的方法[59]，将整个度量空间分解为子空间[60，46，47]，正交模态[58]或知识蒸馏[56]，在对通用DML训练管道的正交扩展和根本改进中也发现了好处。我们提出的基于概率代理的DML属于这一行+v：mala2255获取更多论文EEE S E∈ X4米Kirchhof等但是与这些其他方法正交，因为这些扩展可以以方法不可知的方式应用。特别是，我们通过对样本和代理的分布处理来专门考虑样本和类模糊性，并通过利用非各向同性代理分布来鼓励每个代理周围更复杂的类内分布，从而扩展了基于代理的DML，这已被证明有利于推广[57，41，59]。可能的嵌入。DML的各种方法已经可以从更概率的角度来构建，其中基于余弦相似性[9，68，78]的基于softmax的方法可以被视为分析类后验，如果每个类假设von Mises-Fisher（vMF）分布[48，79]。虽然这些方法隐式地将类建模为vMF，但概率嵌入方法进一步将每个样本建模为嵌入空间中的分布[63，33，62]。这允许模型在图像模糊时表达不确定性。最近的工作认为，这种模糊性是在图像嵌入的范数中捕获的[62，53，33]：[ 62 ]认为，显示一个类别的许多类别区分特征的图像的嵌入由几个矢量组成，这些矢量在此基础上，[62，33]率先使用嵌入方向和范数将每个图像建模为vMF分布，特别是用于监督分类。利用vMF分布，我们是第一个引入一个完整的概率代理为基础的DML框架，收益率- ING分布到分布的指标。此外，我们提出了代理分布的非各向同性vMF，这使我们能够在嵌入空间中表示更丰富的类结构，有利于推广[57，39]。3基于非各向同性概率代理的DML3.1基于代理的DML在本节中，我们将通用DML框架扩展到概率框架。从根本上说，DML的目标是从图像X <$RH×W×3到M维度量嵌入空间E <$RM寻找嵌入函数e：X → E，使得图像x1，x2的嵌入z1 = e（x1）和z2 = e（x2）之间的距离函数d：E × E → R反映了它们之间的语义关系. 嵌入空间是M维单位超球面= M−1，即z=1。当欧几里得可能会显得更自然，在DML [75，72，57，56，27]和其他对比学习领域（如自监督学习[71，5，18，8]）中，通过将嵌入归一化到单位超球面，在定向处理中看到了显着的好处这可以部分归因于更好的缩放与增加嵌入维度[73]和语义信息主要是定向编码[53]。为了学习相应的嵌入空间，DML通常在样本元组上采用排名目标。基于每个样本的类分配，嵌入网络的任务是最小化同类样本之间的距离，同时在类不同时最大化它们。最近，基于代理的方法[42，68，27，51]通过在训练过程中引入类表示-p-代理p∈SM-1来直接建模类分配。这些与+v：mala2255获取更多论文S∥∥∥ ∥SCc=1 exp（−d（ρc，ε）/t）基于非各向同性概率代理的DML 5样本嵌入e（x）=z使用类似NCA的[14]形式（ProxyNCA，[42]），[68]将其稍微修改为软最大损失= logexp（−d（p，z）/t）Σ.（一）这里，p表示与z相关的地面实况代理，t是温度，d是距离度量，最常见的是负余弦相似度d=−s，其中s（p c，z）=（p c z）/（p c z）。这意味着一个有问题的假设：由于只利用样本和代理之间的角度，因此无法解释每个代理周围的类特定分布方差。其次，确定性的底层网络e在样本表示上诱导狄拉克δ分布[64]。无论模糊程度如何，这都将所有输入数据视为相同的，而不考虑特定于样本的不确定性。因此，我们建议将样本和代理表示为随机变量Z和P，其密度为M−1，这允许样本和代理都携带不确定性上下文以解决样本模糊性，同时鼓励考虑更复杂的类分布。这将上述损失转换为L=logexp（−d（ρ，ρ）/t）.（二更）在下面的§ 3.2中，我们讨论了如何精确地参数化ρ和ρ，在§ 3.3中，我们找到了适合于分布到分布拟合的d（·，·）。3.2概率样本和代理表示示例表示。M −1上的一个常见分布是von Mises-Fisher（vMF）分布[13，37，84]。它通过指向分布模式的方向向量μ z∈ SM−1和控制模式周围扩散的浓度参数κ z∈R≥0来参数化样本分布，其中较高的κ z产生更尖锐的分布。vMF分布样本Z<$vMF（µz，κz）在poi ntz<$∈SM−1处的密度ε为（z（三）CM是我们在高维近似的归一化函数（见Supp. A）。vMF的优点是对未归一化图像嵌入 z=e （ x ） ∈RM 的对偶性： vMF 的自然参数是 νz=κzµz∈RM，如果我们设置μz=z拉法茨河和κz=z，嵌入范数给出vMF浓度，而不需要明确预测它（正态分布所必需的[7，63]）。最近的研究结果表明，CNN在嵌入的范数中编码了可见类别区分特征的数量（例如[62]）。我们在§4.4中验证了这一假设。代理表示。可以类似地将代理分布ρ视为具有参数νρ=κρ μρ的vMF分布。然而，由于vMF的简单性，限制因素是其各向同性：vMF是等变的公司简介Cc=1 exp（−d（pc，z）/t）L+v：mala2255获取更多论文S−6米。Kirchhof等(a)vMF，κz=20（b）nivMF，κp=（20， 5， 50）图2：2上的（a）vMF和（b）非各向同性vMF分布的密度。密度与从紫色（零）到黄色（高）的颜色梯度成比例。如图2a所示，在所有方向上。然而，代理需要考虑更复杂的类分布，即，非各向同性的（c.f.图2b）。vMF分布的一般化家族，例如Fisher-Bingham或Kent分布[37，38，24]，能够捕获非各向同性。然而，他们使用的协方差矩阵与二次参数和约束的特征向量。这使得通过梯度下降进行训练变得复杂，特别是在高维度上。因此，我们提出了一个低参数vMF扩展称为非各向同性冯米塞斯-费舍尔分布（nivMF）。就像vMF一样，代理p的M维nivMF由方向μp∈ SM−1参数化，但其浓度由浓度矩阵Kp∈R（M×M）描述。为了减少其参数，我们假设Kp= diag（κ p）= diag（κp，1，. . .，κ p，M）为对角矩阵，其中κ p，m> 0，m= 1，. . .，M，给出每维的浓度。它们被视为可学习的参数（参见Supp. G）。然后，我们定义nivMF分布的概率PnivMF（μp，Kp）在pointz∈SM−1处的密度yρ为：ρ= fP（z）：=CM（Kpµ p）D（Kp）exp（Kpµ ps（Kpz，Kpµ p））。（四）其中vMF归一化器CM和D近似附加的归一化常数（参见Supp.B）。直观地说，nivMF是通过变量变换从vMF获得的：单位球面被拉伸成具有轴长κ m的椭球，m = 1，. . . ，M，在测量到模式µ p的角度之前。因此，沿高浓度维度的z到μ p的距离被强调，而沿低浓度维度的距离被加权较小。实际上，M-dim K p被投影到μ p的（M 1）-dim切平面上，并控制密度的球形形状（见图2）。2b）。投影在µp轴上的剩余浓度，即，控制密度因此，当Kp=cIM是通过某个c >0缩放的单位矩阵时，nivMF简化为vMF（由于近似而达到常数，参见Supp.B）。+v：mala2255获取更多论文Σ中国公司简介Cc=1 exp（−d（ρc，ρc）/t）基于非各向同性概率代理的DML 73.3比较分布而不是点由于代理和图像不再被建模为点，而是分布，我们提出了几个分布到分布的度量（在DML中的距离函数d的意义上-分销到分销概率积核[22]是一个度量族，用于通过密度的乘积比较两个分布ρ和ρ这个家族的一个成员是期望似然核（或互似然得分[63]）。虽然nivMF没有解析解，但我们可以推导出一个Monte-Carlo近似dEL-nivMF（ρ，ρ）：= −log. ∫Eρ（a）d（a）−log1i=1，.，Nzhiρ（zi）ρ（z i）其中N是样本的数量。与[62]类似，我们根据经验发现少量样本（N =5）就足够了。我们用[8]来表示样本。期望似然核是有利的，因为它很容易被蒙特卡罗近似，但我们还想调查其他分布到分布的度量。因此，我们在对ρ的vMF假设下推导它们，其中它们具有解析解（参见Supp.C）。也就是说，这些是类似的期望距离d k eliho dkerneldEL-vM F、相关的PPKkerneldB-vM F和Kullba ck-Leibler距离dKL-vM F。这三种方法都在计算中隐式地使用图像嵌入的范数来考虑模糊性，但性能不同（见4.3节）。分发到点的数据包。经典度量，如等式1中损失的余弦距离，隐含地假设每个代理的分布，并评估每个样本的对数似然。因此，我们将把它们称为分布到点度量。例如，在一个示例中，等式1中使用的余弦度量等效于在具有相等的余弦值的vMF分布近似下的归一化样本嵌入的对数似然[17]，即，dCos（ρ，μ）：=−s（μp，μz）=-log g（ρ（µz ））。另一个常见的例子是L2-距离dL 2（ρ，λ ）：=（νp−ν z）2=−log（ρ（ν z）），它是由ρ的等方差正态分布假设得到的。我们类似地定义dnivMF（ρ，μ z）：=−log（ρ（μz）），在nivMF假设下，ρ将其标记为dEL-nivMF距离。3.4基于概率代理的深度度量学习利用分布代理ρ、分布样本表示和蒙特卡罗近似期望核dEL-nivMF（ρ，ρ），我们可以填充等式2并定义基于代理的DML的概率扩展，精确地定义基本ProxyNCA（[68]）的概率扩展，为LEL-nivMF=logexp（−dEL-nivMF（ρ，ρ）/t）EL-nivMF.（六）+v：mala2255获取更多论文dL2（，）DBvMF（，）L8米Kirchhof等0.00.20.40.60.840403030202010100.00.51.01001020301.00.00.51.01001020300.00.51.0100102030(a) 余弦距离(b) L2距离(c) Bhattacharyya距离图3：样本嵌入到具有范数κp= 10。（a）和（b）将样本视为点，（c）视为vMF分布。虽然这可以用作独立损失，但它也可以概率性地增强其他基于代理的目标Proxy-DML，例如ProxyAnchor [27]。为了在实践中易于使用，我们因此还建议使用它作为正则化器，NCA++ EL-nivMFLjoint=LNCA++（ρ，μ）+ω·LProxy-DML（μρ，μμ）（7）正则化尺度为ω。至关重要的是，代理分布和样本分布的μp和μp是与非概率目标的代理分布共享的参数这确保了两个学习的表示空间之间的对齐。缩放ω平衡了两种方法的正交益处：增大ω突出了鼓励分布模式的更好全局对齐的非概率目标，并且减小ω产生连续的更具分布性的处理。对于这项工作的剩余部分，我们使用EL-nivMF进行ProxyNCA的独立概率扩展（等式10）。6），以及概率正则化的ProxyAnchor的PANC+EL-nivMF（等式6）。7）。3.5不确定性意识如何影响培训在实验评估之前，我们提供了一个将不确定性纳入训练的好处。为此，我们仔细研究了样本嵌入的范数，通过对偶，产生了浓度κz。不确定度为样品温度。图3显示了两个分布到点和一个分布到分布的度量标准，它们与范数和方向的差异有关。我们使用各向同性dB-vMF作为分布到分布度量的代表，因为它具有解析解。虽然dCos忽略了范数的差异，dL2和类似的，y等其他，dB-vMF将其作为一个放大器方面的特征：样本的范数越大，度量随着余弦距离的增加而上升得越陡峭。因此，当将样本与具有大致相同范数的几个代理进行比较时，当样本嵌入范数较低时，它们到样本的距离将更加均匀，并且当样本嵌入范数较高时，它们到样本的距离将变得换句话说，模糊图像在所有代理中产生更相似的logit，从而使类后验分布更平坦，而高度确定的图像产生尖锐的后验。dCos（，）+v：mala2255获取更多论文公司简介和LΣΣ公司简介NCA++=·不Cc=1 exp（−dCos（ρc，ε）/t）exp（−dCos（ρ，ρ）/t）exp（−d（ρ，ρ）/t）elseNCA++=不Cc=1 exp（−dL2（ρc，ε）/t）exp（−dL2（ρε，ε）/t）（ρ，ρ）/t）else基于非各向同性概率代理的DML 9不确定性是一个尺度。 κ z对训练有另一个影响：区分损失NCA++，当使用范数时获得-不可知的dCos或范数-aw是dL2，作为等式中的距离函数。 1，w.r.t. 的[27][28][29][F）δLCos1.−1+exp（−dCos（ρ，）/t）tCc=1CosCΣ如果p=p，δLL2你好−1+exp（−dL2（ρ，）/t）不Cc=1L2CΣ如果p=p，其中p表示地面实况类。除了样品温度，在dL2中的真实性，梯度nt的不同之处在于，LL 2的梯度nt的比例为-关于kz这意味着在批量梯度下降中，较高嵌入范数被拉向地面实况代理，并被推离比具有较低范数的样本更强的其他代理换句话说，图像对嵌入空间的结构化过程的影响取决于其模糊性。这同样适用于分布到分布度量，但比dL2更难推导。该分析表明，在检索时训练超球面分布到分布度量的所有比特交换期间，使用欧几里德dL2距离是足够的，因为它可以被视为对超球面分布到分布度量的不确定性感知训练的简单近似4实验我们现在详细介绍实验（§4.1），基准我们的方法（§4.2），在调查不同的distr。要分发的指标（§4.3）和规范的作用（§4.4）。4.1实验细节实现方式的所有实验都使用PyTorch [49]。我们通过利用ImageNet预训练的ResNet 50 [19]和Inception-V1网络以及Batch-Normalization [67]作为编码器来遵循标准的DML协议。他们的体重来自torchvision[36]和timm[74]。为了进一步确保标准化的训练，我们建立在[57]中提出的代码和标准化的DML协议的基础上，使用Adam优化器[29]，学习率为10−5，权重衰减为4 10−3。在更开放的最先进的比较中（表2），我们还使用了逐步学习率调度。为了确保可比性和快速相似性搜索方法，所有测试时检索都使用余弦距离。为了从vMF分布中采样，我们使用[8]和相应的实现。关于我们的方法和超参数的更多细节在Supp. H.所有实验均在具有12GB VRAM的NVIDIA 2080Ti GPU上运行。数据集。我们在三个标准数据集上进行基准测试：CUB 200 -2011 [69]（训练和测试鸟类的比例为100/100，共有11，788张图像），CARS 196[31]（包含98/98的汽车类别和16，185张图片）和斯坦福在线产品（SOP）[44]（涵盖22，634个产品类别和120，053张图片）。（八）1δcos（µp，µz）、（九）2κpκzδcos（µp，µz）exp（−d+v：mala2255获取更多论文→10米Kirchhof等表1：我们在[57]的标准化比较设置中重新运行了各种强基准我们发现强大的改进时，增强简单的Prox- yNCA对概率DML（EL-nivMF），当使用我们的方法作为一个正则化更通用的方法（ PANC+EL-nivMF）。BENCHMARKS→APPROACHES↓CUB200-2011CARS196R@1mAP@1000R@1mAP@1000SOPR@1 mAP@1000基于样本的基线。保证金[75]多相似性[72]62.9 ±0.462.8 ±0.232.7 ±0.331.1 ±0.380.1 ±0.281.6 ±0.332.7 ±0.431.7 ±0.178.4 ±0.176.0 ±0.146.8 ±0.143.3 ±0.1标准与概率。ProxyNCA [42，68]EL-nivMF63.2 ±0.264.8 ±0.433.4 ±0.134.3 ±0.378.8 ±0.282.1 ±0.331.9 ±0.233.4 ±0.276.2 ±0.176.6 ±0.243.0 ±0.143.3 ±0.1概率DML作为正则化。ProxyAnchor（PANC，[27]）PANC+EL-nivMF64.4 ±0.366.5 ±0.333.2 ±0.335.3 ±0.182.4 ±0.483.6 ±0.234.2 ±0.335.1 ±0.178.0 ±0.178.2 ±0.145.5 ±0.145.6 ±0.10.6650.6600.6550.6500.645CUB200-2011ResNet 50-尺寸：12810 −210 −110 010 110 2103缩放ω0.8350.8300.825CARS196ResNet 50-尺寸：12810−1101103缩放ω0.690.680.670.660.65CUB200-2011Inception+BN -尺寸：51210−2100102104缩放ω0.8600.8550.8500.8450.840CARS196Inception+BN -尺寸：51210−1101103缩放ω图4：作为比例因子ω的函数的概率正则化。当考虑两种正交增强时，我们概率处理越大（降低ω），代理分布模式（增加ω）。4.2基于概率代理的DML的定量评价标准化比较。我们首先遵循[57]中提出的协议，该协议建议在相等的管道和实现设置（以及无学习率调度）下进行比较，以确定所提出的方法的真正好处，不受外部协变量的影响。特别地，我们因此比较了标准的ProxyNCA（参见等式2）。1）针对我们提出的ProxyNCA的EL-nivMF扩展我们进一步应用EL-nivMF作为强的概率正则化器，但超参数重的ProxyAnchor目标。在这里，我们只优化缩放ω。最后，我们对[57]中使用的两种最强的基于样本的方法进行了在所有情况下，表1显示了性能的显着首先，从标准转换为基于概率代理的DML（ProxyNCA EL-nivMF）使CUB 200 -2011上的R@1增加1。6页，3。1996年的3页和0页。SOP上的4页这突出了考虑不确定性和明确鼓励非各向同性类内方差的好处。然而，由于大量的代理和每个类的样本数量少，在以下情况下，召回@1+v：mala2255获取更多论文基于非各向同性概率代理的DML 11表2：与文献的比较，按骨架和包埋尺寸分开。粗体表示相应骨干/尺寸子集的最佳结果，粗体表示总体最佳结果。结果表明，我们的概率正则化Prox-yAnchor方法匹配或击败了以前的方法，尤其是在部分更复杂的最先进的方法。保证金[75]第十七届国际会议R50/12863.6 74.4 69.079.6 86.5 69.172.786.2 90.7[60]第六十话CVPRR50/12865.9 76.6 69.6 84.6 90.7 70.3 75.988.490.2MIC [54]ICCVR50/12866.1 76.8 69.782.6 89.1 68.477.289.490.0港口及机场发展策略[55]CVPRR50/12867.3 78.0 69.983.5 89.7 68.876.589.089.9RankMI [23]CVPRR50/12866.7 77.2 71.3 83.3 89.8 69.474.387.990.5PANC+EL-niVMF-R50/12867.0 77.6 70.084.0 90.0 69.5 78.6 90.5 90.1NormSoft [78]BMVCR50/51261.3 73.9-84.2 90.4-78.290.6-EPSHN [77]WACVR50/51264.9 75.3-82.7 89.3-78.390.7-[第66话CVPRR50/51266.7 77.2-83.4 89.7-78.390.5-DiVA [39]ECCVR50/51269.2 79.3 71.4 87.6 92.9 72.279.691.2 90.6DCML-MDW [81]CVPRR50/51268.4 77.9 71.885.2 91.8 73.9 79.8 90.8 90.8PANC+EL-niVMF-R50/51269.3 79.3 72.1 86.2 91.9 70.379.490.790.6第十二届[12]ECCVIBN/51265.5 77.0 69.085.6 91.2 72.7 75.187.5 90.8DR-MS [11]TAIIBN/51266.1 77.0-85.0 90.5----ProxyGML [83]NeurIPSIBN/51266.6 77.6 69.885.5 91.8 72.478.090.690.2DRML [82]ICCVIBN/51268.7 78.6 69.3 86.9 92.1 72.171.585.288.1PANC+MemVir[30]ICCVIBN/51269.0 79.2-86.7 92.0-79.7 91.0-PANC+EL-niVMF-IBN/51269.5 80.0 71.0 86.4 92.0 71.379.290.490.2与CUB 200 -2011和CARS 196等数据集相比，我们对代理分布的估计变得明显更嘈杂。当使用EL-nivMF作为概率正则化时，我们发现提升超过2。1个pp和1。CUB 200 - 2011和CARS 196分别为2页，预期改善幅度较小，为0。SOP上的2页。然而，一般来说，无论是作为独立目标还是作为正则化方法，一致的改进都突出了DML的概率性的多功能性，并为未来的DML研究提供了强有力的概念验证。不同缩放因子ω的影响。图4展示了作为缩放权重ω的函数的一般化性能（参见等式2）。7）。更高ω表示忽略分布方面并返回辅助ProxyAnchor损失的更非概率性处理[27]。低ω表示更重视代理（和样本）的分布处理。在基准测试和主干中，ω既不高也不为0。因此，结果强调，我们的概率代理为基础的DML有助于更好地通过ProxyAnchor的每个代理分布模式的全球重新调整，反之亦然。总体而言，在最合适的缩放选择下，R@1增加高达4pp。在峰周围的大区域中，可以稳健地达到此最佳值（注意对数x轴）。与SOTA比较。在这些严格标准化的比较之后，我们现在比较ProxyAnchor和EL-nivMF的组合，BENCHMARKS→方法↓[31]第44话：我的世界会场拱/尺寸R@1 R@2 NMI R@1 R@2 NMI R@1 R@10 NMI+v：mala2255获取更多论文12米。Kirchhof等dEL nivMFdEL nivMFdEL vMFdEL vMFdBvMFdKL vMFdKLVMFdnivMFd nivMFdL2d L2dCosd Cos62 63 64 65 6667召回@1（CUB）80 81 82 83 84召回@1（CARS）图5：点对点距离（蓝色）与CUB和CARS上的距离到距离（绿色）指标条形显示平均R@1和标准偏差。在以前的研究中，对较大的DML文献的表现最好。超参数和流水线组件（例如，学习率，权重衰减）在不同的方法之间存在差异，因此比较应该持保留态度[57，43，62]，但我们仍然通过骨干和嵌入维度进行分离，这被认为是最大的变化因素[57]。考虑到这一点，我们在所有基准上都发现了具有竞争力的表现（参见表2），即使与其他更复杂的最先进的方法相比，依赖于多任务学习（DiVA [39]，MIC [54]）或强化学习（PADS [55]）。这使得我们对基于代理的DML的概率性采用了一种对DML具有普遍吸引力的方法，通过将概率性观点实现到这些正交扩展中，进一步改进了这一点。计算开销。我们确实注意到，使用EL-nivMF的训练需要从vMF分布中可微分地绘制样本（参见等式2）。5和[8]）。这可能会增加整体训练时间，但我们发现2-5个样本已经合适，将对整体walltime的影响限制在纯ProxyNCA的25%<这与ProxyNCA（s.a.[21、54、60、55、39]）。由于部署了余弦相似性，检索walltime不受影响作为快速训练的替代方案，我们提供了进一步的概率分布到分布距离（dEL-vM F，dB-vM F，dKL-vM F）以及分析解决方案（Supp. C），从而不需要采样并且计算开销可以忽略。我们将在下一节中研究它们。4.3定量比较第3.3节和第3.2节为分布和距离度量提供了许多建模选择，这些选择可以插入到公式1中的概率DML框架中。二、本节研究这些可能性，最终激发dEL-nivMF的特定选择，并与更传统的分布到点度量进行比较为了确保公平的比较，我们使用512维ResNet-50返回到 [57]的标准化基准协议所有的超参数都是固定的，除了初始的代理范数和温度，它们是通过在验证集上进行网格搜索来调整的。+v：mala2255获取更多论文. ... ... ... .基于非各向同性概率代理的DML 13最低范数最高范数图6：CARS训练图像具有最低（左）到最高（右）嵌入范数。图5显示了CUB和CARS上所有三个分布到点和四个分布到分布度量的R@1比较两个数据集上的分布到点的度量，dL2优于dCos，但被dnivMF支配。非各向同性方法在分布到分布度量中也表现最好。在三个各向同性分布到分布度量中，dKL-vMF显示出最差的性能，与Bhattacharyya的差距较小，与预期似然PPK的差距较大。这与[7]的初步结果一致。后者performs在一个标准偏差的dL 2。另外，我们发现将非等向性添加到标准dCos（即，使用nivMF）使R@1增加2。一个在CUB和1。7汽车上的汽车进一步考虑图像范数（即， dEL-nivM F）添加另一个0。6人在CUB和0。3辆车上。通过非各向同性建模的增强可以被看作是对类内方差和子结构的更好分辨率的归纳偏差（参见Supp. L），这推动了泛化性能[57，39，34，82，77]。d L2的强大性能令人惊讶，因为许多当前方法使用基于dCos的损失[9，27，68]。关键在于，在我们的设置中，DL2仍然使用实时的余弦距离，类似于，例如，[2]的文件。使用dL2也作为检索值度量将使R@1最多减少−5。所有指标和数据集上的34 pp，其中最高的减少app在dL 2训练的模型本身上（参见Supp. J）。这支持仅在训练期间使用范数，如第3.5节所述，其中dL2共享分布到分布度量的不确定性意识，解释了dL2和dEL-vMF之间的小差距。因此，我们推测，一种方法是从分布到分布还是分布到点的角度出发并不重要，只要它在训练期间考虑图像（和代理）的模糊性即可。4.4嵌入规范编码不确定性在上一节中，我们发现在训练过程中考虑嵌入的范数会导致更高的性能。在本节中，我们定性地支持习得规范实际上对应于样本模糊性。为此，我们研究了CARS上的EL-nivMF模型。图6显示了训练集中具有最低和最高嵌入范数在许多+v：mala2255获取更多论文∥ ∥14米Kirchhof等具有低标准的样本，汽车的特征部分被数据增强裁剪掉（这也发生在测试集中，阻碍了完美的准确性）。另一些则覆盖或描绘了多个分散注意力的物体。在高范数图像中，照明和摄像机角度有助于检测类别区分特征。一个竞争性的假设可能是，高标准的图像主要包括具有更独特设计的汽车类别然而，低和高范数图像之间的差异也在类内保持，参见Supp。K和M。这些发现与[62，53，33]一致，并支持图像规范指示图像模糊的假设，其动机是可见的类别区分部分的总和[62]。这证明了vMF假设下的κz=z对偶性，并且与我们在§3.5中对不确定性感知训练的分析一致。5结论这项工作通过不确定性感知训练和非各向同性代理分布提出了基于非各向同性概率代理的深度度量学习（DML）不确定性感知训练是通过不将样本嵌入视为确定性点，而是将其视为由嵌入方向参数化的方向分布来实现的，除了流行的DML方法之外，还包括范数。这允许语义歧义与方向语义上下文解耦，方向语义上下文在数学上表现为样本式温度缩放和确定性加权梯度。此外，我们的代理的非各向同性vonMises-Fisher分布更好地模拟了类内不确定性，这引入了一个低参数的归纳先验，以更好地推广嵌入空间。我们通过各种消融研究来支持我们的方法，这些研究表明，我们提出的框架既可以作为一个独立的目标，也可以作为一个基于代理的目标之上的概率正则化器。在这两种情况下，我们进一步发现了标准DML基准测试的强大性能，部分匹配或击败了现有的最先进的方法。我们的研究结果有力地表明，基于代理的DML的概率处理提供了简单的，正交的增强现有的DML方法，使更好的推广。局限性。我们发现，对于每个类只有很少的样本的应用程序，估计非各向同性代理密度的能力是有限的（c.f.在SOP上的表现）。对于这种稀疏设置中的未来工作，返回到所提出的各向同性分布到分布度量或引入协方差矩阵的跨类先验可以作为替代方案。确认根据德国的卓越战略，这项工作得到了ERC（853489 - DEXIM）和DFG（2064/1 -项目编号390727645）的部分资助Michael Kirchhof和Karsten Roth感谢国际马普智能系统研究学院（IMPRS-IS）的支持。Karsten Roth进一步承认他在欧洲学习和智能系统实验室（ELLIS）博士课程的成员资格。+v：mala2255获取更多论文基于非各向同性概率代理的DML 15引用1. Bouchacourt，D.，富冈河Nowozin，S.：多级变分自动编码器：从分组观测中学习解纠缠表示。在：第三十二届 AAAI 人工智能会议（AAAI）（2018）12. Boudiff ，M.，Rony，J. ，兹科即时通讯Granger ，E.， Pedersoli ，M.，Piantanida，P.，Ayed，I.B.

下载后可阅读完整内容，剩余1页未读，立即下载