基于代理的深度度量学习的非各向同性正则化

107 浏览量更新于2023-10-25 收藏 1.21MB PDF 举报

深度度量学习

代理方法

身份认证购VIP最低享 7 折!

30元优惠券

7420◦基于代理的深度度量学习的非各向同性正则化Karsten Roth1，Oriol Vinyals2，Zeynep Akata1，31图宾根大学，2DeepMind，3MPIforIntelligentSystems摘要深度度量学习（DML）旨在学习表示空间，在该表示空间上，语义关系可以通过预定义的距离度量简单地表达。最佳表现方法通常利用类代理作为样本替身，以实现更好的收敛和泛化。然而，这些代理方法仅针对样本-代理距离进行优化。给定所使用的距离函数的固有非双射性，这可能导致局部各向同性样本分布，导致关键的语义上下文被错过，由于难以解决样本之间的局部结构和类内关系。为了缓解这个问题，我们提出了非各向同性正则化（NIR）的基于代理的深度度量学习。通过利用Normalizing流，我们从它们各自的类代理中强制执行样本的唯一可翻译性。这让我们以明确地诱导围绕代理的样本的非各向同性分布来优化。在这样做的过程中，我们装备了基于代理的目标，以更好地学习本地结构。广泛的实验突出了NIR的一致泛化优势，同时在标准基准CUB 200 -2011、Cars 196和斯坦福在线产品上实现了具有竞争力的最先进性能。此外，我们发现基于代理的方法的优越收敛特性仍然被保留甚至改进，使得NIR在实际应用中非常有吸引力。代码可在github.com/ExplainableML/NonIsotropicProxyDML获得。1. 介绍视觉相似性对于图像视频检索和聚类[4，52，63]、人脸重新识别[7，19，32]或一般监督[22]和非监督[5，18]对比表示学习中的应用起着至关重要的作用。这些领域中使用的大多数方法都采用或可以从深度度量学习（DML）中导出。DML旨在学习深度网络参数化的高度非线性距离度量。这些网络跨越表示空间，其中图像之间的语义关系被表示为相应表示之间的距离在DML领域中，利用代理的方法已经显示出提供图1.基于代理的深度度量学习方法针对代理（▲）和样本表示（）之间的非双射相似性度量进行优化，这可能会在代理周围引入局部各向同性，从而阻碍局部结构和非区分性。要学习的特点我们建议NIR明确解决这个问题。除了快速收敛之外，还具有最一致和最高的性能[23，38，56]。虽然其他方法在样本上引入排名任务以供网络解决，但基于代理的方法需要网络将样本与代理表示进行比较，通常近似于泛型类原型。它们的使用解决了纯粹基于样本的方法所固有的采样复杂性问题[16，47，52，63]，从而提高了收敛性和基准性能。然而，天下没有免费的午餐。依赖于样本-代理关系，类中样本之间的关系不能被显式地捕获.这是加剧了基于代理的目标优化样本和代理之间的距离使用非双射距离函数。这意味着，对于特定的代理，与样品的对准是非唯一的-只要样品和代理之间的角度保持不变，即样品围绕代理各向同性地对准（参见图1），它们的距离和各自的损失保持不变。这意味着样本位于以具有相同距离的代理为中心的超球体上，从而导致相同的训练损失。这包含了不期望的样本代理分布的先验，其不允许很好地解析局部结构。通过合并多个类和代理（当将基于代理的损失（如[23，38，43，56]）应用于具有多个类的训练数据时自动完成），这被扩展到代理周围的样本分布的混合。虽然这提供了一个隐式的解决方案，以广告-7421Ψ◦B◦X⊂∈ X····∈ T∈P通过将样本与来自不同类的代理的关系结合起来，围绕模式进行各向同性处理，仅依赖于可能远离的其他不相关的代理，使得局部结构的细粒度解析变得困难。此外，随着训练的进行和代理移动得更远。因此，基于代理的目标针对其优化的代理周围的样本的分布包括对局部各向同性具有高亲和力的模式。这引入了语义歧义，因为类内样本之间的语义关系没有很好地解决然而，最近的大量研究表明，理解和纳入这些非歧视性关系会促进泛化性能[31，34，46，49，66]。为了解决这个问题，而不诉诸基于样本的目标，阻碍了优越的收敛性和generalization的代理为基础的方法，这项工作提出了非各向同性正则化（NIR）的代理为基础的DML。NIR扩展了基于代理的目标，以鼓励明确学习独特的样本-代理关系并消除语义歧义。详细地说，我们引入了一种新的唯一性约束，其中类内的样本必须由来自相应类代理的（非线性）translation唯一且充分地描述。这明确地引入了基于代理的目标匹配的分布，其中各向同性和模糊性受到严重惩罚。我们通过利用一个双射和一个可逆的翻译家族来实现唯一性。由于代理样本翻译需要适应手头的特定领域，因此我们需要翻译模型的可训练性和非线性。这些函数约束自然地通过规范化流和可逆网络来表达[2，8，41]。使用条件变量，然后，我们为- malize近红外其中样本的关系（唯一）映射的归一化流给定一些残差条件的相应的类代理。大量的实验表明，NIR确实引入了更高的特征多样性，减少了过度聚类，增加了学习的表示空间的均匀性，并学习了比非正则化对应部分更多样化的类分布。在标准DML基准CUB 200 -2011 [57]、CARS 196[30]和斯坦福在线产品[40]上评估我们的方法，展示了配备NIR的代理DML的改进的泛化能力，实现了竞争性或最先进的性能，同时保持甚至提高了收敛速度。2. 相关作品深度度量学习（DML）推动了图像和视频检索零拍聚类应用的研究[4，52，54，63]，特别是考试应用。个人重新识别[7，19，32，59]以及作为改进的监督[22]和无监督表示学习[5，18，37]的辅助工具。共同提议DML方法为网络引入了排名任务，以解决训练代理问题。这可能涉及到对元组中的成分进行排序（例如对[15，39]，三元组[19，52，63]）或高阶元组[40，54，61]）之间的对比样本和原型表示[23，38，43，56，69]。这些基于原型或代理的方法通常被引入，以便在对网络要解决的元组进行采样时解决采样复杂性问题，否则这些问题将通过各种采样算法来解决[13，16，47，52，63]。我们提出了一个自然的扩展，以代理为基础的方法，解决了一个主要的缺点-即将推出时，只有样本和代理之间的对比，同时保留这些方法的有益特性。最后，最近的工作集中在DML的通用扩展上，通过分治[51]、合成数据[31，66]、对抗和基于图的训练[11，53，69]、绕过表示瓶颈[20，48]、注意力[25]和辅助或少量特征学习[12，34这些作品提供了独特的，正交的好处。3. 非各向同性深度度量学习DML模型定义由特征提取骨干Φ和到最终度量空间上的投影f参数化的图像xi上的距离度量df（xi，xj），使得f：=fΦ（）。通常将θ归一化到单位超球面[60，63]，使得θ=Sd−1。该度量空间通常配备有预定义的距离度量，例如欧几里德距离d（，）或余弦相似性s（，），它们在超球面上是等价的[58，65]。在训练过程中，DML学习到将= fφ与图像x i和x j的语义相似性联系起来。培训方法通常涉及定义网络要解决的排名任务-给定例如锚x a，正x p和负x n的三元组，其中y a=y p/=yn，其中y∈ Y表示相应的类和三元组（x a，x p，xn）B从小批次中取样. 然而，元组采样是困难的，因为元组空间复杂性随着元组维度的增加而增加;导致大量冗余[16，52，63]。在采样化学品已经介绍了解决这个问题[16，47，52，63]，最近的工作[23，38，56]已经证明了基于代理的排名目标的承诺3.1. 基于代理的DML基于代理的目标不是在样本之间使用对比操作（例如，通过余弦相似性 s （xi ，xj） [7 ，23 ，61]），而是在类原型（类代理）表示ρjs（ρi，ρj），对于类yi和yj. 这消除了依赖于基于样本的元组的方法中对复杂采样操作的需要，这使得基于代理的目标受益于快速收敛和良好的7422|N||我LPPPLPNCA|B+|DρD图2. NIR-非各向同性正则化。我们通过利用归一化流（τ，）的情况。这些允许我们定义一个双射平移τ，它使用一个简单的密度q=（0，1）的残差，以在唯一的样本-代理关系p（τ（τ ρ）ρ）上诱导分布。这允许更好地解析局部结构和待学习的非判别特征，在保持快速收敛的同时提高泛化能力。泛化性能然而，该属性也招致最强的缺点，因为依赖于样本-代理对和非双射相似性度量s（p，p）：=s（p，p，y）可以导致特征局部地遵循代理周围的各向同性当查看各种代理目标优化的样本代理分布时，可以更明确地看到这一点。以基础ProxyNCA目标为例[38]。ProxyNCA的关联性很强当实际优化代理分配概率时（通过在分母中替换-y，给出PNCA++），它等于pvMFmm的显式负对数似然最小化：LPNCA++= −Ex<$Xy，y<$Y[log pvMFmm（x）|（4 ）在ProxyNCA上扩展的最新和最先进的代理目标，例如ProxyAnchor [23]目标到各种最近的，最先进的目标（如Prox- yAnchor [24]或SoftTriple [43]），并具有以下形式LPA= 1|P+|电子邮件：info@hkl.come−α·[s（x，ρ）−δ]EΣ。es（n（x），ρy）（一）ρ∈P+x∈B，yx=yρLPNCA=−xxyyY日志<$ρ<$∈P−yes（n（x），ρn）1+ |P|logeα·[s（x，ρ）+δ]使用完整的类代理集P对于classyρ∈Px∈B，yxyρ（五）在训练过程中删除了-y1个联合训练的对象最小化样本到其各自类别代理的距离，同时最大化非相关代理的距离，该目标可以被视为在方向ρ周围的von-Mises-Fisher（vMF2）混合模型[14，17]下隐式地最大化属于代理ρ的样本的对数似然（使得y ρ= y ρ）πρCd（κρ）eκρs（ε，ρ）在类似的假设下运行，这表明损失项存在轻微的、更高参数的变化。虽然ProxyAnchor特别建议将样本拉向代理，而不是像PNCA中那样将代理拉向样本，但它类似地依赖于相同的样本-代理对比操作来学习相应的度量空间。这意味着这些方法只能学习与pvMFmm密切相关的代理周围的p vMFmm（|ρ）=πρε∈PπρεCd（κρε）eκρεs（ε，ρε）（2）通过L学习的分布PNCA . 事实上，我们的实验Cd（κ）=κd/2−1·<$（2π）d/2Id/2−1（κ）−1（3）（参见第4.2节和Tab。1）表明，当适应Prox-ProxyAnchor公式假设一类无关的浓度参数κρ =π使得C（κ）=C（κ）=L=1log。1 +e−α·[s（x，ρyx）−δ]x∈Bconst3. 更重要的是，[56]表明LPNCA的性能1我们使用余弦相似度代替[38，56]中的欧氏距离，因为两者在超球面上是等价的。[2]这一假设也见于自监督学习[70]。1+|B|x∈X日志中国1+ρ∈P，yx/=yρeα·[s（x，ρ）+δ]（六）74233Cd包含第一类p阶的修正贝塞尔函数Ip，由于Cd抵消，因此此处可以忽略该函数性能变得比[23]中所示的更相似。虽然ProxyAnchor可能不会针对7424|··|||| ||X我X我211精确的p（π ρ）公式，结果支持这些代理目标之间的一个非常强的分布关系。然而，混合分布，如pvMFmm遭受几个问题。首先，每个模式本身都是各向同性的，因为只要角度θ（θ，ρ）保持不变，s（这意味着特定于类的结构只能通过与不同类的代理的关系来隐式地解析。其次，随着训练的进行，这种类内分辨率变得更差，因为来自不同类的代理继续进一步对比，并且相同类对的样本-代理关系被过度渲染（参见例如，当量1、5、6）。类似地，对于更靠近每个相应的类代理的样本，解析局部结构变得更难。有效地，这导致学习的样本分布对局部各向同性具有很强的亲和力因此，基于代理的目标在解决局部类内集群和结构时固有地是手动的。因此，类内样本之间的语义关系然而，解释和表示组内样本关系的能力一直被证明是DML下游生成性能的关键驱动因素[24，31，34，35，46，49]。虽然基于样本的目标同样受到s（，）的非双射性的影响，但样本到样本操作的使用显式地引入了样本间关系约束。从相应的代理ρ到ρ。给定类内的样本和代理的这种唯一翻译，样本的局部对齐将不再依赖于与来自不同类的代理和样本的关系，如所指出的，这些关系在局部和随着训练的进行不能很好地缩放。由于代理和样本表示具有相同的然而，为了捕获非线性关系和代理到样本的平移，τ是非线性的要有利得多。规范化流程。这种可逆的非线性函数自然地通过归一化流（NF）或更一般的可逆神经网络来表达[1，2，9、27、44、45、50]。规范化流通常可以被看作是两种概率分布之间的转换，最常见的是简单的、定义明确的概率分布和复杂的多模态概率分布之间的转换[8，9，27，41]。更具体地说，我们利用类似于[9]和[27]中提出的流程（并且如所使用的，例如，在[1，2，10，45，50]中），其引入了一系列非线性但仍然可逆的耦合操作，如图2（）所示如果有一些-用表示法n表示，耦合块将n分成n1和n2，分别用非线性缩放和平移网络n1和n2连续缩放和平移n 1和n 2。注意，在[27]之后，每个网络ηi提供缩放ηs和平移值ηt，使得文本[49]允许更好地构建样本，一个班级。然而，仅仅结合一个基于样本的骗局-ψ∗=ψ2Ⓢexp (ηs(ψ1))+ηt(ψ1)将传统操作引入培训过程是不够的，1（七）补救措施，因为它重新引入了采样复杂性问题;消除了基于代理的方法及其快速收敛的吸引力。3.2. 非各向同性正则化动机为了解决基于代理的DML中类内上下文的不可学习性，我们必须解决学习样本中的局部各向同性的固有问题-代理分布p（p）。然而，为了保持基于代理的方法的收敛（和泛化）优点，这必须在不诉诸于将总体目标从纯粹基于代理的目标移开的附加增强的情况下实现。因此，我们的目标是找到p（ρ ρ），其优化更好地解决了我们的代理ρ周围的样本表示的分布。这可以2 2ψ∗=[ψ1∗,ψ2∗]其中，Δλ表示在通过相应的耦合块之后的Δ λ连续应用不同的ηi，然后给出我们的非线性可逆变换τ，从具有显式密度和CDF（用于采样）的残差q（）上的某些先验分布到我们的目标分布。强制非各向同性。因此，我们的双射τ（以代理ρ为条件）从我们的残差q（τ）的先验分布向前推导出一个新的样本表示分布p（τ（τ ρ）ρ），该分布解释了唯一的样本-代理关系，并且我们希望将其强加于我们学习的样本分布p（τ ρ）。这就介绍了我们的Non-I各向同性正则化（NIR）. NIR可以通过期望的对数似然Ex，ρy[logp（x）]的最大化自然地接近。|ρ yx）] over通过打破非--样本-代理对（x，ρyx）X类似于Eq。 4、但在在所使用的相似性度量s（ρ，ρ）中的双射性，其（其自身）引入非唯一的样本-代理关系。为了做到这一点，我们寻找一些正则化，特别是en-鼓励独特的样本代理关系存在。对于这样约束，即围绕相应代理的样本的每个分布p（ρ ρ）是来自我们的残差分布q（ρρ）的τ的前推。这给出（参见例如，[29]）要想建立一个独特的样本代理关系，我们必须有一个LNIR=−Ex，ρyx[logq. τ−1（τ（x））|ρ y）Xx（八）cess到一些双射，因此可逆（确定性）+log |det J τ−1（τ −1（x）|ρ y）|ρ y）|]平移τ = τ（τ|ρ），其中，给定来自某些先验分布q（n）允许唯一地用雅可比矩阵J平移τ−1和代理函数ρy，其中74252LL··LL·LLXLXyx表示样本x的类别。为了得到上述等式，我们简单地利用了变量变化公式p（|ρ）= q（τ −1（τ|ρ））|det J τ−1（τ −1（τ|ρ）|ρ）|.（九）在实践中，通过将我们的先验q（q）设置为标准的零均值单位方差正态分布N（0，1），我们得到4.1. 实验细节实现使用PyTorch[42]。ImageNet [6]-预训练取自torchvision[33]和timm[62]。我们的实验在使用NVIDIA 2080Ti的计算服务器上运行。我们的标准化流程利用8个耦合块和由线性层组成的矩阵，LNIR1=|B| （x，ρyx）B<$−1（x）|ρy）¨2（十）128个节点。使用Adam [26]进行优化（学习率10−5，权重衰减4·10−3，[49]）。我们设ω∈[0. 001，0。01]取决于LPDML的选择。在gen--日志|detJ τ−1（τ −1（x）|ρ y）|ρ y）|即给定样本表示<$（x），我们通过τ−1将它们投影到我们的残差空间<$，并计算等式10个。通过选择合适的归一化流，如GLOW [27]，我们要确保雅可比矩阵的计算成本NIR用于基于代理的DML。由于NIR的目标是围绕代理样本的对齐，我们仍然需要学习通过基于代理的DMLLPDML（P，P）实现代理的全局对齐。这就给出了完整的训练目标L=f（LNIR）+ω· LPDML（λ，P）（11）其中f（）是NIR的单调函数，以在不改变可逆性约束的情况下匹配PDML作为大多数基于代理的PDMLUTI-指数组件，我们简单地使用f（）=exp（）。完全优化然后学习代理，同时唯一地解决它们周围的样本放置。更具体地说，通过NIR的反向传播优化了代理ρ周围的样本对齐，平移τ并提供代理的更新，尽管我们发现后者不是必需的，因为代理主要用于解决样本聚类的全局对齐。NIR-proxy-DML具有几个优点。首先，针对直接解决局部各向同性问题而优化的最终样本-代理分布以更好地解决局部类内结构，因为在每个代理周围保持唯一样本分布需要关于每个类样本在其相应代理周围的类内对齐的隐含知识其次，与ProxyNCA类对象不同（参见前一节），我们不假设每个类的样本浓度与例如当量1.一、相反，以类别代理为条件的非线性转换可以在需要时引入类别依赖的浓度。最后，能够直接解决局部结构可能有利于这些方法的收敛4. 实验本节列出了实验细节（第4.1节），展示了NIR对基于代理的DML的显著好处（第4.2节），并强调了第4.3节。我们还研究了对学习表征空间的定量影响（§4.4），在§4.5中提供了方法消融，并研究了NIR的自我调节特性（§4.6）。尽管如此，我们发现在此期间持续改善。在[23，38，56]之后，我们对代理（4000）使用高学习率我们也看到这有助于规范化流，并在所有实验中使用50。最后，我们找到了一个预热时期来帮助;在联合训练之前，首先在预训练的特征上调整translationτ数据集。我们使用标准基准CUB 200 - 2011 [57]（11，788张鸟类图像，200个类），CARS 196 [30]（16，185张汽车图像，196个类）和斯坦福在线产品[40]（ SOP ， 120 ， 053 张图像， 22 ， 634 个产品实例）。4.2. 非各向同性正则化为了评估NIR的相对优势，我们遵循[49]中提出的方案，以鼓励无学习率调度的精确可比性。新引入的超参数的初始调整是在随机的15%验证分裂上完成的（参见例如，[23，49]）。请注意，我们对于DML，我们选择ProxyAnchor [23]、SoftTriplet [43]（CUB 200 -2011/CARS 196 的 10 个质心和 SOP 的 2 个质心）和ProxyNCA [38]，如下等式：六、表1中提供了多个种子的结果，表明泛化对于跨度量和基准的所有代理对象显著改进，即使对于每个类具有多于一个代理的目标也是如此。SoftTriple。对于后者，我们发现NIR也改善了收敛特性，如§4.3所示。特别是对于每个类有合理数量的样本可用的数据集（s.a.CUB 200 - 2011&CARS 196）来学习有意义的类分布，我们看到了重大的改进，例如，对于82的最先进的Prox- yAnchor。4%至85。&2644到66CARS 196 CUB 200 -2011分别为0%然而，即使对于像SOP这样的数据集，每个类的样本数量也很少，可以看到一致的性能改进，突出了NIR对于基于代理的DML的一般益处。为了与DML方法的整体语料库进行比较，我们在表2中还提供了一个文献比较，方法根据主干架构和嵌入维度进行划分;这两种方法都独立于DML目标驱动泛化性能[39，49]。这里报告的结果最多使用两次逐步学习率调度，参数由随机的15%验证子集上的性能确定[23，34，49]。如可以X7426L表1. 相对比较。我们遵循[49]4中提出的协议，没有学习率调度，以确保精确的可比性。结果显示，在所有基准测试中，非常强大的代理目标都有显着改善，特别是在CUB200和CARS196上，每个类别的样本数量更大。BENCHMARKS→CUB200-2011 CARS196 SOPAPROACHES↓R@1NMImAP@1000R@1NMImAP@1000R@1NMImAP@1000多重相似性62.8± 0.2 67.8± 0.4 31.1± 0.381.6± 0.3 69.6± 0.5 31.7± 0.176.0± 0.1 89.4± 0.1 43.3± 0.1[23]第二十三话+NIR64.4± 0.366.0± 0.368.4± 0.269.6± 0.133.2± 0.334.2± 0.282.4± 0.485.2± 0.369.0± 0.371.6± 0.334.2± 0.336.4± 0.278.0± 0.178.9± 0.190.1± 0.190.4± 0.145.5± 0.146.5± 0.1ProxyNCA[38]+NIR64.2± 0.266.1± 0.268.6± 0.369.8± 0.233.1± 0.234.3± 0.182.1± 0.484.3± 0.368.2± 0.270.6± 0.632.4± 0.534.5± 0.378.3± 0.179.1± 0.190.0± 0.190.2± 0.145.5± 0.146.2± 0.1[43]第四十三话+NIR62.3± 0.363.8± 0.468.2± 0.268.5± 0.231.6± 0.234.0± 0.480.7± 0.283.4± 0.466.4± 0.368.8± 0.530.4± 0.235.5± 0.276.9± 0.277.6± 0.189.6± 0.190.0± 0.143.5± 0.144.9± 0.1表2.使用ProxyAnchor（PA）+NIR进行文献比较。在主干/尺寸和基准测试中，我们发现与更复杂的方法相比，它具有竞争力，甚至是最先进的性能。X：如[23]中所做的骨干中的池化操作的组合。粗体表示在给定的体系结构/专业性设置中最佳。蓝色表示最好的整体。[51]第五十一话MIC [46]港口及机场发展策略[47]RankMI [21]CVPRICCVCVPRCVPRR50/128R50/128R50/12865.966.167.366.776.676.878.077.269.669.769.971.384.682.683.583.390.789.189.789.870.368.468.869.475.977.276.574.388.489.489.087.990.290.089.990.5PA+NIR--R50/128R50/128X66.9±0.267.9±0.277.7±0.378.3±0.269.8±0.271.4±0.485.3±0.286.5±0.391.1±0.292.0±0.272.1±0.272.7±0.279.6±0.179.4±0.190.7±0.190.7±0.190.5±0.190.6±0.1[23]第二十三话ProxyGML [69]DRML [68][28]第二十八话CVPRNeurIPSICCVICCVIBN/512XIBN/512IBN/51268.466.668.769.079.277.678.679.2-69.869.3-86.885.586.986.791.691.892.192.0- 七十二点四72.1-79.178.071.579.790.890.685.291.0-90.288.1-PA+NIR--IBN/512IBN/512X69.4±0.270.1±0.179.7±0.280.1±0.271.1±0.171.0±0.287.1±0.287.9±0.292.5±0.192.8±0.173.1±0.273.7±0.279.4±0.179.3±0.190.5±0.190.4±0.190.3±0.290.2±0.2EPSHN [64][第55话]DiVA [34]DCML-MDW [67]WACVCVPRECCVCVPRR50/512R50/512R50/51264.966.769.268.475.377.279.377.9--71.471.882.783.487.685.289.389.792.991.8-- 七十二点二73.978.378.379.679.890.790.591.290.8--90.690.8PA+NIR--R50/512R50/512X69.1±0.270.5±0.179.6±0.280.6±0.272.0±0.272.5±0.387.7±0.289.1±0.292.5±0.193.4±0.274.2±0.275.0±0.380.7±0.180.4±0.191.5±0.191.4±0.290.9±0.190.6±0.1可见，配备近红外的ProxyAnchor在设置和基准测试中获得了具有竞争力的性能，并获得了新的最高总分。此外，PA+NIR击败了更复杂的方法，例如使用联合多任务和自我监督训练的DiVA[34]或使用外部特征挖掘的MIC [46]这支持了学习具有代理的全局对齐的益处，同时联合改进局部样本对齐。考虑到NIR保留了基于代理的方法的高级收敛性（参见§4.3），这使得NIR在实际使用中非常有吸引力，并为代理DML的类内上下文的好处提供了强有力的概念验证。4.3. 收敛性质NIR的一个主要动机，除了推广的改进，是保持快速收敛速度。我们按照用于Tab的相同设置对此进行调查。1（§4.2）。图3中显示的结果显示了每个时期后的平均测试生成性能[23，38，51]（未显示）。比如泰伯1显示总体平均测试性能）。除了在泛化性能方面的显著改进之外，收敛速度和行为或者被保留或者甚至被改进，例如对于SoftTriple，大概是由于更好地解析类结构，从而允许多个学习类质心的更好对齐此外，由于我们在特征空间中操作，因此规范化流的添加仅增加了有限的额外计算开销。特别是对于大型主干，我们发现walltime的变化和所需的额外GPU内存可以忽略不计（1%）。<4.4. 对齐的质量差异在本节中，我们将研究NIR如何改变基于代理的目标学习的表示空间的结构属性。对于我们的实验，我们选择ProxyAnchor作为PDML的替代。然后，我们通过查看不同的结构度量来比较使用和不使用NIR学习的表示空间的结构：（1）BENCHMARKS→方法↓会场CUB200 [57]拱/尺寸R@1 R@2 NMICARS 196 [30]R@1 R@2NMI标准操作程序[40]R@1 R@10NMI74272κκU||κL··表4. 结构消融。BENCHMARKS→CUB200-2011 CARS196下载中心R@1地图@1000R@1地图@1000PA +NIR66.0±0.3 34.2±0.2 85.2±0.2 36.4±0.2(a)规范化流程培训f（·）= SoftPlusf（·，t = 0. 3）= Expf（·，t= 3）=Exp66.3± 0.266.1± 0.265.8± 0.334.0± 0.234.1± 0.133.8± 0.285.1± 0.285.0± 0.284.8± 0.336.3± 0.336.2± 0.236.1± 0.2毕业。削波无代理反向传播（带负对）ω= 065.9± 0.166.2± 0.464.9± 0.360.0± 0.434.2± 0.134.1± 0.333.8± 0.330.1± 0.385.3± 0.185.0± 0.283.5± 0.473.5± 0.636.5± 0.136.3± 0.134.9± 0.327.2± 0.5(b)规范化流体系结构D15 -W64D5 - W512D3 -W102466.5± 0.566.1± 0.365.8± 0.434.0± 0.234.1± 0.134.1± 0.285.1± 0.484.9± 0.285.3± 0.136.6± 0.336.1± 0.236.3± 0.2条件-开始条件-中等条件-结束66.4± 0.466.1± 0.265.7±0.234.1± 0.234.1± 0.233.8± 0.385.1± 0.284.9± 0.284.8±0.336.2± 0.336.0± 0.236.0± 0.2图3. 国家清单报告对趋同的影响。我们发现NIR提高泛化性能，同时保留甚至不-[60]第六十话t=2（u，v）=e−t<$u−v< $2证明快速收敛行为。表3. 结构特性的变化。应用NIR增加了特征多样性ρ和学习表示G2的均匀性，降低了过聚类π密度，并鼓励更高程度的类间集中度差异（σ2）。评价嵌入空间的均匀性，径向基函数核[3]。在[60]中，较低的值与下游性能的改善有关，对比自监督学习（4）类浓度的方差σ2近似于到类质心的平均距离（相对于平均类间距离）。距离π除其他为体现整体规模，CUB200PA+NIR0.13± 0.020.79± 0.030.44± 0.020.072± 0.0020.19± 0.01 0.68± 0.04 0.37± 0.02 0.078± 0.001+NIR0.13± 0.010.68± 0.020.38± 0.020.072± 0.001CARS196PA0.17± 0.01 0.59± 0.01 0.32± 0.01 0.079± 0.001图4. 奇异值分布用于估计特征多样性ρ，表明NIR引入了更多的方差方向特征丰富度通过光谱衰减 [49] ρ （ λ ） = KL （ S（λ））与特征空间λ的奇异值分解S（λ）测量。ρ（α）测量学习特征空间中方差的显著方向的数量-分数越低表示特征种类越多，与[34，49]中改进的泛化（2）代表性均匀性/密度[49]π密度=πintra/πinter，分别测量平均类内和类间距离πintra和πinter的比值。π密度将类浓度与超球体上的整体对齐相关联。较高的值表明较低的类浓度和过度聚集，这是与更好的概括性的潜在联系[49]。（3）以─tations）。由于NIR允许学习不同的类条件分布，因此我们假设更高的σ2。选项卡中的结果3确实显示出更高的特征多样性ρ（超过30%，参见图4对于排序奇异值谱），减少过聚类（>15%），如π密度所测量的，并增加学习表示空间中的均匀性（通过G2评估高达9%）-所有这些都与上面提到的更好的泛化有关。这与我们最初的近红外光谱的动机是为了更好地明确解析局部结构和簇，这需要表征的局部分离性和辅助特征的引入[34，49]。我们还发现类浓度的方差增加，支持NIR帮助基于代理的目标学习类相关的样本分布。4.5. 消融我们现在消融NIR。结果见表1。4.第一章我们使用ProxyAnchor作为PDML(a) 培训规范化流程。我们首先消除缩放f（）（§ 3.2，方程3.2）。第10段）。可以看出，指数函数的确切选择并不重要，温度（f（t））或Softplus（f（x）= log（1 + exp x））的变化类似地执行。我们还尝试了梯度裁剪（“梯度。剪”），但没有发现任何好处。此外，我们还研究了具有不同类别的样本代理对的联合负对数似然（NLL）最大化问题数据集设置ρ↓π密度↑σ2↑κG2↓7428LLLN∼·LP|LPLP表5.通过反转τ来生成合成样本的自正则化不利于推广。BENCHMARKS→CUB200-2011 CARS196APROACH↓R@1地图@1000R@1地图@1000PA +NIR66.0±0.3 34.2±0.2 85.2±0.2 36.4±0.2生成64.8±0.4 33.0±0.3 84.6±0.6 35.9±0.3反向匹配63.2±0.1 31.0±0.1 83.4±0.1 32.8±0.1生成匹配63.5± 0.2 31.6± 0.2 83.9± 0.4 35.7± 0.3（10，但没有发现任何好处，适合只是最小化NLL的同类对。这支持了我们的假设，即近红外的好处确实在于提高类局部结构的分辨率。这也是通过NIR（完全去除PDML（(b) 规范化流程架构。我们消除了NIR中使用的耦合块的数量（D）和带宽（W），并找到了与默认值（§4.1）相比略有改进的依赖于带宽的最优值。为了保持一致性，我们使用默认设置报告所有其他结果.我们还检查了规范化流的条件-在开始、中间或结束时插入代理（可以看出，条件反射的确切选择在一定程度上影响总体而言，这些结果表明，在应用环境中，可以通过NIR的更积极但不一定是原则性的超参数调整来发现进一步的改进。4.6. 自正则化最后，我们研究了NIR的自然扩展，通过我们的归一化流定义的生成过程进行杠杆化，归一化流提供了从我们可以从中采样的概率密度（在这种情况下仅为（0，1））到相应类y（条件为ρy）的表示空间的转换类似于[31]或[66]，其通过基于样本的DML中的合成样本在推广中5.从残差先验的RISQ（）采样并反向遍历归一化流是否可以生成提供额外自正则化的合成样本。更具体地说，我们研究了合成样本Δ s= τ（Δ ρ）是否可以用于PDML（Δ sX，）以了解更多通用prox-ies（模拟类似地，我们调查生成的样本是否可以用于通过经由PDML（Xs，X）（&在其目前的设置，泛化和收敛受到人为样本。特别是对于前者，我们看到性能从66下降。0%回落至64。8%，甚至63。应用反向分布匹配时为2%。我们假设这是由于引入了噪声样本，特别是在早期训练阶段，以及NIR对学习代理质量的相互依赖性。我们相信，遵循例如硬度感知启发式[66]的更好的适应性合并可以更好地利用这种自正则化的好处我们把这个问题留给今后的工作来解决。5. 结论这项工作提出了用于基于代理的深度度量学习（DML）的NIRNIR解决了基于代理的目标的固有问题，以解决局部结构和聚类，从而学习促进泛化的非歧视性NIR通过独特的样本-代理关系约束来细化在标准的基于代理的DML中优化的样本分布先验来实现这一点大量的实验支持近红外的想法，除了保持快速收敛速度外，还显示出基于代理的目标的泛化性能的显着改善，在所有基准测试中实现了局限性。NIR依赖于学习从（类）代理到相应样本的有意义的翻译。随着代理数量的增加，这些翻译的质量受到影响，这在SOP的性能此外，我们目前的设置还不能利用标准化流引起的样本生成过程来进行额外的正则化（这也受到高代理计数/每类样本数量少的影响）。更广泛的影响。我们的工作显着受益于基于代理的DML，使应用程序在DML驱动的域s.a图像视频检索，而且面对ReID，非常有吸引力。对于后者，给出了误用的可能性。然而，尽管值得注意，但通过近红外的改进不足以推动这些领域的社会使用发生重大变化。鸣谢。这项工作得到了ERC（853489-DEXIM）和DFG（ 2064/1K.R. 感谢国际马普智能系统研究学院（ IMPRS- IS ）和欧洲学习与智能系统实验室（ELLIS）博士项目的支持。7429引用[1] LyntonArdizzone，Ja k obKruse，CarstenLüth，NielsBracher，CarstenRothe r和UllrichKöthe。用于不同图像到图像翻译的条件CoRR，abs/2105.02104，2021。4[2] LyntonArdizzone ， CarstenL üth ， Ja k obKruse ，CarstenRothe r，andUllrichKüthe. 有条件的i

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于代理的深度度量学习的非各向同性正则化

7 深度学习中的正则化1

度量正则性和次度量正则性

深度度量学习详细介绍

matlab求解正则化参数

基于度量的元学习范式

cyclegan的那些loss需要添加正则化

深度学习在曲线相似度度量中的应用

支持向量机的软间隔与正则化

深度学习中，范数有什么意义

软件度量，基于代码行的度量方法，基于功能点度量方法

基于度量学习的行人重识别算法设计

描述小样本学习、基于度量小样本学习、元学习三者之间的关系

基于深度学习的表情识别方式的国内外研究现状与发展动态

深度学习距离度量和评估指标

基于度量的小样本学习发展情况

基于度量学习的ReID方法可以简要介绍一下吗？

基于深度学习人脸识别算法

基于深度学习的图像检索代码

最新资源