超图诱导的深度度量学习语义元组丢失

139 浏览量更新于2023-10-26 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

212≤超图诱导的深度度量学习语义元组丢失Jongin Lim1，2 Sangdoo Yun3 Seulki Park1 Jin Young Choi11 ASRI，Dept.欧洲经委会，首尔大学2三星高等技术研究院3NAVER AI Lab{ljin0429，seulki. park，snu.ac.krsangdoo.yun @ navercorp.com摘要在本文中，我们提出了用于深度度量学习的Hypergraph-Induced Semantic Tuplet（HIST）损失，该深度度量学习通过超图建模将多个样本的多边语义关系我们将深度度量学习公式化为超图节点分类问题，其中小批量中的每个样本被视为节点，每个超边缘对由语义元组表示的类特定与之前仅使用成对关系的基于图的损失不同，我们的HIST损失利用了多个小批量语义关系矩阵通过超图建模由语义元组提供的三边语义关系值得注意的是，通过利用丰富的多边语义关系，HIST损失引导嵌入模型学习类别区分视觉语义，有助于更好的泛化性能和模型对输入损坏的鲁棒性。大量的实验和消融为所提出的方法提供了强大的动力，并表明我们的HIST损失导致改进的特征学习，在三个广泛使用的基准测试中实现了最先进的结果代码可在https://github.com/ljin0429/HIST上获得。1. 介绍深度度量学习已经被广泛研究用于各种视觉任务，例如图像检索[29，37，46]，人脸识别[25，34，48]，人员重新识别[4，50]和少量学习[36，39，42]。深度度量学习的目的是训练深度嵌入网络以产生区分特征，由此来自语义相似图像的嵌入特征彼此接近，而来自不相似图像的嵌入特征彼此远离。嵌入网络的这种识别能力主要是通过损失函数来实现的，并且已经进行了许多尝试来设计用于深度度量学习的最佳损失函数。传统上，基于对的损失（例如，，对比[5，14]，三重态[19，34]和N对[37]损耗）。这些最小化了位置的特征距离图1.我们的HIST损失利用给定小批量的每个样本和类（用颜色标记）之间的多边语义关系。语义元组被定义用于类（例如，，绿色），并表示样本与类的语义关系。在语义元组内部，正样本具有确定的关系值（= 1），并且负样本基于它们属于类的可能性具有软关系值（1）然后将每个语义元组建模为超边。在这个超图中，我们制定了一个节点分类目标。通过利用多边语义关系，HIST损失使嵌入网络能够捕获适合于深度度量学习的重要视觉语义。积极的对，同时最大化那些消极的对。然而，因为不是所有的数据对都是有用的，基于对的损失通常会导致不良收敛[21，29]。为了获得可靠的性能，基于对的损失需要精心的样本挖掘[15，17，49，53]，增加了计算开销。窝替代选项是基于代理的[1，13，21，29，40，60]和基于分类的[26，32，44，45，48，54]损失，这已经证明了快速收敛和良好的性能。然而，由于它们仅将每个数据样本与代表性参数（即，代理或分类权重），基于代理的损失和基于分类的损失都不能利用数据样本之间的关系，这会限制学习特征的质量。最近，为了解决上述限制，已经提出了几种基于图的损失[7，35，55，60]，其通过图建模来利用数据样本之间的关系。这些一个语义元组一个超边缘1.01.00.80.1IX超图建模213方法在小批量内的数据样本之间构建图，然后制定基于图的学习对象。虽然它们已经显示出有希望的性能改进，但这些基于图的损失具有固有的局限性。由于图中的每条边只能连接两个节点，因此基于图的损失的教训仅限于成对关系的捆绑。此外，每个边缘由特征距离或自我注意力定义[41]，并且无论两个样本的类别如何都被确定。也就是说，基于图的损失只考虑成对的特征关系，而不能利用类语义关系。直观上，从样本与类的多边关系中学习，即. 来自同一类的样本和来自不同类的相似外观样本之间的关系，必须有助于理解类区分视觉语义，从而导致改进的特征学习。在这项工作中，我们提出了Hypergraph-inducedSemanticT uplet（HIST）loss，这是一种用于深度度量学习的新型损失函数，它通过超图建模1利用小批量中每个样本和每个类之间的多边语义关系。具体地说，这种语义关系是由所提出的语义元组。如图1所示，语义元组由具有可学习元素的语义关系矩阵表示，其中每行指示每个样本与小批量中的每个类的关系，并且每列表示每个类与小批量中的每个样本的关系因此，语义元组通过可学习矩阵表示每个样本和每个类之间的多边语义关系为了充分利用这些多边语义关系，我们引入了超图建模，每个语义元组由一个超边建模。在这个超图中，我们采用超图神经网络（HGNN）[8]来制定节点分类问题，并将HIST损失定义为节点分类损失。该公式利用HGNN允许我们的HIST损失受益于所提出的语义元组提供的丰富的多边语义关系，超越了成对特征关系。我们在深度度量学习的三个公共基准上验证了我们的方法，CUB-200-2011 [43]，CARS-196 [22]和斯坦福在线产品[31]。在实验中，我们提出了广泛的消融研究和参数分析，以证明所提出的组件的有效性。特别是，我们表明，我们的HIST损失指导嵌入模型注意有意义的对象区域，而不是背景或分散注意力的噪声，有助于更好的泛化性能和模型对输入损坏的鲁棒性。主要结果表明，使用我们的HIST损失训练的标准嵌入网络在所有基准测试中的表现都显着优于最先进的方法。1超图是一个图的推广，其中每个超边可以连接两个以上的节点。2. 相关工作基于对的损失。三重损失[19，34]是一个研讨会的例子，其目的是缩短与正对的距离，同时增加与负对的距离。作为三重损失的扩展，N对[37]，提升结构[31]和四重边缘[52]损失考虑多个负样本。多相似性[46]考虑小批量中的每对数据，并根据相似性为每对数据分配权重。然而，根据经验，基于对的损失收敛缓慢[21，29]。基于代理的损失这组损失的关键思想是推断代理，并将每个数据样本与代理相关联，而不是与其他数据样本相关联。ProxyNCA [29]首先介绍了代理的概念，并提出了基于邻域成分分析（NCA）[11]的基于代理的训练方案。流形代理[1]通过采用流形感知距离来提高性能。 ProxyNCA++[40] 通过各种训练技术增强了ProxyNCA的性能最近，Proxy Anchor [21]已经显示出有希望的结果，它将每个代理作为锚点，并从代理的角度计算损失。然而，由于基于代理的损失仅将每个数据样本与代理相关联，因此它们不能杠杆化数据样本之间的年龄关系。分类损失。这组损失采用分类器来训练模型，就像分类任务一样。最近的一系列工作[26，32，44，45，48，54]表明，精心设计的分类损失可以产生竞争性结果。具体而言，归一化Softmax [54]与平衡采样策略相结合，显示出令人鼓舞的结果。SoftTriple [32]利用多个分类器对每个数据样本进行分类。然而，在上述方法中，每个样本被单独分类，并且不考虑数据样本之间的关系。相比之下，我们使用基于超图的分类器，该分类器利用多个数据样本之间的丰富基于图形的损失。Group Loss [7]计算表示小批量中所有数据样本之间的成对相似性的相似性矩阵，并在相似性矩阵上使用标签识别（LP）[2，58，59]。另一方面，ProxyGML [60]构造了一个有向二分图来建模小批量中所有代理和数据样本之间的关系，然后利用LP的变体。最近，IBC [35]为小批量样本构建了一个全连接图，并使用消息传递网络[10]对每个样本进行分类。然而，图建模只能表达数据样本之间的成对关系与图建模不同，超图可以通过将多个节点封闭在超边内来有效地表示多个数据样本之间的高阶关系。据我们所知，我们首先将超图建模引入深度度量学习损失函数。214BNb∈C|C|∈{···}Y{···}X{···}{···}B{}D∈∈DZ{|∈ X}{D D· · · D}c=1--L∈CNNCNNCNN构造语义元组超图节点分类共享权重输入图2.Hypergraph-Induced Semantic Tuplet（HIST）丢失的整体管道HIST损失包括两个主要步骤：语义元组的构建和超图节点分类。给定一个小批量，我们为每个类构建一个语义元组，一个与该类具有语义关系的样本然后，我们形成一个超图，其中每个超边代表一个语义元组，并一次性连接语义元组中的相应节点。在这个超图中，我们制定了超图节点分类目标，采用超图神经网络（HGNN）。3. 方法3.1. 概述考虑将输入图像xi映射到D维特征zi∈RD，zi=E（xi;Θ），（1）其中，Θ表示总体网络参数。给定一个带有C类的标记训练集，我们的目标是训练模型E（. ）以产生区别性特征嵌入。形式上，我们让=x1，x2，，xN表示一组N个训练图像，并且=y1，y2，，yN表示一组对应的标签，其中yi1，2，C表示C个类别之一。我们采用小批量训练，并且我们的HIST损失利用了由超图建模提供的小批量中的样本之间的丰富相关性。具体来说，我们考虑一个随机抽样的小批量=（xi，yi）i=1，由N b个图像和相应的标签组成。此外，我们让1，2，…，C表示包含在小批量中的类的子集。图2显示了我们的HIST损失的整体管道。给定一个mini-batch，我们为每个类c定义一个语义元组，因此，语义元组Un-类似于先前的元组损失[31，37，52]，其中为每个锚图像定义元组，我们的语义元组为每个类别c定义，并且由与类别c具有语义关系的样本组成，例如类别c的图像和可能属于类别c的其他类别的C. 为了对这种语义关系建模，我们引入了一组可学习的分布，称为原型分布（见3.2节），并基于这些原型分布构建语义元组（见3.3节）。我们然后形成一个超图模型，其中每个超边代表一个语义元组，并一次连接语义元组中的相应节点（参见第3.4节）。在这个超图中，我们使用HGNN [8]执行节点分类（参见第3.5节）。因此，我们的HIST损失通过HGNN的超图消息传递利用语义元组提供的丰富语义关系。应该注意的是，HIST损耗的整个计算是完全可微的，并且整体参数以端到端的方式联合训练。在第3.6节中，我们讨论了HIST损失的基本原理。3.2. 学习原型分布在本节中，我们提出了一组可学习的分布D=1，2，C，我们称之为原型分布，旨在模拟真实的特征分布。具体地，每个原型分布c被分配给每个类c以表示c的整个特征，即，，c= zixi，y i=c。真实世界数据包括类内变化，诸如姿势、视点和背景。为了处理这种类内变化，每个c都是用两个可学习的参数来实现的，即均值μcRD和协方差QcRD×D，它们分别表示类质心和类内变化。在实践中，为了计算效率，我们用公式表示对角协方差矩阵，其中每个Qc用D维向量qcRD简化为Qc=diag（qc）。因此，D的总参数表示为Φ=（µc，qc）C，可以通过反向传播来联合训练。现在，我们形式化我们的分布损失D，它确保每个原型分布都很好地捕获了真实的特征分布。在NCA的启发下[11]，我们将...Prototypical Distributions（）0级1类2类3类语义元组Hyperedge超图特征嵌入空间语义元组Hyperedge* 可训练参数={CNN，HGNN，个文件夹HGNN215i=1D S CCVEH V E.∈|C|∈ CBΣSB···∈2.CCCS CBC∈CS CCMCM我CD D −−Σ在这里，我们首先简要描述超图符号，以{zi}Nb为单位计算每个样本与最接近的原型对于类Cj的特征分布，这些权重反映了分布并最大化正确关联的概率。与NCA不同，由于我们将每个样本与分布相关联，因此距离度量采用平方马氏距离，其中zi和c之间的距离定义为d2（zi，c）=（ziµc）<$Q−1（ziµc）。因此，我们定义每个样本概率P i，即得双曲余切值.zi与正确的原型分布D+相关联的概率，exp（−τd2（zi，D+））它们属于类j的样本可能性。此外，这可以被视为更加关注更难的负样本，因为更难的负样本，即。更接近Cj的，被分配给具有更大权重的（j）。因此，我们的语义元组提供了多边小批量中每个样本和类之间的语义关系，通过超图建模充分利用了这些丰富的语义关系。Pi=0m，exp（−τd2（z，D））（二）3.4.超图建模其中τ>0是温度比例因子[18]。然后，我们的分布损失LD由小批量B的总样本概率的负对数似然给出，1NbL=−logP。（三）然后给出HIST损失的超图模型。超图一般定义为由一个结点集和一个超边集组成的超图.最重要的是，与图中每条边只连接两个节点不同，超边可以连接多个相关的节点。不丹我i=1对方.因此，多个样本之间的高阶关系可以有效地由超图建模。这种监督的目的是使原型分布很好地代表真实的特征分布。较好的表示能力有助于提高语义超图的结构可用一个关联矩阵H∈R表示|V| ×| E|，其中条目定义为元组，这将在下面的部分中介绍。3.3. 构造语义元组Hij =1如果vi∈ej，0否则。（五）最早引入tuplet表示法是为了扩展对于一个节点vi∈ V，其度定义为d（vi）=通过探索多重否定[31，37，52]，每个tuplet提供成对监督以最小化fea，Σ|jE=|1 Hi j。F或超边ej∈E，定义了它的度正对的真实距离，同时最大化负对的真实距离。相比之下，我们为每个类c定义一个语义元组，由与类c共享语义关系的多个样本组成。此外，我们的语义元组是由一个超图建模，并用于超图节点分类，提供多边语义关系，而不是成对的监督。形式上，我们从小批量中为每个类c构造一个语义元组（c）因此，总共的语义元组的构建。使用原型分布D，语义元组由语义关系矩阵S[0，1]Nb×| C|其中ij-th元素由下式给出：如δ（ej）=|iV=|1Hi j. 此外，Dv和De表示节点度对角矩阵和超边度，分别。现在，我们推导出HIST损失的超图模型给定最小批量，我们构造了一个超图，其节点和超边分别表示样本和语义元组。具体地，每个节点vi对应于样本xi，并且其节点特征由嵌入特征zi分配。超图的全部节点特征由特征矩阵ZRNb×D表示，定义为Z=[z1，z2，，zNb]n.在我们的设计中，为了反映样本和类之间的软关系，每个超边连接具有[0，1]中的软关联权重的节点，其中每个类中的正样本的节点通过关联分配Sij =1如果yi=Cj，e−αd（zi，DC）否则，（四）权重为1，而来自其他类的负样本的节点由小于1的关联权重分配。MJ为此，加权关联矩阵H∈RNb×| C|的哪里j表示中的第j个类，α是正的控制负样本反射率的标量在等式（4）中，S的每一行和每一列分别表示in中的样本和in中的类的每个语义元组。对于每个语义元组（j），类别j的正样本被明确地分配，而负样本被分配有由与D C j的平方Mahalanobis距离确定的权重。由于DCj模型的真实所提出的超图由表示为语义关系矩阵SRNb×的语义元组设计|C|的Eq（四）、也就是说，H被设置为S。因此，每个h超边缘e，j代表第j个类j的语义元组（j）。对于类j中的每个样本，h超边缘ej被称为具有1的关系值的正超边缘，而其他的被称为具有小于1的关系值的负超边缘，如（4）中所示。Dc∈D216∈∈∈···−∈NbΣΣ∈L×v××2ev23.5. HIST损失在超图构造之后，我们采用超图神经网络（HGNN）[8]来制定超图节点分类目标。节点特征，即通过HGNN的超图消息传递步骤更新小批量样本的嵌入，允许考虑语义元组对每个具体地，我们利用L层的HGNN，其连续地应用L个消息传递步骤。在每一步中，第l层以特征矩阵Z（l）RNb×dl作为输入，通过超图H传播消息，输出特征矩阵Z（l+1）RNb×dl+1.形式上，给定输入特征矩阵Z（0）=Z和超图H，HGNN进行以下逐层特征更新：Z（1+ 1）= σ。D−1HD−1HD−1Z（l）（l），（6）使用HGNN对语义元组和节点分类目标进行建模。本质上，HGNN的每一层都是由超边连接的节点特征的加权聚合。因此，HGNN使同一超边内的节点特征相似。如果一个超边缘包含具有高关联权重的负样本，则它们的HGNN最终表示将变得与正样本的HGNN最终表示更相似，从而难以区分。为了正确区分负样本和正样本，学习应该沿着每个样本（节点）不属于负超边的方向进行，即，的方向，减少其语义关系（关联权重）的负超边。因此，CNN模型E（. ）使得每个样本主动特征此外，为了区分每个样本，其中，l=0，1，.，L1，并且表示用于第l层处的特征变换的可训练权重矩阵。函数σ（. ）表示非线性激活。我们让我们来记录HGNN的整体网络参数。HGNN的最后一层输出每个节点的最终表示，其维度被设置为类的数量，即。，Z（L）RNb×C.在最终表示的顶部，我们在Z（L）的每行上添加softmax激活函数，并获得每个节点的类预测，即。、Y=softmax（Z（L）），其中Y的第i个r w表示节点v然后，交叉熵损失超图中所有节点上的预测和地面实况标签之间的关系如下所示：NbC在相同的语义元组中，我们的HIST损失将引导CNN模型E（. ）来捕捉重要的视觉语义。因此，在-时用HIST损失训练的嵌入网络很好地倾向于有意义的对象区域，而不是背景或分散注意力的噪声，并且表现出对输入损坏，将在第4.3节中进行确认。4. 实验4.1. 实验装置数据集和指标。实验在三个广泛使用的深度度量学习基准上进行：CUB-200-2011 [43]，CARS-196 [22]和斯坦福在线产品（SOP）[31]。我们将数据集分为训练和LCE =−1Yi=1j=1logY（7）测试集，根据标准设置[27，31]。然后，我们应当指出，没有重叠的类别，其中YRNb×C表示地面真值标签矩阵其第i行表示指示y1的独热向量。最后，我们的HIST 损失被定义为两个损失项（分布损失LD和超图节点分类损失LCE）的加权和Lhist=LD+λsLCE，（8）其中λs>0是用于平衡两个损失值的缩放参数。请注意，整个HIST损失是完全可修复的，允许从端到端的反向传播。在训练期间，总体参数，即，CNN模型E（. ）、原型分布D的Φ和HGNN的Φ通过最小化hist来联合训练。训练后，只有CNN模型E（. ）用于后续任务，例如图像检索和聚类。3.6. 理由在本节中，我们将研究我们的HIST损失的基本原理。HIST丢失的关键是超图在训练和测试分割之间，即，检索和聚类进行了看不见的类。为了评价检索性能，我们采用了Recall@K（R@K）方法.为了评估聚类质量，我们对所有测试样本的嵌入特征向量应用K-means聚类，并基于聚类结果计算归一化互信息（NMI）。为确保统计稳健性，我们进行了10次独立运行，并报告了结果的95%置信区间。实作详细数据。为了与以前的作品进行公平比较，我们遵循了深度度量学习的标准评估设置[21，31，32，46]。具体地说，输入图像的大小调整为224 224.在训练过程中，使用随机调整大小的裁剪和水平翻转来增强图像。在测试过程中，图像被调整大小，256 256，然后在中心裁剪为224 224。按照惯例，我们考虑在ImageNet [6] 上预训练的 BN-Inception [20] 和ResNet-50 [16]作为我们的骨干网络，并将结果与IJ21771.082.386.3八十七点七71.983.086.7八十八点三73.185.088.1八十九六77.388.088.788.0召回@1（%）召回@1（%）S0.5 1.0 1.5 2.0联系我们联系我们≥LL联系我们LL90909090858989 89808875888788708732 48 64 80 96Nb861 2 3 4L870 0.6 0.9 1.2 2.065608 16 24 32(a) Nb的影响(b) L的影响(c) α的影响(d) τ和λs的影响图3.超参数的影响。我们在CARS-196数据集上评估了不同超参数值的Recall@1（%）。对于（a）、（b）和（c），阴影区域表示95%置信区间。同样的骨干网。在骨干网络的顶部，附加了一个全连接层以调整嵌入向量的维数，其中嵌入向量的大小设置为512。对于所有实验，我们使用了两层HGNN，隐藏维度为512，并将mini-batch大小设置为32。超参数α、τ和λs根据经验确定此外，我们还按照MLRC评估设置[30]进行了实验，以增加评估的可靠性。4.2. 参数分析为了验证我们的HIST损失的有效性，我们使用CARS-196数据集分析了超参数的影响。对于所有分析，我们遵循标准评估设置，并使用ResNet-50骨干网络评估检索性能B的影响。由于我们的HIST损失利用了小批量中样本之间的关系，因此我们研究了小批量大小的影响。图3a示出了Nb 为32、48、64、80、96的HIST损失的结果。值得注意的是，HIST损失显示出可靠的性能，无论小批量大小和工作良好的一个小的迷你批。这是由于我们的语义关系是由原型分布决定的，反映了真实的特征分布，因此受小批量大小的影响较小。虽然当Nb=48时性能略有改善，但为了提高效率，我们设置Nb=32L的影响。图3b显示了性能如何变化HGNN层数为L。我们的HIST损失通常表现出优越的性能，无论HGNN层的数量。我们观察到，当L=4时，性能下降，这是由于过度平滑[23，24]。当L=2时实现了最佳性能，这证实了适当的消息传递步骤有助于提高学习特征的质量。α的影响。我们研究了比例因子α的影响，该因子控制方程（4）中负样本的反射率。图3c显示了HIST损失与α的结果0，0。6，0。九，一。二，二。0的情况。当α=0时，每个语义元组（超边）平等地连接一个小批中的所有样本，而不管它们的语义关系如何，数据样本之间的无用信息，这导致性能不佳。对于α >0，HIST损失显示出可靠的性能，无论α值如何。虽然每个数据集的最佳值略有不同，但我们始终发现，任何α在1附近都能获得最佳性能。τ和λ s的影响。最后，我们研究了两个超参数τ和λs的影响，τ8、16、24、32和λ s0。五一0，1。五二0的情况。图3d表明，我们的HIST损失对λs的选择不敏感。此外，结果表明，任何τ16都会产生稳定和良好的性能，这与最近的论点一致，即大温度缩放在深度度量学习中是有效的[21，40]。总体而言，我们的HIST损失表现出可靠和稳健的性能，而不考虑超参数选择。4.3. HIST的有效性消融研究。为了验证HIST各组成部分的有效性，我们将HIST与6种消融模式进行了比较，如表1所示。对于所有消融模型和HIST，我们使用ResNet-50作为主干网络，并遵循标准评估设置。首先，作为我们的基线，我们考虑仅使用D而不使用分类模块的仅D模型。然后，对于单一模型，添加单一分类损失，其中每个样本由样本分类网络而不是HGNN单独分类类TF模型通过用类Transformer [41]分类网络替换样本分类网络来扩展单模型。具体地，类变换器分类网络将类别标签预测为 y=softmax j（f Q（zi）f K（zj） T）f V（zi），其中f Q、f K和f V是用与HGNN相同数量的fc层来实现的。因此，TF类模型杠杆化了小批量中的所有成对关系。此外，D-IBC表示与D配对的IBC [35]模型（我们使用作者的代码）。H-Pos表示我们的变体，其中每个超边仅连接正样本。最后，我们考虑没有分布损失D的HIST。表1显示了上述检索性能在CARS-196上的模型。与单一、TF样和D-IBC模型相比，我们的HIST模型显示出显著的召回@1（%）218平均激活降低平均激活降低LLL方法关系R@1LD-仅-87.3± 0.4+ 单一分类：单-86.4± 0.2+ 基于图形的分类：TF类Transformer [41]类关注度87.8± 0.3D-IBC IBC [35] 87.6± 0.3+ 基于超图的分类：测试图像测试图像H-Pos仅阳性样本HISTHIST（w.o. L D）语义元组87.4±0.2语义元组89.6±0.288.3±0.2表1.CARS-196上消融模型的检索性能输入损坏单TF类HIST加性噪声：均匀83.2± 0.1 85.5± 0.188.0±0.1高斯67.4± 0.3 71.3± 0.276.2±0.3椒盐56.2± 0.2 58.6± 0.268.6±0.2删除像素：开孔73.4± 0.3 76.9± 0.181.8±0.3脱落率61.3± 0.3 65.2± 0.272.5±0.4仿射变换：透视77.7± 0.2 81.0± 0.284.3±0.2旋转69.4± 0.3 73.7± 0.478.3±0.2图像质量下降：JPEG压缩72.6± 0.2 74.0± 0.379.7±0.3高斯模糊64.7± 0.2 69.3± 0.275.9±0.2表2.对不可见输入损坏的鲁棒性我们在CAR-196数据集上评估了不能提高性能超过D-只有基线，这表明了所提出的超图方法的好处H-Pos的表现优于基线，但不是最好的，这表明仅阳性样本之间的关系是不够的。如3.6节所述，利用否定样本的语义关系进一步提高了性能。最后，D的使用有助于HIST的性能改进。使用D，原型分发更好地捕获真实分发并提高语义元组的质量，从而提供广告性能增益。其他数据集的进一步结果附在补充材料中。对输入损坏的鲁棒性。许多研究人员已经证明，深度模型很容易被输入图像上可忽略的扰动所欺骗[12]。为了进一步证明HIST的有效性，我们验证了模型对各种输入损坏的鲁棒性。具体来说，我们评估了嵌入网络的检索性能，正常训练的CARS-196，损坏的测试图像。如表2所示，我们考虑了四种类型的九种输入校正，它们没有用于训练：图4.具有最大平均激活值的最后特征图的三个通道的可视化。更多结果附在补充材料中。噪声（均匀、高斯和椒盐噪声）、像素丢失（剪切和丢失）、仿射变换（透视和旋转）和图像质量下降（JPEG压缩和高斯模糊）。上述腐败的详细情况见补充材料。在表2中，我们比较了单一、TF样和HIST模型的结果。我们的HIST模型对所有输入损坏都表现出了鲁棒性和优越的性能，这表明使用HIST损失训练的嵌入网络倾向于输入图像的有意义区域，而不是分散噪声。特别是，HIST的优越性更加明显的腐败，这进一步支持了我们的超图方法的有效性，以单一的和基于图的方法。功能激活图的可视化。为了理解HIST的定性效果，我们研究了由学习的嵌入网络的最后一个卷积层提供的测试集图像的特征激活图。在图4中，我们可视化了按平均激活量降序排列的前三个通道。结果表明，HIST训练的嵌入网络比其他消融模型更好地聚焦于目标区域，这表明超图方法杠杆化多边语义关系的优点。即使与最近最先进的基于图的对应物（IBC [35];我们使用作者提供的训练模型进行公平比较）相比Fur-1，汽车图像的HIST结果（右侧美国[35]HIST单个- 只219方法Cub-200-2011CARS-196SOPR@1R@2R@4NMIR@1R@2R@4NMIR@1R@10R@100NMI使用BN-Inception的方法：HTL512 [9]57.168.878.7-81.488.092.7-74.888.394.8-RLL-H512 [47]57.469.779.263.674.083.690.165.476.189.195.489.7MS512 [46]65.777.086.3-84.190.494.0-78.290.596.0-[32]第三十二话65.476.484.569.384.590.794.570.178.390.395.992.0[7]第七话65.577.085.069.085.691.294.972.775.788.294.891.1[38]第三十八话66.777.486.2-83.489.894.1-78.390.596.1-ProxyAnchor512 [21]68.479.286.8-86.191.795.0-79.190.896.2-ProxyGML512 [60]66.677.686.469.885.591.895.372.478.090.696.290.2DRML512 [57]68.778.686.369.386.992.195.272.171.585.293.088.1DAM512 [51]69.179.887.2-86.992.195.3-----HIST512（我们的）69.7±0.380.0±0.287.3±0.270.8±0.287.4±0.292.5±0.395.4±0.173.0±0.279.6±0.291.0±0.296.2±0.292.2±0.3使用ResNet-50的方法：N.Softmax512 [54] 61.373.983.569.784.290.494.474.078.290.696.291.0FastAP512 [3]-------76.489.095.1-TML512 [52] 62.573.983.0-86.392.395.4-78.091.296.7-ProxyAnchor512 [21] 69.780.087.0-87.792.995.8-----ProxyNCA++512[40] 64.7---85.1---79.6---[28]第28话79.3-71.487.692.9-72.279.691.2-90.6DCML512 [56] 68.477.986.171.885.291.896.073.979.890.895.890.8S2SD512 [33] 70.179.7-71.689.593.9-72.980.091.4-90.8IBC512 [35]70.380.387.674.088.193.396.274.881.491.395.992.6HIST512（我们的）71.4±0.281.1±0.388.1±0.274.1±0.289.6±0.293.9±0.196.4±0.175.2±0.381.4±0.292.0±0.296.7±0.192.8±0.2表3.与标准评估设置下的最新技术水平进行比较。上标表示嵌入维数。对于所有比较的方法，结果引用自原始论文。对于我们的方法，我们报告了在10次独立运行中评估的95%置信区间最好的结果用粗体标记，第二好的结果用下划线标记。（图4的）示出了嵌入网络在第一通道中聚焦于整个汽车，然后聚焦于特定部件，例如前灯和车轮。这一观察结果表明，我们的HIST损失指导嵌入网络从图像中捕获重要的语义，有助于对不可见类的更好的泛化性能和对输入损坏的模型鲁棒性，分别如表1和表24.4. 与现有技术的表3显示了在标准评估设置下与其他最先进方法的性能比较[21，31，32，46]。由于骨干网络对性能有很大的影响，因此针对同一骨干网络进行了比较。在所有实验中，用我们的HIST损失训练的标准模型都达到了最先进的性能。特别是，与最近基于图形的损失（如 ProxyGML [60]， GroupLoss [7]和 IBC [35] ）相比，我们的HIST损失清楚地显示了所有数据集的优越性能。HIST损失的优异性能来自我们的超图方法，该方法利用样本之间的多边语义关系，引导嵌入网络从图像中捕获重要的语义，如第4.3节所示。此外，为了提高我们评估的可信度，我们进一步在MLRC评估设置下进行了实验[30]，我们的HIST损失仍然达到了最先进的性能（参见补充材料）。5. 结论在本文中，我们提出了用于深度度量学习的Hypergraph-Induced Seman-tic Tuplet（HIST）损失，该损失通过 Hypergraph 建模来杠杆化由 Seman-ticTuplet提供的多边语义关系首先，我们提出了可学习的原型分布，以自动构建语义元组从一个小批量，避免了元组挖掘的计算负担过重。然后，我们制定了基于超图的学习目标，采用超图神经网络。与基于图形的损失相比，我们的HIST损失利用了成对特征关系之外的多边语义关系。通过利用多边语义关系，HIST损失促进嵌入网络关注有意义的对象区域而不是背景或分散注意力的噪声，从而有助于更好的泛化性能和对输入损坏的鲁棒性。广泛的实验结果证明了HIST损失的有效性，并且对于三个基准数据集，在标准和MLRC评估设置下，用HIST损失训练的标准模型实现了最确认本研究得到了韩国政府（MSIT）的IITP资助：[No.B0101-15-0266，高性能视觉大数据发现平台的开发]和[NO.2021-0-01343，AI研究生院计划（SNU）]。220引用[1] 尼古拉斯·阿齐埃和希尼萨·托多罗维奇。使用硬代理进行深度流形相似性学习在IEEE/CVF计算机视觉和模式识别会议论文集，第7299-7307页一、二[2] Mikhail Belkin Partha Niyogi和Vikas Sindhwani。Man-ifold正则化：一个从标记和未标记示例中学习的几何框架。Journal of Machine Learning Research，7（Nov）：2399-2434，2006. 2[3] Kunh Cakir，Kun He，Xide Xia，Brian Kulis，and StanScaroff.深度度量学习排名。在IEEE/CVF计算机视觉和模式识别会议论文集，第1861-1870页，2019年。8[4] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.超越三联体丢失：一个用于个人重新识别的深度四联体网络。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 403-412，2017中。1[5] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。1[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[7] 伊斯梅尔·埃莱齐，阿斯蒂亚诺·瓦斯孔，亚历山德罗·托尔奇诺维奇，马塞洛·佩利洛和劳拉·里尔-塔克斯。深度度量学习的组损失欧洲计算机视觉会议，第277-294页。Springer，2020年。一、二、八[8] Feng Yifan ， Huxuan You ， Zizhao Zhang ， RongrongJi，and Yue Gao.超图神经网络在AAAI人工智能会议论文集，第33卷，第3558-3565页，2019年。二三五[9] 葛伟峰。深度度量学习与分层三元组丢失。在欧洲计算机视觉会议（ECCV）的会议记录中，第269-285页，2018年。8[10] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。国际机器学习，第1263-1272页。PMLR，2017年。2[11] Jacob Goldberger，Geoffrey E Hinton，Sam Roweis，andRuss R Salakhutdinov.邻域成分分析。神经信息处理系统的进展，17，2004。二、三[12] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。7[13] Gu Geonmo，B

下载后可阅读完整内容，剩余1页未读，立即下载