归因视觉相似性学习的框架

93 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7532归因两辆UAZ猎人车分解发动机罩（类似）车轮（相似）保险杠（不同）正面（不可靠）屋顶（不同）身体（相似）归因视觉相似性学习清华大学自动化系，清华大学自动化系，清华大学自动化系北京国家信息科学技术研究中心{zhang-br21，zhengwz18} @ mails.tsinghua.edu.cn;{ jzhou，lujiwen}@tsinghua.edu.cn摘要本文提出了一个可归因的视觉相似性学习（AVSL）框架，以更准确和可解释的图像之间的相似性度量。大多数现有的相似性学习方法通过利用距离度量将每个样本映射到嵌入空间中的单个点（例如，Mahalanobis距离、Euclidean距离）。受人类语义相似性认知的启发，我们提出了一种广义相似性学习范式，用图表示两幅图像之间的相似性在此基础上，建立了自底向上的相似性构造和自顶向下的相似性推理框架，实现了基于语义层次一致性的相似性推理。我们首先识别不可靠的高级别相似性节点，然后使用最一致的相邻低级别相似性节点来校正它们，同时保留用于相似性归属的痕迹在CUB-200-2011、Cars 196和Stanford Online Products数据集上进行的大量实验表明，与现有的深度相似性学习方法相比，我们的框架有了显著的改进，并验证了该框架的可解释性。11. 介绍相似性学习是计算机视觉领域中的一项基本任务，其中最流行的工作（即，度量学习方法）采用距离度量来测量样本之间的相似性。它们将特征变换到嵌入空间中，并将相异性定义为该空间中的欧几里得距离，其目标是将相似的样本聚类在一起，并将不同的样本彼此分开。虽然传统方法使用手工制作的特征，如SIFT [21]和LBP [1]，但深度度量学习方法采用卷积神经网络（CNN）[16]来提取更具代表性的特征并展示卓越的性能。近年来，相似性学习已被广泛应用于各种*通讯作者。1代码：https://github.com/zbr17/AVSL。相似不相似不可靠归因图1.提出AVSL框架的动机。人类将每个图像识别为一组复杂的概念，并将两个图像分层组合[17]。例如，当推断两辆汽车之间的相似性时，人类通常首先比较形状或颜色等高级特征，然后在粗略观察无法明显区分它们时转向更精细的特征，例如车轮结构。基于此，我们提出了一种图结构，将样本对分解为具有区分性的概念节点，这更符合人类认知距离的感知方式，有利于相似性度量的归属。视觉任务，如人脸识别[11，30，35]，人重新识别[4，10，18，47]和图像分类[2，22]。视觉相似性学习的基本目标是获得一个相似性度量，以及推广到看不见的数据。已经证明，人类视觉系统的良好概括来自于将对象解析为部分和关系并学习底层概念的能力[17]。人类还通过首先比较高级特征，然后深入研究较低级别的特征，分层地推断两个图像之间的相似性，如图1所示。然而，现有的大多数相似性学习方法只是简单地将每个样本投影到一个向量上，并采用马氏距离或欧氏距离作为相似性函数。他们只使用顶级功能来7533表示图像，并直接计算相似度，而无需进行推理。此外，使用单个向量进行相似性测量加剧了由黑盒CNN引起的不可解释性，并导致不可追踪的相似性测量，即，我们很难将整体相似性归因于具体特征。为了缓解这个问题，一些方法[3，33，59]试图将神经网络可视化技术扩展到深度度量学习，并为每个图像生成显着图。尽管如此，他们仍然将相似度计算模型视为一个黑盒子，只能以事后的方式主观地解释它，其中相似度计算过程仍然不可追踪和不可解释。在本文中，我们提出了一个可归因的视觉相似性学习（AVSL）框架，积极解释学习的我们将流行的度量学习范式推广到用图来表示图像之间的相似性，然后分析它来推断整体相似性。我们使用CNN以自下而上的方式提取分层视觉特征，其中高层特征编码更抽象的概念[45，50]，并且可以被视为低级特征的组合[51，52]。我们进一步构造了一个无向图来表示图像之间的相似性在此基础上，提出了一种基于层次一致性的自顶向下的相似性推理方法。我们从高级别的相似性节点开始，并使用相邻的低级别相似性节点校正识别出的整体相似性可以很容易地归因于对应于某些视觉概念的每个相似性节点的效果我们的框架可以很容易地应用于现有的深度度量学习方法，具有各种损失函数和采样策略。在广泛使用的CUB-200- 2011[37]，Cars 196 [15]和Stanford Online Products [24]数据集上进行的大量实验表明，我们的AVSL框架可以显着提高各种深度度量学习方法的性能，并实现最先进的结果。我们还进行了可视化实验，以证明我们的方法的可归因性和可解释性。2. 相关工作相似性学习：相似性学习旨在学习相似性函数以准确地测量图像之间的语义相似性。传统的方法采用马氏距离学习线性度量函数，并进一步使用核技巧来建模非线性关系。最近的深度度量学习方法采用卷积神经网络来学习嵌入空间，并使用欧几里得距离进行相似性测量，其中大多数工作集中在设计不同的损失函数[7，13，23，27，30，32，34，40]和采样策略。GIES [5，6，8，25，30，41，43，49，55]，以便更有效地训练度量。例如，对比损失[7]将正对拉到一起，同时将负对推到比固定边缘更远的地方。Song等人[24]进一步提出了一种考虑小批量之间全局联系的提升结构化损失。Movshovitz等人。[23]通过在损失公式中包括代理，将对采样简化为线性复杂度。尽管如此，一个适当的采样策略已被证明是有效的，以提高性能。例如，Schroff et al.[30]提出了一种半硬抽样策略，以选择信息样本，同时丢弃离群值。Harwood等人[8]提出了一种适应不同训练阶段的智能采样策略。其他作品探索不同的相似性函数的设计，以提高性能。例如，Yuan等人[48]和Huang et al.[12]分别提出了SNR距离Verma等人。[36]学习了基于类分类的层次距离度量。Ye等人。[44]采用了一组指标来描述不同视角的相似性。然而，所有上述方法都通过将样本投影到欧几里得距离中的单个点来表示相异性，这意味着三角形不等式，而所提出的AVSL框架以图形方式表示样本以建模概念之间的关系Zheng等人。[57]还通过使用多重嵌入器投影样本来学习子空间结构来利用关系。相应地，我们建议分解的整体相似性层次与层次一致性的归纳偏见，并采用自上而下的相似性结构兼容自下而上的相似性建设。可解释的人工智能：可解释的人工智能（XAI）近年来引起了相当大的关注一类工作旨在通过可视化或模仿来解释黑盒模型的输出[3，28，31，33，46，50，52，58，59]（即，被动方法）。例如，Zeiler et al.[50]Selvaraju et al.[31]分别使用去卷积和梯度将隐藏特征映射投影到输入空间中，这可以帮助人们理解隐藏层的语义。Ribeiro等人[28]和Zhang et al.[52]采用线性回归和图形模型来模拟黑盒推理过程中的复杂规则。另一类工作试图修改模型架构以提高其可解释性[38，42，53]（即，主动方法）。例如，Zhang等人。[53]将隐藏层的每个内核限制为编码单个概念。Wu等人。[42]提出了一种树正则化损失，以支持可以更容易地通过简单决策树近似的模型。一些作品[3，33，54，59]试图将神经网络可视化技术扩展到深度度量学习。然而，它们只能获得整体显著性图，很难对整体进行定量的归因分析7534∈∈·∈·H我∈ ∈ {···}ǁ −ǁ联系我们我我H我我正规化嵌入i=1（δi）.充分利用我我我H|−|H相似性，不能提供相似性模型的详细解释。据我们所知，我们是第一个探索可归因和可解释的相似性学习框架。模拟人类比较对象从粗到细，所提出的AVSL可以属性的整体相似性层次隐藏的概念。3. 该方法在本节中，我们首先提出了一个广义的相似性学习范式，然后详细阐述了所提出的自底向上的相似性构建和自顶向下的相似性推理。最后，我们提出了AVSL框架，并演示了如何定量属性的相似性，我们的框架下的不同层次的功能。3.1. 广义相似性学习范式令X= x（1），x（2），，x（N）表示图像集，其中样本x（n）X具有标签l（n）l1，l2， lC，其中C是类别的数量。给定L层CNNf和样本x，我们将l层输出称为特征映射，表示为zl= f l（x）Rcl×hl×wl，其中c l，h l和w l分别表示通道，高度和权重。然后，池化操作gl（）将特征图减少到向量vl= gl（zl）Rcl。现有的深度度量学习方法通常添加线性投影器h l（）以将vl映射到r维嵌入空间：el= h l（vl）Rr，其中两个图像x，x′之间的相异性为d（x，x′）=d（el，e′l）= el e′l2. 为了简单起见，除非另有说明，否则我们可以互换使用相似性和相异性。然而，现有的深度相似性学习方法仅利用来自顶层的特征，而丢弃来自隐藏层的特征，这些特征可能包含互补信息。为了解决这个问题，我们提出了一个广义相似性学习（GSL）的范例，它构造了一个无向图，涉及嵌入从每一层计算整体相似性。我们将嵌入el的每个元素表示为el，并将的相似节点定义为δl=ele′l。此外，的边ωij将在3.2节中详细说明。总而言之，GSL范式是由两个模块组成：• 相似度构造：计算相似度节点δl和边ωij来构造无向图H。低层高层特征关系广义常规相似性学习图2.用一个例子来说明拟议的GSL和传统的DML之间的区别。传统的度量学习方法在应用CNN提取层次特征后，主要关注顶层特征，而GSL充分利用各层特征及其相互作用来构造相似性图。由自底向上的相似性构造和自顶向下的相似性推理组成的大规模学习（AVSL）框架。3.2. 自底向上相似性构造传统的相似性学习方法仅使用来自顶层的嵌入来计算整体相似性，这使得难以追溯到不同的概念，这些概念由来自所有层的嵌入编码，如Zhang等人所证明的。[52]。不同层次的特征编码不同层次的包含互补信息的概念，其中高层特征的大感受野使其能够表示高层语义信息并省略一些高频细节，而低层特征可以捕获细节信息如纹理，但由于感受野受限而无法感知全局语义。尽管如此，高级特征可以被视为低级特征的组合[51，52]，并且它们的连接可以用于随后的相似性推断。因此，我们提出了一种自底向上的相似性构造方法来计算不同级别的相似性节点和它们之间的连接。第一步是计算相似性节点δ1。我们前-• 相似性推理：根据图H推断出总体相似性d。追踪特征图zl我第l层的卷积传统的度量学习方法可以被视为GSL范例的特殊情况，如图2所示，当仅用顶层相似性节点δL构造并将总体相似性定义为d= δ L时，块，然后获得特征向量。使用全局池化的变量vl随后，我们采用全连接层将特征向量映射到相应的嵌入el。最后，我们通过计算相似节点之间的差异的平方来获得相似节点。L2i勒深度CNN，我们进一步提出了一个可归因的视觉模拟，δl=|埃塞尔-埃塞尔|二、（一）：7535IJ我我JL·我IJ我我IJ我我IJ我我我我我 J我l−1我我IJ我我·Σ伊伊季我LLay$r L − 1（一）通道A（b）第（1）款=mi$相邻层的相关相似性节点应该是一致的，这可以用作约束整体相似性的非平凡约束。受此启发，我们建议识别不可靠的高级别相似性节点，并使用具有最大相关性的相邻低级别相似性节点对它们进行rec- tify。类似于人类从粗到细比较图像的过程，我们从上到下推断整体相似性。我们首先估计第l层相似节点的可靠性，以识别不可靠的节点。直觉上，我们认为一个相似节点不可靠，如果它的核心-图3. 说明如何构造边的插图（一）如何计算相关性的基本思想。我们提出了使用CAM将节点恢复为空间分布，并将相应分布的重叠程度视为节点之间的重叠。(b)详细的操作。我们首先将每个CAM重新缩放为相同的大小，然后计算两个归一化CAM的卷积作为边缘的相关值。第二步是计算节点δl之间的边wl响应CAM不能清楚地聚焦于特定区域。形式上，我们采用归一化CAM的标准差计算可靠性，如下所示：ηl=std（ul）·std（u′l），（5）其中，st d（）表示标准偏差，udl，ud′l表示样本x，x′的归一化CAM。然后，我们应用S形函数将η l映射到（0，1）的范围，如下所示：和δl−1。由于池化操作会擦除空间信息，αlηl+βlJl l l l诶诶诶信息，它编码不同节点之间的关系，我们建议利用每个节点的CAM [58]来恢复关系，如图3所示。我们首先计算CAMpi=σ（αiηi+βi）=eαlηl+βl∈（0，1），（6）其中，αl、βl是逐节点可学习的参数。我我节点如下：Clul=aijzl∈Rhl×wl，（2）然后，我们纠正不可靠的节点在较高级别的层与相关的相邻的较低级别的层。对于第l层的不可靠δl，我们表示索引集I jj=1我在第（l-1）层的k个最相关的节点为：其中z1表示特征图z1的第j个切片，并且表示线性层的权重。我们认为I（δ l）={j|ω l∈maxk{im：m=1，2，···，r}}，（7）如果相应CAM的两个分布在统计上相似，则两个节点相关。在将CAM重新缩放和矢量化为相同尺度矢量ul ， ul−1∈Rp 之后，其中p=min{hl，hl−1}×min{wl，wl−1}，我们建立其中maxk（）表示k个最大值的集合亚最后，我们通过原始相似性节点δl和相邻的相关低级别节点δl-1的和计算校正后的相似性节点δl，并通过不可靠性pl加权，如下所示：相关系数ωlJJ I通过计算u的内积，和ul−1如下：plδl+(1−pl)ω˜lδˆl−1,2≤l≤Lωij=ui，uj。为了获得最终的边缘ωl，我们采用动量更新策略来逐渐合并所有训练样本：δl，l=1lj∈I（δi）ij我其中ωij=rLLlωlIlωl∈ [0，1]表示非-Lω←γω+（1−γ）ω，（4）k=1k∈I（δi）ikij ij ij ijI（·）是指示函数，δl，ωl其中γ是动量因子。3.3. 自顶向下相似性推理伊伊季是图H的节点和边。由于δ l≥0，pl∈（0，1），ωεl≥0时，我们知道δεl≥0。为了方便起见，我们将（8）以矩阵格式重新组织如下：在构造了由类似的-δδδlδl-lδl−1Li.节点δl和相关边ωl，我们想加入-δ=Pδ+（I P）Wδ（九）伊伊季l对它们进行穿孔以计算总体相似性。充分利用CNN的层次一致性，提出了一种基于图H的自顶向下的相似性推理方法。一方面，我们认为，特征对补充信息进行编码，C$MC$M×不相关p相关从L-1层H1W1H2W2平均池化逐点乘法H2和SumW2通道B从LLay$r LR我Lδεl=（三）j=1J（八）i i i+17536LrIJ1R1 2R其中δ=[δ1δ1· · ·δr]∈Rδl=[δl δl· · ·δ] ∈R.dia g（pl，···，pl），l≥2.对应的相似度节点产生相对独立的相似度判断。另一方面，I，l=1W<$l=（ω<$l）∈Rr×rP1=7537d=我δd=δ=1δ （11）我=i=1δi。拟议我我Lm（dl）+minLf（d）（10）对总体相似度的变化贡献较大Σ11riθ1、θ 2θ1l=1θ2如果其对应的权重λl较大，则该值为0。最后，显着性特征相似性相似性没有梯度图4.所提出的AVSL框架的架构的说明我们首先从CNN网络的多层中提取一组特征图，并执行全局池化，然后进行线性投影以获得嵌入集。然后，我们计算相应嵌入之间的绝对差的平方对于相似性推理，我们首先估计相似节点的可靠性，并使用相邻较低级别中最相关的节点来校正它们我们计算整体相似性作为顶层的整流相似性节点的总和，其可以方便地归因于不同级别中的特定相似性节点最后，我们将两个图像之间的总体相似度定义为校正后的顶级相似度节点之和，训练相似性推理模块，并将相似性等级损失训练相似性构造模块。Lmri=1 δL，而较小的值表示更相似。目标是学习每层的区别性嵌入不一致在（9）之后，我们可以有效地以自顶向下的方式递归地推断它.3.4. 归因视觉相似性学习所提出的AVSL框架采用基于层次一致性的自底向上的相似性构造和自顶向下的相似性推理方法来扩展传统的相似性学习，如图4所示。我们将我们的框架分为三个阶段：培训、属性和评估。培训：为了学习网络参数，我们而Lf只是为了学习相似性推理过程，以获得准确和鲁棒的总体相似性。归因：分析模型如何影响相似性是必要的。我们以线性组合格式将总体相似性数据重新分析如下（9）Rˆ ˆLˆLii=1=1PLδL+1（I-PL）W<$Lδ<$δL−1L L rlrlAVSL与现有的深度度量学习方法与各种损失函数和采样策略，以进一步提高其性能。对于特定的损失函数L（·），所提出的AVSL的总体目标=1Λlδl=λlδl，l=1l=1i=1其中Λl=（I-PL）W<$L···（I-Pl+1）W<$l+1Pl，并且λ1=[λ 1λ 1···λ 1]= 1T~1。权重λl表示框架的制定如下：L整体相似性对每个相似性节点的敏感性δl，这意味着相似性节点δl的变化将阿斯图里岛其中θ1对应于CNN网络参数，θ2表示相似性推理模块的参数，包括可靠性估计模型的αl，βl绘制地图以展示归属过程。建议AVSL框架是方便的可视化，因为我们计算相似节点和相应的我我（6）. 我们只在单个前向传播中同时使用与提取建设推理向前落后可靠性第m层STD节点矫正节点diff第二层STDdiffSTD第1层diff顶向下整流器整流器估计器估计器边缘CAM嵌入器池化CAM嵌入器池化CAM嵌入器池化底向上精细的第l级相似性，作为d最小J=最小7538××评估：在评估期间，我们冻结所有参数，并且仅使用（11）计算总体相似性数据，以表示给定查询样本和图库样本之间的相似性。4. 实验在本节中，我们对三个广泛使用的数据集进行了实验，包括CUB-200-2011 [37]，Cars 196 [15]和StanfordOnline Products [24]，以评估我们的AVSL框架的准确性和可解释性。我们使用Recall@Ks作为性能指标，如果我们可以在K个最近的邻居中找到至少一个正确的4.1. 数据集为了进行定量评价，我们按照非交叉数据集分区方案在零激发设置下进行了实验[24]。数据集的分割方案如下：CUB-200-2011[37]包括200种鸟类和11，788张图片。我们将前100个物种（5，864张图像）用于训练，其余100个物种（5，924张图像）用于测试。Cars196[15]包含196种汽车类型和16，185个图像。前98种类型（8，054张图像）用于训练，而其他98种类型（8，131张图像）用于测试。斯坦福在线产品[24]包括22，634类在线产品，共计120，053张图片。我们将前11，318类（59，551张图像）分为训练集，其余11，316类（60，502张图像）分为测试集。为了定性展示，我们进一步可视化了CUB-200-2011和Cars 196中随机抽取的一些样本的相似性归因结果。所有数据集都是公开的，用于非商业研究和教育目的。4.2. 实现细节我们在NVIDIA RTX 3090 GPU上使用PyTorch包[26]进行了所有实验，并采用ResNet50 [9]作为CNN特征提取器（即，fm）进行公平比较。受GPU设备内存的限制，我们仅为每三个层选择特征图进行相似构造（即，层3、4和5）。我们采用了全局池化操作（即，G1）和线性层（即，hl）在每个选定层之后。我们将所有选定图层的嵌入大小固定为512。为了进行数据论证，我们首先将图像大小调整为256 × 256，以应用随机重排和水平翻转，然后随机裁剪，224乘224在训练之前，我们使用ImageNet ILSVRC数据集上预训练的权重初始化 CNN[29] 。我们采用AdamW [20] 来训练我们的模型，初始学习率为 110−4，权重衰减为0。0001我们将批量大小固定为180，并将动量因子γ设置为0.5。对于边际损失[41]，我们将边际因子α 和β 分别设置为 1.2和0.2。对于ProxyAnchor损失[13]，我们设置温度α=16，正裕度γpos=1。8，负裕度γ neg=2。二、我们通过在保留的验证集上进行网格搜索来4.3. 定量结果和分析与现有方法的比较：我们将所提出的AVSL框架应用于保证金损失[41]和ProxyAnchor损失[13]进行演示，并将我们的框架与几种基线方法进行比较。表1分别显示了 CUB-200-2011 [37] 、 Cars 196 [15] 和 StanfordOnline Products [24]上的图像检索性能我们用醒目的红色和高光标记最好的结果，我们优于用醒目的黑色标记AVSL的相关方法。我们观察到，我们的AVSL框架可以大大改善原始的深度度量学习方法，并在三个数据集上实现最先进的性能。我们将这种改进归因于利用图结构，通过采用不同相似性节点之间的层次一致性作为与人类如何感知语义视觉相似性相一致的归纳偏差通过纠正不可靠的高级别的相似性节点与最相关的低级别层，我们实现了一个更准确和强大的相似性度量与建议的自顶向下的相似性推理。消融研究：我们首先进行了消融研究，以评价提议的AVSL框架的每个组件的贡献。我们报告了在Cars196[15]数据集上使用ProxyAnchor损失[13]的实验结果，如表2所示，但我们观察到其他损失函数的类似结果。我们使用粗体数字突出显示最佳结果。ProxyAnchor表示使用ProxyAnchor损失的基线方法。+ M是“多层”的缩写。在这个试验中，我们对所有层的嵌入施加了额外的损失约束层3、4和5）。+ R代表在+ MR设置的基础上，进一步考虑相似节点间的边，可以得到完整的 AVSL 框架构件。在 + M（concat）集合中，我们将所有三个层的嵌入串联起来（即，最后一个维度等于3512 = 1536）计算相似之处，这是一个强大的基线，以进一步恶魔-评估拟议的AVSL框架的有效性。我们观察到，拟议的AVSL框架实现了···7539表1.在CUB-200-2011、Cars 196和Stanford Online Products的测试集上召回@K（%）数据集CUB-200-2011 Cars 196 Stanford在线产品方法设置R@1R@2R@4R@8R@1R@2R@4R@8R@1R@10R@100HDC [49]384G53.665.777.085.673.783.289.593.870.1 84.993.2DAML [6]512BN52.765.475.584.375.183.889.793.568.4 83.592.3DVML [19]512BN52.765.175.584.382.088.493.396.370.2 85.293.8Angular [39]512G53.665.075.383.771.380.787.091.867.9 83.292.2DAMLRRM [43]512G55.166.576.885.373.582.689.193.569.7 85.293.2DE-DSP [5]512G53.665.576.9-72.981.688.8-68.9 84.092.6HDML [55]512BN53.765.776.785.779.187.192.195.568.7 83.292.4A-BIER [25]512G57.568.778.386.282.089.093.296.174.2 86.994.0ABE [14]512G60.671.579.887.485.290.594.096.176.3 88.494.8MS [40]512BN65.777.086.391.284.190.494.096.578.2 90.596.0[27]第二十七话512BN65.476.484.591.686.191.795.097.378.3 90.395.9[第34话]512BN66.777.486.291.283.489.894.196.578.3 90.596.1DCML [56]512R68.477.986.191.785.291.896.098.079.8 90.895.8DIML [54]512R68.2---87.0---79.3--DRML [57]512R68.778.686.391.686.992.195.297.479.990.796.1保证金[41]512R65.675.984.390.878.286.792.395.372.485.392.8边缘-AVSL512R68.879.287.392.781.188.893.496.476.889.295.4ProxyAnchor [13]512R69.780.087.092.487.792.995.897.978.490.596.2ProxyAnchor-AVSL512R71.981.788.193.291.595.097.098.479.691.496.4表2.不同模型设置的消融研究。10.980.960.940.920.90.880.86183264 12851210.980.960.940.920.90.880.860.840.8264128256512Top-k(a) 不同的top-k值。包埋尺寸(b) 不同的嵌入尺寸。比所有比较的对应物和所有模块都更好的性能有助于整体改进。特别地，对隐藏层的嵌入施加损失约束可以使原方法的性能采用（6）中定义的可靠性来指导信息节点的选择也是有益的。其次，利用相似节点之间的关系和层次一致性进行相似性推理，可以使性能进一步提高1.6%。我们还看到，我们的方法抑制+ M（concat），这表明学习信息关系和可靠性是有效推理的关键。超参数的影响：（7）控制有多少相邻的相关节点参与校正。图5a揭示了当增加k值时的持续我们可以进一步发现，k的影响表现出边际效应递减，因此我们将k固定为128，以完成所有其他实验。此外，嵌入的维度显著地提高了-图5.超参数的影响压缩性能，如图5b所示，更大的嵌入大小导致更高的性能。特别是，当仅将维度固定为128时，我们提出的AVSL可以超过所有其他方法，在Cars196数据集上的recall@1得分为88.4%，这进一步证明了我们框架的有效性。4.4. 可视化为了验证所提出的AVSL框架的可解释性，我们从CUB-200- 2011中随机选择了一个三元组来显示归因结果，如图6所示。对于三元组中的对，我们首先选择128个最可靠的相似性节点，然后根据它们的相似性对这些节点进行排名。我们观察到大多数节点的CAM集中在图像的特定部分，而一些显着图是无法识别的。我们认为，这是由于空间坐标与概念之间的关系的单一性。此外，我们还发现，负对的相异性分布召回@1召回@2Recall@4Recall@8召回@ k召回@1召回@2Recall@4Recall@8召回@ k方法R@1R@2R@4R@8ProxyAnchor87.792.995.897.9ProxyAnchor + M89.793.996.397.9ProxyAnchor + M R89.994.096.498.1ProxyAnchor + M（concat）90.694.696.898.2ProxyAnchor + AVSL91.594.896.998.47540我我层层“frontCan’t“rear“car图6.归因结果的可视化。我们从CUB-200-2011中随机选择一个三元组，并根据每个样本对的128个最可靠节点之间的相似性对结果进行排名我们使用绿色和红色框分别表示正对和负对。最好用彩色观看。如图6左侧所示，这意味着负对的节点更可能是不相似的，这有利于对来自不同类别的样本进行分类。为了进一步理解推理过程的潜在机制，我们还从Cars 196中随机选择了一个样本对进行相似性归因，如图7- 2所示。从上到下，我们首先在512个节点中选择具有高pl分数的前128个可靠节点，并且进一步显示在绿色虚线框中框出的两个最相似的节点以及在红色虚线框中框出的两个最不相似的节点。随后，我们将一个不可靠节点分解为相邻的相关节点。我们观察到，具有较高敏感度值λl的相似性节点更可能位于较高层中，并且对应于更清晰的概念，例如这表明高特征倾向于编码对象级模式，而低特征则专注于像素级模式。此外，我们发现节点和概念可能不是一一对应的。例如，多个节点可能集中在汽车的5. 限制在评估过程中，我们的AVSL框架需要维护一个空间复杂度为O（N2）的相似度矩阵来计算两幅图像之间的相似度，其中N表示样本数打交道时2补充材料中包含了CUB-200-2011和Cars 196样本的更详细推断图。图7.归因过程的可视化。我们从Cars196中随机选择2个样本，并以无向图的方式将总体相似性归因于特定的相似性节点。最好用彩色观看。对于大规模数据集，我们使用计算技巧，如矩阵切片，以减少内存使用，实现部分并行计算。这也影响了基于代理的方法的训练（例如，代理锚丢失）。在Stanford Online Prod-ucts数据集上，不可能在24 GB内存设备上同时保持小批量和11，318个代理中的样本之间的相似性。因此，我们调整损失，只限制样本和积极代理之间的相似性，这可能会导致较差的性能。6. 结论在本文中，我们提出了一个可归因的视觉相似性学习（AVSL）框架，学习更准确和可解释的相似性。我们采用层次一致性作为归纳偏差，并采用自底向上的相似性构造和自顶向下的相似性推理方法来建模视觉相似性，该方法首先估计较高级别的相似性节点的可靠性，然后使用相邻较低级别的相关节点来校正不可靠的节点我们在三个广泛使用的数据集上进行了实验，以证明我们的框架在准确性和可解释性方面的优越性虽然我们的框架是由人类视觉相似性感知的动机，我们相信它也可以适应其他modali- ties的信息，如文本和语音更好的interpretability，这是一个有趣的未来的工作。确认这项工作得到了国家自然科学基金 62125603 和U1813218的部分资助，以及北京人工智能研究院（BAAI）的部分资助。类似异种···“头”“back“肚子”面目全非类似异种···“head“脖子”“tail正对差异Dist.负对差异Dist.类似异种类似不可靠异种$R&“头灯““轮1““车门““轮2“不可靠的l e$r 47541引用[1] 蒂莫·阿霍宁，阿卜迪努尔·哈迪德，马蒂·皮蒂凯宁。局部二进制模式的人脸描述：在人脸识别中的应用。TPAMI，28（12）：2037-2041，2006. 1[2] Binghui Chen and Wehong Deng.基于混合注意力的解耦度量学习零镜头图像检索。在CVPR中，第2750-2759页，2019年。1[3] Lei Chen，Jianhui Chen，Hossein Hajimirsadeghi，andGreg Mori.自适应 grad-cam 嵌入网络。在WACV，第2794-2803页，2020年。2[4] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.超越三联体丢失：一个用于个人重新识别的深度四联体网络。在CVPR，第403-412页，2017年。1[5] 段跃奇，陈磊，陆纪文，周杰。采用判别抽样策略的深度嵌入学习。在CVPR中，第4964-4973页，2019年。二、七[6] 段跃奇，郑文钊，林旭东，卢吉文，周杰。深度对抗度量学习。在CVPR中，第2780-2789页，2018年。二、七[7] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在CVPR，第2卷，第1735-1742页，2006中。2[8] Ben Harwood，Vijay Kumar BG，Gustavo Carneiro，IanReid，and Tom Drummond.深度度量学习的智能挖掘。在ICCV，第2821-2829页，2017年。2[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。6[10] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。 arXiv ，abs/1703.07737，2017年。1[11] Junlin Hu，Jiwen Lu，and Yap-Peng Tan.用于野外人脸验证的判别式在CVPR中，第1875-1882页，2014年。1[12] 陈煌，陈昌来，唐晓鸥。局部相似性感知的深度特征嵌入。arXiv，abs/1610.08904，2016。2[13] Sungyeon Kim 、 Dongwon Kim 、 Minsu Cho 和 SuhaKwak。用于深度度量学习的代理锚丢失。在CVPR中，第3238-3247页，2020年。二六七[14] Wonsik Kim、Bhavya Goyal、Kunal Chawla、JungminLee和Keunjoo Kwon。深度度量学习的基于注意力的集成在ECCV，第736-751页，2018年。7[15] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。ICCVW，第554-561页，2013年。二、六[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NeurIPS，第1097-1105页，2012中。1[17] Brenden M Lake，Ruslan Salakhutdinov，and Joshua BTenenbaum.通过概率程序归纳的人类水平概念学习。Science，350（6266）：1332-1338，2015. 1[18] 纪琳，任亮亮，陆继文，冯建江，周杰。一致感知深度学习用于相机网络中的人员重新识别。在CVPR中，第5771- 5780页，2017年。1[19] Xudong Lin，Yueqi Duan，Qiyuan Dong，Jiwen Lu，and Jie Zhou.深度变分度量学习参见ECCV，第689-704页，2018年。7[20] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv，abs/1711.05101，2017年。6[21] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV，60（2）：91-110，2004. 1[22] Jiwen Lu，Gang Wang，Zhao Deng，Pierre Moulin，andJie Zhou.用于图像集分类的多流形深度度量学习。在CVPR，第1137-1145页，2015年。1[23] Yair Movshovitz-Attias、Alexander Toshev、Thomas KLe- ung、Sergey Ioffe和Saurabh Singh。没有大惊小怪的距离- ric学习使用代理。在ICCV，第360-368页，2017年。2[24] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入进行深度度量学习。在CVPR中，第4004-4012页，2016年。二、六[25] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof 。 Deep Metric Learning with Bier ： BoostingIndependent Embeddings Robustly. TPAMI，42（2）：276-290，2018。二、七[26

下载后可阅读完整内容，剩余1页未读，立即下载