通过结构匹配实现可解释的深度度量学习

101 浏览量更新于2023-10-13 收藏 15.4MB PDF 举报

深度模型

图像相似性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

98870通过结构匹配实现可解释的深度度量学习0赵文亮�，饶永明�，王子怡，陆继文†，周杰清华大学自动化系，中国智能技术与系统国家重点实验室，中国北京国家信息科学技术研究中心，中国0zhaowl20@mails.tsinghua.edu.cn; raoyongming95@gmail.com;0wziyi20@mails.tsinghua.edu.cn;{lujiwen, jzhou}@tsinghua.edu.cn0摘要0神经网络如何区分两个图像？理解深度模型的匹配机制对于开发可靠的智能系统，如监控和访问控制等许多风险视觉应用至关重要。然而，大多数现有的深度度量学习方法通过比较特征向量来匹配图像，忽略了图像的空间结构，因此缺乏可解释性。在本文中，我们提出了一种深度可解释度量学习（DIML）方法，用于更透明的嵌入学习。与基于特征向量比较的传统度量学习方法不同，我们提出了一种结构匹配策略，通过计算两个图像的特征图之间的最优匹配流来明确对齐空间嵌入。我们的方法使得深度模型能够以更符合人类直觉的方式学习度量，其中两个图像的相似性可以分解为几个部分相似性及其对整体相似性的贡献。我们的方法是模型无关的，可以应用于现成的骨干网络和度量学习方法。我们在包括CUB200-2011、Cars196和Stanford OnlineProducts在内的三个主要深度度量学习基准上评估了我们的方法，并在可解释性方面取得了显著改进。代码可在https://github.com/wl-zhao/DIML上获取。01. 引言0视觉相似性在一系列视觉任务中起着重要作用，包括图像检索[32]、人物识别[4]和图像聚类[30]。最近深度度量学习（DML）的发展主要是由深度神经网络推动的。0� 相等贡献。†通讯作者。0CNNCNN0CC0边缘分布特征图0图像对0最优传输0s = 0.590s = 0.120图1：所提出的深度可解释度量学习（DIML）方法的主要思想。与大多数现有的深度度量学习方法通过比较特征向量来匹配图像不同，我们提出了一种结构匹配策略，通过计算两个图像的特征图之间的最优匹配流来明确对齐空间嵌入，以提高视觉相似性的可解释性。0在这个空间中学习嵌入，使得嵌入相似性能够有意义地反映样本之间的语义相似性。已经提出了各种深度度量学习方法，并在各种任务上展示了学习准确且可泛化的视觉相似性的强大优势[7, 40,16]。尽管在学习有辨别力的嵌入方面取得了巨大进展，但具有更好可解释性的深度度量学习方法在学术界的关注有限。理解深度度量学习模型的底层匹配机制对于开发可靠的智能系统，如监控[33]和访问控制[21]等许多风险视觉应用至关重要。0为了提高深度视觉模型的透明度，最近进行了许多努力，要么是通过解释现有模型[50, 31, 1,2]，要么是通过修改模型以实现更好的可解释性[46,47]。例如，视觉归因方法利用相关性或梯度来找到对最终预测有高贡献的重要区域。[46]和[47]提出了添加部分约束的方法。98880和树结构分别构建可解释的CNN模型。然而，这些方法只是为了解释深度模型输出的推理过程而设计，并没有考虑样本之间的交互。尽管它们在图像分类[50,2]、视觉问答[31]和图像生成[1]等方面取得了有希望的结果，但它们无法解释视觉相似性是如何组成的。因此，如何提高深度度量学习方法的可解释性仍然是一个几乎没有被研究过的开放问题。在本文中，我们提出了一个深度可解释度量学习（DIML）框架，作为更透明的嵌入学习的第一步。与大多数现有的直接比较特征向量的深度度量学习方法不同，我们提出利用图像的空间结构来改进匹配的可解释性，如图1所示。具体而言，我们通过使用最优传输理论计算特征图之间的最优匹配流来衡量两个图像的相似性，从而将相似性分解为对整体相似性有不同贡献的几个部分相似性。我们的框架包括三个关键组成部分：1）结构相似性（SS）。与大多数现有的直接比较特征向量的深度度量学习方法不同，我们提出了一种新的相似度/距离度量方法，通过基于最优匹配流测量特征图中相应部分的相似性；2）空间交叉相关（CC）。为了处理图像检索问题中的视角差异，我们提出使用空间交叉相关作为初始边缘分布来计算最优传输计划；3）多尺度匹配（MM）。我们还设计了一种多尺度匹配策略，以更好地融合现有的度量学习方法，并使我们能够自适应地调整大规模搜索问题中的额外计算成本。由于我们的方法与模型无关，我们的贡献与先前的深度度量学习方法在架构[14]、目标函数[32, 16]和采样策略[42,49]上是正交的，因此我们的方法可以应用于现成的骨干网络和度量学习方法，甚至无需训练。对包括CUB200-2011[38]、Cars196[17]和Stanford OnlineProducts（SOP）[24]在内的三个主要深度度量学习基准进行了大量实验研究，结果表明我们的方法能够实现更可解释的度量学习，并在有或无重新训练模型的情况下显著改进各种度量学习方法。02. 相关工作0深度度量学习。深度度量学习（DML）近年来引起了越来越多的关注，并成为一系列视觉任务的主要框架，包括0图像检索[32, 16]、图像聚类[30]、人物再识别[4, 27,3]和人脸识别[35, 7,26]。先前的深度度量学习工作通常集中在学习更准确和鲁棒的嵌入以更好地反映样本之间的语义关系。为了实现这个目标，提出了各种深度度量学习方法来改进架构[43,14]、目标函数[10, 30, 5, 24, 32, 16]和采样策略[42, 9, 20,49,28]。与这些工作不同，有一系列关于开发更有效的距离或相似度度量的深度度量学习研究。除了常用的ℓp距离和余弦相似度之外，信噪比（SNR）[44]和双曲线测地距离[15]也被证明对反映样本之间的语义关系是有效的。然而，这些深度度量学习方法只考虑特征向量之间的距离或相似度，忽略了图像的空间结构，因此缺乏可解释性。在本研究中，我们提出通过明确利用图像的空间结构来衡量两个图像的相似性，从而获得更准确和可解释的两个样本的相似性。0可解释和可解释的视觉模型。近年来，深度学习的成功推动了各种计算机视觉任务的显著进展[18, 12,19]。尽管具有令人印象深刻的判别能力，但可解释性通常被视为深度模型的致命缺点。近年来，改善深度模型的可解释性和可解释性引起了越来越多的关注。现有的工作可以大致分为两组：1）通过可视化和诊断深度表示来解释现有模型；2）修改深度模型以学习分离和可解释的表示。例如，Zhou等人提出了一种名为类激活映射（CAM）的方法，通过分析对最终分类结果的影响，识别CNN特征图中的判别性区域。Grad-CAM通过结合输入特征和模型层的梯度改进了该方法。除了这些专注于解释和分析训练模型的方法外，还通过修改传统深度模型的架构或训练过程来开发可解释的视觉模型。Zhang等人通过强制高级卷积层中的每个滤波器表示特定对象部分来设计可解释的CNN。[47]结合CNN和决策树，继承了这两种模型的优点，构建了强大而可解释的图像分类模型。然而，这些方法只解释了深度模型输出的推理过程，并未考虑样本之间的交互作用。因此，它们无法分析和解释两个样本的相似性是如何组成的。最近，Williford等人提出了一项关于可解释人脸识别的研究，他们使用图像编辑技术生成了一个新的数据集，以评估哪些区域对于人脸匹配有贡献。他们的基准测试需要对人脸结构有先验知识，因此很难推广到其他图像匹配问题。与这些工作不同，我们提出研究可解释的深度度量学习的新问题，并提供了一个基本解决方案。CNNCNNCCss = 0.12𝑻×𝑺HW=𝑺To exploit the spatial structures in images for more in-terpretable deep metric learning, we devise a new structuralmatching scheme to compute feature similarity based onoptimal transport theory [37].Our core algorithm is adopted from the optimal transporttheory, which aims to seek the minimal cost transport planbetween two distributions. Given a source distribution µs anda target distribution µt that are deﬁned on probability spaceU and V respectively, the minimal cost transport plan can beobtain by minimizing the Wasserstein distance between thetwo distributions:98890边缘分布0嵌入特征图图像对0s = 0.4490最优传输0最优传输计划0相似性矩阵0整体相似度 = 0.450图2：我们的深度可解释度度量学习（DIML）框架的整体流程。从骨干CNN模型提取的特征图进一步输入交叉相关模块（CC）以计算表示每个位置权重的边缘分布。然后使用边缘分布和相似性矩阵获得最优传输计划。我们的框架将视觉相似性分解为部分相似性及其贡献，使我们能够解释和分析深度模型如何区分两个图像。0他们的基准测试需要对人脸结构有先验知识，因此很难推广到其他图像匹配问题。与这些工作不同，我们提出研究可解释的深度度量学习的新问题，并提供了一个基本解决方案。03. 方法03.1. 预备知识：深度度量学习0深度度量学习旨在通过深度神经网络参数化的距离度量，将输入图像特征对映射到反映标签定义的两个图像的语义相似性的 R 中的距离。形式上，给定一组图像 X = { x k } N k=1 和相应的标签 Y = { y k } N k =1，深度度量学习引入深度神经网络 f : X → Φ � R C将图像映射到特征 φ k = f ( x k )，从中提取输入图像的语义模式。深度度量学习的主流方法旨在学习马氏距离度量 d ( ∙ , ∙ )，可以表示为：0d(x k, x l) = ∥Mf(x k) - Mf(x l)∥ 2 = ∥g(φ k) - g(φ l)∥ 2，0其中 g(φ k) = Mφ k := ψ k ∈ Ψ 是从特征空间 Φ到嵌入空间 Ψ � R D 的参数化线性投影。根据ResNet[12]和Inception [34]等主干网络的配置，f 可以分解为 f =GAP ◦ f 1，其中 f 1 提取特征图 ω k = f 1(x k) ∈ R H × W× C，GAP 是全局平均池化。GAP操作将特征图抽象为向量，以便进行快速相似性计算。然而，深度特征的抽象也会在嵌入过程中丢失图像的空间结构，这使得大多数深度度量学习方法缺乏可解释性 -深度模型可以告诉我们两个图像是否相似，但不能告诉我们原因。由于在许多风险视觉应用中理解匹配机制很重要，开发一种更可解释的深度度量学习方法成为一个关键的研究课题，但在以前的工作中几乎没有被讨论过。0为了利用图像中的空间结构进行更可解释的深度度量学习，我们设计了一种基于最优输运理论[37]的新的结构匹配方案来计算特征相似性。我们的核心算法采用了最优输运理论，旨在寻找两个分布之间的最小成本运输计划。给定在概率空间 U 和 V上定义的源分布 µ s 和目标分布 µt，最小成本运输计划可以通过最小化两个分布之间的Wasserstein距离来获得：03.2. 通过最优输运进行结构匹配0π � = arg inf π ∈ Π(µs,µ t)0�0U×V c(u, v)dπ(u, v)，(1)0其中 π � 是最优输运计划，Π(µ s, µ t) 是具有边际分布 µ s 和µ t 的联合概率分布，c : U × V → R +是运输的成本函数。与上述通用公式不同，这里我们只需要考虑图像特征映射的离散分布匹配。考虑由主干网络（例如ResNet50 [12]）获得的两个特征图 ω s，ω t ∈ R H × W× C。我们首先使用投影层 g将特征图中的每个元素分别映射到维度为 D 的嵌入空间中：0z s i = g(ω s i) ∈ R D，z t j = g(ω t j) ∈ R D。(2)0为了简单起见，我们使用单个下标 i ∈ [1, HW]来索引空间位置。对于预训练的度量学习模型，我们可以直接将原始投影层应用于特征图中的元素。因此，我们的方法不需要对参数进行任何修改。sstruct(zs, zt) =�1≤i,j≤HWs(zsi, ztj)T ∗i,j,(5)Wd(zsi, ztj)T ∗i,j,(6)Cross-Correlation (CC). Another important part is the def-inition of the marginal distributions µs and µt. One trivialsolution is to initialize them with uniform distributions, i.e.,µsi = µti =1HW , ∀1 ≤ i ≤ HW,(7)αsi = ⟨¯zs, zti⟩∥¯zs∥∥zti∥, αti = ⟨¯zt, zsi⟩∥¯zt∥∥zsi∥,(8)98900从 i 运输一单位的质量到 j 的成本是：0C i,j = c(i, j) := d(z s i, z t j)，(3)0其中我们使用距离度量 d(∙, ∙) 作为两个向量的运输成本函数c（例如，欧几里得距离或余弦距离）。在这种离散情况下，匹配两个分布的运输计划 π也变成了离散的。给定两个对应的离散分布 µ s 和 µt，原始的最优输运问题等价于：0T � = arg min T ≥ 00在 T 1 = µ s，T � 1 = µ t 的条件下。(4)0T �是这两个分布之间的最优匹配流，也可以看作是两个图像的结构匹配计划。T � i,j 是从 i 运输到 j的质量的移动量，以达到最小总成本，它表示位置对 (i, j)对整体匹配的贡献。为了高效地解决（4）中的优化问题，我们采用了Sinkhorn散度算法[6]，通过引入熵正则化器来实现快速训练和推理。有关算法的更多详细信息，请参见补充材料。请注意，这个迭代算法是完全可微的，可以通过使用PyTorch[25]等自动微分库轻松实现，并直接将匹配过程应用于任何深度度量学习流水线。0讨论。与提出的结构匹配方案密切相关的一些工作包括EMD度量学习[48]和Wasserstein嵌入学习[8]。然而，与我们的方法不同，它们通常关注于学习集输入的更好嵌入，这可以通过Wasserstein距离度量学习框架自然解决。在这里，我们的主要贡献不是匹配算法本身，而是引入结构匹配以学习更可解释的视觉相似性。03.3. 深度可解释度量学习0在第 3.2节中，我们已经展示了如何使用最优传输计算两个分布之间的距离。在本节中，我们描述了如何在度量学习中执行结构匹配。具体而言，我们的方法包括三个组成部分：1）我们使用最优传输计算两个图像的结构相似性（SS）；2）我们提出计算空间交叉相关性（CC）来初始化方程（1）中的边缘分布；3）我们提出多尺度匹配（MM）来改进度量并减少计算成本。0结构相似性（SS）。给定边缘分布 µ s 和 µt（我们将在后面详细讨论）以及成本矩阵 C，我们可以获得最优传输如下：0T � 通过求解 ( 4 ) 获得。一旦我们有了 T � ，我们可以定义两个特征图 z s 、 z t ∈ RHW × D 的结构相似性。0如下所示：0其中 s ( ∙ , ∙ )是一个计算两个向量之间相似性的函数。我们的结构相似性使我们能够研究整体相似性的组成，因此我们可以轻松地分解相似性并了解两个图像中不同位置之间的相似性如何对整体相似性做出贡献。类似地，给定任何距离函数 d ( ∙ , ∙ )，我们也可以推导出我们的结构距离：0结构距离（dstruct）。另一个重要部分是边缘分布µ s 和 µ t的定义。一种简单的解决方案是使用均匀分布进行初始化，即：0这表明每个位置的相似性对整体相似性具有相同的权重。在结构匹配算法中，边缘分布应该表征每个空间位置的重要性。简单地使用均匀分布意味着我们希望将所有特征都以相同的重要性进行匹配，但在某些情况下这是不希望的。例如，某些图像包含的背景信息可能对匹配来说不太有用，因此我们希望在背景上施加较低的权重。另一个常见情况是当我们想要匹配两个具有不同视角的图像（例如，第一张图像包含整个对象，而第二张图像只包含其中一部分）时，我们只需要关注第一张图像的特定部分，并将其余部分视为背景。为了找到与相似性最相关的区域，我们建议计算两个图像之间的互相关作为匹配算法的边缘分布。具体而言，我们首先对z s 、 z t 进行全局平均池化，得到全局特征 ¯ z s 、 ¯ z t。然后将其中一个图像的全局特征滑动到另一个图像的特征图上，并在每个空间位置计算点对点的相关性。形式上，交叉相关性计算如下：0其中�∙, ∙, �是点积，αki ∈ [-1,1]。在获得交叉相关性之后，我们可以使用αki来反映zk在匹配问题中的重要性。为了进一步减少低相关区域的影响，我们丢弃αki的负值并将其归一化，得到最终的边缘分布：Once we have the marginal distributions µ(k), we can thenapply the structural matching algorithm in Section 3.2 tocalculate the similarity between two images. We will showin Section 4.3 that cross-correlation is an indispensable com-ponent to improve the power of DIML.̸+ , (10)Dk,l = 12 dstruct(zk, zl) + d(¯zk, ¯zl)(11)98910i′ γki′ γki0γki = max(0, αki)，µki = 10� 1 ≤ i ≤ HW，k ∈ {s, t}。（9）0多尺度匹配（MM）。虽然DIML可以捕捉两个图像的结构相似性，并且可以提供易于人类理解的结果，但它需要更多的计算（O(H^2W^2)）来解决最优传输问题。在图像检索的应用中，通常有大量的图像在图库中。给定一个图像作为锚点，计算锚点与图库中所有图像之间的结构相似性是低效的。为了降低计算成本，我们提出了一种用于图像检索的多尺度匹配方法。设za ∈ R H × W × D为锚点图像的特征图，zk ∈ R H × W × D，k =1,...,N为图库中所有图像的特征图。在第一个尺度（1 ×1）上，我们使用全局平均池化计算全局特征，得到¯za，¯zk ∈ R D，并计算¯za与0以及每个¯zk作为传统的DML方法。然后我们可以定义一个截断数K，并选择具有前K个相似性得分的图像，并将它们的索引表示为IK，以进一步增强与我们的方法的相似性。在第二个尺度（H × W）上，我们计算za与每个zk（k ∈IK）之间的结构相似性。由于K是固定的，DIML的额外计算成本可以得到控制。通过多尺度匹配，我们可以过滤掉明显不相似的样本（1 ×1尺度，余弦相似性），并专注于困难的样本（H ×W尺度，结构相似性）。同时结合两个尺度的相似性还可以捕捉语义和空间信息，有助于提高检索精度。我们将在第4.3节中展示，较小的K可以显著提升性能。03.4. 实现0DIML的一个主要优势是我们可以将DIML应用于任何预训练模型，以提高性能，而无需进行训练。此外，我们还可以将DIML纳入训练目标中。在本节中，我们将介绍如何在这两种情况下使用DIML。0测试。给定一个预训练模型，我们首先计算图像对xs，xt的特征图ωs，ωt ∈ R H × W ×C（全局池化层之前）。然后我们可以使用第3.3节中描述的算法计算结构相似性。然而，在实践中，HW有时可能很大（例如，对于0ResNet50 [12]，H = W = 7）。因此，我们可以使用ROIAlign [11]将特征图池化到R H' × W' × C，其中H'

下载后可阅读完整内容，剩余1页未读，立即下载