没有合适的资源?快使用搜索试试~ 我知道了~
隐式Sinkhorn微分的统一框架
5090隐式Sinkhorn微分的统一框架0Marvin Eisenberger�,Aysim Toker�,Laura Leal-Taix´e�,Florian Bernard†,Daniel Cremers�0慕尼黑工业大学�,波恩大学†0(a)两个点云的配准 (b)环面上分布的重心插值 (c)MNIST聚类0图1. Sinkhorn运算符正在成为各种计算机视觉算法的基本构建块。相关应用包括(a)点云配准,(b)流形上的插值,(c)图像聚类等[13, 25, 39,46, 47]。最近一种有效训练相应神经网络的趋势是隐式微分[7, 11, 17, 22,26]。在这项工作中,我们提供了一个隐式Sinkhorn微分的框架,它推广了现有的方法。它是第一个在Sinkhorn运算符的最一般形式下推导出解析梯度的方法,涵盖了上述所有应用(a)-(c)。0摘要0Sinkhorn运算符最近在计算机视觉和相关领域中受到了广泛关注。一个主要原因是它很容易集成到深度学习框架中。为了实现相应神经网络的高效训练,我们提出了一种通过隐式微分获得Sinkhorn层的解析梯度的算法。与之前的工作相比,我们的框架基于Sinkhorn运算符的最一般形式。它允许任何类型的损失函数,同时目标容量和成本矩阵都是联合求导的。我们进一步构建了对近似输入的算法的误差界限。最后,我们证明对于许多应用来说,仅仅用我们的算法替换自动微分就可以直接提高梯度的稳定性和准确性。此外,我们还展示了它在计算上更高效,特别是在GPU内存等资源稀缺的情况下。01. 引言0计算匹配和排列是许多计算机视觉和机器学习算法的核心问题。常见的应用包括姿态估计、3D重建、定位、信息传输、排序等,数据领域涵盖图像、体素网格、点云、3D表面网格到通用欧几里得特征。解决这个问题的一个流行工具是Sinkhorn运算符,它源于熵正则化最优传输理论。01我们的实现可在以下链接中找到:https://github.com/marvin-eisenberger/implicit-sinkhorn0Sinkhorn运算符可以通过简单的迭代矩阵缩放方法高效计算。此外,得到的运算符是可微的,因此可以轻松地集成到深度学习框架中。一个关键问题是如何在实践中计算相应Sinkhorn层的一阶导数。标准方法是Sinkhorn算法的自动微分。然而,这会带来相当大的计算负担,因为结果反向传播的运行时间与前向迭代的次数成线性比例增长。更重要的是,由于计算图需要维护所有展开的矩阵缩放步骤,对于GPU处理来说,内存需求通常过高。最近的一些工作利用隐式梯度作为Sinkhorn层的自动微分替代方法。尽管这些方法被证明计算成本低廉,但一个缺点是相应的算法不太容易推导和实现。因此,许多应用工作仍然依赖于自动微分。然而,自动微分的计算负担可能会导致从业者选择不够小的Sinkhorn迭代次数,从而影响性能,我们在第5节的实验证实了这一点。迄今为止,现有的隐式Sinkhorn层微分工作存在两个主要限制:(i)大多数方法仅针对特定设置导出梯度,即特定的损失函数、结构化输入或仅针对所有输入的子集。因此,这些算法通常无法转移到类似但不同的设置中。(ii)其次,除了它们的经验成功之外,缺乏深入的理论分析来支持隐式梯度的使用。我们的工作提供了一个隐式Sinkhorn微分的统一框架。5100Sinkhorn层的自动微分技术。为了鼓励实际应用,我们提供了一个简单的模块,可以直接适用于最一般的公式,见图2。因此,我们可以将现有方法作为我们框架的特例,见表1。我们的贡献可以总结如下:01.我们从第一原理推导出了计算通用Sinkhorn层梯度的高效算法。02.我们提供了关于结果梯度准确性的理论保证,该准确性是正向传递中的近似误差的函数(定理5)。03.我们的PyTorch模块可以直接应用于基于自动微分的现有方法。这通常可以提高定量结果,同时使用的GPU内存显著减少。02. 相关工作0关于计算最优传输(OT)[33,43]的文献非常丰富。接下来,我们提供了相关机器学习应用的概述。我们的方法基于由[9]开创的熵正则化最优传输。由此产生的可微分Sinkhorn散度可以用作训练机器学习模型的损失函数[8, 16,18]。为了实现一阶优化,计算梯度的两种常见方法是隐式微分[11, 22, 26]和自动微分[1,19]。Sinkhorn散度的相关应用包括计算Wasserstein重心[10, 27,41],字典学习[40],以及为自动编码器[31]或生成对抗网络(GAN)[19,37]提供几何意义的损失函数。最近,出现了几种将Sinkhorn算子作为神经网络中的可微传输层的方法。潜在的应用包括排列学习[28, 38],排序[2,12],通过强化学习进行排序[14],判别分析[17]以及计算图像[39],点云[25, 46, 47]或三角网格[13,29]之间的匹配。这些方法中的大多数依赖于Sinkhorn算法的自动微分来解决由此产生的双层优化问题。在我们的工作中,我们遵循使用隐式微分进行内部优化层的最新趋势。其他方法通过贝叶斯逆建模[42]计算输入成本矩阵,或者直接平滑OT线性分配问题(LAP)[34]。有一些方法可以计算Sinkhorn层的解析梯度,见表1。我们的工作的思想是提供一个统一的框架,可以推广特定的方法,并提供额外的理论洞察。Luise等人的开创性工作[26]计算了Sinkhorn散度的梯度0方法 � [ a ; b ] ℓ � x ℓ � C ℓ 损失 目标0Luise等人[26] � � � Wasserstein对偶Klatt等人[22] � � �Wasserstein原始Ablin等人[1] � � � Wasserstein对偶Flamary等人[17] � � �离散分析原始Campbell等人[7] � � � 任何原始Xie等人[45] � � �任何对偶Cuturi等人[11] � � � 任何对偶0我们的 � � � 任何原始0表1.先前工作概述。我们提供了与我们类似的方法的概述,这些方法像我们一样,推导了Sinkhorn层的隐式梯度。对于每种方法,我们表示可接受的输入,即可以进行微分的输入。在最一般的情况下,我们希望优化边际a和b以及第3节中定义的成本矩阵C。作为一个特例,[11, 17]提供了形式为Ci,j := ∥xi -yj∥p2的低秩成本矩阵的梯度�xℓ。我们还表示允许哪种类型的损失函数以及是通过原始目标还是对偶目标推导梯度。0损失,同时优化边际。[1]和[22]提供了进一步的理论分析。Flamary等人[17]计算了判别分析应用的显式梯度。然而,他们直接求解了由隐函数定理指定的线性系统,导致算法复杂度为O(n6)。与我们类似,[7]和[45]计算了成本矩阵C的梯度,但他们假设边际是常数。Cuturi等人[11]最近的方法从低秩成本矩阵C(x,y)的对偶目标中推导出隐式梯度。03. 背景0最优输运。最优输运使我们能够计算在同一定义域Ω�Rd上的两个概率测度之间的距离。在这项工作中,我们考虑离散概率测度µ:=�mi=1aidxi和ν:=�nj=1bjdyj,定义在点集{x1,...,xm}和{y1,...,yn}上,其中δxi是在xi处的狄拉克测度。这样的测度完全由概率质量向量a∈∆m和b∈∆n来描述,它们位于概率单纯形上0∆m=�a∈Rm|ai≥0,a�1m=1�,(1)0其中1m∈Rm是全1向量。然后我们可以定义µ和ν之间的距离为0d(µ,ν):=minP∈Π(a,b)�P,C�F。(2)0运输计划P∈Π(a,b)确定了在乘积空间{x1,...,xm}×{y1,...,yn}上的离散概率测度,其边际分布与µ和ν相符。因此,P包含在定义为运输多面体Π(a,b)中0Π(a,b):={P∈Rm×n+|P1n=a,P�1m=b}。(3)The operatorTr(S) := S ⊘ (S1n1⊤n ) ⊙ (a1⊤n ) correspond to renormal-izations of the columns and rows of S(t)λ , where ⊙ denotesthe Hadamard product and ⊘ denotes element-wise divi-sion. As shown by [9], in the limit this scheme convergesto a minimizer S(t)λt→∞−−−→ Sλ of Eq. (4). In practice, wecan use a finite number of iterations τ ∈ N to achieve asufficiently small residual.4. Method4.1. Problem formulationIntegrating the Sinkhorn operator from Eq. (4) into deepneural networks has become a popular tool for a wide rangeof practical tasks, see our discussion in Sec. 2. A major con-tributing factor is that the entropy regularization makes themapping Sλ : Rm×n × Rm × Rn → Rm×n differentiable.To allow for first-order-optimization, we need to compute(C, a, b)�→P ∗ := Sλ(C, a, b)and(6)∇P ℓ�→(∇Cℓ, ∇aℓ, ∇bℓ),(7)which denote the forward pass and the backpropagation ofgradients, respectively. Those expressions arise in the con-text of a typical workflow within a deep neural network witha scalar loss ℓ and learnable parameters before and/or afterthe Sinkhorn operator Sλ, see Fig. 2 for an overview.A common strategy is to replace the exact forward passSλ(C, a, b) in Eq. (6) by the approximate solution S(τ)λfrom Eq. (5). Like the original solution in Eq. (4), S(τ)λis differentiable w.r.t. (C, a, b).Moreover, the mapping(C, a, b) �→ S(τ)λconsists of a small number of matrixscaling operations that can be implemented in a few linesof code, see Eq. (5).4.2. Backward pass via implicit differentiationThe goal of this section is to derive the main result statedin Theorem 3, which is the key motivation of our algorithm5110图2.具有嵌入Sinkhorn层的典型工作流程概述。我们考虑一个输入为图像、3D点云、体素网格、表面网格等的神经网络。Sinkhorn层通过迭代矩阵缩放将成本矩阵C和边际a、b映射到运输计划P。在训练过程中,我们通过隐式微分闭式计算出相应的梯度(�Cℓ,�aℓ,�bℓ)。我们的算法适用于Sinkhorn算子的最一般形式:成本矩阵C和边际a、b都是可学习的,并且整个网络在Sinkhorn层之前和之后都可能包含可学习的权重。0成本矩阵C∈Rm×n指定了从个体点xi到yj的运输成本。选择0Cij:=∥xi−yj∥p20对于p≥1,例如产生所谓的Wasserstein距离d(∙,∙)=Wpp(∙,∙),参见[43]。0熵正则化。在实践中评估距离d(µ,ν)需要解决线性分配问题(LAP),如方程(2)所示。这可以通过专门的算法(如匈牙利算法[23]或拍卖算法[4])以及最近的求解器[32,36]来完成。然而,大多数方法在实践中计算量大且速度慢[9]。一种常用的替代方法是在方程(2)中增加一个额外的熵正则化项,从而产生Sinkhorn算子0S λ(C,a,b):= arg min P ∈ Π(a,b)�P,C�F- λh(P),(4)0其中λ>0加权正则化。Cuturi等人的开创性工作[9]表明,附加的熵正则化项h(P)=−�0i,j P i,j(log P i,j -1)允许对方程(4)进行高效的最小化。具体而言,可以通过交替Sinkhorn投影方案来实现0S(0)λ:=exp−1)0λ C,和0S(t+1)λ:=Tc�Tr�S(t)λ��。(5)in Sec. 4.3. To this end, we start by reframing the optimiza-tion problem in Eq. (4) in terms of its Karush–Kuhn–Tucker(KKT) conditions, see Appendix C.1 for a proof:Lemma 1. The transportation plan P ∗ is a global mini-mum of Eq. (4) iff K(c, a, b, p∗, α∗, β∗) = 0l, withK(·) :=c + λ log(p∗) + 1n ⊗ α∗ + β∗ ⊗ 1m(1⊤n ⊗ Im)p∗ − a(In ⊗ 1⊤m)p∗ − b(8)where l := mn + m + n. Here, α∗ ∈ Rm and β∗ ∈Rn are the dual variables corresponding to the two equalitycontraints in Eq. (3). We further define c, p∗ ∈ Rmn as thevectorized versions of C, P ∗ ∈ Rm×n, respectively, andassume log(p) := −∞, p ≤ 0.Establishing this identity is an important first step to-wards computing a closed-form gradient for the backwardpass in Eq. (7). It reframes the optimization problem inEq. (4) as a root-finding problem K(·) = 0. In the next step,this then allows us to explicitly construct the derivative ofthe Sinkhorn operator Sλ(·) via implicit differentiation, seeAppendix C.2 for a proof:Lemma 2. The KKT conditions in Eq. (8) implicitly definea continuously differentiable function (c, a, ˜b) �→ (p, α, ˜β)with the Jacobian J ∈ R(l−1)×(l−1) beingJ :=∂�p; α; ˜β�∂�c; −a; −˜b� = −�λ diag(p)−1˜E˜E⊤0�����:=K−1.(9)For brevity we use the short hand notation [v; u]:=[v⊤, u⊤]⊤ for stacking vectors v, u vertically. Note thatthe last entry of ˜b := b−n and ˜β := β−n is removed. Thisis due to a surplus degree of freedom in the equality condi-tions from Eq. (3), see part (b) of the proof. Likewise, for�.(11)�.5120E = � 1n � Im In � 1m � ∈ Rmn × (m + n), (10)0最后一列被移除 ˜E := E:,−(m + n).0原则上,我们可以直接使用引理2来解方程(7)。然而,方程(9)中矩阵K的求逆计算成本很高。事实上,即使在典型计算机的工作内存中存储Jacobian矩阵J也是有问题的,因为它是一个具有O(mn)行和列的稠密矩阵,其中m,n>1000。相反,我们观察到计算方程(7)仅需要计算形式为v�J的向量-Jacobian乘积(VJP)。因此,本节的主要结果可以总结如下,请参考附录C.3进行证明:0定理3(反向传播)。对于P =P�,方程(7)的反向传播可以通过求解以下线性系统来闭式计算0� λ diag(p)−1˜E˜E�00� � �cℓ−�[0� = � −�pℓ004.3. 算法0在前一节中,我们推导出了定理3中Sinkhorn反向传播的闭式表达式。这需要解决方程(11)中的稀疏线性系统,该系统具有O(mn)行和列,因此最坏情况下的复杂度为O(m^3n^3)[17]。通过利用K的特定块结构,我们可以进一步减少计算成本,得到以下算法:0算法1:Sinkhorn算子反向传播0输入:�Pℓ,P,a,b输出:�Cℓ,�aℓ,�bℓ01 T ← P⊙�Pℓ.02 ˜T ← T:,−n, ˜P ← P:,−n ∈ Rm×n−1.03 t(a) ← T 1n, ˜t(b) ← ˜T�1m.04 � �aℓ0� ← � diag(a)˜P˜P�dia0� −1 � t(a)˜t(b)05 �bℓ ← � �˜bℓ; 0 �.06 U ← �aℓ1�n + 1m�bℓ�.07 �Cℓ ← −λ−1(T − P⊙U).0请参考附录A中的PyTorch实现此算法。表1中列出的大多数方法都考虑了方程(4)中指定的特殊情况。算法1得到的梯度�Cℓ,�aℓ,�bℓ因此在很大程度上与这些专门方法的梯度一致。我们现在展示算法1得到的梯度�Cℓ,�aℓ,�bℓ确实是定理3中线性系统的解。0定理4. 设a,b是两个输入边缘分布,P = P�。0从正向传播方程(6)得到的运输计划,然后算法1解决反向传播方程(7)。0证明概述。这个证明的主要思想是展示算法1给出了线性系统方程(11)的解�[c;a;˜b]ℓ。为此,我们利用了舒尔补技巧,得到以下两个表达式:0�[a;˜b]ℓ = � ˜E� diag(p)˜E �−1 ˜E� diag(p)�pℓ. (12a)0�cℓ = −λ−1 � diag(p)�pℓ − diag(p) ˜E�[a;˜b]ℓ �. (12b)0在附录C.4中,我们进一步展示了这两个向量化形式的等式等价于算法1。04.4. 实际考虑因素0误差界限。定理4证明了算法1计算精确梯度�Cℓ,�aℓ,�bℓ的条件是P =P�是方程(4)的精确解。在实践中,方程(6)中的算子Sλ被Sinkhorn近似替代。5.2. Wasserstein barycentersThe main idea of Barycenter computation is to interpo-late between a collection of objects {b1, . . . , bk} ⊂ Rn as aconvex combination with weights that lie on the probabilitysimplex w ∈ ∆k, see Eq. (1). Specifically, we optimizea∗ :=arg mina∈∆nk�i=1wid(a, bi)with(14)d(a, b) :=minP ∈Π(a,b)⟨P , D⟩F − λh(P ),(15)where D ∈ Rn×n denotes the squared pairwise distancematrix between the domains of a and b. We use the Adamoptimizer [21] for the outer optimization in Eq. (14). Theinner optimization Eq. (15) is a special case of Eq. (4).Overall, Eq. (14) allows us to compute geometrically mean-ingful interpolations in arbitrary metric spaces. We considerthe explicit tasks of interpolating between images in Fig. 4and functions on manifolds in Fig. 5. Note that there area number of specialized algorithms that minimize Eq. (14)in a highly efficient manner [10, 27, 41]. In Appendix B.2,we further show how to apply the barycenter technique toimage clustering on the MNIST dataset.5130对于固定的有限τ ∈N,从方程(5)中的S(τ)λ近似得到的P = S(τ)λ ≈P�,这种近似的小差异会传播到反向传播中,如下所示:0定理5(误差界限)。设P� := Sλ(C, a, b)为方程(4)的精确解,P(τ) :=S(τ)λ为方程(5)的Sinkhorn估计。进一步,设σ+、σ-、C1、C2、ϵ > 0,使得||P� - P(τ)||F< ϵ,并且对于所有满足∥P - P�∥F < ϵ的P,我们有min i,j Pi,j ≥ σ-,max i,j Pi,j ≤σ+,以及损失函数ℓ的导数有界,||�pℓ||2 ≤ C1和||�2pℓ||F ≤ C2。对于κ =||˜E†||2,其中˜E†表示˜E的Moore-Penrose逆,精确解P�的梯度�Cℓ�、�aℓ�、�bℓ�与近似解P(τ)梯度�Cℓ(τ)、�aℓ(τ)、�bℓ(τ)之间的差异满足0κσ+0||�[a;b]ℓ* - �[a;b]ℓ(τ)||F ≤0||P� -P(τ)||F0σ -0≤ 10σ - C1 + C20||P� - P(τ)||F0(13a)0||�Cℓ� - �Cℓ(τ)||F ≤0λ - 1σ +0≤ 10σ - C1 + C20||P� - P(τ)||F。0(13b)0我们在附录C.5中给出了证明,并在附录B.1中进行了实证评估。0计算成本。与自动微分(AD)相比,算法1的计算成本与Sinkhorn迭代次数τ无关。对于方阵m=n,AD的运行时间和内存复杂度为O(τn^2)。另一方面,我们的方法的运行时间和内存复杂度分别为O(n^3)和O(n^2)。我们在第5.1节中对这两种方法进行了实证比较。我们方法的另一个吸引人之处是算法1中的任何操作都没有明确地将矩阵P、�Pℓ、�Cℓ等转换为它们的向量形式p、�pℓ、�cℓ等。这使得计算效率更高,因为GPU处理更喜欢小而密集的矩阵运算,而不是大而稀疏的线性系统(11式)。0边际概率不变性。如引理2所述,需要删除˜b的最后一个元素使得K可逆。然而,将梯度�bnℓ的最后一个条目设为0仍然可以得到精确的梯度:根据定义,完整的边际b受到概率单纯形∆n的约束,参见式(1)。在实践中,我们对b(以及类似地对a)应用先验softmax。对于某些应用,如果我们只想学习成本矩阵C而不是边际a和b,可以假设b是不可变的。总的来说,这意味着梯度�b对于所有条目的常数偏移是无关紧要的,并且设置�bnℓ = 0不违反定理3的陈述。05. 实验0在第5.1节中,我们将算法1的计算成本与自动微分(AD)进行了实证比较。在第5.2节和第5.3节中,我们展示了两类常见应用的结果,其中我们想要学习边际a和成本矩阵C。我们假设固定的GPU内存(VRAM)预算为24GB,任何超过此限制的设置都被视为内存不足(OOM)。05.1. 计算成本0我们在一张NVIDIA Quadro RTX8000图形卡上对我们的算法与标准自动微分方法的计算成本进行了实证比较,见图3。所有结果都是在随机(对数正态分布)成本矩阵ln Cij � N(0, 1)和均匀边际a = b =1/n1n的情况下计算的,其中m = n ∈ {10, 100,1000}。对于每个设置,我们报告了在1k次迭代中前向传播和反向传播的成本。根据m和n的不同,我们的方法在τ �40、50、90次迭代时更快。需要注意的是,我们的反向传播与前向迭代次数τ无关。最后,AD的内存需求要大得多,因为它需要维护所有τ次前向迭代的计算图。在实践中,这通常限制了可接受的批量大小或输入分辨率,参见第5.2节和第5.3节。Figure 3. Computational complexity. We compare the runtime per iteration (top row) and GPU memory requirements (bottom row) ofour approach (blue) and automatic differentiation (orange). We consider a broad range of settings with quadratic cost matrices of sizem = n ∈ {10, 100, 1000} and τ ∈ [10, 2000] Sinkhorn iterations. For the runtime, we show both the total time (solid lines) and the timeof only the backward pass (dashed lines). Both ours and AD were implemented in the PyTorch [30] framework, where memory is allocatedin discrete units, which leads to a large overlap for the minimum allocation size of 2MB (bottom row, left plot).Oursτ = 10τ = 20τ = 50τ = 100τ = 200(OOM)τ = 500ADFigure 4. Wasserstein barycenter. A comparison between our method (top row) and AD (bottom row) on the application of imagebarycenter computation. In each cell, we show 5 centroids of 4 input images (corners) with bilinear interpolation weights. The predictionsbased on the proposed implicit gradients are more stable (providing more crisp interpolations), even for very few Sinkhorn iterations τ.Moreover, AD is out of memory for τ ≥ 200. Here, the input images have a resolution of n = 642 and we set λ = 0.002.5.3. Permutation learning and matchingNumber sorting.The Sinkhorn operator is nowadays astandard tool to parameterize approximate permutationswithin a neural network.One work that clearly demon-strates the effectiveness of this approach is the Gumbel-Sinkhorn (GS) method [28]. The main idea is to learn thenatural ordering of sets of input elements {x1, . . . , xn}, seeAppendix B.3 for more details. Here, we consider the con-crete example of learning to sort real numbers from the unitinterval xi ∈ [0, 1] for n ∈ {200, 500, 1000} numbers.We compare the implicit Sinkhorn module to the vanillaGS method in Fig. 6. Without further modifications, ourmethod significantly decreases the error at test time, definedas the proportion of incorrectly sorted elements.514Input pairADOursτ = 5102050100200τ = 1000(OOM)Figure 5. Manifold barycenter. We compute barycenters of two circular input distributions on the surface of a sphere (first row). Specif-ically, we compare the results of minimizing Eq. (14) with AD (second row) and implicit gradients (third row). The sphere is discretizedas a triangular mesh with 5000 vertices. On this resolution, AD is out of memory for τ ≥ 200 Sinkhorn iterations whereas ours is stillfeasible for τ = 1000. The obtained interpolations produce the slightly elongated shape of an ellipse since the surface of the sphere has aconstant positive Gaussian curvature.5150(OOM)0图6. 数字排序。我们展示了我们可以直接使用算法1来改进Gumbel-Sinkhorn方法[28]。具体来说,我们考虑了排列学习的任务,对长度为n∈ {200, 500, 1000}的随机数字序列进行排序,详见[28, Sec5.1]。我们用隐式微分替换了GS网络中的AD(蓝色曲线),并将得到的结果与原始的GS架构(橙色曲线)进行比较。我们的方法在使用更少的计算资源的情况下得到了更准确的排列结果——对于τ > 200, 100,50的前向迭代,GS架构会出现内存不足的情况。对于所有设置,我们展示了正确测试集预测的平均比例(实线),以及10和90百分位数(填充区域)。由于个体结果依赖于有限数量的(随机的)测试样本,曲线在一定程度上会有噪声。此外,注意到y轴的对数刻度会夸大τ ≥100时的小波动。0点云配准。最近的几种方法使用Sinkhorn算子作为可微分的、双射的匹配层用于深度学习[13, 25, 39, 46,47]。在这里,我们考虑了刚性点云配准的具体应用[47],并展示了我们可以通过隐式微分来提高性能,详见表2。尽管我们在干净的测试数据上的结果与其他方法相当,但稍微差一些,但我们的方法在部分和噪声观测下的性能更好。0与原始的RPM-Net[47]相比,我们的模块更加鲁棒,可以更好地适应部分和噪声观测。这表明,由于我们的方法计算梯度的噪声较小,比AD更加稳定,有助于学习一个更一致的匹配策略,详见图7进行定性比较。我们在附录B.3中提供了关于RPM-Net基线和更多定性结果的详细信息。5160清洁数据 部分 噪声090% 80% 70% σ = 0 . 001 σ = 0 . 01 σ = 0 . 10旋转 MAE ( ↓ ) RPM 0.0299 41.1427 47.1848 52.5945 18.5886 28.1436 43.1884 我们的 0.1371 4.495511.0519 20.9274 1.0238 1.2548 2.22720平移 MAE ( ↓ ) RPM 0.0002 0.1743 0.2126 0.2490 0.0848 0.1187 0.1770 我们的 0.0015 0.0484 0.09950.1578 0.0096 0.0113 0.01710Chamf.距离 ( ↓ ) RPM 0.0005 4.3413 4.6829 4.9581 2.2077 3.0492 4.6935 我们的 0.0054 0.5498 1.42912.2080 0.0783 0.1237 0.45620表2.点云配准。我们在ModelNet40[44]上比较了RPM-Net[47]和隐式微分的定量性能。两种架构除了改变的Sinkhorn模块外都是相同的。对于所有结果,我们遵循[47, Sec.6]中描述的训练协议。此外,我们评估所得网络在测试时对部分和噪声输入的泛化能力。对于前者,我们遵循[47, Sec.6.6],从随机半空间中删除了多达70%的输入点云。对于噪声测试集,我们添加了方差为σ ∈ {0.001, 0.01, 0.1}的高斯白噪声N(0,σ)。对于所有设置,我们报告了旋转和平移误差,以及与参考表面的Chamfer距离。为了方便阅读,后者乘以了一个1e2的因子。0输入 清洁 噪声 σ = 0 . 1 部分 70%0我们的RPM-Net 我们的RPM-Net 我们的RPM-Net0我们的RPM-Net 我们的RPM-Net 我们的RPM-Net0图7.点云配准。RPM-Net[47]和基于隐式微分的改进版本的定性比较。在每一行中,我们展示了不同的测试对,包括输入姿态X(第一列,蓝色),以及参考姿态Y(橙色)和预测姿态(蓝色)在干净、噪声和部分设置下的重叠情况。两种方
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功