深度流形梯度：解决非欧几里德流形中旋转回归的挑战

171 浏览量更新于2023-10-25 收藏 12.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

resentation from [42] and 10D symmetric matrix represen-tation from [26]. Recently, Levinson et al. [24] adoptedthe vanilla 9D matrix representation discovering that simplyreplacing the Gram-Schmidt process in the 6D representa-tion [42] with symmetric SVD-based orthogonalization canmake this representation superior to the others.Despite the progress on discovering better rotation rep-resentations, the gap between a Euclidean network outputspace and the non-Euclidean SO(3) manifold hasn’t beencompletely filled. One important yet long-neglected prob-lem lies in optimization on non-Euclidean manifolds [1]: tooptimize on SO(3) manifold, the optimization variable isa rotation matrix, which contains nine matrix elements; ifwe naively use Euclidean gradient, which simply computesthe partial derivatives with respect to each of the nine ma-trix elements, to update the variable, this optimization stepwill usually lead to a new matrix off SO(3) manifold. Un-fortunately, we observe that all the existing works on rota-tion regression simply rely upon vanilla auto-differentiationfor backpropagation, exactly computing Euclidean gradientand performing such off-manifold updates to predicted ro-tations. We argue that, for training deep rotation regressionnetworks, the off-manifold components will lead to noise inthe gradient of neural network weights, hindering networktraining and convergence.To tackle this issue, we draw inspiration from differen-tial geometry, where people leverage Riemannian optimiza-tion to optimize on the non-Euclidean manifold, which findsthe direction of the steepest geodesic path on the manifoldand take an on-manifold step. We thus propose to lever-age Riemannian optimization and delve deep into the studyof the backward pass. Note that this is a fundamental yetcurrently under-explored avenue, given that most of the ex-isting works focus on a holistic design of rotation regres-sion that is agnostic to forward/backward pass. However,incorporating Riemannian optimization into network train-ing is highly non-trivial and challenging. Although meth-ods of Riemannian optimization allow for optimization onSO(3) [5,29], matrix manifolds [1] or general Riemannianmanifolds [32,40], they are not directly applicable to updatethe weights of the neural networks that are Euclidean. Also,66460深度旋转回归的投影流形梯度层0陈佳怡1,2 尹颖达1 Tolga Birdal 3,4 陈宝权1 Leonidas J. Guibas 3 何旺1 †01 北京大学计算机科学技术研究所 2北京智能通用人工智能研究院 3 斯坦福大学 4 伦敦帝国学院0摘要0使用深度神经网络在SO(3)流形上回归旋转是一个重要但尚未解决的问题。欧几里德网络输出空间与非欧几里德的SO(3)流形之间的差距给前向和后向传播中的神经网络学习带来了严峻的挑战。虽然有几篇论文提出了不同的旋转回归友好的表示方法，但很少有论文致力于改进后向传播中的梯度反传。在本文中，我们提出了一种能够直接反向传播到深度网络权重的流形感知梯度。利用黎曼优化构建一种新的投影梯度，我们提出的正则化投影流形梯度（RPMG）方法帮助网络在各种旋转估计任务中实现了新的最先进性能。我们提出的梯度层也可以应用于其他平滑流形，如单位球面。我们的项目页面位于https://jychen18.github.io/RPMG。01. 引言估计旋转是视觉感知中的一个关键问题，具有广泛的应用，例如物体姿态估计、机器人控制、相机重定位、3D重建和视觉里程计[8, 12, 15, 21,34]。最近，随着深度神经网络的普及，学习准确回归旋转引起了越来越多的关注。然而，旋转空间的非欧几里德特性使得准确回归旋转变得非常具有挑战性。我们知道，旋转存在于非欧几里德流形SO(3)群中，而神经网络的无约束输出通常存在于欧几里德空间中。神经网络输出空间与SO(3)流形之间的这种差距成为深度旋转回归的主要挑战，因此解决这个差距成为一个重要的研究课题。一个流行的研究方向是设计学习友好的旋转表示，例如6D连续表示[42]和10D对称矩阵表示[26]。最近，Levinson等人[24]采用了香草9D矩阵表示，发现简单地用对称SVD基于正交化替换6D表示[42]中的Gram-Schmidt过程可以使该表示优于其他表示。尽管在发现更好的旋转表示方面取得了进展，但欧几里德网络输出空间与非欧几里德SO(3)流形之间的差距尚未完全填补。一个重要但长期被忽视的问题在于非欧几里德流形上的优化[1]：在SO(3)流形上进行优化时，优化变量是一个旋转矩阵，其中包含九个矩阵元素；如果我们简单地使用欧几里德梯度，即简单地计算相对于每个九个矩阵元素的偏导数来更新变量，这个优化步骤通常会导致一个新的不在SO(3)流形上的矩阵。不幸的是，我们观察到所有现有的旋转回归工作都仅仅依赖于香草自动微分进行反向传播，精确计算欧几里德梯度并对预测的旋转执行这样的非流形更新。我们认为，对于训练深度旋转回归网络，非流形分量将导致神经网络权重梯度中的噪声，阻碍网络的训练和收敛。为了解决这个问题，我们从微分几何中汲取灵感，在非欧几里德流形上利用黎曼优化，找到流形上最陡的测地线路径的方向，并进行流形上的步骤。因此，我们提出利用黎曼优化并深入研究后向传播。需要注意的是，这是一个基础但目前尚未充分探索的领域，因为大多数现有的工作都集中在对前向/后向传播不加区分的旋转回归的整体设计上。然而，将黎曼优化纳入网络训练中是非常非平凡和具有挑战性的。尽管黎曼优化的方法允许在SO(3)[5, 29]、矩阵流形[1]或一般黎曼流形[32,40]上进行优化，但它们不能直接应用于更新欧几里德的神经网络的权重。另外，0† : 何旺是通讯作者（hewang@pku.edu.cn）。66470[16]等方法将Riemannian距离及其梯度纳入网络训练中，但它们没有解决表示问题。在这项工作中，我们希望在旋转回归的反向传播中提出一种更好的流形感知梯度，直接更新神经网络的权重。我们首先进行Riemannian优化步骤，并计算旋转预测与更新后的旋转之间的差异，这更接近于真实值。通过反向传播这个“误差”，我们遇到了将原始网络输出转换为有效旋转的映射函数（或正交化函数）。这个投影可以是Gram-Schmidt过程或SVD正交化[24]，通常是一对多的映射。这种非双射性为我们的梯度提供了一个新的设计空间：如果我们使用梯度来更新原始输出旋转，尽管对于反向传播到神经网络权重来说它们完全不同，但许多梯度会导致最终输出旋转中的相同更新。现在的问题是：当许多梯度对应于相同的输出更新时，哪个梯度最适合反向传播？我们观察到，这个问题在某些具有模糊性或多个真实值的问题中有些类似。一个例子是姿态估计中的对称性问题：一个对称对象，例如一个无纹理的立方体，在许多不同的姿态下看起来是相同的，这需要在监督姿态预测时考虑到。为了在这样的问题中监督学习，Wang等人提出使用min-of-N损失[13]，它只惩罚预测与所有可能的真实值之间的最小误差。因此，我们提出找到能够将最终输出旋转更新为目标旋转的最小范数的梯度。这个反投影过程涉及在目标旋转的逆像空间中找到离网络输出最近的元素，并将网络输出投影到这个逆像空间。因此，我们将我们的梯度称为投影流形梯度。需要注意的是，这个投影梯度倾向于缩短网络输出，导致网络输出的范数消失。为了解决这个问题，我们进一步将简单的正则化方法引入到梯度中，得到我们的完整解决方案：正则化投影流形梯度（RPMG）。请注意，我们提出的梯度层操作的是原始的网络输出，并且可以直接反向传播到网络权重。我们的方法非常通用，不局限于特定的旋转表示。它可以与不同的非欧几里德旋转表示结合使用，包括四元数、6D表示[42]和9D旋转矩阵表示[24]，甚至可以用于回归其他非流形变量。我们在涉及旋转回归的各种问题上评估了我们设计的投影流形梯度层。0旋转回归：从3D点云/图像中估计3D物体姿态、旋转估计问题中不使用真实旋转监督，以及更多关于相机重定位的实验请参见补充材料第5节。我们的方法在所有这些任务和不同的旋转表示上都展示了显著且一致的改进。超越旋转估计，我们还展示了在回归单位向量（位于单位球上）方面的性能改进，这是对其他非欧几里德流形的扩展的示例。我们总结我们的贡献如下：0•我们提出了一种新颖的流形感知梯度层，即RPMG，用于旋转回归的反向传播，可以应用于不同的旋转表示和损失，并且可以作为一个“插件”使用，而不需要实际成本。0•我们在不同任务和旋转表示上进行了广泛的实验，结果表明使用RPMG可以显著改善性能。0•我们的方法也可以在其他流形上受益于回归任务，例如S2。02.相关工作旋转参数化和SO(3)上的优化都是研究得比较充分的主题。早期的深度学习模型利用各种旋转表示进行姿态估计，例如方向余弦矩阵(DCM) [18, 39]、轴角[11, 14,33]、四元数[10, 20, 22, 38, 41]和欧拉角[23, 28,31]。最近，[42]指出欧拉角、轴角和四元数不是连续的旋转表示，因为它们的表示空间与SO(3)不同胚。作为更好的旋转回归表示，提出了6D [42]、9D [24]、10D[26]表示来解决不连续性问题并提高回归精度。一项并行工作[7]在理论和实验上研究了不同的流形映射，发现在回归任意旋转时，奇异值分解正交化效果最好。源自黎曼优化的[29]提出了一种简单的方法来构造局部轴角参数化，用于在SO(3)群上进行最小化。他们将梯度反向传播到切空间，并使用指数映射来更新当前旋转矩阵。最近，[30]构建了一个PyTorch库，支持3D变换群（例如SO(3)、SE(3)、Sim(3)）的切空间梯度反向传播。这个提出的库可以用来实现我们层中的黎曼梯度。03.初步 3.1.黎曼几何学0根据[3,4]，我们定义一个嵌入在环境欧几里得空间中的m维黎曼流形��A(θ) =θ1θ2θ3θ4θ2θ5θ6θ7θ3θ6θ8θ9θ4θ7θ9θ10 .(4)66480X =Rd，并赋予Riemannian度量G�(Gx)x∈M作为光滑曲线空间(M,G)。向量v∈X在x处被称为切向量，如果存在一条光滑曲线γ:[0,1]→M，使得γ(0)=x且˙γ(0)=v。通过x的所有这样的曲线的速度形成切空间TxM={˙γ(0)|γ:R→M在0附近光滑且γ(0)=x}。定义1（黎曼梯度）。对于光滑函数f:M→R和�(x,v)∈TM，我们定义f的黎曼梯度作为满足[6]的唯一向量场grad f：0Df(x)[v]=�v,gradf(x)�x(1)其中Df(x)[v]是f对v的导数。进一步可以证明（见补充材料第2.1节），gradf的表达式可以通过将欧几里得梯度正交投影到切空间上获得0grad f(x)=�f(x)∥=Πx�f(x)∥。(2)0其中Πx:X→TxM�X是关于�∙, ∙�x的正交投影算子。0定义2（黎曼优化）。我们考虑使用梯度下降来解决minx∈Mf(x)的问题。对于f的局部极小值点或驻点x�，黎曼梯度消失gradf(x�)=0，从而实现了简单的算法，黎曼梯度下降（RGD）：0xk+1=Rxk(−τkgrad f(xk))(3)0其中τk是第k次迭代的步长，Rxk通常与指数映射相关的回退选择。03.2.旋转表示0有许多表示旋转的方法：经典的旋转表示，例如欧拉角、轴角和四元数；以及最近引入的适用于回归的旋转表示，例如5D [42]、6D [42]、9D [24]和10D[26]表示。大多数深度神经网络可以在欧几里得空间X =Rn中输出一个无约束的任意n维向量x。对于使用来自R3的向量表示旋转的欧拉角和轴角表示，神经网络可以简单地输出一个3D向量；然而，对于四元数、6D、9D或10D表示，它们位于非欧几里得流形上，通常需要流形映射函数π：Rn→M来进行归一化或正交化，以将网络输出转换为属于表示流形的有效元素。这个网络欧几里得输出空间X是表示流形所在的地方，因此也被称为环境空间。0定义3（旋转表示）。一个位于表示流形 M上的旋转表示定义了一个满射旋转映射 ϕ ： ˆ x ∈ M → ϕ(ˆ x ) ∈ SO(3) 和一个表示映射函数 ψ ： R ∈ SO(3) → ψ (R ) ∈ M ，使得 ϕ ( ψ ) = R ∈ SO(3) 。0定义4（流形映射函数）。从环境空间 X 到表示流形 M，我们可以定义一个流形映射函数 π ： x ∈ X → π ( x ) ∈M ，它将环境中的点 x 投影到流形 M 上的有效元素 ˆ x =π ( x ) 。0我们总结了几种非欧几里德旋转表示的流形映射、旋转映射和表示映射。单位四元数。单位四元数使用一个4维单位向量 q ∈ S 3来表示旋转，它是非欧几里德的3-球的双覆盖，即 q 和 -q表示相同的旋转。具有最终线性激活的网络只能预测 x ∈ R 4。相应的流形映射函数通常选择为一个归一化步骤，即 π q ( x ) = x / ∥ x ∥。对于旋转和表示映射，我们利用了旋转和四元数之间的标准映射（见补充材料第7节）。6D表示和Gram-Schmidt正交化。6D旋转表示[42]位于Stiefel流形 V 2 ( R 3 )上，使用两个正交的单位3D向量 (ˆ c 1 , ˆ c 2 )来表示旋转，它们实际上是旋转矩阵的前两列。它的流形映射 π 6 D是通过Gram-Schmidt正交化完成的。它的旋转映射 ϕ 6 D 是通过添加第三列 ˆ c 3 = ˆ c1 × ˆ c 2 完成的。它的表示映射 ψ 6 D 简单地去掉旋转矩阵的第三列 ˆ c 3。9D表示和SVD正交化。为了将原始的9D网络输出 M映射到旋转矩阵，[24]使用SVD正交化作为流形映射函数 π 9 D ，具体步骤如下：首先将M 分解为其左奇异向量和右奇异向量 { U , V � } 以及奇异值 Σ ， M = U Σ V � ；然后用 Σ替换为 Σ ′ = diag(1 , 1 , det( UV � )) ，最后计算 R = U Σ ′ V � 。0为了得到相应的旋转矩阵 R ∈ SO(3)，我们可以使用该表示流形 SO(3)，旋转和表示映射函数都是简单的恒等映射。10D表示。[26]提出了一种新颖的10D表示旋转矩阵的方法。流形映射函数 π 10 D 将 θ ∈ R 10 映射到 q ∈ S 3 ，通过计算 A(θ)的最小特征值对应的特征向量得到，表示为 π 10 D ( x ) =min q ∈S 3 q � A ( x ) q ，其中0由于表示流形是 S 3 ，旋转和表示映射与单位四元数相同。03.3. 深度旋转回归0我们通过描述基于神经网络的旋转的正向和反向传递来总结本节内容。66490旋转0流形 xxxx0输入信号0神经网络0环境空间 xxx 流形映射0表示流形 xxxx0旋转映射0黎曼优化0输出旋转0目标0旋转0表示映射0原始输出0反转0和项目预测0正则化投影流形梯度0损失0反向传播0图1. 投影流形梯度层。在前向传播中，网络预测一个原始输出x，然后将其转换为有效的旋转R =ϕ(π(x))。我们保持前向传播不变，只修改后向传播。在后向传播中，我们首先使用Riemannian优化得到一个目标旋转Rg，并将其映射回表示流形M上的ˆxg。然后我们找到与原始输出在ˆxg的逆像中最接近的元素xgp，并最终得到我们想要的梯度gRPM。0旋转回归，如[24,42]中所使用的。前向和后向传播。假设对于旋转表示，网络预测x ∈ X，那么流形映射π将x映射到ˆx = π(x) ∈M，然后旋转映射ϕ最终产生输出旋转R = ϕ(ˆx) =ϕ(π(x))。我们的工作只处理后向传播，保持前向传播不变，如图1的上半部分所示。在后向传播中，梯度简单地使用Pytorch自动求导方法计算，即g =f'(R)ϕ'(ˆx)π'(x)。损失函数。监督旋转矩阵最常见的选择是L2损失∥R - Rgt∥2F，如[24,42]中所使用的。这个损失等于4 - 4cos()，其中表示R和Rgt之间的角度。04. 方法0概述。在这项工作中，我们提出了一个投影流形梯度层，不改变给定旋转回归网络的前向传播，如图1所示。我们的重点是找到损失函数L相对于网络原始输出x的更好梯度g，以便反向传播到网络权重中。让我们从检查一般情况下网络输出x的梯度开始 -在欧几里德空间中的回归。给定一个真实值xgt和L2损失∥x-xgt∥2，该损失在x中存在高斯噪声的情况下最大化似然，梯度将为g = 2(x -xgt)。因此，在旋转回归的情况下，我们建议为给定的真实旋转Rgt或计算得到的目标旋转Rg找到一个合适的x� ∈X，然后简单地使用x -x�作为我们的梯度反向传播到网络中。注意，找到这样的x�可能是具有挑战性的。假设我们知道Rgt，找到一个x�涉及到反转ϕ和π，因为网络输出R =ϕ(π(x))。此外，在间接旋转监督下，我们可能不知道Rgt（例如，0在PoseCNN[38]中使用的流损失和自监督旋转估计案例（例如[35]中使用的2D掩码损失）中存在一些问题。在这项工作中，我们引入以下技术来缓解这些问题：（i）我们首先采用Riemannian梯度来计算一个不依赖于Rgt的目标旋转Rg∈SO(3)，如第4.1节所述；（ii）然后找到所有可能的xgs的集合，可以映射到Rg，或者换句话说，是π和ϕ下的Rg的逆像；（iii）我们找到与x在欧几里德度量下最接近的集合中的元素xgp，并将其设置为“x�”。我们将使用这个x�构造我们的梯度，如4.2节所述；（iv）我们添加一个正则化项到这个梯度中，形成gRPMG，如4.3节所述。整个反向传播利用我们提出的正则化投影流形梯度的过程如图1的下半部分所示。04.1. Riemannian梯度和目标旋转0为了处理有/无直接旋转监督的旋转估计，我们首先提出计算损失函数L相对于输出旋转R的Riemanian梯度，并找到一个目标旋转Rg，该目标旋转可能比R更接近真实旋转。假设损失函数的形式为L(f(R))，其中R =π(ϕ(x))是输出旋转，f构造了一个将R与真实旋转Rgt直接或间接比较的损失函数。给定R(x)和L(f(R(x)))，我们可以执行一步Rie- mannian优化，得到我们的目标旋转Rg ←RR(-τgradL(f(R)))，其中τ是Rie-mannian梯度的步长，可以设置为常数作为超参数或在训练过程中变化。对于L2损失∥R -Rgt∥2F，Riemannian梯度始终沿着SO(3)上R和Rgt之间的测地线路径[19]。在这种情况下，Rg通常可以看作是R和Rgt之间的一个中间目标，取决于τ。从0开始逐渐增加τ将首先使Rg接近Rgt，从Rg =R开始，然后达到Rgt，其中我们将τ = τgt，和from different batch instances contain different levels of re-dundancy, then the averaged gradient may be biased or noteven appropriate. This argument is generally applicable toall stochastic optimizers (e.g., Adam [2])Inverting π. There are many ways to solve this projectionproblem for different manifold mapping functions π. Forexample, we can formulate this as a constrained optimiza-tion problem. For the manifold mapping functions we con-sider, we propose the following approach: we first solve forthe inverse image π−1(ˆxg) of ˆxg in the ambient space Xanalytically, which reads π−1(ˆxg) = {xg ∈ X | π(xg) =ˆxg}; we then project x onto this inverse image space. Notethat, sometimes only a superset of this inverse image can befound analytically, requiring certain constraints on xgp tobe enforced.Here we list the inverse image π−1(ˆxg) and the projec-tion point xgp for different rotation representations and theircorresponding manifold mapping π. Please refer to supple-mentary material Section 2.2 for detailed derivations.Quaternion. With πq(x) = x/∥x∥, x ∈ R4, and ˆxg ∈ S3:π−1q (ˆxg) = {x | x = kˆxg, k ∈ R and k > 0}, which is aray in the direction of ˆxg starting from the origin. Withoutconsidering the constraint of k > 0 , an analytical solutionto this projection point xgp of x onto this line can be de-rived: xgp = (x · ˆxg)ˆxg.6D representation. With π6D as Gram-Schmidt process,x = [u, v] ∈ R6, and ˆxg∈ V2(R3):π−16D(ˆxg) ={[k1ˆug, k2ˆug + k3ˆvg] | k1, k2, k3 ∈ R and k1, k3 > 0}(the former is a ray whereas the latter spans a half plane).Without considering the constraint of k1, k3 > 0, the pro-jection point xgp can be analytically represented as xgp =[(u · ˆug)ˆug, (v · ˆug)ˆug + (v · ˆvg)ˆvg]9D representation. With π9D(x) as SVD orthogonaliza-tion, x ∈ R3×3, and ˆxg ∈ SO(3), the analytical expressionfor π−19D is available when we ignore the positive singularvalue constraints, which gives π−19D(ˆxg) = {Sˆxg | S =66500最终超越Rgt。尽管当Rgt可用时，可以简单地设置Rg =Rgt，但我们认为这只是在τ =τgt下的特殊情况。对于Rgt不可用的情况，例如在自监督学习中（见第5.3节），我们不知道Rgt和τgt，因此需要使用黎曼优化来计算Rg。在接下来的内容中，我们只使用Rg来解释我们的方法，不失一般性。有关如何选择τ，请参见第4.3节。04.2. 投影流形梯度0给定Rg，我们可以使用表示映射ψ找到对应的ˆxg =ψ(Rg)在表示流形M上。然而，进一步反演π并找到对应的xg ∈X是一个非平凡的问题，由于π的投影性质。实际上，有许多满足π(xg) = ˆxg的xg。似乎我们可以使用任何满足π(xg) =ˆxg的xg构造梯度g = (x −xg)。无论我们选择哪个xg，如果这个梯度用于更新x，将得到相同的Rg。但是，在反向传播到网络时，这些梯度将以不同的方式更新网络权重，可能导致不同的学习效率和网络性能。形式上，我们将这个问题形式化为x的多个真实值问题：我们需要从π的逆映射下的ˆxg的逆像中找到最佳的x�进行监督。我们注意到，在处理对称性的姿势监督中，类似的问题已经出现在[36]中，当物体在许多姿势下看起来相同时，需要找到一个姿势进行监督。[36]提出使用[13]引入的最小N策略：从所有可能的姿势中，选择最接近网络预测的姿势作为真实值。在监督四元数回归中也可以看到类似的策略，因为q和−q代表相同的旋转。因此，一种常见的损失函数选择是min{L(q, qgt), L(q,−qgt)}[26]，它惩罚到最接近真实四元数的距离。受到这些工作的启发，我们提出在所有可能的梯度中选择具有最低冗余级别的梯度，即要求x�是最接近x的梯度，或者换句话说，梯度具有最小的范数，这意味着我们需要找到x到所有有效xg的投影点xgp：0xgp = argminπ(xg)=ˆxg∥x−xg∥2 (5)0然后我们可以构造我们的投影流形梯度（PMG）为gPM = x − xgp。我们将将朴素梯度gM = x −ˆxg称为流形梯度（MG）。这里我们提供另一个角度来解释为什么网络可能更喜欢PMG。在使用随机梯度下降（SGD）训练深度网络的情况下，用于更新网络权重的最终梯度是批次实例的梯度的平均值。如果来自不同批次实例的梯度包含不同级别的冗余，那么平均梯度可能是有偏差的，甚至不合适。这个论点通常适用于所有随机优化器（例如Adam[2]）。反演π。有许多方法可以解决不同流形映射函数π的投影问题。例如，我们可以将其形式化为一个约束优化问题。对于我们考虑的流形映射函数，我们提出以下方法：我们首先通过解析地求解π−1(ˆxg)在环境空间X中的逆像来解决投影问题，即π−1(ˆxg) = {xg ∈ X | π(xg) =ˆxg}；然后将x投影到这个逆像空间上。请注意，有时只能找到这个逆像的超集，需要对xgp施加一定的约束。这里我们列出了不同旋转表示及其对应的流形映射π的逆像π−1(ˆxg)和投影点xgp。详细推导请参见补充材料第2.2节。四元数。对于πq(x) = x/∥x∥，x ∈ R4，以及ˆxg ∈ S3：π−1q(ˆxg) = {x | x = kˆxg，k ∈ R且k >0}，这是从原点开始沿着ˆxg方向的射线。如果不考虑k > 0的约束，可以导出这条射线上x的投影点xgp的解析解：xgp= (x ∙ ˆxg)ˆxg。6D表示。对于π6D作为Gram-Schmidt过程，x = [u, v] ∈ R6，以及ˆxg ∈ V2(R3)：π−16D(ˆxg) ={[k1ˆug, k2ˆug + k3ˆvg] | k1, k2, k3 ∈ R且k1, k3 > 0}（前者是一条射线，而后者是一个半平面）。如果不考虑k1, k3> 0的约束，投影点xgp可以用以下解析表示：xgp = [(u ∙ ˆug)ˆug, (v ∙ ˆug)ˆug + (v ∙ˆvg)ˆvg]。9D表示。对于π9D(x)作为SVD正交化，x ∈ R3×3，以及ˆxg ∈SO(3)，当忽略正奇异值约束时，π−19D的解析表达式可得：π−19D(ˆxg) = {Sˆxg | S =0图2.正则化投影流形梯度的示意图。左图：在前向传播中，我们通过π将x简单投影到ˆx。在反向传播中，首先计算一个黎曼梯度，如绿色箭头所示。通过黎曼优化得到下一个目标ˆxg ∈M后，找到ˆxg的逆投影xgp，得到我们的投影流形梯度，如蓝色箭头所示。通过正则化项，我们可以得到最终的正则化投影流形梯度，如紫色箭头所示。右图：四元数情况下的投影点ˆxgp。66510S �}。我们可以进一步通过以下公式求解投影点x gp：02. 10D表示。有关xqp的推导和表达，请参见补充材料第2.2节。04.3. 正则化投影流形梯度0Naive projective manifoldgradient的问题。在图2的右图中，我们展示了在x相对于xg处于不同位置时的投影过程。我们证明了这个过程中存在两个问题。首先，无论x在哪里，投影操作都会缩短我们的预测长度，因为∥x gp∥ <∥x∥对于所有的4D/6D/9D/10D表示都成立。随着训练的进行，这将导致网络输出的长度范数变得非常小（参见图3）。收缩的网络输出将不断增加有效学习率，阻止网络收敛，并对网络性能造成严重损害（参见表2和图3的消融研究）。其次，当x和ˆx g之间的角度大于π/2时（在x =x3的情况下），naive projection x gp将与ˆxg的方向相反，并且无法在π q下映射回ˆxg，导致梯度错误。同样的问题也发生在6D、9D和10D表示中。正式的原因是反向映射的解析解假设满足某些约束条件，通常只有在ˆxg与x不远或网络即将收敛时才成立。正则化投影流形梯度。为了解决第一个问题，我们提出在投影流形梯度中添加一个正则化项x gp - ˆxg，可以避免长度消失问题。因此，正则化投影流形梯度的表达式如下：0g RP M = x - x gp + λ (x gp - ˆx g), (6)0其中λ是一个正则化系数。请参见图2的左图进行说明。关于超参数λ和τ的讨论。我们的方法显然引入了两个额外的超参数λ和τ，然而，我们认为这并不增加我们方法的超参数搜索空间。对于λ，唯一的要求是λ要很小（我们简单地设置为0.01），因为：（1）我们希望投影流形梯度（x - xgp）成为梯度的主要组成部分；（2）由于这种正则化大致与预测长度的差异成正比，一个小的lambda足以防止长度消失，在最后，预测长度将在投影和正则化下保持大致恒定的平衡。在第5.1节的消融研究中，我们展示了性能对于λ的变化是稳健的。请注意，另一个极端情况是当λ = 1时，gRP M变为g M。0对于τ，我们提出了一个合理的逐渐增加的计划。为了解决反向梯度的问题，我们需要一个较小的τinit来保持训练开始时的Rg接近R。但是当网络即将收敛时，我们更倾向于使用τconverge来保持R g接近Rgt以获得更好的收敛性。我们不能直接将τconverge设置为τ gt，因为τgt不是一个常数，不能在RiemannianOptimization中使用。然而，如果我们想解决反向梯度的问题，我们必须使用Riemannian Optimization和τinit。因此，当R和R gt之间的角度收敛到0时，我们需要对τgt进行常数近似。请注意，当损失函数是最常用的L2损失或测地线损失时，可以在解析上推导出τconverge（详见补充材料第2.1节），因此不需要调整。因此，我们建议从一个小值τinit开始逐渐增加τ，进行缓慢的热身，随着训练的进行，我们逐步将其增加到最终的τ = τconverge，通过十个均匀步骤。这种策略进一步提高了我们的性能。05. 实验0我们研究了流行的旋转表示方法，并发现我们的方法在不同类型的任务中大大提高了性能。对于我们的正则化投影流形梯度（RPMG），我们将其应用于四元数、6D、9D和10D的反向传播过程中，而不改变前向传递，从而得到了三种新方法RPMG-Quat、RPMG-6D、RPMG-9D和RPMG-10D。我们比较了以下七个基准线：欧拉角、轴-角、四元数、6D [42]、9D [24]、9D-Inf [24]和10D[26]。我们采用了三个评估指标：预测旋转和真实旋转之间的（测地线）误差的平均值、中位数和5°准确度。对于我们的大多数实验，我们将正则化项λ设置为0.01，并通过十个均匀步骤将τ从τ init = 0.05增加到τ converge =0.25。我们在我们的消融研究中进一步展示和讨论了这两个超参数的不同选择对我们的影响。05.1. 从点云中估计3D物体姿态0实验设置。与[9]中一样，我们使用从ModelNet-40[37]中生成的完整点云。我们使用与[9]中相同的训练/测试划分，并报告飞机、椅子、沙发、厕所和床这五个类别的结果，因为它们具有较少的旋转对称性。给定特定类别的形状点云，网络学习从该类别的预定义规范视图中预测输入点云的3D旋转[36]。我们用这个实验替换了[24,42]中使用的点云对齐任务（几乎已经解决），因为它更具挑战性，更接近实际应用（网络没有给定规范点云）。我们使用PointNet++[27]网络作为我们的骨干，由预测的旋转矩阵之间的L2损失进行监督5k10k15k20k25k30kIteration051015202530Median error (°)Axis

下载后可阅读完整内容，剩余1页未读，立即下载