神经网络中的连续旋转表示及其在深度学习中的应用

186 浏览量更新于2023-10-19 收藏 743KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15745神经网络周毅南加州zhou859@usc.edu杨继梅康奈利·巴恩斯（ConnellyBarnes）， Adobe研究公司connellybarnes@yahoo.com豪礼景湾路土坯研究所jlu@adobe.comAdobe Researchjimyang@adobe.com南加州大学Pinscreen USC创意技术hao@hao-li.com摘要在神经网络中，通常希望使用同一空间的各种表示。例如，3D旋转可以用四元数或欧拉角表示。在本文中，我们提出了一个连续表示的定义，这可能有助于训练深度神经网络。我们将其与同胚和嵌入等拓扑概念然后，我们研究什么是连续和不连续的表示为2D，3D和n维旋转。我们证明，对于3D旋转，所有的表示是不连续的真正的欧几里得空间的四维或更少的。因此，广泛使用的表示，如四元数和欧拉角是不连续的，神经网络难以学习。我们证明了3D旋转在5D和6D中具有连续的表示，这更适合于学习。我们还给出了n维旋转群SO（ n）的一般情形的连续表示。虽然我们主要关注的是旋转，但我们也表明我们的结构适用于其他群体，正交群和相似变换。最后，我们提出了实证结果，这表明我们的连续旋转表示优于不连续的几个实际问题，在图形和视觉，包括一个简单的自动编码器的健全性测试，旋转估计的3D点云，和逆运动学求解器的3D人体姿势。1. 介绍最近，在图形和视觉中有越来越多的应用，其中深度神经网络用于对旋转进行回归。这已经完成了任务，例如从图像[13，31]和点云[15]进行姿态估计，从运动[29]进行结构，以及骨骼运动合成，这会生成作者有同等的贡献。[30]第30话这些作品中的许多作品使用诸如四元数、轴角或欧拉角的3D或4D表示来表示3D旋转。然而，对于3D旋转，我们发现当需要完整的旋转空间时，3D和4D从经验上讲，收敛网络在某些旋转角度仍然会产生很大的误差。我们相信，这实际上指向了与旋转表示中的连续性相关的更深层次的拓扑问题。非正式地说，在所有其他条件相同的情况下，不连续的表示在许多情况下应该比连续的理论结果表明，对于给定数量的神经元，更平滑的函数[33]或具有更强的连续性属性（如连续模[32，10]）具有更低的近似误差。基于这一认识，我们首先在第3节中给出了神经网络中表示连续性的定义。我们说明了这个定义的基础上一个简单的例子，2D旋转。然后，我们将其连接到关键的拓扑概念，如同胚和嵌入。接下来，我们将在第4节中对旋转表象的连续性进行理论分析我们首先在4.1节中研究了一些不连续的表示，如欧拉角表示和四元数表示.我们证明了，对于三维旋转，所有的表示是不连续的四维或更少的实欧几里德空间的欧几里德拓扑。然后我们在第4.2节中研究一些连续性-我们的旋转表示。对于n维旋转群SO（n），我们给出了一个连续的n2−n维表示.我们还提出了一个选项，以连续的方式将这个表示的维数减少1到n-2我们表明，这些使我们能够在6D中连续表示3D旋转和5D。当我们专注于旋转时，我们展示了我们的连续表示如何也适用于其他群，如正交群O（n）和相似变换。最后，在第5节中，我们将从经验上检验我们的想法我们进行3D旋转实验，并表明我们的6D和5D连续表示总是优于15746用于若干任务的不连续的部分，包括旋转自动编码器我们注意到，在我们的旋转自动编码器实验中，不连续表示的平均误差可能比连续表示高出6到14倍。然而，即使在收敛之后，它们往往收敛得更慢，同时在某些旋转角度处仍然产生超过170°的大误差，我们认为这这种现象也可以在Falorsi等人关于同胚变分自编码的不同旋转表示的实验中观察到。[14]，以及在实际应用中，例如Xiang等人的6D对象姿态估计。[31]第30段。我们还表明，可以对3x3旋转矩阵进行直接回归。根据经验，这种方法引入了比我们的6D表示更大的误差，如第5.2节所示。此外，对于某些应用，如逆运动学和正运动学，网络本身产生正交矩阵可能很重要因此，我们需要在网络中的正交化过程。特别地，如果我们使用Gram-Schmidt正交化，那么我们有效地结束了我们的6D表示。我们的贡献是：1）旋转表示的连续性定义，它适用于神经网络; 2）二维、三维和n维旋转的不连续和连续表示的分析; 3）新公式（4）实验结果支持了我们的理论观点，证明了我们的连续表示更适合于学习。2. 相关工作在本节中，我们将首先在神经网络逼近理论方面为我们的工作建立一些背景。接下来，我们讨论相关的工作，调查不同的旋转表示的连续性。最后，我们将报告在以前的学习任务中使用的旋转表示类型及其性能。神经网络逼近理论我们回顾了神经网络逼近理论的结果的一个简短的采样。 Hornik [17]表明，神经网络可以近似函数在 Lp 空间中的任意精度，如果使用LpBarron等人[6]表明，如果一个函数在其傅里叶变换中具有某些性质，那么最多需要O（n−2）个神经元来获得近似阶n。LeCun等人的第6.4.1[23]对这些结果进行了更全面的概述。我们注意到连续函数的结果表明，对于特定数量的神经元，具有更好平滑特性的函数可以具有更低的逼近误差[32，10，33]。对于不连续函数，Llanas et al.[24]证明了一个实的和分段连续的函数可以以几乎一致的方式近似。然而，Llanas etal. [24]还指出，分段连续函数在使用梯度下降方法训练时需要许多神经元和训练迭代，但并没有给出非常好的结果。这些结果表明，在实践中，连续旋转代表可能会表现得更好。旋转的连续性Grassia等人[16]指出欧拉角和四元数不适合于方向微分和积分运算，并提出指数映射作为更鲁棒的旋转表示-位置。Saxena等人[28]观察到欧拉角和四元数由于不连续性而导致学习问题。然而，他们没有提出除了3x3矩阵的直接回归之外的一般旋转表示，因为他们专注于学习具有特定对称性的对象的表示。用于3D形状姿态估计的神经网络。深度网络已被应用于从RGB图像、深度图或扫描图像中估计对象实例的6D姿态。点云。而不是直接预测3x 3矩阵- 对于可能不对应于有效旋转的情况，它们通常使用更紧凑的旋转表示，例如四元数[31，21，20]或轴角[29，15，13]。在PoseCNN [31]中，作者报告了在90° C和180° C之间的高比例错误，并认为这主要是由测试集中某些对称形状的旋转模糊性引起的。然而，正如他们的论文所示，即使对于非对称形状，90°到180°在本文中，我们认为，这些表示的不连续性可能是这种错误的原因之一。逆运动学的神经网络。近年来，训练神经网络求解逆运动学方程的研究引起了人们的兴趣.这是因为这样的网络比传统方法更快，因此它们可以用于更复杂的学习任务，例如运动重定向[30]和基于视频的人类姿势估计[19]。这些作品中的大多数使用四元数或轴角表示旋转[18，19]。一些作品还使用了其他3D表示，如欧拉角和李代数[19，34]，并惩罚了关节位置误差。Csiszar等人[11]设计了输出欧拉角的正弦和余弦的网络，用于解决机器人控制中的逆运动学问题。欧拉角表示对于SO（3）是不连续的，并且可以导致在大的回归误差中，如在第5款.然而，这些作者将旋转角度限制在一定范围内，这避免了不连续点，从而在他们的测试中实现了非常低的关节对准误差。然而，许多现实世界的任务要求网络能够输出完整的旋转范围在这种情况下，连续旋转表示将是更好的选择。3. 连续表示在本节中，我们首先定义我们将在本文中使用的术语接下来，我们分析一个简单的2D旋转的激励示例。这使我们能够发展神经网络中表示连续性的一般定义。然后，我们解释了连续性的定义是如何与拓扑学中的概念相关联的。术语. 为了表示矩阵，我们通常使用M，Mij指的是它的（i，j）我们使用术语SO（n）来表示特殊的正交群，n维空间，15747表示空间02π[0，2 π]中角表示的不连通集映射g原始空间S~ 1中旋转的连通集空间在我们的上下文中，由网络产生的R中的任何中间表示都可以映射到原始空间X中。定义到原始空间f：R→X的映射，以及到表示空间的映射g：X→R。我们说（f，g）是一个表示，如果对每个x∈X，f（g（x））=x，即f是g的左逆.我们说图1.一个简单的2D例子，激发了我们对表示连续性的定义详情见第3节。映射f如果g是连续的，则表示是连续的与神经网络的连接：现在我们回到图2左侧的神经网络。我们想象推理是从左到右的。因此，神经输入信号表示空间原始空间网络在其左侧接受一些输入信号，输出R中的表示，然后将此表示传递给R X映射g图2.我们对连续表示的定义，以及它如何应用于神经网络。详见正文。定向旋转这个群定义在 n×n 实矩阵的集合上，MMT=MT M=I，det（M）=1。组运算是乘法，其结果是旋转的串联。我们将n维单位球面记为Sn={x∈Rn+1：||X||=1}。激励的例子：2D旋转我们现在考虑2D旋转的表示对于任何2D旋转M∈SO（2），我们也可以将矩阵表示为：通过映射f来得到原空间X的元素。请注意，在我们的上下文中，映射f被实现为一个数学函数，它在训练和推理时都被用作网络前向传递的一部分。通常，在训练时，我们可能会在原始空间X上施加损失。我们现在描述一下为什么我们要求g是连续的背后的直觉。假设我们在原始空间中有一些连通集C，如图1右侧所示如果我们把C映射到表示空间R，并且g是连续的，则集合g（C）将保持连接。因此，如果我们有连续的训练数据，那么这将有效地创建一个为神经网络提供连续的训练信号。相反，如果g不是连续的，如图1所示，则连续ΣΣcos（θ）−sin（θ）M=sin（θ）cos（θ）（一）原始空间中的连通集可能在表示空间中变得不连通。这可能会造成中断-我们可以通过选择θ∈R来表示任意旋转矩阵M∈SO（2），其中R是一组合适的角，例如R=[0，2π]。然而，这种特定的表示直观上存在连续性问题。问题是，如果我们定义一个从原始空间SO（2）到角表示空间R的映射g，那么这个映射是不连续的特别是，g在单位矩（代表零旋转）处的极限是不确定的：一个方向极限给出0角，另一个给出2π。我们在图1中直观地描述了这个问题。在右边，我们通过在单位上可视化它们的第一列向量[cos（θ），sin（θ）]T来可视化一个连接的旋转集C<$SO（2）。球面S1.在左边，通过g映射后，我们看到角是不连通的。特别是，我们说，这个表示是不连续的，因为从原始空间到表示空间的映射G是不连续的。我们认为，神经网络更难适应这种不连续的表示如果我们将2D旋转M∈SO（2）表示为：其第一列向量[cos（θ），sin（θ）]T，则表示-站将是连续的。连续表示：我们现在可以定义我们认为的连续表示。我们在图2中以图形方式说明了设R是实向量空间的一个子集，它具有欧氏拓扑.我们称R为表示空间：在我们的上下文中，神经网络在R中产生中间表示。这个神经网络在图2的左侧描述我们很快就会回到这个神经网络。设X是一个紧拓扑空间。我们称X为原始的用于网络的训练信号。我们注意到，在神经网络中，它们通常是连续的，如在欧几里得拓扑空间上定义的。因此，我们要求表示空间R具有欧几里德拓扑，因为这与网络单元的连续性是一致的。映射f的域：我们还注意到，对于神经网络，将映射f定义在神经网络输出预期所在的集合上的几乎任何地方都特别有益这使得f来映射网络回到原来的空间X。拓扑连接：设（f，g）是连续表示.注意g是从紧拓扑空间到豪斯多夫空间的连续一对一函数。根据拓扑学中的一个定理，这意味着如果我们把g的余域限制在g（X）上（并使用g（X）的子空间拓扑），那么得到的映射是同胚的。同胚是具有连续逆的连续双射.对于几何直观，同胚通常被描述为连续的且一个空间到另一个空间的可逆拉伸和弯曲，如果后来将相同的点粘在一起，也允许有限数量的切割。有人说，两个空间是拓扑等价的，如果它们之间有一个同胚。此外，g是原始空间X到表示空间R的拓扑嵌入。注意，我们也有g的逆：如果我们将f限制为定义域g（X），则所得函数f|g（X ）是g的逆。相反，如果原始空间X不是同胚于表示空间R神经网络15748√222则在这些空间上不可能有连续表示（f，g）我们将在后面讨论这个问题，当我们证明在四维或更少的维度上，三维旋转没有连续的表示4. 旋转表示分析在这里，我们提供了可以在网络中使用的旋转表示的例子。我们首先在4.1节中研究3D旋转的一些不连续表示，然后在4.2节中研究n维中的连续旋转表示，并展示对于3D旋转，这些表示如何成为6D和5D连续旋转表示。我们相信这种分析可以帮助人们选择合适的旋转表示学习任务。4.1. 不连续表示情况1：三维旋转的欧拉角表示。设原始空间X=SO（3），即3D旋转的集合。然后，我们可以很容易地显示不连续的欧拉角表示，通过考虑的方位角θ，并将其简化为第3节中所示的二维旋转的激励示例。特别地，恒等旋转I发生在不连续处，其中一个方向极限给出θ=0，另一个方向极限给出θ=2π。我们将这种表示中的不连续性可视化，其他陈述，在补充部分F。情况2：三维旋转的四元数表示。定义原始空间X=SO（3）和表示空间Y=R4，我们用它来表示四元数。我们现在可以定义到repre的映射当r∈Rπ时，gq（r）的二进制数是非零的。注意，我们在第3节中给出的连续表示的定义要求表示空间Y具有欧几里得拓扑，与我们在下一段讨论的实射影空间RP3以类似的方式，我们可以证明其他流行的3D旋转表示，如轴角，不连续性，例如轴角中的轴在180度旋转时具有不连续性。3D旋转的表示在四维或更少维中是不连续的。三维旋转群SO（3）同胚于实射影空间RP3。空间RPn定义为Rn+10的商空间，在等式关系x<$λx下，对所有λ 1= 0. 在图形和视觉环境中，最直观的可能是将RP3视为R4中的齐次坐标，其中先前的等价关系用于通过商空间构造适当的拓扑。基于拓扑学中的标准嵌入和非嵌入结果[12]，我们知道RP3（以及SO（3））嵌入具有欧氏拓扑的R5中，但不嵌入任何0-1否则（三）连续的是只使用单位映射，但这将导致表示的矩阵大小为n×n，这可能是过多的，并且仍然是重复的。类似地，可以如[2]中那样定义到原始空间SO（3）fq（[x0，y 0，z 0，w 0]）=2 21−2y−2z，2xy-22zw，2xz+2yw2xy+ 2zw，1−2x−2z，2yz−2xw，2xz− 2yw，2yz + 2xw， 1− 2x− 2y（x，y，z，w）=N（[x0，y 0，z0，w 0]）（4）如果我们想确保网络输出最终回到SO（n）中，则需要正交化，例如将f映射到原始空间中的Gram-Schmidt过程。基于这一观察，我们建议在表示本身中执行设原空间X=SO（n），表示空间为R=Rn×（n−1）\D（D将很快定义）。然后我们可以定义一个到表示空间的映射gGS，它简单地删除输入矩阵的最后一个列向量：这里，归一化函数被定义为N（q）=N（q）q/||Q||.通过轴角表示的扩展对于矩阵M的表示，可以验证对于每个M∈ SO（3），f（g（ M））= M.然而，我们发现，该表示不是连续的-是的。从几何上讲，这可以通过在180度矩阵周围采取不同的方向限制旋转，其定义为Rπ={M∈SO（3）：1.联合国秘书长的报告-是的-是的an=a1. -是的-是的an−1（5），其中a i，i = 1，2，.， n是列向量。我们注意到集合gGS（X）是Stiefel流形[3]。现在，为了将fGS映射到原始空间，我们可以定义以下Gram-Schmidt类过程：Tr（M）= −1}。具体地，在等式（2）的顶部情况其中t=0，当我们接近180度角时，旋转是[0，0，0，0]，同时，前三个坐标是f一般事务人员 a . .an−11. . .Bn中文（√√15749简体）15750yn0的pp′≤Σ′1联系我们N（a）if i=1吉尔吉-1N(a i−bi=0j=1（bj·ai）bj）e1如果2 in（七）.阿姆斯壮你好如果i = n。1. - 是的- 是的bn−1。en这里，N（·）表示与之前相同的归一化函数，并且e1，. - 是的- 是的，e n是欧几里得空间的n个典型基向量。fGS与普通Gram-Schmidt过程的唯一区别是最后一列是通过将叉积推广到n维来计算很明显，gGS是连续的。为了检验对于每个 M∈SO （ n ），fGS（gGS（M））=M，我们可以使用归纳法和标准正交基vec的性质在M的列中添加tors，以表明Gram-Schmidt过程不会修改前n-1个分量。最后，我们可以利用关于广义叉积的定理，如 Bloom [8] 的定理 5.14.7 ，证明 fGS （ gGS（M））的最后一个分量与M一致。最后，我们可以将集合D定义为其中上述Gram-Schmidt-类似的过程不会映射回SO（n）：具体地说，这是输入到g的n-1个向量的跨度的维数小于n-1。3D旋转的6D表示：对于3D旋转，案例3为我们提供了6D表示。方程（7）中bn的广义叉积简单地简化为普通叉积b1× b2。我们在补充文件的B节中给出了详细的方程。我们图3.二维赤平投影的图解我们给出单位球面S1上的一个点p作为输入。我们从一个固定的投影点N0=（0，1）通过p构造一条射线，并找到这条射线与平面y= 0的交点。结果点p是p的赤平投影。冗余可能更容易学习。然而，我们在实验中发现，降维表示并没有优于案例3中的Gram-Schmidt类表示。然而，我们仍然发展这种表示，因为它使我们能够表明，连续旋转表示可以优于不连续的。我们表明，我们可以使用一个或多个球极投影结合归一化进行这样的降维。我们在图3中显示了2D立体投影的图示，其可以容易地推广到更高维度。让我们首先规范化输入点，使其投影到一个球体，然后进行立体投影。使用投影点（1，0，. - 是的- 是的，0）。我们称这种组合运算为归一化投影，并将其定义为 P ：Rm→Rm−1：特别注意，在网络中使用我们6D表示P（u）=πv2，v3 、 . . - 是的，vmΣT ，v=u/||u||.工作可以是有益的，因为映射fGS在Equa-等式（7）确保所得到的3 × 3矩阵是正交的。相反，假设使用针对3x3矩阵的直接预测。然后，要么正交化可以在-1−v11−v1现在定义一个函数Q：Rm−1赤平投影：1−v1→Rm（八），它执行网络或作为后处理。如果进行了正交化10- 11-1||u||2−1），u，. . .，u2ΣT（九）在网络中，矩阵的最后3个组成部分将被删除，由公式（7）中的Gram-Schmidt过程梳理，因此||u||1m−13x3矩阵表示实际上是我们的6D表示加上3个无用的参数。如果正交化是作为后处理完成的，那么这会阻止某些应用，如正向运动学，并且误差也会更高，如第5节所示。组运算，如乘法：假设原始空间是一个群，例如旋转群，我们想将两个表示r1，r2∈R相乘。一般来说，我们可以通过首先映射到原始空间，将两个元素相乘，然后再映射回来： r1r2=g （ f （ r1 ） f（r2））. 然而，对于这里提出的表示，我们可以获得一些计算效率如下。由于到等式（5）中的表示空间的映射丢弃了最后一列，因此当计算对于f（r2），我们可以简单地删除最后一列，并将乘积表示计算为n×n和n×（n−1）矩阵的乘积情况4：进一步降低请注意，非投影实际上并不返回到球面，但在某种程度上，坐标2到m是单位向量。现在我们可以在前一种情况的表示上使用1到n-2之间的归一化投影为了简单起见，我们将首先演示一个球极投影的情况。这个想法是，我们可以将案例3的表示扁平化为一个向量，然后立体投影该向量的最后n+1个分量请注意，我们有意投射尽可能少的组件因为我们发现由投影引入的非线性这些非线性是由于方程（9）中的平方项和除法。如果u是一个长度为m 的向量，定义切片符号 u i ： j= （ u i ， ui+1，. . .，u，j），以及u，i= u，i：m。让M（i）是矩阵M的第i定义矢量化通过删除M的最后一列，n维旋转。对于n≥3维，我们可以在等式（5）中：γ（M）=[M T，. -是的- 是的，MT]中。现在我们可以(1)（n−1）减少上在这种情况下，仍然保持连续的表示。直觉，一种低维的表示，将到表示空间的映射定义为：gP（M）=[γ1：n2−2n−1，P（γn2−2n：）]（10）15751n =3：具有MMT的正交n×n矩阵M=MT M= I。n = 4：n = 5：图4.说明如何进行n-2个归一化投影，以将情况3中SO（n）的表示降维n-2。在每一行中，我们给出维数n，以及包含M∈SO（n）的前n−1列的向量化表示γ（M）的元素。每列的长度为n：列由粗黑矩形分组每个唯一的颜色指定用于等式（8）的“归一化投影”的一组输入。白色区域不会投影。这里为了简洁起见，我们把隐式变元M去掉了。将到原始空间的映射定义为：我们还可以推广到相似性变换，记Sim（n），定义为Rn上的仿射映射ρ（x），ρ（ x ） =αRx+u ，其中 α >0 ， R 是 n 阶正交矩阵，u∈Rn[4].对于正交群O（n），我们可以使用情况3或4中的任何表示，但在表示中有一个额外的分量表示行列式是+1还是-1。然后需要稍微修改等式（7）中的Gram-Schmidt过程：如果行列式为-1，则需要对最后一个向量bn同时，对于相似性变换，平移分量u可以容易地按原样表示。相似性变换的矩阵分量αR可以使用情况3中的任何选项来表示，或者4. 唯一需要改变的是，格拉姆-施密特亲-fP（ u）= fGS.[u1：n2−2n− 1，Q（un2− 2n：）]（n×（n−1））Σ（十一）等式7或11中的cess应乘以最终结果矩阵α项α简单地是输入到Gram-Schmidt过程的任何基向量的范数，例如： ||的1||在等式（7）中。显然，如果情况4的投影是这里上标（n×（n−1））表示vec-tor在通过Gram-Schmidt函数fGS之前被整形为指定大小的矩阵。我们现在可以看到为什么方程（9）以这种方式归一化。这使得投影后的非投影可以保持作为M的列的基向量的单位长度属性，并正确地覆盖了Q（·）的第一分量，从而得到对所有M∈SO （ 3 ） fP （ gP （ M ）） =M. 利用由Gram-Schmidt过程gGS产生的标准正交基的性质，我们可以证明gP是定义在其定义域上的连续函数. 例如，我们可以证明γ 0，因为γ的分量2到n +1是正交基向量，并且N（γ）永远不会等于投影点[1，0，. - 是的- 是的，0，0]，赤平投影是制成的。还可以证明，对所有M∈SO（3），fP（gP（M））=M。我们会在补充材料中展示其中的一些细节。作为特殊情况，对于3D旋转，这给了我们一个5D表示。这个表示是通过使用案例3中的6D表示，将其展平为向量，然后在最后4个维度上使用归一化投影来实现的我们实际上可以用类似的方式做出n-2个投影，同时保持表示的连续性如下需要提醒的是，γ的长度，即Gram-Schmidt过程的向量化结果，是n（n−1）：它包含n−1个基向量，每个基向量的维数为n。因此，我们可以做n-2个投影，其中每个投影i =1，. - 是的- 是的，n-2从γ（M）中选择基向量i +1，将从第一基向量γ（M），例如γn+1−i，然后投影结果。然后将得到的投影与两个未投影的条目连接为行向量以形成表示。因此，在进行n-2次投影后，我们可以得到SO（3）在n2−2n+2di-中的连续表示月经请参见图4以获得分组可以被投射的元素。其他群体：时间复杂度为O（n）使用时，至少有一个基向量必须保持未投影，因此可以确定α。在补充材料中，我们还解释了如何调整输出3D或4D旋转表示的现有网络，以便它可以使用我们的6D或5D表示。5. 实证结果我们研究了不同的旋转表示，发现那些具有更好的连续性的工作更好的学习。我们首先进行了一个健全的测试，然后在两个现实世界的应用程序进行实验，以显示旋转表示的连续性如何影响学习过程。5.1. 健全测试我们首先使用自动编码器结构执行健全性测试。我们使用多层感知器（MLP）网络作为编码器，将SO（3）映射到所选择的表示R。我们测试我们提出的6D和5D表示，四分之一-nions，axis-angle和Euler angles。编码器网络包含四个完全连接的层，其中隐藏层有128个神经元和LeakyReLU激活。固定“decoder”对于训练，我们使用输入SO（3）矩阵M和输出SO（3）矩阵M′之间的L2距离计算损失：注意，这对于所使用的特定表示是不变的，例如四元数，轴角等。我们使用亚当优化与批量大小64和学习率前10 -4次迭代为10 - 5，其余迭代为10-6。为了在训练过程中对输入旋转矩阵进行采样，我们对轴和角度进行均匀我们测试网络使用105旋转矩阵产生的运行-测量采样轴和角度并计算测地线，输入和输出旋转矩阵之间的误差测地线误差定义为两次旋转之间的最小角度差，表示为：狮子在本文中，我们主要集中在表示L−1 ′′′′ ′′的旋转。然而，我们注意到，前面的表示可以很容易地推广到O（n），角度=cos（（M00+M11+M22−1）/2）（12）201918171615141312111098765432112111098765432164 5321传奇无投影投影#1投影#2投影#315752M=MM（13）15753平均值（°）最大值（°）标准（°）6D0.491.980.275D0.491.990.27Quat3.32179.935.97AxisA3.69179.225.99欧拉6.98179.9517.31健全测试a.迭代期间的平均误差B. 500k迭代时的误差百分比C. 500k迭代时的错误。3D点云姿态估计测试0.1D.迭代期间的平均误差e. 2600k迭代时的误差百分比F. 2600k迭代时的错误。人体逆运动试验平均值（cm）最大值（cm）标准品（cm）6D1.928.71.25D2.033.31.4Quat3.387.13.1AxisA3.0120.02.3欧拉2.748.72.1矩阵22.953.64.0G.迭代期间的平均误差H. 1960k次迭代时的误差百分比I. 1960k迭代时的错误。图5.实证结果。在（b）、（e）、（h）中，我们在x轴上画出百分位数p，在y轴上画出给定百分位数p处的误差。图5（a）说明了随着训练的进行，不同表示的平均测地线误差。图5（b）示出了在500k次迭代时的误差的分布结果表明，6D和5D表示具有彼此相似的性能。它们比其他表示收敛得更快，并产生最小的平均值，最大值和标准差的错误。欧拉角表示的性能最差，如图5中的表（c）所示对于四元数、轴角和欧拉角表示，大多数误差都在25°以内，但某些测试样本仍然产生高达180°的误差。所提出的6D和5D表示不会产生高于2μ m的误差。我们的结论是，使用连续旋转表示进行网络训练可以降低误差，加快收敛速度。在附录G.2中，我们报告了其他结果，其中我们使用测地线损失，均匀采样SO（3）进行训练，并与3DRodriguez向量和限制在一个半球的四元数进行比较[20]。同样，我们的连续表示优于常见的不连续表示。5.2. 三维点云姿态估计在这个实验中，我们测试了不同的旋转表示，从参考点云估计目标点云的旋转的任务。网络的输入是参考点云和目标点云Pr，Pt∈RN×3，其中N是点数。网络输出是Pr和Pt之间的估计旋转R∈RD，其中D是所选表示的维数我们采用了一个权重共享的连体网络，其中每一半都是一个简化的 PointNet 结构 [27] ， Φ ：RN×3<$→R1024。简化的PointNet使用4层MLP的大小为3×64×128×1024，用于提取然后在所有点上应用最大池化，产生单个特征向量z。其中一半网络将参考点云映射为特征向量zr=Φ（Pr），另一半网络将目标点云映射为特征向量zr =到zt=Φ（Pt）。然后，我们将zr和zt连接起来，并将其通过另一个大小为2048×512×512×D的MLP，以产生D维旋转表示。最后我们用第4节中定义的映射函数f之一将旋转表示变换为SO（3）0.1平均值（°）最大值（°）标准（°）6D2.85179.839.165D4.78179.8712.25Quat9.03179.6616.33AxisA11.93179.721.35欧拉14.13179.6723.8矩阵4.21180.09.44157542我们使用ShapeNet [9]中的2，290个飞机点云来训练网络，并使用400个经过100次随机旋转增强的在每次训练迭代中，我们随机选择一个参考点云，并将其与10个随机采样的旋转矩阵进行变换，以获得10个目标点云。我们将成对的参考目标点云馈送到Siamese网络中，并最小化输出和地面真实旋转矩阵之间的L2损失。我们用2训练网络。6×106次迭代。图5中的曲线（d）示出了作为训练前的平均测地线误差。小姐们图（e）和表（f）显示了误差的百分位数、平均值、最大值和标准差。同样，6D表示具有最低的误差平均值和标准差，约95%的误差低于5μ m，而Euler表示是最差的，约10%的误差高于25μ m。与健全性测试不同，这里的5D表示比6D表示表现得更差，但优于3D和4D表示。我们假设，由赤平投影引起的梯度失真使得网络更难进行回归。由于地面真实旋转矩阵可用，我们可以用L2损失直接回归3×3矩阵。在测试过程中，我们使用Gram-Schmidt过程将将预测矩阵转换为SO（3），然后报告测地误差（参见图5中表（f）的底行）。我们假设，与6D表示相比，3×3矩阵的性能较差的原因是由于正交化后处理引入了误差。5.3. 人体姿势的逆运动学在这个实验中，我们训练了一个神经网络来解决人体姿势逆运动学（IK）问题。类似于Villegas等人的方法。[30] Hsu et al.[18]，我们的网络将当前姿势的关节位置作为输入，并预测从T姿势到当前姿势的旋转。我们使用一个固定的正向运动学函数来将预测的旋转转换回关节位置，并惩罚它们与地面真实值的L2距离。此任务的先前工作使用四元数。相反，我们测试不同的旋转表示，并比较其性能。输入包含标记为P = N的骨架上的N个关节的3D位置。（p1，p2，p3，...，p N），p i=（x，y，z）n.网络的输出是所选表示中关节的旋转R=（r1，r2，r3，.，r N），ri∈ RD，其中D是代表性。我们训练了一个四层MLP网络，该网络在隐藏层中有1024个神经元，L2重建损失L=||2，其中 P ′ =< $ （ T ， R ） .||2,whereP ′=Π(T,R).这是一个for ward运动学函数，该函数骨架和预测的关节旋转，并输出关节的3D位置。由于正向运动学的递归计算结构，髋部定向的准确性对于整体骨架姿势预测是关键的，并且因此邻近髋部的关节对损失贡献更多权重（比其他关节高10倍）。我们使用CMU运动捕捉数据库[25]因为它包含复杂的动作，如舞蹈和武术，涵盖了广泛的关节旋转。我们从37个运动类别中挑选了865个运动剪辑我们随机选择了73个片段进行测试，其余的用于训练。我们确定全球位置这样我们就不需要担心预测全局平移。整个训练集包含1 .一、14×106帧人体姿势，测试集包含1 .一、07×105帧人体姿势。我们用1, 960 k次迭代训练网络，批量大小为64。在训练期间我们通过沿y轴的随机旋转来增强姿势。我们还使用沿y轴的三个随机旋转来增强测试集中的每个实例。如图5中的子图（g）、（h）和（i）中所示的结果表明，6D表示表现最好，误差最低，收敛最快。5D表示具有与6D表示类似的性能。相反，4D和3D表示具有更高的平均误差和超过10 cm的大误差的更高百分比。我们还进行了测试，使用3×3矩阵，在训练过程中没有正交化，并使用Gram-Schmidt过程将预测矩阵转换为SO（3）。我们发现这种方法会产生巨大的误差，如图中表（i）的底部行所示5. 性能不佳的一个可能原因是，3×3矩阵可能会导致骨骼长度在正向运动学过程中缩放。在附录G.1中，我们还为四元数和我们的6D表示可视化了一些人体姿势。6. 结论我们研究了使用神经网络来近似各种旋转表示之间的映射。我们根据经验发现，神经网络可以更好地拟合连续表示。对于3D旋转，常用的四元数和欧拉角表示具有不连续性，并且可能在学习期间引起问题我们提出了连续的5D和6D旋转表示，并使用自动编码器的健全性测试，以及现实世界的应用程序，如3D姿态估计和人体逆运动学证明他们的优势。7. 确认我们感谢 Noam Aigerman 、 Kee Yuen Lam 和SitaoXiang 进行了富有成效的讨论; 感谢 Fangjian Guo 、Xinchen Yan和Haoqi Li帮助进行了演示。该研究在USC和Adobe进行，部分由ONR YIP资助N 00014 -17-S-FO 14 、 CONIX 研究中心（ JUMP 的六个中心之一）、DARPA赞助的半导体研究公司（SRC）项目、Andrew和Erna Viterbi早期研究主席、美国陆军研究实验室（ARL），合同号W 911 NF-14-D-0005，Adobe和索尼。这个项目不是由Pinscreen资助的，也不是由Pinscreen或Pinscreen的任何附属机构进行的。信息的内容不一定反映政府的立场或政策，不应推断官方认可。15755引用[1] 凯莱变换https://en.wikipedia.org/wiki/Cayley_transform#Matrix_map.[2] 旋转矩阵https://en.wikipedia.org/Wiki/Rotation_matrix#四元数。[3] Stiefel流形https://en.wikipedia.org/wiki/Stiefel_manifold.[4] C. Allen-Blanchette，S. Leonardos和J.加利尔运动SIM（3）中的插值。2014年[5] M. J·贝克数学：转换矩阵到四元数。http://www.euclideanspace.com/maths/geometry/rotations/conversions/matrixToQuaternion/.访问时间：2018-11-21。[6] A. R.巴伦超线性系统的泛逼近界sigmoidal函数的位置。IEEE Transactions on InformationTheory，39（3）：930[7] S.贝隆吉罗德里格斯http://mathworld.wolfram.com/RodriguesRotationFormula.html。2019-04-04.[8] D. M.布鲁姆线性代数和几何。CUP档案，1979.[9] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. Su等人Shapenet：一个信息丰富的3d模型库。arXiv预印本arXiv：1512.03012，2015。[10] Z. Chen和F.曹的构造和逼近具有高斯激活函数的Mathematical Communications，18（1）：1

下载后可阅读完整内容，剩余1页未读，立即下载