非刚性结构的运动恢复：PR-RRN神经网络方法

44 浏览量更新于2023-10-13 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5600PR-RRN：非刚性结构运动曾海天1、戴宇超2、辛宇3、王晓涵1、3、易阳4*百度研究1、西北工业大学2、悉尼科技大学3、浙江大学4zenghaitian@baidu.com; daiyuchao@gmail.com; xin. uts.edu.au;xiaohan.wang-student.uts.edu.au;yee.i. gmail.com摘要我们提出了PR-RRN，一种新的基于神经网络的方法，用于非刚性结构的运动（NRSfM）。PR-RRN由残差递归网络（RRN）和两个额外的正则化损失组成。RRN被设计为有效地恢复3D形状和相机从2D关键点与新的残差递归结构。由于NRSfM是一个高度欠约束的问题，我们提出了两个新的成对正则化，以进一步规范的重建。基于刚性的成对对比损失正则化了（一）潜在表示映射函数通过鼓励高刚性框架对的表示之间比低刚性框架对的表示之间具有更高的相似性来实现形状表示。我们提出了最小奇异值比来衡量两两刚性。当估计的形状和相机在对之间交换时，成对一致性损失强制重建是一致的我们的方法在CMU MOCAP和PASCAL3D+数据集上实现了最先进的性能。（b）第（1）款，#，#估计的摄像机数量估计形状形状&来自新视图的1. 介绍从二维观测数据重建三维物体形状和摄像机运动是计算机视觉中的一个重要问题当对象是刚性的时，该问题被定义为刚性运动恢复结构（SfM），并且可以使用如 [40]的现有方法可靠非刚性运动恢复结构（NRSfM）将SfM中刚性物体的假设放宽到变形物体，从而导致一个更一般和更具有挑战性的问题。NRSfM是已知的是一个欠约束的问题，如果形状被允许在每个观察任意变形。为了使这个问题易于处理，标准假设是在每个帧中，3D形状是少量基本形状的线性组合[4]。在此假设下，NRSfM被配制为分解堆叠的观测值。*通讯作者。图1.成对损失的图示。(a)提出的成对对比正则化（b）一致的正则化迫使网络在给定估计形状的新视图的情况下产生一致的形状将矩阵分解为三个分量矩阵：相机，系数和基础。先前的研究利用各种约束来解决该因子分解问题，涉及对相机矩阵的正交约束[11，47]，将基础限制为3D形状[46]。与对相机或基底的那些约束不同，另一类重要的方法对系数矩阵施加约束，包括原始系数中随时间的平滑轨迹潜在空间对比正则化，#交换摄影机重投影，#一致正则化5601[15，3]或在低维流形[16]中，先验分布[25，41]和空间平滑度[17]。在基于神经网络的模型中，潜在表示可以被认为是“系数”，Sidhu等人。[37]首先对顺序密集重构应用潜在空间约束。这些约束减少了NRSfM任务的不确定性，并可能导致更好的重建。然而，正则化的重建是困难的，当数据是大规模和无序的。在这种情况下，假设表示流形或使用时间平滑是不可能的。为了解决这个问题，我们建议以成对的方式正则化非刚性形状重建。相对于强的全局形状假设，两两信息更容易获得，因此可以有效地实现正则化。在本文中，我们介绍了成对正则化Resi-双递归网络（ PR-RRN ），一种新的基于神经网络的模型NRSfM。PR-RRN由残差递归网络（RRN）和两个新损失组成：成对对比损失和成对一致性损失。单独的RRN可以准确地重建非刚性形状RRN包含一个形状估计网络和一个旋转估计网络，形状估计网络是用一个新的残差递归模块构造的，与具有相同数量的参数的标准卷积层相比，该模块能够增强重构。并设计了旋转估计网络以从2D输入估计相机矩阵。此外，两个成对损失在两个不同方面规范了重建，如图所示。1.受无监督表示学习[18，42，39，48，36，35]的最新进展的启发，提出的成对对比损失鼓励高刚性输入对的潜在表示之间的相似性高于低刚性对。通过一种新的最小奇异值比测量方法得到了两两刚度。成对一致性损失强制重建是一致的，当估计的形状和相机之间交换对和重新投影作为新的输入。实验结果表明，PR-RRN在大规模人体运动和分类对象数据集上具有良好的重构性能我们的贡献概述如下：• 我们介绍了一种新的残差递归网络的非刚性形状重建，实现了国家的最先进的性能CMU MOCAP数据集。• 我们提出了成对对比损失和一致性损失来进一步改进RNN。这两个损失可以在不假设全局形状分布的情况下正则化重建。• 我们设计了一种新型的成对刚度测量的微型异常奇异值比该方法计算简单，可用于检验一对二维观测值的刚性2. 相关作品NRSfM。Bregler等人[4]在恢复一系列3D人脸地标和相机位置的研究中首次引入了运动非刚性结构的问题。这项研究提出了一个广泛接受的假设，变形的三维形状可以紧凑地表示为一个线性组合的少量的基础形状。尽管已经做出了这种低秩假设，但是形状的变形仍然保持约束不足，这使得NRSfM成为多年来的挑战性任务。已经探索了各种类型的约束[14，47，13，44]以限制变形3D结构。 Xiao等[46]提出了一个基础约束，以达到NRSfM 分解的封闭形式的解决方案。Torresani等人。 [41]开发了形状系数的高斯先验，并使用概率主成分分析重建形状和相机在序列作为输入的情况下，可以利用时间平滑度来改善重建。 Akhter等人[3]引入NRSfM问题的对偶表示。Gotardo等人 [15]将形状的时间变形公式化为形状基础系数上的平滑轨迹，并且通过在低维流形[33]中对形状轨迹和基础形状进行有一个里程碑，戴等人。[11]提出了一种分块矩阵方法，并在低秩先验下取得了优异的性能。在该领域有更多的突破[23，24，22，31，1]，如不可扩展[9，44]，分段[12]方法，度量投影[32]。已经进行了进一步的研究，将NRSfM问题扩展到更具挑战性的情况。Zhu等人。 [52]表明，复杂的非刚性人体运动遵循子空间的并集，并通过NRSfM和低秩表示的组合优化来解决它[28]。 Li等人[27]利用分组的循环形状并执行刚性SfM。深度模型已应用于NRSfM[34，37]。Kong et al. [20]提出通过学习用深度神经网络近似的多层稀疏字典来解决NRSfM问题。Novotny等人。 [30]引入了一个因子分解网络和一个规范化网络来学习具有横向特性的形状基。Sidhu等人。 [37]建立了一个用于顺序密集非刚性形状重建的深度模型，并表明潜在空间约束是有用的。无监督表示学习。无监督表示学习的研究已经取得了显著的成就。Heet al. [18]提出了动量对比（MoCo），用于从未标记图像中学习表示，并且所学习的特征被证明对以下方面有用：5602旋转估计网络2 × 32 × 86正交化相机矩阵2 × 322 × 128形状层Inv.RR模块nInv.RR模块2Inv.RR模块1中间层RR模块nRR模块2RR模块1⋯⋯≪⊗.我Σ高刚性高刚度（相似）框架低刚度低刚度（不同）框架对比度损失对比度存储体对应的2D记忆成对刚性度量形状表示法形状估计网络输入2D点重塑2 × P输出3D点图2.概述了所提出的残差递归网络和成对对比损失。RRN由两个子网组成：形状估计网络和旋转估计网络。输入的2D点被重塑并分别馈送到两个网络中。在形状估计网络中，产生形状表示h。在对比损失中，利用刚性测度MSR将记忆库中其他帧（记忆）的表示分为正例和反例，并与H进行对比当当前训练步骤完成时，h将被存储在存储体中，替换最旧的存储器。下游任务。Oord等人。 [42]提出了具有InfoNCE损失的噪声对比学习，并表明InfoNCE损失最大化了相关表示之间互信息的下限。 Tian等人[39]介绍了一种对比多视图编码方法，用于通过使用同一示例的多个视图作为正对来对多视图（或多模态）数据进行无监督学习。对比学习也被用于学习表征，通过以下投影方程将M i和W i投影到Mi和WiWi= MiSi。（一）已知NRSfM问题[47]是不适定的，如果没有对Si进行假设。Bregler等人 [4]提出了一个被广泛接受的假设，即所有框架的Si是K个基本形状Bk∈R3×P的线性组合，即：KSanghi [35]等人的3D对象的实例。，其中所学习的表示被示出用于检索刚性对象或类似对象的不同视图。Si=（ck=1i，k I3）Bk，（2）3. NRSfM回顾我们首先简要回顾了经典的非刚性结构从运动问题。NRSfM问题的输入是其中KFi是克罗内克积，并且Ci，k代表对于Si中的Bk的系数（权重）。在刚性对象的情况下，即3D形状不被变形。在跨帧的形式中，NRSfM退化为运动恢复结构（SfM）问题，其可以被公式化为：F帧的P个关键点，这是一个去的2D视图可成形物体设第i帧为Wi∈R2×P，W1W==M1.Sr，（3）包含P2D坐标。在正交投影条件下，第i帧的摄像机矩阵Mi∈R2×3，满足MiMT =I2. 重构的第i帧的三维形状表示Si∈R3×P，并且它与..WFMF其中W∈R2F×P是Wi的堆叠矩阵，Sr∈R3× P 是刚性的形状。所以在这种情况下rank（W）重投影损失5603≤3，5604∈∈我× ×¨¨× ×残差连接残差连接Conv1 × 1特征Conv特征去卷积功能德孔夫C × 2 × 11×1 C×2×1��1 × 12C × 1 × 1特征1 × 12C × 1 × 1C2C残差递归Recursive（ times）模块递归（递归次数）逆残差-递归模块图3.剩余递归模块的设计。假设输入特征的通道是Ci。特征在被馈送到下一层之前被重复地馈送到递归层达T次。和 Tomasi Kanade [40] 使用 W 的截断奇异值分解（SVD）来恢复相机和刚性形状。此属性用于Sec。4.2以导出刚性的度量。4. 方法在本节中，我们将介绍成对正则化残差递归网络。神经网络模型在第2节中描述。4.1和两个成对正则化损失的解释在节。4.2与次级4.3.我们假设每个帧中的2D关键点是以零为中心的，使得过渡项被取消。4.1. 残差递归网络残差递归网络（RRN）由两个子网络组成：形状估计网络和旋转估计网络。在第二节中描述的重投影损失在4.1.2中，可以训练RRN以从2D关键点重建3D形状。4.1.1形状估计网络形状估计网络的作用是将单个2D输入映射到3D形状。设WiR2×P为第i个2D输入，形状估计网络的输出是3D形状SR3×P，可以写成：RR模块的类型如图所示。3. 这里使用了捆绑权重策略[20]最后，通过形状层产生3D形状受NRSfM以前强调模型紧凑性的工作的启发[41，16]，我们选择残差递归结构[50，49，10]来增强标准卷积层的表示能力，而不增加参数的数量我们emperically发现，这种结构是更有效的学习困难的2D-3D映射比一个形状表示。我们将中间层的输出指定为形状表示hi。正则化的形状表示的解释在第二节。四点二。4.1.2旋转估计网络为了估计摄像机，我们设计了一个旋转估计网络来输出一个正投影矩阵对于giv en 2D输入，Mi∈R2×3，即：Mi=G（Wi）.（五）我们假设在每一帧中旋转是任意的。最近的工作[51]表明，需要6D表示以及良好的映射，以避免不连续性，同时使用极分解来强制正交性。旋转估计网络被设计为输出6D矢量。该网络由多个线性层构成，如图所示二、线性图层的输出为重塑为M~iR2×3。输出M~i应进一步转变为正交投影矩阵i。e. MiMT=I2.正交化可以以几种方式完成，如Gram-Schmidt程序[51]，投影到SO（3）[32，19]。我们遵循[8，20]使用奇异值分解（SVD）作为正交化方法，因为它表明 SVD 在许多监督和无监督任务中产生比 Gram-Schmidt更好的旋转估计[26]。正交化过程可以表示为：Si= F（Wi）.（四）米 =UVTs。t.M~i =UΣVT，（6）网络输入。输入Wi被重新整形为P21个特征张量，可以馈送到卷积层中。这里，通道的数量为P，宽度为2，高度为1。我们根据经验发现它比其中UΣ VT是M~i的SVD。最后，通过形状估计估计的3D形状Si。使用旋转将地形网络重新投影为2D形状Mi.重投影损失计算如下：如[30，8]中那样将Wi向量化为2P11¨ ¨网络结构。形状估计网络是由n个残差递归（RR）模块组成总体框架如图所示二、在每个Lrepr=Wi−MiSi其中·F是Frobenius范数。、（7）FRR模块中，特征首先被送入一个带有剩余连接的递归层，然后被一个输出通道数减半的全连接层处理。RR模块的细节如图所示。3.在中间层之后，特征被映射到具有逆残差递归模块的3D形状。两4.2. 基于刚度的成对对比损失我们引入了一个基于刚度的对比损失，以提高变形形状重建的性能。首先，我们定义了一个新的刚性措施。在此基础上，提出了一种基于刚度的对比损失算法.∈5605∈ΣσFG≤FG我NP我LL···∈P∈N我J基于刚性的对比损失为：S+日志·h）+使用i_ versepermu将其排列到原始顺序{M}、K我我Ri我RiGF {}我--4.2.1最小奇异值比在实践中，网络是用小批量训练的，给定两个2D框架Wi和Wi，我们考虑测量它们的刚度，即这两个帧的对应3D形状有多相似。注意，Wi和Wj是随机选择的帧。设AR4×P为Wi和Wj的堆叠矩阵：ΣWiΣWJ因此，当前小批量之外的帧不可用。为了解决这个问题，我们使用一个内存库[18]来存储来自以前的小批量的表示。内存条的大小为N。在每个训练步骤之后，当前批次的表示被存储在存储库中，替换最旧的表示。换句话说，存储体作为表示的队列工作。这使得代表--用尽可能多的对来正则化语义表示，这被证明有利于学习好的表示灵感来自Hamsici et al. [17]，我们使用最小值的比率（即，第四）A的奇异值，以定义新的刚性度量msr：σ2[42、18]。4.3. 成对一致性损失在这一小节中，我们提出了一种新的成对一致性约束。给定两个随机2D帧W，W，msr（W，W）=4 ，（9）i jij42l=1l使用RRN的和来估计形状和旋转其中σ1是A的降序第1个奇异值作为秩（A）4，msr的范围是[0，0. 25]。直观地，msr测量A远离秩3矩阵的程度如果rank（A）≤3，则msr=0，这意味着Wi，Wi，jSi=F（Wi），Sj=F（Wj），Mi=G（Wi），（13）Mj=G（Wj）.（十四）是刚性3D结构的两个视图。反倒是当msr增大时，Wi、Wj的刚性变低更如果估计的相机运动的位置Mi，Mj被交换并且进一步用S，S，t重新投影。Msr的定性示例见图2。7.第一次会议。ij4.2.2基于刚性的对比损失可以获得服务Wi、WjW′=MjSi，W′=MiSj.（十五）I j我们现在介绍基于刚性的对比损失。这种损失旨在通过鼓励相似形状之间的高相似性来正则化形状的表示。形状的相似性可以使用先前提出的刚性度量msr来发现该正则化可以在不假设表示的全局分布或流形的情况下执行。对于给定的帧Wi，我们计算正集合i和负集合i。正集合包含（接近）刚性的帧的索引，其中Wi由msr测量，反之亦然。这两个集合定义为：Pi={j|msr（Wi，Wj）<τ，τj}，（10）Ni={k|其中τ、ξ是阈值参数。建议的成对一致性强制和估计W′，W′一致地回到[Mi，Sj]。这个想法可以很容易地从两个帧扩展到一个小批量的L帧。Given输出 Mi，SiLof，我们产生一批新的二维观测值W′L通过执行以下重新预测：W′=MrSi，（16）其中r1。. . r L是1的随机置换。. . L. 为了实施成对一致性，将成对一致性损失组合应用于模型的训练过程，并且其计算为：Σ¨′¨ ¨′¨i=1FFΣjexp（hi·hj）J我 JKΣwhereS我·h）=F（W′），M′···=G（W′），且{M我}后面-（十二）其中是点积，ji和kI. 直观地说，当h i h j具有高值并且h ih k具有低值时，该损耗被最小化。在计算损失之前，我们将所有h归一化为单位r1rL. 我们注意到有更好的措施-（17）中的第二项，但是我们经验性地发现Frobenius范数也是可行的并且易于实现。此外，我们还发现，替换-使用随机旋转矩阵处理Mi是一个很好的交替A=.（八）L组成=、（十七）L对比度=−Eexp（hexp（h5606这可以稍微改善性能。5607LLΣ1¨S −Süi我我方法主题07主题20主题23主题33主题34主题38主题39主题43主题93CSF [15]1.2311.1641.2381.1561.1651.1881.1721.2671.117URN [7]1.5041.7701.3291.2051.3051.3031.5501.4341.601中文（简体）0.3100.2170.1840.1770.2490.2230.3120.2660.245C3DPO [30]0.2260.2350.3420.3570.3540.3910.1890.3510.246DNRSFM [20]0.0450.1370.0530.1370.0620.0530.0410.1250.214PR-RRN（我们的）0.0240.0340.0390.0430.0390.0340.0250.0280.152PR-RRN（不可见）0.0610.1670.2490.2540.2650.1080.0280.0800.242表1. CMU MOCAP上的重建误差e3D4.4. 备选训练PR-RRN的最终培训目标是：L=L_rep_j+λ1L_ contrast+λ2L_ consist，（18）其中λ1和λ2是加权参数。我们根据经验发现，交替使用对比度和一致性来训练网络比联合使用它们产生更好的结果，而总是使用L_rep_j5. 实验我们评估我们的方法上的大规模人体运动数据集，分类对象数据集，面部地标数据集和网格数据集，这是代表性的变形形状。我们首先介绍的数据集和实验设置。接下来报告重建结果。最后，我们详细分析了所提出的模型。5.1. 数据集和设置CMU MOCAP。CMU运动捕捉数据集1由144个主题组成，并且大多数主题包含数十个人类活动序列。在每个活动中，31个关键点的地面实况3D坐标被记录在世界坐标系中。CMU MOCAP是多样的，并且足够大以用于验证PR-RRN。我们从CMU MOCAP中选择了9名受试者为了与以前的方法进行公平比较，我们按照[20]构建训练和测试集遵循[20]使用至少有8个-符号点的类别地面实况3D形状和2D观测也是零中心的。MUCT脸。 MUCT Face数据集[29]由3755张人脸组成，具有76个面部标志注释。数据集在光照、年龄和种族方面是多样的。用五台摄像机从不同的视点采集人脸图像。在我们的实验中，我们使用了所有76个关键点。由于没有点的3D地面实况，我们使用MUCT进行定性评价。两件衣服。TWO CLOTHS数据集[38]是用于网格重建的流行数据集，其包含两个快速变形布料的163帧。该数据集提供了525点网格网格的2D轨迹。处理缺失点。MUCT包含一些由遮挡引起的缺失点。在MUCT数据集上的实验中，缺失的2D点的输入坐标被简单地设置为零，并且正常点被减去它们的平均值以变为零中心。在训练中，仅利用两个观测的公共可见点来计算MSR，并且利用可见性来掩盖损失。评估指标。根据以前的工作[6，7]，我们使用归一化平均3D误差来评估形状恢复精度。在评估之前，使用Procrustes算法将预测的3D形状与地面实况对齐。度量计算如下：将受试者中80%的活动序列连接为训练集，剩余的20%用作测试设置（不可见）。应用随机正交投影Fe3D=F简体中文i2，�Sgt�（十九）到3D形状以获得2D观察。3D形状的坐标请注意，在训练深度网络时，数据将在每个时期进行混洗，因此输入帧是无序的。PASCAL3D+。PASCAL3D+数据集[45]包含来自大约80个CAD模型的具有3D注释的12类对象。每个类别平均包含约3000个对象。为了与以前的作品进行公平比较，我们1http://mocap.cs.cmu.edu/其中Sgt是第i帧的地面实况3D形状。培训详情。在所有实验中，我们设置λ1= 0。1、λ2=0。2，τ=0。02，ξ=0。04，N=1024。为RRN，RR模块的数量n被设置为5，模块的通道为128，64，32，16，8，使得形状表示hi的维度为8。在旋转估计网络中，线性层的大小为128，32，8。对于CMU MOCAP 数据集，递归时间 T设置为3，对于PASCAL3D+，递归时间T设置为2该网络使用Adam优化器进行训练，学习率为0。001和指数衰减率i=125608FGCSFKSTABMMCNSNLORIKSSPS证监会MUSURNC3dDNR我们飞机0.3630.1751.4590.4160.8760.1320.9300.5040.2610.1210.2720.0240.031自行车0.4240.2451.3760.3560.2690.1361.3220.3720.1780.3280.5850.0030.005总线0.2170.1991.0230.2500.1400.1600.6040.2510.1130.0970.2710.0040.008车0.1950.1861.2780.2580.1040.0970.8720.2820.0780.1040.2760.0090.005椅子0.3980.3991.2970.1700.1460.1921.0460.2260.2100.1150.6580.0070.025餐桌0.4060.2671.0000.1700.1090.2071.0500.2210.2640.1150.4410.0600.015摩托车0.2780.2550.8570.4570.4320.1180.9860.3610.2220.2870.4920.0020.006沙发0.4090.3071.1260.2500.1490.2281.3280.3020.1670.1810.3430.0040.007平均0.3360.2231.1780.2910.2780.1591.0170.3150.1860.1680.4170.0140.013表2. PASCAL3D+上的重建误差e3D。比较方法的性能引自[2，8，20]。的0。95，700个时期。成对一致性损失和对比性损失交替使用100个时期。5.2. NRSfM结果CMU MOCAP。PR-RRN与几个强大的方法进行了比较。由于帧数很大，除CSF [15]和CNS [6]外，经典方法如[16，11，17]均失败。 CSF和CNS假设点的时间平滑轨迹，因此CMU MOCAP数据集的顺序帧将使这两种方法处于优势。URN [7]，C3 DPO [30]，DNRSFM [20]和我们的PR-RRN是可以处理大规模重建并且不假设时间平滑的深度模型。选项卡. 1是CMUMOCAP的9个主题的结果。对于PR-RRN，报告了不可见形状（测试集）的结果。可以看出，PR-RRN在9个受试者中优于所有四种竞争方法。在受试者20、33和43上，PR-RRN大大超过了最先进的方法。还值得注意的是，PR-RRN在受试者07、38、39和43上使用不可见形状进行测试时实现了高准确度。这可能来自训练集和测试集之间的小域间隙。简而言之，结果验证了PR-RRN用于精确恢复非刚性形状的能力PASCAL3D+。对于PASCAL3D+，我们考虑了更多的比较方法，包括CSF [15]，KSTA [16]，BMM [11]，CNS [6]，NLO [5]，RIKS [17]，SPS [19]，SFC[21][2]，URN [8]，C3DPO [30]和DNRSFM [20]。结果见表。2. PR-RRN和DNRSFM在PASCAL 3D+的所有8个选定类别上都比其他方法实现了更高的准确性，而 PR-RRN 的平均性能优于 DNR ，特别是在Diningtable类上。结果表明，PR-RRN也表现良好的分类对象重建任务。MUCT。MUCT数据集上的重建结果在图1中可视化。六、从结果可以验证，非刚性面部标志的恢复是成功的真实的相机运动的MUCT数据集。两件衣服。我们在TWO CLOTHS数据集上测试我们的方法以验证网格重建。由于没有地面实况，我们将定性结果可视化为图5，其中我们的模型产生两块布的合理变形5.3. 模型分析RRN的结构我们给出了一个烧蚀研究，以验证剩余递归设计在RRN。我们建立了Vanilla基线，其中形状网络包含具有与RRN相同数量的参数的标准卷积层，并且旋转网络保持与RRN相同。请注意，Vanilla和RRN之间的唯一区别是残差递归结构。我们比较了这两个模型与表中的DNRSFM4.第一章如图所示，在受试者20、23、33和43中，RRN的表现优于Vanilla，这验证了结构的有效性。RRN结构在困难的Subject 93上不能很好地工作，但是它可以通过成对正则化来改进还值得注意的是，Vanilla模型在受试者33和43中的性能优于DNRSFM，在受试者20和93中具有竞争力。对比损失和一致损失的有效性。为了理解所提出的残差递归网络的有效性和两种新的损失，我们用PR-RRN的三种变型进行实验：1）RRN。残差递归网络仅使用重投影损失进行训练2)RRN-对比度。RRN在再投射损失和成对收缩损失的情况下训练。3)RRN-组成RRN使用重投影损失和成对一致性损失进行训练。重建结果报告在表中。4、连同全模型PR-RRN进行比较。从表中可以看出，所提出的RRN在CMU MOCAP主题20、23、33和43上实现了高准确度对于受试者93，正则化损失显著增强了RRN的性能。局限性。在我们的实验中，我们的方法可以处理点从8到超过500。然而，当处理大规模的点（例如5000个点）时，对比损失中的SVD成为整个模型的瓶颈当形状包含此数量的点时，训练PR-RRN将变得计算上禁止。鲁棒性我们分析了PR-RRN的鲁棒性5609∥ ∥ ∥∥0.20.10.00 5 10 1520噪声比（%）0.20.10.00 20 40 60 80下采样率（%）图4.噪声或下采样数据的性能。图5.两个CLOTHS数据集上的结果。噪声和小规模的数据。(1)我们将高斯噪声添加到CMUMOCAP数据集的Subject 33。我们遵循[20]来计算噪声比：噪声F/WF. (2)我们在下采样的Subject 33上训练我们的模型，并在完整的数据集上进行测试。在图4中，可以看出，所提出的方法能够在损坏的数据上实现合理的精度。模型2023334393DNRSFM [20]0.1370.0530.1370.1250.214香草0.1470.3520.0600.0720.213RRN0.0410.0500.0510.0470.305表3. RRN结构分析。图6. MUCT数据集上的一些重建结果的可视化[29]。左图：不同人的起源图片。中心：重建形状的侧视图。右图：重建的前视图。表4.成对正则化分析6. 结论我们提出了PR-RRN，一种新的基于深度网络的NRSfM方法。我们介绍了一种新的残差递归网络，它可以估计三维形状和相机旋转从二维输入。我们提出了一个基于刚性的成对对比损失和成对一致性损失的形状表示学习正则化，假设全球分布或流形。在CMUMOCAP和PASCAL3D+数据集上的实验结果表明，该方法在大规模人体运动和分类对象重建中达到了最高的形状恢复精度。PR-RRN还能够重建面部标志和网格。图7. t-SNE [43] PR-RRN在CMU MOCAP受试者20上学习的形状表示的可视化。灰点是从总共4183帧中随机选择的1000帧。我们展示了9个重建的形状，可以粗略地分为三组。可以看出，形状表示在空间上比其他组中的形状更接近同一组中的形状。此外，我们标出了一些成对刚性测度msr，用紫色表示。定性地，msr正确地反映了不同3D形状的相似性，并且通常与表示的距离一致。最好用彩色观看。致谢这项工作是曾海天在百度研究院实习时完成的。戴玉超获得了国家自然科学基金（61871325）和国家重点研究发展计划（2018AAA0102803）的部分资助。我们要感谢匿名评论员和区域主席的有用反馈。= 0.017= 0.023= 0.070误差模型2023334393RRN0.0410.0500.0510.0470.305RRN-对比度0.0390.0430.0460.0330.255RRN组成0.0380.0450.0440.0340.160PR-RRN（完整）0.0340.0390.0430.0280.1525610引用[1] 安东尼奥·阿古多刚性和非刚性类别的无监督三维重建和IEEE TPAMI，2020。[2] 安东尼奥·阿古多，梅尔西奥·皮琼和弗朗切斯科·莫雷诺-诺格尔.图像集合弹出窗口：刚性和非刚性类别的3d重建和聚类。在CVPR中，第2607-2615页[3] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间：非刚性结构运动的对偶表示。IEEE TPAMI，33（7）：1442[4] Christoph Bregler，Aaron Hertzmann，and Henning Bier-mann.从图像流中恢复非刚性三维形状。在CVPR，第2690-2696页[5] Alessio Del Bue、Fabrizio Smeraldi和Lourdes Agapito。使用基于ranklet的跟踪和非线性优化的来自运动的非刚性结构。图像可见Comput. ，25（3）：297[6] Geonho Cha，Minsik Lee和Songhwai Oh。尽可能地重建：从可行区域非刚性重建的共识。IEEE TPAMI，第1-1页[7] Geonho Cha，Minsik Lee和Songhwai Oh。无监督三维重建网络。在ICCV，第3848-3857页，2019年。[8] Ching-Hang Chen，Ambrish Tyagi，Amit Agrawal，Dy-lan Drover，Rohith MV，Stefan Stojanov，and James M.瑞格具有几何自监督的无监督三维姿态估计在CVPR中，第5707-5717页[9] Ajad Chhatkuli ， Daniel Pizarro ， Toby Collins ， andAdrien Bartoli.不可扩展的非刚性形状从运动的二阶锥规划。在CVPR，第1719- 1727页[10] Ryan Dahl，Mohammad Norouzi，and Jonathon Shlens.像素递归超分辨率。在ICCV，第5449[11] 戴玉超，李红东，何明义。非刚性结构运动分解的一种简单的无先验方法。CVPR，2012。[12] Joao Fayad，Lourdes Agapito，and Alessio Del Bue.从单目序列的非刚性表面的分段二次重建。在ECCV，第297-310页[13] Joao Fayad、Alessio Del Bue、Lourdes Agapito和PedroAguiar 。使用二次变形模型的运动非刚性结构在BMVC，第1-11页[14] Kate rinaFragkiadaki，MartaSalas，PabloAndre'sArbela' ez和Jitendra Malik。基于分组的低秩轨迹补全与三维重建。在NeurIPS，第55[15] 保罗·F联合Gotardo和Aleix M.马丁内斯计算相机的平滑时间轨迹和从具有遮挡的运动中的结构中的可变形形状。IEEE TPAMI，33（10）：2051[16] 保罗·F联合Gotardo和Aleix M.马丁内斯内核非刚性结构来自运动。在ICCV，第802-809页[17] 奥努尔角保罗？哈姆西奇联合Gotardo和Aleix M.马-蒂内兹。从运动学习非刚性结构中的空间光滑映射。在ECCV，第260-273页[18] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。在CVPR中，第9726-9735页，2020年。[19] 陈空和西蒙·露西。运动产生的先前较少的可压缩在CVPR，第4123-4131页[20] 陈空和西蒙·露西。数据缺失的运动导致的深层非刚性结构IEEE TPAMI，第1-1页[21] Chen Kong，Rui Zhu，Hamed Kiani，and Simon Lucey.类别结构：一种通用的、无先验的方法。在3DV，第296-304页[22] Suryansh Kumar跳管汇：几何体感知来自运动的密集非刚性结构。在CVPR中，第5346-5355页[23] 苏扬什·库马尔，阿努普·切里安，戴玉超，李洪东.可扩展的密集非刚性运动恢复结构：格拉斯曼式的观点。在CVPR中，第254-263页[24] Suryansh Kumar，Yuchao Dai，and Hongdong Li.多体非刚性结构运动恢复子空间的时空联合。模式识别，71：428-443，2017。[25] Minsik Lee ， Jungchan Cho ， Chong-Ho Choi ， andSonghwai Oh.非刚性结构运动的普克鲁斯特正态分布。IEEE TPAMI，39（7）：1388[26] Jake Levinson 、 Carlos Esteves 、 Kefan Chen 、 NoahSnavely 、 Angjoo Kanazawa 、 Afshin Rostamizadeh 和Ameesh Makadia 。深旋转估计的 SVD 分析。在NeurIPS，2020年。[27] Xiu Li，Hongdong Li，Hanbyul Joo，Yebin Liu，andYaser Sheikh.来自循环运动的结构：从僵硬到复发。在CVPR中，第3032-3040页[28] 刘光灿，林周晨，余勇。通过低秩表示的鲁棒子空间分割。ICML，第663-670页，2010年[29] 斯蒂芬·米尔博罗，约翰·莫克尔，和弗雷德·尼科尔斯。MUCT标志性人脸数据库。南非模式识别，2010年。[30] David Novotny ， Nikhila Ravi ， Ben Graham ， NataliaNeverova，and Andrea Vedaldi. C3dpo：用于运动非刚性结构的规范3d姿态网络。在ICCV，2019年。[31] Marco Paladini、Adrien Bartoli和Lourdes Agapito。用三维隐式低秩形状模型从运动恢复连续非刚性结构。ECCV，2010年。[32] Marco Paladini、Alessio Del Bue、Marko Stosic、MarijaDodig、Joao Xavier和Lourdes Agapito。使用度量投影的非刚性和铰接结构的因子分解。CVPR，2009。[33] 朴贤秀和亚瑟·谢赫根据单目图像序列的平滑铰接轨迹的3D重建。在ICCV，第201-208页[34] 朴成宪李敏植郭诺俊Procrustean回归网络：从2d注解学习非刚性物体的3d结构。在ECCV，第1-18页[35] 阿迪蒂亚·桑吉Info3d：使用互信息最大化和对比学习对3D对象进行表示学习。在ECCV，第626-642页5611[36] Yujiao Shi，Hongdong Li，and Xin Yu.新视图合成的自监督可见性学习。在CVPR中，第9675-9684页[37] Vikramjit Sidhu，Edgar Tretschk，Vladislav Golyanik，Antonio Agudo，and Christian Theobalt.神经密集的非刚性结构从运动与潜在的空间限制。在ECCV，第204-222页[38] 乔纳森·泰

下载后可阅读完整内容，剩余1页未读，立即下载