非刚性结构的运动在主导视觉中的作用

21 浏览量更新于2023-10-12 收藏 857KB PDF 举报

卡内基梅隆大学

深度神经网络

身份认证购VIP最低享 7 折!

30元优惠券

1K运动引起的深部非刚性结构卡内基梅隆大学chenk@cs.cmu.edu卡内基梅隆大学slucey@cs.cmu.edu摘要当前的非刚性运动结构（NRSfM）算法主要受限于：（i）图像的数量，以及（ii）它们可以处理的形状可变性的类型。这阻碍了NRSfM在视觉中的许多应用的实际效用。在本文中，我们提出了一种新的深度神经网络来恢复相机姿势和3D点，仅从2D图像坐标的集合。所提出的神经网络在数学上可解释为多层块稀疏字典学习问题，并且可以处理前所未有的规模和形状复杂性的问题。大量的实验证明，我们的方法，我们表现出卓越的精度和鲁棒性对所有可用的国家的最先进的作品的数量级令人印象深刻的性能。我们进一步提出了一个质量措施（基于网络权重），它规避了需要3D地面实况，以确定我们在重建的信心。1. 介绍构建能够从单个图像推断物体的3D结构和姿态的AI是一个非常重要的问题。使用监督学习训练这样的系统需要大量的标记图像-如何获得这些标签目前是视觉社区的一个渲染[27]是有问题的，因为合成图像很少与我们在现实世界中遇到的物体的外观和几何形状相匹配。手写符号是更好的，但目前的策略依赖于将自然图像与外部 3D 数据集（例如， ShapeNet [8] ，ModelNet [32]），我们称之为3D监督。如果3D形状数据集没有捕捉到我们在图像中看到的变化，那么它本质上是不适定的。运动非刚性结构（NRSf M）为计算机视觉提供了一种摆脱这种困境的方法图1：在本文中，我们希望仅从一系列注释图像（如顶部所示）重建3D形状，而不需要3D地面实况。我们提出的并行稀疏编码模型和相应的深度解决方案优于一个数量级的最先进的。人的身体和脸。但NRSf M不受限制非刚性物体;它同样可以应用于对象类别非刚性变形的刚性对象[19，2，30]。例如，考虑图1（顶部）中的五个对象，来自视觉对象类别“椅子”的实例孤立的每个对象表示刚性椅子，但是描述“椅子”的所有3D形状的集合是非刚性的换句话说，每个对象实例可以被建模为从其类别的一般形状的变形由于NRSf M的非刚性性，在文献中常被认为是一个不适定问题。这主要是通过施加额外的形状先验来解决的，例如低秩[6，10]，子空间的并集[36，2]和块稀疏性[18，19]。然而，低秩仅适用于具有有限变形的简单非刚性对象，并且子空间的并集严重依赖于框架聚类，这仍然是一个开放的问题。块稀疏性，其中每个形状可以由L中最多K个碱基表示，被认为是建模方面最有前途的假设物体类别的姿态和3D结构，广泛的形状变化。 .因为稀疏性可以是手动标注的2D地标，无需3D超被认为是L的结合子空间约束和视野经典的[6]，NRSf M的问题已被应用于随时间非刚性运动的物体，例如可以使用过完备字典然而，Konget al.”[18]这是一个最好的选择。15581559K212空间外。LΣ非常昂贵且不坚固。基于这一观察，我们提出了一种新的形状之前，emoys分层稀疏编码。与经典的单层稀疏编码相比，附加层的引入提供了用于控制活动子空间的数量的机制。分层稀疏编码的能力，以提供一个模型，这是既可表达的和强大的一般NRSF M形式的中心论文，我们的论文。贡献：• 我们提出了一种新的基于分层稀疏编码的形状先验，并证明了二维投影在正交相机下，可以由分层字典以块稀疏方式表示。• 我们设计了一个深度神经网络来近似求解所提出的分层块稀疏模型，并展示了网络架构是如何从一个经典稀疏编码算法• 最后，进行了广泛的实验，因为它等价于所有可能的局部子空间的并集。这样做的一个明显优点是大量的子空间能够有效地建模更广泛的3D结构。然而，稀疏先验可以接受的子空间的绝对数量是它的根本缺点。由于有这么多可能的子空间可供选择，该方法对噪声敏感，极大地限制了其对“真实世界”NRS f M问题的适用性在本文中，我们要利用的优雅和表达的稀疏先验，而不受其固有的敏感性噪声。3. 背景稀疏字典学习可以被认为是一种不确定的学习方法。学习任务，并分为两个子问题：(i)字典学习，和（ii）稀疏代码恢复。让我们考虑稀疏代码恢复问题，其中我们估计给定字典D的测量向量x的稀疏表示z，即，各种数据集。定量和定性分析最小值Dzx−Dzx2S. t. n<$0<λn，<$n≥ 0.（十）此外，根据等式7，通过将相机矩阵M∈R3×2右乘到等式10的两侧，15630i=1i=11F1n111 01图2：深度NRSfM架构。该网络可分为两部分：编码器和解码器是对称的并且共享卷积核（即，字典）。符号a×b，c→d是指使用具有c个输入通道和d个输出通道的核大小a×b的算子记为Ψi=ψiM，我们得到W=D，（3×2）λ，<下标j表示第j个块，hτ是软阈值算子。然而，对每个块的Frobenius范数进行软阈值化带来了不必要的计算量。=（D<复杂性我们在补充材料中表明1 2 3 2 20..2（十一）一个有效近似是Z[i+1]=hb（Vj），其中bjJJ.，的。Ψn−1=（Dn（3×2）3），乌布λ（3×2）λ，<是第j个块的阈值，控制其稀疏性。基于该近似，具有步长α=1的单次迭代块ISTA可以表示为：其中，将参数矩阵划分为块大小为3×2，并计算活动块的数量由于λi具有小于λi的活性元素，因此λi具有活性Z=hb.DTXΣ= ReLU（DTX−b13×2），（15）块小于λi，即λi是块稀疏的。该推导表明，如果形状向量s满足由等式9描述的多层稀疏编码先验，则其2D投影W必须是由等式11描述的多层块稀疏编码的格式。本文将NRSfM解释为一个分层块稀疏字典学习问题，即.将W分解为分层字典{Di}n和块稀疏系数{Di}n。其中hb是使用第j个元素的软阈值算子。作为第j个块的阈值，并且如果Z是非负的，则第二等式编码器：回想第3节，通过深度神经网络的前馈传递可以被认为是单个ISTA迭代的序列，并且因此提供多层稀疏码的近似恢复。我们遵循相同的方案：我们首先假设多层块稀疏编码是非负的，然后顺序地使用4.3. 块ISTA和DNN解决方案在求解等式11中的多层块稀疏编码问题之前，我们首先考虑单层问题：单次迭代块ISTA来求解它，即Ψ1=ReLU（（D）TW−b113×2），2=ReLU（（D2.（十六）最小X − DZ2s。t.Z<（十二）、ZF0ReLU（（Dn3）Tn−1 -bn13×2），受ISTA的启发，我们建议通过迭代执行以下两个步骤来解决此问题V=Z[i]−αDT（DZ[i]−X），（13）Z[i+1]= argmin1U−V2+τU（3×2）其中阈值b1，...，bn被学习，从而控制块稀疏性。这种学习是至关重要的，因为在以前的NRS f M算法中，利用低秩[10]，子空间[36]或者说，“先”是“先”，“后”是“先”。U2FF1，（14）（例如等级或稀疏度）是通过一个cumber手工选择的一些交叉验证过程。在我们的方法中，这个重量-其中，将每个3 × 2块的Frobenius范数之和定义为块稀疏性约束的凸松弛。在[13]中，第二个步骤具有计算每个块SEp的封闭形式解。ING与所有其他参数同时学习，从而消除了对任何讨厌的交叉验证过程的需要。这个公式构成了我们提出的DNN的编码器。分享分享分享分享卷积3×2，k）→k）3D形状3%×1卷积1×1，k）→1相机3×21×1×112D投影1×2×%反卷积01 - 02- 03-02反卷积1×1，k（ →…反卷积1×1，k）反卷积1×1，k）*卷积1，k）卷积1，k）*（→k）*2…卷积10 - 12 -13-2000张卷积×1，k1564J解码器：让我们现在假设我们可以提取相机由Z[i+1]=（hτ（<$Vj<$F）/<$Vj<$F）Vj，其中M与正则稀疏隐码ψn从科隆的一些1565n21功能，即，M=F（n）和n=G（n），这将在下一节中讨论然后，我们可以通过以下方式计算3D形状向量s乌斯季-1 = ReLU（Dnn.-b′），（十七）′ψ1=ReLU（D2ψ2−b），s=D，表1：相对于现有技术水平的定量比较1 1请注意，我们在解码过程中保留了ReLU和偏置项，以进一步增强稀疏性并提高鲁棒性。这些部分构成了我们DNN的解码器。实施方式的变化：单位矩阵I3的克罗内克积极大地增加了我们的方法的时间和空间复杂度。把它消灭掉，让它-在现代深度学习环境中更容易共享参数（例如，TensorFlow，PyTorch），我们重塑了过滤器和特征，并表明编码器和解码器的每一步中的矩阵乘法可以等效地com-tensorflow。通过多通道1×1卷积（*）和转置卷积（*T），即（D）TW=dTw，（ 18）在标准化的3D误差中使用IKEA数据集。M的谱范数正则化，因为谱范数最小化是正交约束的最紧凸松弛[34]。另一种解决方案是借助奇异值分解（SVD）将M的奇异值硬编码尽管SVD通常是不可微的，但SVD的数值计算是可微的，并且大多数深度学习包都实现了其梯度（例如， PyTorch 、TensorFlow）。在我们的实现和实验中，我们使用SVD来确保正交约束的成功，并使用简单的Frobenius范数来测量重投影误差。1 1Loss=W−SM~F，M=UVT，（21）其中d ∈R3×1×k1×p，w ∈R1×2×p1.（Di+1I3）TΨi=di+1*TΨi，（19）其中di+1 ∈ R1×1×ki+1 ×ki，Ψi∈ R3×2×ki.Dii=Dii，（20）其中U VT=M是相机矩阵的SVD。5. 实验我们进行了大量的实验，以评估每-我们求解NRSf M和Sf C的深解的证明其中di∈R1×1×ki×ki−1，∈R1×1×ki.问题对于定量评估，我们遵循I.E. 标准化平均3D误差，在[4，10，16，2]中报告代码和相机恢复：估计ψn 和在[18]中讨论了来自Ψn的M，由于它的可微性，我们可以将解决方案直接插入到我们的管道中。另一种解决方案是使用近似值，即。全连接层，其连接Wn和Wn以及Wn的每个块之间的线性组合以估计M，其中全连接层参数和组合系数是从数据中学习的。在我们的实验中，我们使用近似解，并通过卷积表示它们，如图2所示，为了简洁和保持适当的尺寸。由于近似没有办法强迫正交约束的相机，我们寻求帮助的损失函数。损失函数：损失函数必须测量输入2D点W与重新投影的2D点SM之间的重新投影误差，同时鼓励估计的相机M的正交性。一种解决方案是使用1滤波器尺寸为高×宽×输入通道数×输出通道数。特征尺寸为高×宽×沟道数。家具床椅子沙发表是说相对KSTA [16]0.0690.1580.0660.2170.12812.19BMM [10]0.0590.3300.2450.2110.21120.12CNR [20]0.2270.1630.8350.1860.35233.55NLO [12]0.2450.3390.1580.2750.24323.18RIKS [17]0.2020.1350.0480.2180.11711.13SPS [18]0.9710.9460.9550.2800.78874.96SFC [19]0.2470.1950.2330.1930.21720.67我们0.0040.0190.0050.0120.0101.001566我们的体系结构的详细描述是在柔软的材料。我们的实施和处理数据将公开供将来比较。5.1. 宜家家具的Sf C我们首先将我们的方法应用于家具数据集，宜家数据集[23，31]。 IKEA数据集包含四个对象类别：床、椅子、沙发和桌子。对于每个对象类别，我们采用所有带注释的2D点云，并使用随机生成的正交相机2将其与从3D地面实况投影的2K点云进行增强。报告了在真实图像上评估的误差，并总结到表1中。可以观察到，我们的方法在数量级上优于基线，清楚地显示了我们模型的优越性。对于定性评估，我们从每个对象类别中随机选择一个帧，并将其显示在图6中，以对比地面实况和基线。这表明我们重建的地标有效地描绘了2由于有限的有效帧而使用增强，因为地面实况相机部分缺失。1567方法KSTA [16] BMM [10] CNS [20] MUS [2] NLO [12] RIKS [17] SPS [18] SFC [19] OURS飞机0.1450.1750.8431.4590.2630.4160.261--0.876-0.132-0.930-0.504-0.024自行车0.4420.2450.3081.376-0.3560.178--0.269-0.136-1.322-0.372-0.003总线0.2140.1990.3001.023-0.2500.113--0.140-0.160-0.604-0.251-0.004车0.1590.1520.2661.2780.0990.2580.078--0.104-0.097-0.872-0.282-0.009椅子0.3990.1860.3571.297-0.1700.210--0.146-0.192-1.046-0.226-0.007餐桌0.3720.2670.4221.00-0.1700.264--0.109-0.207-1.050-0.221-0.060摩托车0.2700.2550.3360.857-0.4570.222--0.432-0.118-0.986-0.361-0.002沙发0.2980.3070.2791.1260.2140.2500.167--0.149-0.228-1.328-0.302-0.004平均0.2870.2230.3881.1780.1920.2910.186--0.278-0.159-1.017-0.315-0.014相对-15.33-80.76-19.95---19.09-10.92-69.74-21.61-1.00飞机0.1830.2070.5661.4650.2940.4600.271 - -一种-0.758-0.146 --一种0.888-0.521-0.032自行车0.4570.2320.3071.404-0.3590.188 - -一种-0.275-0.139 --一种0.851-0.379-0.007总线0.2180.1970.2550.764-0.2640.122 - -一种-0.141-0.159 --一种1.110-0.264-0.021车0.1640.1390.1611.7440.1220.2650.093 - -一种-0.105-0.102 --一种0.804-0.281-0.010椅子0.3960.2030.2581.197-0.1710.220 - -一种-0.145-0.193 --一种1.016-0.223-0.017餐桌0.3830.2490.3581.105-0.1720.267 - -一种-0.114-0.227 --一种1.213-0.222-0.034摩托车0.2900.2270.2991.117-0.4590.233 - -一种-0.254-0.125 --一种0.915-0.351-0.011沙发0.2940.4360.2401.1430.2280.2550.174 - -一种-0.152-0.239 --一种1.164-0.306-0.008平均相对0.298-0.23616.900.305-1.23288.780.215-0.30021.490.196 - -一种----0.24317.39-0.166 --一种-11.90 --一种0.99571.11--0.31822.78--0.0171.27表2：PASCAL3D+数据集的定量评价。我们对原始和有噪声的2D注释进行实验，分别列在表的上半部分和下半部分。符号“-”表示算法实现或数据缺失。阴影列是使用我们处理的数据的误差，其他列是从[2]中的表2复制的。相对误差计算相对于我们的方法，最准确的解决方案，没有噪声扰动。我们的数据和实施将公开访问，以便将来进行比较。物体的3D几何形状，我们的方法能够覆盖微妙的几何细节。5.2. PASCAL 3D+上的Sf C然后，我们将我们的方法应用于PASCAL3D+数据集[33]，该数据集包含12个对象类别，每个类别由大约8个3D CAD标记。为了与更多基线进行比较，我们遵循[2]中报告的实验设置，并使用相同的归一化3D误差度量。我们在表2中报告了我们的错误，并通过阴影强调，并将从[2]中的表2复制的数字连接起来进行比较。请注意，即使使用相同的数据集和算法实现，错误也不会完全再现，因为缺少数据准备细节。然而，可以清楚地看到，我们提出的方法实现了非常准确的重建，具有十倍以上的较小的3D误差。这种大幅度使得由数据删除引起的微小差异更加不明显。它清楚地表明了我们提出的深度神经网络的高精度以及在嘈杂情况下的卓越鲁棒性。5.3. CMU MoCap上的大规模NRSf最后，我们将我们的方法应用于使用CMU运动捕捉数据集3解决NRSfM的问题。我们从144名受试者中随机选择了10名受试者3http://mocap.cs.cmu.edu/1568我们连接80%的运动以形成大的图像集合，并将剩余的20%保留为用于测试泛化的不可见运动。请注意，在这个实验中，每个主题包含超过一万帧。我们将我们的方法与最先进的方法进行比较，总结在表3中。由于帧量巨大，KSTA [16]、BMM [10]、MUS [2]、RIKS [17]均未通过，因此在表中省略。我们还报告了归一化的 3D 误差看不见的运动，标记为UNSEEN。可以看出，我们的方法获得了令人印象深刻的重建性能，并优于其他再次在每个序列。此外，我们的网络还表现出对未知数据的良好泛化，从而提高了在现实世界中应用的有效性。为了进行定性评估，我们随机选择一个帧，0.500.400.300.200.100.000.010.030.05零点零七零点零九零点十一0.130.15零点一七零点一九噪声比图3：具有噪声扰动的NRSfM。红色实线是我们的，而绿色虚线是CNS [20]，没有噪声干扰的最佳性能3D误差1569科目010518236470102106123127平均相对[第20话]0.6130.6570.5410.6030.5430.4720.5810.6360.4790.6440.5775.66NLO [12]1.2181.1600.9170.9981.2180.8361.1441.0161.0091.0501.05710.37SPS [18]1.2821.1220.9530.8801.1191.0091.0780.9570.8281.0211.02510.06我们0.1750.2200.0810.0530.0820.0390.1150.1130.0400.0950.1011.00看不见0.3620.3310.4370.3870.1740.0900.4130.1940.0910.3880.2872.81表3：使用CMU MoCap数据集解决大规模NRSf M问题的定量比较每个主题包含超过一万帧。由于帧的巨大体积，KSTA [16]、BMM [10]、MUS [2]、RIKS [17]均失败，因此在表中省略UNSEEN指的是在训练过程中无法访问的动作错误这是用来证明我们提出的网络，这是在现实世界中的应用特别重要的良好的推广每个主体并在图5中呈现重建的人体骨架。这从视觉上验证了我们的深度解决方案令人印象深刻的性能。耐用性分析：为了分析我们的方法的鲁棒性，我们使用具有高斯噪声扰动的投影点重新训练Subject 70的神经网络。结果总结在图3中。噪声比被定义为Δ noiseΔF/Δ Wnoise ΔF。可以看到，随着噪声幅度的增加，误差会缓慢增加，当将高达20%的噪声添加到图像坐标时，与没有噪声干扰的最佳基线（绿色）相比，我们的红色方法仍然可以实现更好的重建。这个前-实验清楚地表明了我们的模型的鲁棒性和它的高精度对国家的最先进的作品。缺失数据：由于被其他对象或其自身遮挡，地标并不总是从相机可见。在本文中，我们专注于一个完整的测量情况不占无形的地标。然而，由于最近在矩阵完成的进展，我们的方法可以很容易地扩展到缺失的数据。此外，在我们的实验中，我们观察到深度神经网络对缺失数据表现出良好的容忍度。简单地将缺失的2D坐标设置为零可提供令人满意的结果。这种技术广泛应用于基于深度学习的深度图从稀疏观测重建[9，24，21，22，7]。这两种解决方案使我们的DNN中心管道更容易适应处理丢失的数据。5.4. 一致性作为指导如第4.1节所述，每个稀疏码的编码都受其后续表示的约束，因此，码恢复的质量较少依赖于相应字典的质量然而，这并不适用于最终代码Dn，使得它最少地受到约束，最依赖于最终字典Dn。从这个角度来看，通过相互一致性[14]衡量的最终词典的质量可以作为整个系统的下限为了验证这一点，我们在NRSf M实验中计算训练期间固定间隔我们始终观察到3D重建误差与最终词典的相互相干性之间存在很强的相关性。我们在图4中绘制了这种关系。因此，我们建议使用最终字典的一致性作为模型质量的度量，用于指导训练，以有效地避免过度拟合，特别是在3D评估不可用时。这提高了我们的深度NRSfM在未来应用中的实用性，而无需3D地面实况。6. 结论在本文中，我们提出了多层稀疏编码18.0017.0016.0015.0014.0013.0012.000.160 0.170 0.1808.007.507.006.506.005.505.004.504.000.170 0.180 0.1905.505.004.504.003.500.130 0.140 0.15作为表示3D非刚性形状的一种新的先验假设，并设计了一种创新的编码器-解码器神经网络，以解决不使用3D监督的NRSfM问题。该网络是通过将经典的稀疏编码算法ISTA推广到块稀疏场景而得到的。所提出的网络架构在数学上可解释为解决NRS fM多层稀疏字典学习问题。广泛的经验-最终词典的相互连贯性图4：形状错误率（以百分比表示）相对于最终字典一致性的散点图根据数据拟合一条线左边来自受试者05，中间来自受试者18，右边来自受试者64。iments证明了我们对国家的最先进的方法和我们的泛化看不见的数据的优越性能。最后，我们提出使用最终字典的一致性作为模型质量度量，提供了一种实用的方法来避免过度拟合并在训练过程中选择最佳检查点，而不依赖于3D地面实况。形状误差率（%）1570图5：CMU Mocap数据集的定性评估自上而下：地面实况，我们的，CNS [20]，SPS [18]，NLO [12]。每一列对应于从每个主题中随机选择的特定帧的重建。球体是重建的标志，而条形用于可视化。3D形状已经通过标准正交矩阵与地面实况对齐图6：IKEA数据集的定性评价。从图像中省略由带注释的相机投影的地标。在每个渲染中，红色立方体是重建点，而平面和条形是手动添加的，用于下降可视化。从左到右：注释图像，地面实况，我们的，RIKS [17]，KSTA [16]，NLO [12]，SFC [19]，CNS [20]，BMM [10]。1571引用[1] Antonio Agudo和Francesc Moreno-Noguer。尘埃：用于单目多目标3d重建的时空子空间的双重联合。在IEEE计算机视觉和模式识别会议论文集，第6262-6270页2[2] 安东尼奥·阿古多，梅尔西奥·皮琼和弗朗切斯科·莫雷诺-诺格尔.图像集合弹出窗口：刚性和非刚性类别的3d重建和聚类。在IEEE计算机视觉和模式识别会议论文集，第2607-2615页，2018年。一、二、五、六、七[3] 伊贾兹·阿赫特，亚瑟·谢赫，和索海布·汗.为非刚性结构的正交约束辩护。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第1534-1541页。IEEE，2009年。2[4] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间中运动的非刚性结构。在Advances inneural information processing systems，第41- 48页，2009中。5[5] Amir Beck和Marc Teboulle。一种快速迭代收缩阈值算法及其在小波图像去模糊中的应用在声学，语音和信号处理，2009年。ICASSP 2009年。 IEEE国际会议，第693-696页。IEEE，2009年。2[6] Christoph Bregler，Aaron Hertzmann，and Henning Bier-mann.从图像流中恢复非刚性三维形状。计算机视觉和模式识别，2000年。程序。IEEE会议，第2卷，第690-696页。IEEE，2000年。一、二[7] Cesar Cadena，Anthony R Dick和Ian D Reid。多模态自动编码器作为机器人场景理解的联合估计器。机器人：科学与系统，2016年。7[8] 天使X作者：Thomas A.作者：Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet：一个信息丰富的3D模型存储库。CoRR，abs/1512.03012，2015。1[9] 赵晨，维贾伊·巴德里纳拉亚南，吉拉德·卓兹多夫，安德鲁·拉比诺维奇.从rgb和稀疏感知估计深度。欧洲计算机视觉会议（ECCV），2018年。7[10] 戴玉超，李红东，何明义。非刚性结构运动分解的一种简单的无先验方法。International Journal of ComputerVision，107（2）：101一二三四五六七八[11] Ingrid Daubechies ， Michel Defrise ， and Christine DeMol.稀疏约束下线性逆问题的一种迭代阈值算法。纯数学与应用数学通讯：A Journal Issued by the CourantInstitute of Mathematical Sciences ， 57 （ 11 ）： 1413-1457，2004. 2[12] Alessio Del Bue、Fabrizio Smeraldi和Lourdes Agapito。使用基于ranklet的跟踪和非线性优化的来自运动的非刚性结构。图像与视觉计算，25（3）：297-310，2007.五六七八[13] 登伟，尹沃涛，张银。交替方向法的群体稀疏优化。在SPIE光学工程+应用中，第88580 R-88580 R页。国际光学与光子学会，2013年。4[14] DavidLDonoho ， MichaelElad 和 VladimirNTemlyakov。存在噪声时稀疏过完备表示的稳定恢复IEEE Transactions on Information Theory，52（1）：6-18，2006. 三、七[15] 卡特琳娜·弗拉基亚达基，玛尔塔·萨拉斯，巴勃罗·阿贝莱斯，和吉坦德拉·马利克.基于分组的低秩轨迹补全与三维重建。神经信息处理系统的进展，第55-63页，2014年。2[16] Paulo FU Gotardo和Aleix M Martinez.内核非刚性结构来自运动。在计算机视觉（ICCV），2011 IEEE国际会议上，第802-809页。IEEE，2011年。五六七八[17] Onur C Hamsici ， Paulo FU Gotardo ， and Aleix MMartinez.从运动学习非刚性结构中的空间光滑映射。欧洲计算机视觉会议，第260-273页。Springer，2012. 五六七八[18] 陈空和西蒙·露西。运动产生的先前较少的可压缩结构计算机视觉与模式识别（CVPR），2016年。一二三四五六七八[19] Chen Kong，Rui Zhu，Hamed Kiani，and Simon Lucey.类别结构：一种通用的、无先验的方法。2016年国际3D视觉会议（3DV）。一二三五六八[20] Minsik Lee，Jungchan Cho，和Songhwai Oh.非刚性重建的共识在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第4670-4678页五六七八[21] Yaoxin Li ， Keyuan Qian ， Tao Huang ， and JingkunZhou.基于条件根的单目图像和粗深度点深度估计。在MATEC会议网，第175卷，第03055页中。EDP科学，2018年。7[22] 廖依依，黄立超，王悦， Sarath Kodagoda ， Yi-nanYu，和Yong Liu.从线解析几何图形：利用部分激光观测进行单目深度估计。在机器人与自动化（ICRA），2017年IEEE国际会议上，第5059-5066页。IEEE，2017年。7[23] Joseph J. Lim、Hamed Pirsiavash和Antonio Torralba。解析IKEA对象：精细姿态估计。ICCV，2013年。5[24] Fangchang Mal和Sertac Karaman。稀疏到密集：从稀疏深度样本和单个图像进行深度预测。2018年IEEE机器人与自动化国际会议（ICRA），第1-8页IEEE，2018年。7[25] Vardan Papyan Yaniv Romano和Michael Elad。通过卷积稀疏编码分析卷积神经网络。The Journal of MachineLearning Research，18（1）：2887-2938，2017。2[26] Christopher J Rozell ， Don H Johns

下载后可阅读完整内容，剩余1页未读，立即下载