学习优化非刚性跟踪的深度特征集成与条件网络实验

114 浏览量更新于2023-10-23 收藏 3.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4910学习优化非刚性跟踪杨莉1，4张安伟1，2张安莉1，2田田雅1，3马蒂亚斯·尼斯内r41东京大学，2电子科技大学，3理研，4慕尼黑工业大学摘要用于非刚性跟踪的广泛解决方案之一具有嵌套环结构：外环采用高斯-牛顿法最小化跟踪目标，内环采用预共轭梯度法求解稀疏线性系统。在本文中，我们采用可学习的优化，以提高跟踪鲁棒性和加快求解器的收敛。首先，我们通过在通过CNN端到端学习的深度特征上集成对齐数据项来升级跟踪目标新的跟踪目标可以捕获全局变形，这有助于高斯牛顿跳过局部最小值，从而导致对大的非刚性运动的鲁棒跟踪。其次，我们通过引入ConditionNet来弥合预处理技术和学习方法之间的差距，ConditionNet被训练以生成预处理器，使得PCG可以在少量步骤内收敛。实验结果表明，该方法的收敛速度比原PCG有较大幅度的提高。1. 介绍非刚性动态对象，例如人类和动物是计算机视觉和机器人应用中的重要目标。它们复杂的几何形状和非刚性表面变化导致了跟踪和重建的挑战性问题。近年来，使用普通 RGB-D 相机，开创性的工作如DynamicFusion [20]和VolumeDeform [13]有效地解决了这个问题，并获得了令人印象深刻的非刚性重建结果。DynamicFucion和VolumeDeform的核心是非线性优化问题。然而，这种优化可能是缓慢的，并且还可能导致不期望的局部最小值。在本文中，我们提出了一种基于学习的方法，找到扩大收敛半径（即，避免局部最小值），并且还使得收敛更快。我们测试我们的方法上的基本帧间非刚性跟踪任务，即。为了寻找两个RGB-D框架之间的变形，这是一个高维非凸问题。没有图1.使用不同的预处理器的PCG收敛。曲线显示了测试数据集的平均收敛性。请注意，我们的最终方法（绿色曲线）需要比最佳基线（虚线）少3倍的PCG步骤才能获得相同的残差（10−6）。目标模板模型的复杂性、大的非重叠区域以及源帧和目标帧中的观测噪声使得该问题更具挑战性。本节将首先回顾经典方法，然后将我们的贡献放在上下文中。非刚性配准非刚性表面运动可以通过“变形图”粗略近似在这个变形模型中，所有的未知数，即，旋转和平移，记为G。给定两个RGB-D帧，非刚性配准的目标是确定使典型目标函数最小化的G：min{Efit（G）+λEreg（G）}（1）G其中E拟合是测量变形的源帧和目标帧之间在过去的几十年中，已经提出了许多不同的数据拟合项，例如几何点对点和点和面约束[16，31，20，13]稀疏SIFT描述符对应[13]和密集颜色项[31]等。项Ereg通过有利于局部刚性变形来正则化该问题。系数λ平衡了这些4911两个任期。通过迭代高斯-牛顿更新步骤[2]直到收敛，使能量（1在每个高斯-牛顿更新步骤中，需要求解一个大型线性系统，通常使用迭代预处理共轭梯度（PCG）求解器。这种经典方法不能适当地处理大的非刚性运动，因为能量函数（1）中的数据拟合项E拟合由局部约束（例如，密集几何或彩色地图），其仅在接近全局解时起作用，或者易于产生噪声的全局约束（例如，稀疏描述符）。在大的非刚性运动的情况下，这些约束不能提供收敛的残差，并导致跟踪失败。在本文中，我们通过在E拟合中引入深度特征对齐项来解决这个问题的非凸性。通过端到端训练的CNN提取深度特征。我们认为，通过利用卷积核的大接收域和数据驱动方法的性质，学习的特征可以捕获全局信息，帮助高斯-牛顿跳过局部最小值。预处理图2.使用Deepest Decent求解2D系统的示例Deepest Decent需要多个步骤才能收敛到病态系统（左），而只需一个步骤就能收敛到完美系统（右）。直观地说，预处理是试图将能量景观从椭圆抛物面修改为球面，使得从任何初始位置开始，一阶导数的方向直接指向解。如示于图2、预处理加快了迭代求解器的收敛速度。预处理背后的一般思想是使用一个矩阵，称为预条件子，将不适定系统修改为适定系统，更容易解决。由于硬编码的块对角预处理器不是专门为非刚性跟踪任务设计的，因此现有的非刚性跟踪求解器仍然是我们认为，PCG收敛速度快得多，如果预条件的设计涉及到这个特定任务的先验知识。然后我们提出了一个问题：数据驱动的方法是否学习了一个好的预条件子？在本文中，我们利用这个想法，通过训练神经网络生成一个预条件，使PCG可以收敛在几个步骤。我们的贡献是双重的：• 针对非刚性跟踪问题，我们引入了一个基于端到端学习CNN的深度特征拟合项使用所提出的数据拟合项，非刚性跟踪高斯-牛顿求解器可以收敛到即使有大的非刚性运动的全局解。• 我们提出了ConditionNet，它可以使用来自Gauss-Newton更新方程的大量训练样本来学习生成特定于问题的预条件子。学习的预处理器提高了PCG2. 相关作品2.1. 非刚性跟踪的经典数据术语非刚性跟踪的核心是为鲁棒配准定义一个数据拟合项。在最近的几何方法中提出了许多不同的数据拟合项，例如：[16]中的点到点对准项，以及[20，13]中的点到平面对准项。除了密集的几何约束外，稀疏彩色图像描述符检测和匹配已用于建立[13]中的此外，在[31]中，研究了颜色一致性假设的潜力。此外，为了处理光照变化，[11]中提出了反射一致性技术，[10]中开发了使用决策树的对应预测。2.2. 基于学习的跟踪这一系列研究的重点是从深度学习的角度解决运动跟踪任务。其中一个有希望的想法是用学习的描述符取代手工设计的描述符。例如，[28]中提出了学习不变特征变换（LIFT），[29]中提出了用于3D匹配的体积描述符，[23]中提出了用于平面匹配的共面描述符。对于非刚性定位/跟踪，Schmidt等人。 [22]使用全卷积网络来学习同一个人的上躯干和头部的密集描述符; Aljaz Schmidt等人。 [3]提出了一个用于一般非刚性变形对象的稀疏对应的大型标记数据集，以及基于Siamese网络的非刚性3D补丁匹配方法。回归网络也被用于将输入传感器数据直接映射到运动，包括相机姿态跟踪[30]、密集光流跟踪[9]和3D场景流估计[17]。运动回归的问题在于，回归器可能会被任务的复杂性所淹没，因此，导致严重的过拟合。一种更优雅的方法是让模型专注于一个简单的任务，比如特征提取，同时使用经典的优化工具来解决其余的问题这导致了最近的工作，结合高斯-牛顿优化和深度学习来学习最适合图像对齐的特征[6]，姿势配准[12，19]和多帧直接调整[25]。受这些工作的启发，我们将整个非刚性优化方法集成到端到端流水线中，以学习非刚性跟踪的最佳特征，这需要处理或-4912自由度的数量级比一般情况下大。详细信息见第3节。2.3. 预处理技术预处理作为一种将困难问题转化为更容易解决的问题的方法，已有数百年的历史。早在1845年，Jacobi块雅可比是预处理的最简单形式，其中预处理器被选择为我们想要求解的线性系统的块对角。尽管它很容易获得，但我们发现应用它对我们的问题只显示出很小的改善。其他方法，如不完全Cholesky分解，多重网格方法[26]或连续超松弛方法[27]在许多应用中显示出其有效性。在本文中，我们利用数据驱动的预条件子的潜力来解决非刚性跟踪任务中的线性系统。详情见第4节。3. 学习深度非刚性特征3.1. 场景表现我们的方法的输入是使用商品RGB-D传感器捕获的两帧。每个帧包含一个颜色图和一个深度图，大小均为640×480。进行校准以确保颜色和深度在时间和空间域中对齐。我们表示源帧为S，目标帧为T。我们用变形图G来近似表面变形。图3示出了我们的变形图的示例。我们对图像进行均匀采样，得到大小为w×h的矩形网格。网格中的点被视为变形图中的节点每个节点与其8个相邻节点完全连接为了滤除无效节点，通过检查节点是否来自背景、是否具有无效深度或是否位于深度不连续的遮挡边界上，构造了一个二元掩码V∈Rw×h类似地，如果边链接到无效节点或去，则通过掩码E∈Rw×h×8过滤边超过边缘长度阈值。在变形图中图3.我们的变形图。左上：像素网格上的均匀采样。Letbottom：使用简单深度阈值或深度辅助人类注释获取的二进制掩码。右：掩蔽的3D变形图。我们在神经网络中应用上采样层，使得编码的特征映射的大小为w×h×c，其中c是单个特征向量的维数。因此，特征图和变形图具有相同的行和列。这意味着特征向量和图节点具有一对一的对应关系（以减少GPU内存开销并加快学习速度我们将DS∈Rw×h和DT∈Rw×h表示为来自源帧和目标帧的采样深度图。给定平移向量ti∈ G，以及深度值DT（i），像素i的投影特征可以通过下式获得：FS（i）=FS（π（ti，DT（i）（3）其中π（·）：R2→R2是通过将平移ti应用于反向投影的像素i并将变换的点投影到源相机帧来将一个像素坐标映射到另一个像素坐标的warping函数所述扭曲坐标是连续值。FS（i）由双-线性内插2D网格网格上的4个最近特征。使用[14]中定义的空间Transformer网络使该采样操作可微分。然后，深度特征拟合项被定义为w×h节点i由平移向量ti参数化以及矩阵R∈R3Efea（G）=λfi=0时Vi·||F S（i）−F T（i）||（四）i∈SO3。将所有参数放入单个向量，我们得到G={Ri，ti|i =1，2，···，w×h}3.2. 深特征拟合项我们使用基于全卷积网络[18]的函数F（·）从源帧S和目标帧T提取特征图。编码的特征图是：FS=F（S），FT=F（T）（2）请注意，与经典的颜色一致性约束相比，学习的深度特征通过利用卷积核的大感受野大小来捕获扫描中的高阶空间变形3.3. 总能量为了解决Z轴上的模糊性，我们采用了一个投影深度，这是一个粗略的近似点到平面约束，作为我们的几何拟合项。该术语测量了包装的深度图D_ S与包装的深度图D_S之间的差异24913′′∂ ∂∂非刚性特征提取器RGB-D高斯-牛顿更新步长翘曲图4.我们的非刚性特征提取器训练方法的高级概述。特征项（4）的雅可比矩阵J在每次高斯-牛顿迭代中重新计算雅可比矩阵J中的其他项和残差r为了简单起见，从该图中省略了几何拟合项（5）和正则化项（6）目标帧的深度图。它被定义为在项目中，我们将此数字设置为小数。这背后有两个原因：1）对于递归性质的Egeo（G）=λgw×hi=0时Vi·||DS（i）−DT（i）||2（五）高斯-牛顿层，大的迭代次数会导致网络训练的不稳定性;2）通过限制可用步长，推动特征提取器产生特征最后，我们通过ARAP正则化项来正则化形状变形，该正则化项鼓励局部刚性运动。它被定义为w×h这允许高斯-牛顿求解器向解进行更大跳跃。从而实现更快的收敛和鲁棒求解。通过PCG的反向传播可以在不同的...E（G）=λE·||（t−t）−R（t′−t′）||第二章（六）如[1]中所描述的那样等式（8）需要是regRi=0j∈Nii，j ijii j在每一次高斯-牛顿迭代中都能得到解。让我们代表JT J乘以A，G乘以x，JT r乘以b，那么我们得到以下结果：其中N表示节点i下面的图标方程：ij j是变换后i，j的位置总结-利用上述，我们获得以下用于非刚性跟踪的能量Ax=b（9）假设我们已经得到了损失梯度Lw.r.tE共计（G）=EFEA（G）+Egeo（G）+Ereg（G）（7）将溶液x换算为μ L/μx。我们想把这个量反向传播到A和b上：这三项由[λf，λg，λr]平衡。然后通过高斯-牛顿更新步骤优化总能量（JT J）G=JT r（8）其中r是误差残差，J是L=A−1布雷布·巴克斯L LL=（−A−1）（A−1b）T=−A（十）xT（11）相对于G。该方程进一步由迭代PCG求解器求解3.4. 通过两个求解器的反向传播学习管道如图所示。4.第一章我们将所有能源优化步骤整合到端到端培训管道中。为此，我们需要使高斯-这意味着通过线性系统的反向传播，tem只需要另一个PCG求解方程（10）。3.5. 培训目标数据采集该方法在几次高斯-牛顿迭代后输出最终的变形图。我们在变形图中的所有平移向量ti∈ G上应用L1流损失4914牛顿和PCG可微。在高斯-牛顿情况下，当达到指定阈值时，更新步骤停止这种基于if-else的终止标准防止错误返回。L流Σ=|我不是ti∈G-ti，gt |(12)传播我们应用与[19，25，12]中相同的解决方案，即，我们固定高斯-牛顿迭代的次数。在这其中ti，gt∈R 3是节点i的真实3D平移向量，即，场景流。4915图5.使用我们的非刚性跟踪和重建方法来获得点与点的对应关系。该方法在运动较小的情况下能够生成精确的对应关系。远距离帧之间的长期对应可以通过在时间和空间上累积小的帧间运动来获得。收集ti ，gt是一项重要的任务。受Zeng等人 [29]和Schmidt等人 [22]的启发，我们意识到可以通过运行最先进的跟踪和重建方法来实现3D对应地面实况，例如用于刚性场景的BundleFusion[8]或用于非刚性变形场景的DynamicFusion [20]/ VolumeDeform [13]对于刚性训练集，我们转向ScanNet，它包含大量的室内序列，具有基于BundleFusion的相机轨迹。对于非刚性训练数据集，如图所示5，我们在收集的非刚性序列上运行我们的基于几何的非刚性重建方法（其类似于动态融合[20我们认为非刚性特征学习可以从刚性场景中受益。由于刚性场景可以被看作是非刚性场景的一个子集，所以当我们从可变形的角度近似刚性物体表面时，域间隙并不是那么大最终，特征学习管道在ScanNet上进行预训练，并在我们的非刚性数据集上进行微调4. 数据驱动的预处理器预条件子M−1将系统Ax=b修改为M−1Ax=M−1b（13）这更容易解决。从迭代优化的角度来看，求解（13）等于找到使二次型最小化的xmin||M−1Ax−M−1b||2（14）X在这里，我们提出了基于神经网络的ConditionNetC（·），它C（·）：Rn×n→Rn×n：A→M−1一个好的预条件子应该是一个对称正定矩阵，否则，PCG不能保证收敛。为此，ConditionNet首先生成下三角矩阵L。然后，预条件子M-1计算为：M−1=LLT（15）在经验上，我们对M-1通过这样做，在我们的例子中，M-1矩阵密度，即非零项的比率在预处理中起着重要的作用。一方面，更密集的预条件子具有更高的逼近A−1的潜力，这是完美的条件子，但矩阵逆本身是耗时的。另一方面，较稀疏的矩阵实现起来更便宜，同时导致较差的预处理效果。为了检查效率和有效性之间的权衡，我们提出了以下三个ConditionNet变体。它们使用相同的网络结构，但生成具有不同密度的预处理器，从密集到稀疏。ConditionNet-Dense。如图在图6中，该方法使用全矩阵A作为输入并生成密集预条件器，其中所有条目可以是非零的。直觉上，这个模型试图接近完美的护发素A −1。ConditionNet-Sparse。这一个输入全矩阵A。对于输出，应用二进制掩码，使得如果A中的对应条目也为零，则L中的任何条目ConditionNet-Diagonal。输入和输出是矩阵的块对角。有w×h个对角块，每个块是6×6。由于每个块都与2D网格中的一个特征直接相关，因此我们重塑将输入块对角条目添加到[w，h，36]体积以利用这样的2D空间相关性。对于下三角矩阵L，输出体积是[w，h，21]。该模型生成稀疏预条件子。4.1. 自我监督训练训练ConditionNet的直接方法是最小化条件数κ（M−1A）= λmax/λmin，即，M−1A中最大奇异值和最小奇异值之比。然而，奇异值分解（SVD）的耗时使得大规模训练变得不切实际. 相反，我们提出了PCG-Loss用于训练。如图在图6中，学习的预条件子M-1被馈送到PCG层以最小化（14）并输出解x。ConditionNet的训练数据生成是完全可靠的;即，不需要注释来找到方程Ax=b的基础真值解xgt，这是通过运行标准PCG求解器来完成的。为了获得xgt，执行标准PCG尽可能多的迭代直到收敛。然后将L1PCG-损失应用于预测的溶液Lpcg=|x − xgt|（十六）训练样本，即，[A，b]对，是从等式1中的高斯-牛顿更新步骤收集的。（八）、4916ConditionNetPCG层图6. ConditionNet-Dense概述。输出L是预条件子的下三角矩阵。在PCG层中的几次迭代之后，解x然后被L1损失惩罚（16）。整个管道可以端到端地训练。方法能量项ScanNet（SN）非刚性数据集（NR）阿拉普P2平面P2Point颜色特征3D EPE（cm）↓确认/跳帧测试3D EPE（cm）↓确认/跳帧测试0→20→40→80→160→20→40→80→16N-ICP-0CC3.21/3.65 5.03/5.68 8.17/9.66 15.35/18.652.29/2.34.08/3.37.71/6.313.63/12.72N-ICP-1 [20]CCC2.43/2.75 4.50/5.38 8.11/9.09 14.62/17.101.49/1.532.98/2.71 6.61/6.52 11.14/12.07N-ICP-2 [31]CCCC2.04/2.71 3.58/4.47 6.07/7.89 10.36/14.961.68/1.70 3.41/2.60 5.50/5.20 11.80/10.59我们的（SN）CCC2.10/2.60 3.55/4.39 5.28/6.987.34/10.591.73/1.60 2.77/2.63 4.99/5.087.09/8.32我们的（SN+NR）CCC––––1.55/1.342.25/2.23 4.16/4.506.47/7.59表1. ScanNet和我们的非刚性数据集上的3D端点误差（EPE）。帧跳转显示源帧和目标帧的索引的索引。变形图中的未知数为1152（16×12×6）。我们的（SN）：在ScanNet上训练[7]。我们的（SN+ NR）：在ScanNet上进行预训练，并在非刚性数据集上进行微调[3]。在训练阶段，我们限制PCG层中可用迭代的数量这是为了鼓励ConditionNet生成一个更好的预处理器，在使用更少步骤的同时实现相同的解决方案。在训练的早期阶段，具有有限迭代的PCG层不能保证良好的收敛。第3.4节中描述的反向传播策略在这里不能应用，因为不完整的求解会导致错误的梯度。相反，我们直接将梯度流通过所有PCG迭代进行ConditionNet训练。我们分别训练ConditionNet和非刚性特征它们在测试阶段一起使用。5. 实验实施详情：变形图的分辨率为16×12。经验上，能量函数（7）中的加权因子[λf，λg，λr]被设置为[1，0. 5，40]。对于非刚性特征提取器训练，高斯-牛顿迭代的次数为3。对于ConditionNet Training，PCG迭代次数为10。我们使用公开的Pytorch框架实现我们的网络，并使用Tesla P100 GPU对其进行训练。我们从头开始训练所有模型30个epoch，使用Adam [ 15 ]优化器的小批量大小为4，其中β1= 0。9，β1= 0。999我们使用了0.0001的初始学习率，并在总迭代次数的1/5中将其5.1. 数据集ScanNetScanNet [7]是一个大规模的RGBD 视频数据集，包含706个不同场景中的1，513个序列。这些序列由iPad安装的RGBD传感器捕获，该传感器提供VGA分辨率的校准深度 - 颜色对 3D 相机姿势基于BundleFusion [8]。ScanNet上的3D密集运动地面实况是通过深度和6-Dof相机姿态投影点云获得我们对训练数据应用以下过滤过程。为了缩小与非刚性数据集的域差距，如果超过50%的像素具有无效深度或深度值大于2米，则过滤掉图像。为了避免具有大姿态误差的图像对，我们过滤具有大照片一致性误差的图像对最后，我们移除具有小于50%“共视性”的图像对，即，从两个图像中可见的像素的百分比类似地，使用间隔[2，4，8，16]对序列进行二次采样我们总共使用60 k帧对，并将训练/有效/测试分割为8/1/1。非刚性数据集我们使用来自Aljaz Jesus等人 [3]的非刚性数据集，其中包括400个非刚性变形场景，超过390，000个RGB-D帧。各种可变形的物体被捕获，包括成人、儿童、包、衣服和动物等。对象到摄像机中心的距离在[0.5m，2.0m]范围内。根据场景的复杂性，前景对象掩模通过简单的深度阈值或深度图辅助的人类注释来获得。我们运行我们的跟踪和重建方法来获得地面实况4917场景网格1和掩蔽彩色图像初始对齐2最终校准，转换的源网格和对齐误差3源目标N-ICP-1 [20]N-ICP-2 [31]我们熊枕头成人衣服图7.帧-帧跟踪结果。1网格由深度图像构建通过双边滤波器对深度图像进行预处理2通过简单地将两个帧的相机姿势设置为相同来完成初始对准。3对齐误差（越热意味着越大）测量目标网格和变换后的源网格之间的点到点距离。非刚性运动。我们通过手动检查重建模型的跟踪质量来这个数据集的例子可以在论文[3]中找到。与刚性情况类似，我们使用帧跳跃[2，4，8，16]对序列进行子采样，以模拟非刚性变形的不同幅度。对于数据增强，我们对输入帧对执行水平翻转、随机最后，我们总共得到了8.5k个帧对，并将训练/有效/测试分割为8/1/1。5.2. 非刚性跟踪评价基线我们实现了非刚性ICP（N-ICP）方法的一些变体。它们采用不同的能量项，如表1所示。1.其中，N-ICP-1是我们对DynamicFusion方法[20]的实现，N-ICP-2是我们对[31]中描述的方法的实现。最初的两篇论文集中在模型到帧跟踪问题上，其中模型是动态重建的或预定义的。在此部署所有基线4918解决帧间跟踪问题。我们首先优化基于特征拟合项的目标（7）以获得粗略的运动，然后使用原始深度图使用经典的点到平面约束来细化图形。定量结果ScanNet数据集和非刚性数据集的定量结果见表1。使用3D端点误差（EPE）度量来评估估计的运动。在ScanNet上，我们的（SN）实现了比其他N-ICP基线更好的整体性能，特别是当运动较大时（例如，，on0→8和0→16帧跳跃）。请注意，ScanNet预训练模型Ours（SN）甚至比非刚性数据集上的经典N-ICP，表明学习的非刚性特征具有良好的泛化能力，考虑到可学习的CNN模型仅关注特征提取部分，并且使用经典优化器解开从图像到运动的直接映射，这是有意义的这也证明了一个假设刚性和非刚性表面位于非常接近的区域。非刚性数据集上的微调模型Ours（SN+NR）进一步改善了这些数字。定性结果图7显示了非刚性框架对上的框架-框架跟踪结果。我们选择了具有相对较大的非刚性运动的帧对。N-ICP- 1和N-ICP-2在处理这些运动时遇到了麻烦，并收敛到了糟糕的局部最小值。我们的方法设法收敛到这些具有挑战性的情况下的全局解决方案。例如，图中的衣服场景。7是经典非刚性ICP方法的特别具有挑战性的情况，因为点到平面项没有机会滑过包含多个褶皱的Z字形衣服表面，并且颜色一致性项也可能容易被衣服的重复伪装纹理混淆。学习的特征显示出在这些情况下捕获高阶变形的优势。5.3. 预处理结果我们从高斯-牛顿步骤的不同迭代中随机收集了10K个[A，b]对。我们按照8/1/1的比例将它们分为训练/有效/测试。我们采用3种PCG基线：w/o预条件子、标准块对角预条件子和基于不完全Cholesky分解的预条件子。我们还展示了三种ConditionNet变体的消融研究：对角线、稀疏和密集。图1示出了使用不同预处理器的PCG步骤。学习预条件子的性能大大优于经典预条件子。选项卡.图2给出了PCG在不同预条件下的求解结果。所有学习的预条件显着减少的条件数。ConditionNet-Dense实现了最佳的收敛速度和最少的整体求解时间。预条件密度κiters时间（ms）没有一–3442.184633.43块对角0.46%541.524431.34不完全Cholesky1.52379.823728.42ConditionNet-Diagonal（我们的）0.46%93.552112.38ConditionNet-Sparse（我们的）1.52%125.812317.80ConditionNet-Dense（我们的）百分百34.901310.32表2.使用不同预处理器的PCG求解结果（收敛的残差阈值：10- 6）。密度：预处理剂的密度。κ：修正线性系统的条件数。iters：收敛的总步骤。时间（ms）：求解时间。所有数字都是通过Pytorch-GPU实现获得的。6. 结论与讨论在这项工作中，我们提出了一个端到端的学习方法，非刚性RGB-D跟踪。我们的核心贡献是可学习的优化方法，提高了鲁棒性和收敛性的显着保证金。实验结果表明，学习的非刚性特征显著提高了高斯-牛顿求解器在帧-帧非刚性跟踪中的收敛性。此外，我们的方法增加了PCG求解器的收敛速度，通过预测一个很好的预条件。总的来说，学习的预处理器需要2到3倍的迭代，直到收敛。虽然我们认为这一结果非常有希望，并可能导致非刚性跟踪和重建框架的重大实际改进，但仍有几个重大挑战有待解决：1）所提出的非刚性特征提取器采用普通的2D卷积核，这可能不是处理3D场景遮挡的最佳选择。一种可能的研究途径是使用基于点的架构[21]或甚至图形卷积[4]直接从3D点云或网格结构中提取非刚性特征。2)使用DynamicFusion为真实世界的RGB-D视频序列收集密集场景流是昂贵的（即，分割和异常值去除可能成为痛苦的过程）。潜在的解决方案是在合成数据集上学习。（例如：使用图形模拟，其中密集运动地面实况可用）。确认这项工作还得到了TUM-IAS RudolfM oßbauerFell奖学金，ERCStartingGrantScan 2CAD（804724）和德国研究基金会（DFG）GrantMaking Machine Learning onStatic and Dynamic 3D Data Practical，以及JST CRESTGrant Number JPMJCR 1403的支持，并部分得到了JSPS KAKENHI Grant Number JP 19 H 01115的支持。YL在TUM期间得到了伊拉斯谟+赠款的我们感谢Christo-pherChoy 、 AtsuhiroNoguchi 、 ShunyaWakasugi和Kohei Uehara进行了有益的讨论。4919引用[1] 乔纳森·T·巴伦和本·普尔。快速双边求解器。参见ECCV，第617-632页。施普林格，2016年。4[2] 一杯啤酒。最小二乘问题的数值方法。SIAM，1996年。2[3] AljazˇBozˇ icˇ ， MichaelZoll hoüfer， ChristianTheobalt 和Matthias Nießner。Deepdeform：使用半监督数据学习非刚性rgb-d重建。在CVPR，2020年。二六七[4] Michael M Bronstein，Joan Bruna，Yann LeCun，ArthurSzlam，and Pierre Vandergheynst.几何深度学习：超越欧几里得数据。IEEE Signal Processing Magazine，34（4）：18-42，2017。8[5] 雅可比·卡尔·古斯塔夫·雅各布。这是一种新的改进方法，它采用了一种简单的方形小块材料。在Nachrichten，第22，297，1845页。3[6] Che-Han Chang，Chun-Nan Chou，and Edward Y Chang.Clkn：用于图像对齐的级联lucas-kanade网络在CVPR中，第2213-2221页，2017年。2[7] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页，2017年。6[8] AngelaDai ， MatthiasNießner ， MichaelZoll höfer ，ShahramIzadi，and Christian Theobalt.Bundlefusion：使用动态表面重新整合的实时全局一致3d重建。ACMTransactions on Graphics （ ToG ）， 36 （ 3 ）： 24 ，2017。五、六[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，第2758-2766页2[10] Mingsong Dou，Sameh Khamis，Yury Degtyarev，PhilipDavidson，Sean Ryan Fanello，Adarsh Kowdle，SergioOrts Escolano ， Christoph Rhemann ， David Kim ，Jonathan Tay- lor，et al. Fusion 4d：挑战场景的实时性能捕获。ACM Transactions on Graphics（TOG），35（4）：114，2016。2[11] Kaiwen Guo ， Feng Xu ， Tao Yu ， Xiaoyang Liu ，Qionghai Dai，and Yebin Liu.使用单个rgb-d相机的实时几何、反照率和运动重建ACM Transactions on Graphics（TOG），36（3）：32，2017。2[12] Lei Han，Mengqi Ji，Lu Fang，and Matthias Nießner.Reg- net：学习直接图像到图像姿态配准的优化arXiv预印本arXiv：1812.10212，2018。二、四[13] MatthiasInnmann，MichaelZollhoüfer，MatthiasNießner ， ChristianTheobalt ， andMarcStamminger. 体积变形：实时体积非刚性重建。见ECCV，第362-379页。施普林格，2016年。一、二、五[14] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年。3[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[16] Hao Li，Robert W Sumner，and Mark Pauly.深度扫描的非刚性配准的全局对应优化计算机图形论坛，第27卷，第1421Wiley Online Library，2008. 一、二[17] Xingyu Liu ， Charles R Qi ， and Leonidas J Guibas.Flownet3d：学习3D点云中的场景流。在CVPR中，第529-537页，2019年。2[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。3[19] Zhaoyang Lv ， Frank Dellaert ， James M Rehg ， andAndreas Geiger.深入研究逆合成算法。在CVPR中，第4581-4590页，2019年。二、四[20] Richard A Newcombe，Dieter Fox，and Steven M Seitz.动态融合：非刚性场景的实时重建与跟踪。在CVPR，第343-352页，2015年。一、二、五、六、七[21] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。神经信息处理系统的进展，第5099-5108页，2017年。8[22] 坦纳·施密特理查德·纽科姆和迪特尔·福克斯。自监督的视觉描述符学习稠密对应。 IEEE Robotics andAutomation Letters，2（2）：420- 427，2016。二、五[23] Yifei Shi ， Kai Xu ， Matthias Nießner ， SzymonRusinkiewicz，and Thomas Funkhouser.平面匹配：用于鲁棒rgb-d重建的块共面性预测在ECCV，第7502[24] Robert W Sumner，Johannes Schmid，and Mark Pauly.用于形状操作的嵌入式变形。 ACM Transactions onGraphics（TOG），26（3）：80，2007. 1[25] 承周唐、平谈。Ba-net：密集束调节网络。arXiv预印本arXiv：1806.04807，2018。二、四[26] 立部修多重网格预处理共轭梯度法。1993. 3[27] 亨克·范德沃斯特。高性能预处理。SIAM Journal onScientific and Statistical Computing ， 10 （ 6 ）： 1174-1185，1989. 3[28] Kwang Moo Yi， Eduard Trulls ， Vincent Lepetit ，andPascal Fua. Lift：学习的不变特征变换。见ECCV，第467-483页。施普林格，2016年。2[29] Andy Zeng，Shuran Song，Matthias Nießner，MatthewFisher ， Jianxiong Xiao ， and Thomas Funkhouser.3dmatch：从rgb-d重构学习局部几何描述符。在CVPR中，第1802-1811页，2017年。二、五[30] Huizhong Zhou ， Benjamin Ummenhofer ， and ThomasBrox.Deeptam：深度跟踪和映射。参见ECCV，第8222[31] MichaelZollhöfer，MatthiasNießner，ShahramIzadi，Christoph Rehmann，Christopher Zach，Matthew Fisher ， Chenglei Wu ， Andrew Fitzgibbon ，Charles Loop，Christian Theobalt，et al.使用rgb-d相机的实时非刚性重建。 ACM Transactions on Graphics（ToG），33（4）：156，2014。一、二、六、七

下载后可阅读完整内容，剩余1页未读，立即下载